samedi 24 janvier 2015

Nous arrivons à la fin de notre projet!!!!! Après le tableau que nous avons finalement construit, nous sommes passé au trameur. Le trameur intervient à la fin du travail pour montre la véritable vie de notre mot sur le web. Quel est la vie de notre cher mot "critique" sur le web?????? Nous vous le dirons après avoir expliquer comment nous avons procédé pour construire notre graphe à l'aide du trameur. 

Qu'est ce que le trameur?

Un aperçu!!!!!


C'est un outil développé à l'université de Paris 3 par Monsieur Serge Fleury. Il a été mis sur pied pour la lexicométrie et peut avoir plusieurs fonctions parmi lesquels l'établissement et la construction d'un contexte autour d'un mot. C'est la tâche qui nous qui nous est assigné. Pour ce faire, nous avons procédés par plusieurs étapes:
1- Chargement du texte:
 il se fait dans la fenêtre "cadre". Il faut au préalable étiqueter pour pouvoir faire la distinction entre les lemme et les formes.
2- Le paramétrage:
En fonction de l'encodage de notre texte de base, nous allons définir le codage de base et celui de la langue avec la quelle nous travaillons. Ensuite nous définissons le pôle(c'est le mot sue lequel nous travaillons et selon ses formes nous pouvons nous servir ou pas d'expressions régulières; si c'est le cas nous cochons la case "RegExp". La Co-Freq et le Seuil sont réglés en fonction de la densité ou l'extension du contexte que nous voulons établir autour de notre mot. Les délimiteur peuvent également être changés mais dans notre cas nous ne l'avons pas fait.
3- Tentative de construction de notre graphe
Il n'y a rien de fixe dans cette construction. En fonction des attente et des résultats nous pouvons faire ou non des modifications de nos paramètres. 

Le Graphes:
Après toutes ces manipulations, nous avons abouti aux graphes que nous voulions construire.








Enfin nous pouvons découvrir la vie de notre mot "critique" sur le web!!!
Le mot "critique"a une vie de rêve sur le web!!! Il est utilisé différemment en fonction de la langue.

En français:
 il  tourne autour de divers sujets. Les plus pertinents sont revue(54 coocurences, 34 contextes) et fixion. Ces mots sont fortement marqués certainement parceque le domaine de la fixion et les revues sont fortement critiqués sur internet. C'est ce qui explique la présence du mot "cinema" et "rédaction" autour de notre mot. Les mots tels que "loisir", "cinéma", "musique" montrent que ce sont des domaines fortement attaqués avec "acharnement" sur internet.

En anglais:
le mot "art" est le plus pertinent. Celà pourrait signifier que l'art est le domaine fortement critiqué par les pages web écrites en anglais avec 64 coocurrents. L'artisanat et la politique semblent également être critiqués. Nous remarquons également ici que tout comme les pages web d'expression françaises, les revues ont une présence remarquable. L'art qui englobe le cinéma, les fixions et également les revues sont de manière général les domaines qui entourent notre mot "critique" en français et en anglais.

En malgache
nous avons été obligées de séparer l'analyse des deux occurences de pôles car "tsikera" a le sens d'une critique positive, quant à "kiana" on a des critiques négatives. La principale remarque sur ce mot serait que nous avons utilisé un Seuil et une co-fréquence à "2" car les pages web ne sont pas nombreux dans cette langue et la coocurence est donc restreinte. Nous avons donc utilisé des formes des mots et non des expressions régulières. Le résultat est tel que le mot "critique" est surtout orienté vers la politique, la république, le pays, les dirigeants du pays, les journaux.

En somme le "trameur" est un merveilleux outil qui nous à permis à travers des cooccurences, de découvrir la pertinence des notions autour desquelles tourne notre mot sur le web. Nous pouvons l’apercevoir d'une manière plus clair à travers le nuage de mot obtenu à partir de "wordle".



Voici un aperçu des mots avec lesquels cohabite notre mot critique en anglais.

lundi 12 janvier 2015

suite_travaux

SUITE A LA CONSTRUCTION DE NOTRE TABLEAU DES URLS:
                                   (travaux durant le mois de Décembre)


Etape 1:  Ecrire le chemin d'entrée d'un fichier URL et le chemin de sortie est complexe dans le cas où nous avons plusieurs fichiers URL à traiter. Il est donc utile de créer un fichier de paramètre dans lequel on demandera à notre programme d'aller chercher les URLs de toutes les langues.


Mais avant, il faut savoir que nous avons lancé un programme pour constituer un dossier dans lequel nous travaillons. Nous retrouvons donc ces chemins vu dans le paramètre dans cet ensemble de dossier:

Etape 2: Travail sur les URLs que nous avons pu aspirés et dumpés précédemment. Nous allons détecter les encodages des pages que nous avons pu aspirés.
Cette étape s'effectue grâce à la commande "curl" qui permet de récupérer la page, "lynx" pour extraire le texte de la page et "egrep" pour le contexte des mots à repérer. Nous avons aussi en appuie, un fichier "detect-encoding" détecter l'encodage. Il contient une application qui programme le contenu du fichier pour obtenir une précision sur l'encodage.






Etape 3 :
Nous avons donc plusieurs conditions qui font appel à une bouche "if" selon le résultat de notre détection d'encodage. Si nous reconnaissons l'encodage de la page, nous allons extraire le contenu textuel et nous allons le convertir en UTF8, si elle n'est pas à l'origine en UTF8, avec la commande "iconv". Dans le cas contraire, nous ne faisons rien avec le contenu de la page. 
Notons que cette étape est annulée si nous n'avons pas pu aspirer la page URL. 
Nous créons donc dans notre tableau les colonnes "pages aspirées -encodage- dump initial- dump utf8 ".



Etape4:  Si finalement nous avons des problèmes pour l'aspiration des pages on ne fait rien. c'est la fin de notre boucle et nous pouvons alors fermer les balises de notre tableaux et ensuite lancer le script. Pour l'exécution c'est simple!!! il suffit de taper en ligne de commande "cd-nom du répertoire dans lequel se trouve notre dossier projet/programme.bash < parametres.txt. Après avoir fini de tourner, le tableau devrai apparaitre en fichier html dans le dossier tableau de notre projet.

si tout se passe comme prévu (dans ce cas on se croirait dans un rêve) on devra obtenir un tableaux comme le suivant (c'est celui du professeur!!!).

Mais comme tout ne peut pas être parfait!!! Encore plus en programmation, nous avons donc obtenu ce tableau.
 ce sont des captures d'écran. C'est le même tableau que nous avons capturé deux fois.

Après amélioration de notre tableau, nous obtenons celui ci
Mais le problème: nous avons des URLs qui n'affichent ni encodage ni pages aspirées, ni dump ni contexte; mais qui s'affichent pourtant lorsqu'on ouvre les pages.


vendredi 14 novembre 2014

tableau html à 4 colonnes

Aujourd'hui,
nous avons tentés de faire le tableau.html avec 4 colonnes, la 1ère contient les N° des URLs,
 la 2ème contient les URLs et la 3ème la page aspirée et la 4ème contient le DUMP et son N°
voici le script que nous avons lancés ( il est pas au point) mais il marche

!file:///Users/zakia/Desktop/Capture%20d’écran%202014-11-14%20à%2014.12.06.png



et voici le résultat:
file:///Users/zakia/Desktop/Capture%20d’écran%202014-11-14%20à%2014.03.21.png




lundi 3 novembre 2014

Changement de sujet de travail

Après toute recherche et analyse sur le mot "sciences" que nous avons présenté précédemment, nous avons connues des difficultés sur la suite du travail et notamment les recherches qui devenaient larges dans son domaine.

Nous nous sommes, à présent, penchées sur le nouveau mot magique "critique". Il faut noter que nous gardons les mêmes langues pour l'étude: le français, l'anglais, l'arabe et le malgache.

En anglais, nous avons les traductions suivantes: "review, critic and criticism".
En malgache, nous avons deux connotations: "(fit)tsikerana, kiana".

Pour la collecte des urls, nous nous avons répartis nos résultats en deux groupes dont les sites journalistiques et les sites généraux (dont les forums et les sites comme wikipedia ect). 

Le mot "critique" nous mène à voir le domaine des faits critiques qui existent et les degrés de critique qui peuvent être péjoratifs ou mélioratifs. 

Nous vous présenterons donc, très prochainement, le fruit de cette collecte d'urls. 

mardi 21 octobre 2014

Un mot sur le projet

          Notre PROJET

          Le mot magique "SCIENCES" est celui que nous avons choisi et sur lequel nous nous attarderons tout au long de ce semestre. 

Il nous est venu à l'esprit d'étudier ce mot d'une part à cause de sa polysémie et d'autre part à cause du caractère scientifique de la filière TAL. 

Nous l'étudierons dans quatre langues qui sont: le français, l'anglais, le malgache et l'arabe.

 Le but de notre étude étant l'analyse de ce mot dans plusieurs environnements linguistiques, le choix de notre équipe s'est fait en fonction de ce paramètre.

       La réalisation de ce projet débute par une recherche des urls de journaux en ligne, wikipédia, ... 

Actuellement, nous sommes dans la collecte des url et nous constatons  que pour la langue "malgache", les sites sont restreints en nombre celà est dû à la francisation du mot dans l'usage et des articles. 

Pour l'arabe, nos urls réfèrent à des universités, des cours, des forums ou encore à des sites religieux.

 

 

 

 


dimanche 19 octobre 2014


APPLICATION - PRÉAMBULE SUR L'ENVIRONNEMENT "UNIX"


Derrière notre écran, nous pouvons voir la réalité de la vrai vie avec l'environnement UNIX.
A l'aide des syntaxes ci-après, nous pouvons découvrir certaines manipulation dans cet environnement.
La syntaxe générale en est nom [option] [argument1] ...


  • MKDIR: Make a directory

sert à mettre à jour le dernier accès à un fichier, mais dans notre cas, cette commande sert à créer un fichier vide.









  • CD:Choose directory
  •  cette commande permet de nous rediriger vers un autre répertoire et à se déplacer dans l'arborescence.

    Dans notre cas, nous avons 3 répertoires créés. Nous voulons maintenant travailler uniquement dans l'un deux.



    • TOUCH:   

     sert à créer des fichiers dans les répertoires.



    • ECHO:   
     avec cette commande, nous allons écrire dans notre fichier txt.
    Elle affiche ce qu'on entre en argument.
    • CP:

    Permet de copier des fichiers





    • MV:    c'est la commande "move" qui permet de modifier le nom de fichier


    • CP:



    • CAT: ctrl - D

    Cette commande a de nombreuses utilisations, nous allons l'utiliser que pour afficher le contenu d'un fichier.



    • LS: 

    Permet d'afficher le contenu du répertoire de travail






    • RM:







      • RMDIR: 





      UNIX permet également d'obtenir des données statistiques concernant la mémoire de la machine. Nous pouvons obtenir des exemples d'informations comme suit:

      • Nombre de fichier dans le répertoire de travail


      • Nombre de fichier dans le répertoire TEST2





      SCRIPT

      Tout ce que nous faisons sur notre interface graphique semble être fastidieux! 
      Créer un script serait plus original ;-)


      • Un script permettant de générer dans le répertoire DUMP-TEXT un fichier contenant 2 lignes dont le nom et le mot du projet






      • Un script permettant de générer dans le répertoire un tableau en tant que fichier html