Textasie Challenge
Sentiments analysis challenge on movie review. Done as part of the L2-PMMI UPSud formation.
Debian et dérivés
Récupérer le code et installer les dépendances
Dans un terminal, en tant que root:
apt install git make openjdk-8-jdk weka
Puis, en tant qu'utilisateur lambda:
git clone https://github.com/zapashcanon/textasie-challenge.git
Compilation
En ligne de commande
En tant qu'utilisateur lambda dans un terminal, se placer dans le répertoire récupéré précedemment et:
make
Sous Eclipse
Il faut ajouter weka.jar, pour ça: clic-droit sur le projet dans le Package Explorer et:
Properties > Java Build Path > Libraries > Add External JARs
Sélectionner le fichier:
/usr/share/java/weka.jar
Utilisation
En ligne de commande
Un Makefile basique est fourni, il suffit de se placer dans le répertoire du projet et:
make run
Cela va compiler le code, lancer les tests unitaires, lancer le programme puis supprimer les fichiers qui ont été créés lors de la compilation et de l'exécution.
Une fois le programme lancé, si des données sont présentes dans le répertoire /data/cleaned, il propose de les utiliser ou bien de les reconstruire ; sinon, il les construira. Ensuite, si des données sont présentes dans /data/improved, il propose de les utiliser ou bien de les reconstruire ; sinon il les construira. En cas de réponse négative, il demandera si on souhaite aussi utiliser (s'il existe) le fichier BagOfWord. Une fois les réponses données, il choisira le meilleur classifieur et produira des fichiers .predict pour les ensembles de données test et valid, ils sont enregistrés dans le dossier /data/predict.