Je fais un projet pour un cours de niveau collégial que je prends. J'utilise PHP pour créer une application web simple qui classifie les tweets comme "positifs" (ou heureux) et "négatifs" (ou tristes) basés sur un ensemble de dictionnaires. L'algorithme auquel je pense en ce moment est le classificateur Naive Bayes ou l'arbre de décision.Text mining avec PHP
Cependant, je ne trouve aucune bibliothèque PHP qui m'aide à faire un traitement de langage sérieux. Python a NLTK (http://www.nltk.org). Y a-t-il quelque chose comme ça pour PHP?
Je prévois d'utiliser WEKA comme back-end de l'application web (en appelant Weka en ligne de commande depuis PHP), mais cela ne semble pas très efficace.
Avez-vous une idée de ce que je devrais utiliser pour ce projet? Ou devrais-je simplement passer à Python?
Merci
classificateurs bayésiens Naive ne sont pas vraiment difficiles à écrire vous-même si vous comprenez les principes de base. Vous pouvez réellement faire tout en PHP de cette façon. San Jacinto a déjà couvert tout ce que j'aurais dit à propos de la partie PNL. Une autre chose que je peux vous dire d'un projet similaire que j'ai réalisé il y a quelques semaines, c'est que la classification des sentiments utilisant l'approche standard des mots-clés ne fonctionne pas très bien. Je n'ai pas essayé quelque chose comme des n-grammes, cependant ... J'ai le sentiment qu'ils fonctionneraient mieux, mais bien sûr cela vous donnerait des tonnes de dimensions supplémentaires ... –
Il n'y a aucune indication que ce soit dans votre poste ou celui que vous avez lié à pourquoi c'est une solution appropriée. –
Text_LanguageDetect de PEAR peut identifier 52 langues humaines à partir d'échantillons de texte et renvoyer des scores de confiance pour chacun. N'est-ce pas une option intéressante à prendre en compte? – nuqqsa