Je travaille sur un projet où j'ai besoin d'analyser une page de texte et des collections de pages de texte pour déterminer les mots dominants. J'aimerais savoir s'il y a une bibliothèque (je préfère C# ou java) qui s'occupera de la lourde tâche pour moi. Sinon, existe-t-il un algorithme ou un multiple qui permettrait d'atteindre mes objectifs ci-dessous? Ce que je veux faire est similaire aux nuages de mots construits à partir d'un flux url ou rss que vous trouvez sur le web, sauf que je ne veux pas de visualisation. Ils sont utilisés tout le temps pour analyser les discours des candidats à la présidence pour voir quel est le thème ou les mots les plus utilisés. La complication, c'est que je dois faire cela sur des milliers de documents courts, puis des collections ou des catégories de ces documents. Mon plan initial était d'analyser le document, puis de filtrer les mots communs - de, le, il, elle, etc. Ensuite compter le nombre de fois que les mots restants apparaissent dans le texte (et la collection/catégorie globale).Algorithmes ou bibliothèques pour l'analyse textuelle, en particulier: mots dominants, phrases à travers le texte et collection de texte
Le problème est que dans l'avenir, je voudrais gérer souches, formes plurielles, etc. Je voudrais aussi voir s'il existe un moyen d'identifier les phrases importantes. (Au lieu d'un compte d'un mot, le compte d'une phrase étant de 2 ou 3 mots ensemble)
Tout conseil sur une stratégie, des bibliothèques ou des algorithmes qui seraient utiles est apprécié.
J'ai ajouté l'étiquette «langue naturelle» à la publication. –