Je suis novice dans le traitement du langage naturel et je veux en savoir plus en créant un projet simple. NLTK a été suggéré d'être populaire en PNL donc je vais l'utiliser dans mon projet.Puis-je identifier le contenu d'une page intranet à l'aide de la reconnaissance d'entité nommée?
Voici ce que je voudrais faire:
- Je veux scanner les pages intranet de notre entreprise; environ 3K pages
- Je voudrais analyser et classer le contenu de ces pages en fonction de certains critères tels que: HR, ingénierie, Pages d'entreprise, etc ...
D'après ce que j'ai lu jusqu'à présent, Je peux le faire avec la reconnaissance d'entité nommée. Je peux décrire des entités pour chaque catégorie de pages, former la solution NLTK et exécuter chaque page pour déterminer la catégorie.
Est-ce la bonne approche? Je vous remercie toutes les directions et idées ...
Merci
Et si je voulais classer les pages "Ingénierie" avec plus de profondeur comme "Structural Engineering", ou "Electrical Engineering", alors je devrais reconnaître des motifs d'expression réguliers pour chaque discipline d'ingénierie. Si aucune expression régulière ne correspond à une discipline particulière, le nom d'un ingénieur (appartenant à une discipline connue) dans le texte du sujet peut être indicatif d'une discipline particulière NER dans la PNL aiderait à atteindre cet objectif –
Généralement vous pourriez former un modèle basé sur un vecteur, généralement basé sur la pondération tf/idf, ce qui n'est pas très difficile dans la pratique ou la théorie et peut souvent donner de très bons résultats.Méthodes plus avancées existent si cela ne suffit pas. est d'une grande utilité, pas plus que la création de regexes pour classer les documents, ce sera sans doute beaucoup de travail, surtout si vous voulez Vous devez créer une sorte de score de confiance lorsque vous traitez avec des documents plus difficiles. –
Je vois ce que vous voulez dire. Comment puis-je faire cela avec NLTK et comment puis-je commencer? Pouvez-vous me montrer la bonne direction? Votre aide est tres apprecie. –