2008-12-31 9 views
2

Je suis en train d'avoir "AUTOMATIC TEXT SUMMARIZER (approche linguistique)" comme projet de dernière année. J'ai recueilli suffisamment de documents de recherche et les ai passés en revue. Pourtant, je ne suis pas très clair sur la «comment-aller-pour-ça» chose. Fondamentalement, j'ai trouvé "AUTOMATIC TEXT SUMMARIZER (basé sur des statistiques)" et a trouvé que c'est beaucoup plus facile par rapport à mon projet. Mon guide de projet m'a dit de ne pas opter pour cela (basé sur des statistiques) et d'opter pour une approche linguistique. Quiconque a déjà travaillé ou même entendu parler de ce genre de projet sache que résumer un document ne signifie rien d'autre que marquer chaque phrase (par une approche impliquant des algos spécifiques) puis sélectionner des phrases ayant un score supérieur au seuil . Maintenant, la partie la plus difficile de ce projet consiste à choisir l'algorithme approprié pour la notation et l'implémentation ultérieure.A propos de "AUTOMATIC TEXT SUMMARIZER (basé sur la langue)"

J'ai des compétences modérées en programmation et je voudrais coder en Java (parce que j'obtiendrai beaucoup d'API, ce qui entraînera moins de frais généraux). Maintenant, je veux savoir que pour mon projet, quelle devrait être mon approche et les algos utilisés. Aussi comment les implémenter.

+0

C'est irréfutable. Sur quel critère voulez-vous noter les phrases? – chaos

Répondre

0

Si vous avez vraiment lu ces documents de recherche et livres de recherche, vous savez probablement ce que l'on sait. Maintenant, c'est à vous de mettre en œuvre la connaissance de ces documents de recherche et des livres de recherche dans une application Java. Ou vous pourriez élargir la connaissance humaine en faisant une innovation/invention. Si vous développez la connaissance humaine, vous êtes devenu un véritable scientifique.

0

S'il vous plaît rendre votre question plus précise, dans ces deux domaines principaux:

  1. Définition du projet: Quel est l'objectif de votre projet? L'unité d'entrée est-elle un document unique? Une liste de documents? Avez-vous l'intention que votre programme utilise l'apprentissage automatique? Quelle est la sortie? Comment allez-vous mesurer le succès?
  2. Vos connaissances de base: Vous avez l'intention d'utiliser des méthodes linguistiques plutôt que statistiques. Avez-vous de l'expérience dans l'analyse du langage naturel? Dans la représentation sémantique? Je pense que certaines de ces questions sont difficiles. Je leur pose la question parce que j'ai passé trop de temps à essayer de répondre à des questions similaires au cours de mes études. Une fois que vous aurez réglé ces problèmes, je pourrais vous donner quelques conseils. Mani's "Automatic Summarization" semble être un bon début, au moins les chapitres d'introduction.
0

L'Université de Sheffield a fait quelques travaux sur automatic email summarising dans le cadre du projet EU FASiL il y a quelques années.

5

Using Lexical Chains for Text Summarization (Microsoft Research)

Une analyse des différents algorithmes: DasMartins.2007

partie la plus importante dans la doc:

• Nenkova (2005) analyse qu'aucun système pourrait battre la ligne de base avec statistique signification
• Résultat retentissant!

Remarque il y a 2 différentes nuances au liguistic approche:

  • système de notation linguistique (tout clair ici)
  • génération linguistique (réécritures phrases pour construire le résumé)
2

La synthèse automatique est un domaine assez complexe - essayez d'obtenir vos compétences Java en premier lieu ainsi que votre compréhension de la PNL statistique qui utilise l'apprentissage automatique. Vous pouvez alors travailler à construire quelque chose de substance. Evaluez votre solution et assurez-vous d'avoir défini concrètement vos variables de mesure et comment vous avez procédé à votre évaluation. Sinon, votre projet est voué à l'échec. Ceci est généralement considéré comme un projet à haut risque pour les étudiants de dernière année, car ils sont souvent incapables d'appliquer les principes et de les mettre en œuvre d'une manière qui ne convient pas non plus, et leurs mesures d'évaluation sont mal définies et ne reflètent pas leur propre travail clairement. Mon conseil serait de se concentrer sur un domaine plutôt que sur beaucoup de résumés, car vous pouvez avoir des résumés de documents simples et multiples. Plus votre projet est varié, moins vous êtes susceptible de recevoir une bonne note. Gardez-le concentré et en profondeur. Évaluer les autres peuples, puis le processus que vous avez décidé de prendre et les résultats de cela.

Lectures: -Jurafsky livre sur NLP il y a une section arrière sur la synthèse et QA. -Advances dans le texte Summarization par Inderjeet MANI vraiment bon

Comprendre ce que les choses comme pondération à long terme, summarization à base de barycentre, le ratio log-vraisemblance, les relations de cohérence, la simplification de la phrase, la pertinence marginale maximale, la redondance, et ce résumé ciblé fait est.

Vous pouvez le tenter en utilisant une approche supervisée ou non supervisée ainsi qu'un hybride. La langue est une option plus sûre, c'est pourquoi on vous a conseillé d'adopter cette approche. Essayez de le faire linguistiquement, puis créez des statistiques pour hybrider votre solution. Utilisez-le comme un exercice pour apprendre la théorie et l'implication pratique des algorithmes ainsi que de construire sur vos connaissances. Comme vous aurez sans doute à expliquer et défendre votre projet au jury.