2010-09-29 39 views
1

Je lis vers M.Sc. en informatique et vient de terminer la première année de la source. (Ceci est un cours de deux ans). Je dois bientôt soumettre une proposition pour le M.Sc. Projet. J'ai sélectionné le sujet suivant.Projet de machine learning/information retrieval

"Adéquation de l'apprentissage automatique pour le classement des documents dans le système de recherche documentaire". Les chercheurs ont utilisé divers algorithmes d'apprentissage automatique pour classer les documents. Donc, en tant que première phase du projet, je ferai une étude complète de la littérature et je découvrirai les avantages/inconvénients des approches actuelles. Dans la deuxième phase du projet, je proposerai un nouvel algorithme (modifié) afin de surmonter les limites des approches actuelles.

En fait, ma question est de savoir si ce type de projet est approprié en tant que M.Sc. projet? De plus, si quelqu'un a une idée intéressante dans la récupération de l'information déposée, est-il possible de partager ces idées avec moi.

Merci

+2

Il vaudrait peut-être mieux que vous posiez la question sur le site d'échange de piles de la théorie informatique (http://cstheory.stackexchange.com). – Ferruccio

Répondre

6

Classement est toujours le plus difficile de l'un des systèmes de récupération de l'information. Je pense que c'est un très bon sujet, mais il faut prendre soin - le plus tôt possible - de définir la portée du travail. Vous ne pourrez probablement pas développer un nouveau moteur IR, mais plutôt construire un prototype basé, par exemple, sur apache lucene.

Actuellement, il y a beaucoup de jeu de données, y compris stackoverflow data dump, qui vous fournit toutes les informations dont vous avez besoin pour définir un vecteur riche en fonctionnalités (nombre de points, temps, etc.).) pour votre algorithme de classement d'apprentissage automatique. Dans cette partie du travail, vous pourriez, par exemple, classer les types de caractéristiques (par exemple, caractéristique sémantique propre à l'utilisateur - nom du logiciel dans le titre) et effectuer des séries d'expériences pour connaître les caractéristiques les plus importantes et celles qui ne le sont pas. .

La deuxième direction d'un tel projet peut être comment effectuer l'apprentissage efficacement. La raison en est la quantité de données dans les forums web ou communautaires et les changements dans le forum (ceci serait important si vous prenez des fonctionnalités spécifiques à la communauté), par exemple, changements de technologies, nouvelle version du logiciel, etc. de nombreux autres sujets liés à la recherche et à l'apprentissage automatique. La meilleure idée est de faire une recherche sur scholar.google.com pour les articles de sondage récents sur le classement, l'apprentissage automatique et la recherche pour apprendre ce qui est l'état de l'art. La prochaine étape serait de parler avec votre superviseur MSc.

Bonne chance!

1

Tout ce que vous avez dit est bon et doit être fait, mais vous avez oublié le plus important:

Prouver que votre algorithme est meilleur et/ou plus rapide que d'autres algorithmes, avec de bonnes expériences et peut-être quelques statistiques (p-value, intervalle de confiance).

Si vous faites cela et convaincre les gens que votre algorithme est utile que vous ne manquerez pas sûrement :)

+0

Ceci n'est habituellement pas exigé de M.Sc. projets ou thèses. Vous pouvez obtenir votre M.Sc. même si vos modifications ou vos nouvelles idées ne s'avèrent pas meilleures que celles qui existent déjà. –