2010-03-17 13 views
2

J'ai besoin d'aide pour résoudre ce problème.Récupérer des informations à partir de différents fichiers texte non structurés - Text Mining?

Nous avons une grande quantité de documents d'un domaine donné. Ces documents proviennent de sources différentes et leur structure peut donc être très différente. De l'autre côté, j'ai une table avec des champs spécifiés où certains chiffres doivent être remplis à partir de l'extrait des documents.

Par exemple:

Company x avait un volume d'affaires de 20mio $ en 2010. 1000000 $ a été l'échange de société y cette année.

Le résultat doit quelque chose comme ça

|| Company | Year | Volume 
|| X  | 2010 | 200,000 
|| Y  | 2010 | 1000,000 

Pouvez-vous me montrer à quelques liens s'il vous plaît ou des sujets, où je peux trouver plus d'informations comment résoudre ce problème.

Je sais qu'il n'y a pas de solution prête à l'emploi pour cela, mais où devrais-je commencer à chercher.

Merci d'avance.

Répondre

2

Ok. Il y a des laboratoires d'informatique entiers consacrés à ce genre de choses! Peut-être commencer par la recherche d'un outil appelé RapidMiner

ici aussi sont quelques titres de papier de recherche je en PDF de (que je n'ai pas de liens pour plus tristement):

1. Compréhension automatisée des financiers déclarations Utilisation des réseaux de neurones et sémantique Grammars

James Markovitch Dun & Bradstreet, Search Technologies Avril 1995 Courriel: [email protected] Droit d'auteur  1995 James Markovitch

2. Une approche intégrée pour l'extraction de la structure sémantique automatique en images Document

Margherita Berardi, Michele Lapi, et Donato Malerba Dipartimento di Informatica - Università degli Studi di Bari via Orabona 4 - 70126 Bari {berardi, lapi, malerba} @ di.uniba.it

Je pense que le premier serait le plus intéressant en termes de ce que vous recherchez. Pas tout à fait sûr combien il va être la valeur si :)

+0

salut merci pour l'information. si vous avez d'autres informations sur ce sujet, veuillez les poster :-) – nWorx