2010-06-01 16 views
0

Je cherche à extraire des éléments spécifiques d'un grand nombre de documents non structurés. Ces documents pourraient être 1-5 pages de texte mis en forme de diverses manières par l'utilisateur, mais dans la plupart des cas contiendraient au moins:Extraction des informations démographiques et de contact à partir de fichiers texte non structurés

  • Nom
  • Adresse (physique)
  • Adresse e-mail
  • Téléphone numéro
  • URL du site

Je suis à la recherche d'un analyseur sémantique qui peut tenter d'extraire ces éléments des documents afin que je puisse charger t chapeautez les informations dans une base de données relationnelle et travaillez avec ces enregistrements en tant que contacts.

D'autres services que j'ai recherchés, même s'ils sont utiles à d'autres fins, ne répondent pas à ce besoin spécifique.

Toutes les pensées, suggestions ou prospects?

Répondre

0

Avez-vous trouvé une erreur? J'ai trouvé quelques articles de recherche:

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192 & rep = rep1 & type = pdf

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

Mais pas d'exemples de code spécifiques sur la mise en œuvre l'une de ces idées.

Jetez un oeil à cela aussi: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

(désolé, j'Exclue la http, ce système ne me permet de poster plus d'un URL/lien)