2010-11-18 22 views
5

Quels moteurs et frameworks d'exploration de données opensource/free connaissez-vous et utilisez-vous pour les données textuelles?Moteurs d'exploration de données et frameworks?

Merci pour tout conseil!

+0

Êtes-vous réellement à la recherche d'un moteur de recherche de texte? Les moteurs d'exploration de données ont tendance à travailler sur les métadonnées plutôt que sur le texte lui-même. – ianmayo

Répondre

1

Je ne connais pas les moteurs ou les frameworks, mais j'ai utilisé cet outil appelé Weka, il contient beaucoup d'algorithmes implémentés.

+0

merci! comme je l'ai trouvé les auteurs ont écrit un bon livre http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

3

Pas vraiment sûr de ce que vous cherchez. Peut-être quelque chose comme Lucene?

1

Et pour le traitement de texte (plutôt que pour l'extraction de données numériques et la mise en grappe), la boîte à outils NLTK vaut le détour. Ceci est destiné à enseigner les techniques de traitement du langage naturel en Python. Il est donc idéal pour bricoler, et vous trouverez forcément de nombreuses classes et implémentations de composants utiles si vous choisissez d'utiliser Python.

+0

merci! si un de mes projets sera sur python je vais vérifier cette boîte à outils;) – Edward83

2

RapidMiner est gratuit et open source et fonctionne sur windows, mac, linux, et est un joli programme basé sur le workflow graphique. Il exécute tout le code Weka et intègre avec R.

+0

@el merci;) Je vais vérifier) ​​ – Edward83

0

Apache Mahout offre un tas d'algorithmes populaires qui peuvent également être appliquées sur des données textuelles et est également tout à fait évolutive! Apache UIMA n'offre pas d'algorithmes d'exploration de données mais est un framework largement utilisé dans le traitement du langage naturel.

2

Weka et Rapidminer ne sont pas très forts en cluster. Ils font surtout la classification et les prédictions similaires, mais très peu de regroupement. Jetez un oeil à ELKI, ce qui est comme WEKA un projet universitaire, mais il a des tonnes de méthodes de détection de casse et de valeurs aberrantes.

1

Je suis l'auteur d'un logiciel Java open-source pour l'exploration fréquente de motifs. Bien qu'il ne soit pas spécialement conçu pour l'exploration de texte, certains de ces algorithmes peuvent être utilisés pour extraire les motifs fréquents dans le texte. Par exemple, si vous souhaitez trouver des séquences de mots qui apparaissent souvent ensemble dans plusieurs phrases, vous pouvez appliquer un algorithme d'exploration de modèle séquentiel. Mais pour ce faire, vous devrez effectuer un pré-traitement avant d'appliquer mon logiciel afin que votre fichier texte soit dans le bon format.

Vous pouvez vérifier le logiciel ici: http://www.philippe-fournier-viger.com/spmf/

3

Apache Mahout est une bibliothèque OpenSource Machile d'apprentissage, qui peut être utilisé avec ou sans MapReduce (Apache Hadoop).

Il fournit les algorithmes de folloeing implémentation en Java:

  • filtrage collaboratif
  • utilisateur et article basé recommandeurs
  • K-moyens, le regroupement K-Means floue
  • moyenne regroupement Shift
  • Cluster de processus de Dirichlet
  • Allocation de Dirichlet latent
  • décomposition valeur Singulier
  • Motif fréquent parallèle mines
  • complémentaire Naive classificateur Bayes
  • arbre de décision forestière aléatoire classificateur

Vous pouvez en savoir plus: http://mahout.apache.org/

http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

http://www.ibm.com/developerworks/java/library/j-mahout/

+0

merci pour les conseils :) – Edward83