Moteurs d'exploration de données et frameworks?

Quels moteurs et frameworks d'exploration de données opensource/free connaissez-vous et utilisez-vous pour les données textuelles?Moteurs d'exploration de données et frameworks?

Merci pour tout conseil!

Source

2010-11-18 Edward83

Êtes-vous réellement à la recherche d'un moteur de recherche de texte? Les moteurs d'exploration de données ont tendance à travailler sur les métadonnées plutôt que sur le texte lui-même. – ianmayo

Je ne connais pas les moteurs ou les frameworks, mais j'ai utilisé cet outil appelé Weka, il contient beaucoup d'algorithmes implémentés.

Source

2010-11-18 00:57:24

merci! comme je l'ai trouvé les auteurs ont écrit un bon livre http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

Pas vraiment sûr de ce que vous cherchez. Peut-être quelque chose comme Lucene?

Source

2010-11-18 01:13:06

Et pour le traitement de texte (plutôt que pour l'extraction de données numériques et la mise en grappe), la boîte à outils NLTK vaut le détour. Ceci est destiné à enseigner les techniques de traitement du langage naturel en Python. Il est donc idéal pour bricoler, et vous trouverez forcément de nombreuses classes et implémentations de composants utiles si vous choisissez d'utiliser Python.

Source

2010-11-18 01:14:09 winwaed

merci! si un de mes projets sera sur python je vais vérifier cette boîte à outils;) – Edward83

RapidMiner est gratuit et open source et fonctionne sur windows, mac, linux, et est un joli programme basé sur le workflow graphique. Il exécute tout le code Weka et intègre avec R.

Source

2010-11-30 07:26:08

@el merci;) Je vais vérifier) – Edward83

Apache Mahout offre un tas d'algorithmes populaires qui peuvent également être appliquées sur des données textuelles et est également tout à fait évolutive! Apache UIMA n'offre pas d'algorithmes d'exploration de données mais est un framework largement utilisé dans le traitement du langage naturel.

Source

2011-04-25 10:15:39

RapidMiner est ma solution d'exploration de données preferred: http://www.RapidMiner.com/

Voici étude des outils d'exploration de données les plus populaires parmi les données des experts miniers: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets Sondage 2011: RapidMiner est les données les plus largement utilisés solution minière parmi les experts en exploration de données dans le monde entier.

Source

2011-05-31 08:53:05

Weka et Rapidminer ne sont pas très forts en cluster. Ils font surtout la classification et les prédictions similaires, mais très peu de regroupement. Jetez un oeil à ELKI, ce qui est comme WEKA un projet universitaire, mais il a des tonnes de méthodes de détection de casse et de valeurs aberrantes.

Source

2011-12-29 15:25:58

Je suis l'auteur d'un logiciel Java open-source pour l'exploration fréquente de motifs. Bien qu'il ne soit pas spécialement conçu pour l'exploration de texte, certains de ces algorithmes peuvent être utilisés pour extraire les motifs fréquents dans le texte. Par exemple, si vous souhaitez trouver des séquences de mots qui apparaissent souvent ensemble dans plusieurs phrases, vous pouvez appliquer un algorithme d'exploration de modèle séquentiel. Mais pour ce faire, vous devrez effectuer un pré-traitement avant d'appliquer mon logiciel afin que votre fichier texte soit dans le bon format.

Vous pouvez vérifier le logiciel ici: http://www.philippe-fournier-viger.com/spmf/

Source

2012-03-18 16:36:20 Phil

Apache Mahout est une bibliothèque OpenSource Machile d'apprentissage, qui peut être utilisé avec ou sans MapReduce (Apache Hadoop).

Il fournit les algorithmes de folloeing implémentation en Java: