2010-04-16 18 views
1

J'ai un téraoctet de données, peut-être plus, que je voudrais indexer et rechercher avec Lucene. J'aimerais pouvoir séparer l'index sur différentes machines, comme le fait Solr (si je comprends bien Solr).Distribué Lucene.NET

Existe-t-il des outils pour cela sur la plate-forme Windows?

Merci!

Modifier: Je ne suis pas très intéressé par l'exécution de Java Lucene. Je très probablement faire mes propres coups secs à Lucene donc je dois en tenir à Lucene.Net puisque je ne sais pas beaucoup sur Java

+0

Solr semble répliquer l'indice, mais je ne sais pas si elle peut le diviser. Solr devrait fonctionner sous Windows. Vous pouvez créer votre propre outil pour indexer une partie de vos données sur chaque machine, puis effectuer une recherche sur toutes les machines et fusionner les résultats. – Guillaume

+0

@Guillaume: oui, Solr peut diviser l'index. C'est ce que l'on appelle * sharding * –

+0

http://wiki.apache.org/solr/DistributedSearch –

Répondre

1

Ce que vous cherchez est Katta. Voici un graphique de la façon dont cela fonctionne: Katta http://katta.sourceforge.net/wp-content/uploads/kattaoverview.jpg

Mais puisque vous savez déjà Solr, pourquoi ne pas simplement utiliser son sharding capabilities directement?

+0

Je ferai très probablement mes propres ajustements à Lucene, donc je dois m'en tenir à Lucene.Net car je ne connais pas grand-chose à Java. – Rabbit

+0

@ user72185 ok, alors pourquoi ne pas simplement utiliser Solr? –

+0

Je n'ai pas vraiment essayé Solr, mais cela ne signifierait-il pas que je devrais changer de code Java si je voulais apporter des modifications à Lucene sous-jacent? – Rabbit