2010-08-10 11 views
0

Je vais construire un moteur de recherche sur solr, et nutch comme un robot. Je dois indexer environ 13mln de documents. j'ai 3 serveurs pour ce poste:Architecture avec 3 serveurs pour le moteur de recherche solr

  1. 4 core Xeon 3Ghz, ram 20Gb, 1,5 To SATA
  2. 2 * 4 core Xeon 3Ghz, ram 16Gb, ide 500Gb
  3. 2 * 4 core Xeon 3GHz , ram 16Gb, ide 500Gb

un des serveurs je peux utiliser en tant que maître pour l'analyse et l'indexation, les autres deux à deux comme un esclave pour la recherche, ou je peux utiliser une pour la recherche, et deux autres pour l'indexation avec deux éclats. Quelle architecture pouvez-vous recommander? Dois-je utiliser sharding, combien de fragments, et lequel des serveurs dois-je utiliser pour quoi?

+0

Impossible de répondre sans beaucoup plus d'informations. Par exemple - indexation. Combien de documents CHANGER? Sinon, après la charge initiale, si peu de documents changent, l'indexeur n'a pas grand chose à faire. – TomTom

+0

Tous les documents 13mln seront réindexer 1-2 fois par mois, j'ai des champs personnalisés dans le schéma qui change tous les mois – user183038

Répondre

1

Je pense essayer les deux. Lisez ce que le HathiTrust a fait. Je commencerais avec un seul maître et deux esclaves, c'est l'approche la plus simple. Et si vous avez seulement 13mln documents, je suppose que le chargement sera sur le côté indexation/exploration ..... Mais 13mln est seulement ~ 300 pages par minute. Je pense que vous nutch crawler sera le goulot de la bouteille ....

0

J'aurais tendance à utiliser deux serveurs pour la recherche et un pour l'indexation.

En règle générale, vous souhaitez conserver la recherche aussi vite que possible, au détriment de l'indexation des performances. De plus, deux serveurs de recherche vous offrent une redondance naturelle.

J'utiliserais le troisième serveur pour la recherche, aussi, quand il ne fait pas l'indexation. (13 millions de docs n'est pas un index énorme, et l'indexation ne devrait pas prendre beaucoup de temps comparé à la fréquence de réindexation)