Je vais construire un moteur de recherche sur solr, et nutch comme un robot. Je dois indexer environ 13mln de documents. j'ai 3 serveurs pour ce poste:Architecture avec 3 serveurs pour le moteur de recherche solr
- 4 core Xeon 3Ghz, ram 20Gb, 1,5 To SATA
- 2 * 4 core Xeon 3Ghz, ram 16Gb, ide 500Gb
- 2 * 4 core Xeon 3GHz , ram 16Gb, ide 500Gb
un des serveurs je peux utiliser en tant que maître pour l'analyse et l'indexation, les autres deux à deux comme un esclave pour la recherche, ou je peux utiliser une pour la recherche, et deux autres pour l'indexation avec deux éclats. Quelle architecture pouvez-vous recommander? Dois-je utiliser sharding, combien de fragments, et lequel des serveurs dois-je utiliser pour quoi?
Impossible de répondre sans beaucoup plus d'informations. Par exemple - indexation. Combien de documents CHANGER? Sinon, après la charge initiale, si peu de documents changent, l'indexeur n'a pas grand chose à faire. – TomTom
Tous les documents 13mln seront réindexer 1-2 fois par mois, j'ai des champs personnalisés dans le schéma qui change tous les mois – user183038