2010-05-10 35 views
1

Nous essayons d'ajouter une sorte de persistance dans notre application. L'application génère environ 250 entrées par seconde. Chacune de ces entrées appartient à l'un des fichiers 2M. Pour chaque fichier, nous voulons conserver les 10 dernières entrées, afin que nous puissions les rechercher plus tard.Distribué datastore

La façon dont notre application client fonctionne:

  • il obtient un flux de toutes les données
  • il va chercher le bon fichier (GET)
  • il ajoute le nouveau contenu
  • il enregistre le fichier en arrière (PUT)

Nous cherchons un moyen efficace pour stocker ces données qui peuvent échelle horizo ntally que la quantité de données que nous obtenons double toutes les quelques semaines.

Nous avons examiné initialement à S3. Cela fonctionne très bien, mais devient très cher très rapide (> 1000 $ par mois juste dans les opérations de PUT!)

Nous avons ensuite donné une chance au Riak. Mais il semble que nous ne pouvons pas obtenir plus de 60 écritures par seconde sur chaque nœud, ce qui est très très lent.

Toute autre solution là-bas?

+0

Avez-vous testé Cassandra? – Jonas

+0

60 ecrites/sec avec riak? Comment avez-vous obtenu ce numéro? C'est très intéressant car j'évalue aussi riak. –

Répondre

0

Qu'en est-il la propagation de HDFS de Hadoop sur les instances Amazon EC2? Je sais que chaque instance a une bonne quantité d'espace de stockage, et vous n'avez pas à payer pour mettre/obtenir, seulement le transfert entrant.

+0

Nous n'utilisons pas Amazon ... alors oui, nous devrions payer pour la bande passante à EC2. Mais peut-être que c'est une option. Avez-vous déjà configuré un cluster HDFS? –

+0

Oui, j'ai. Je configure un cluster pour fonctionner sur environ 50 des petites machines EC2 (ce qui représente environ 7,5 To de stockage) –

+0

A ce tarif S3 est une bonne affaire :) 50 petites EC2 sont déjà 3500 par mois sans même tenir compte de la bande passante! :( –

1

Il y a beaucoup de boutons que vous pouvez tourner à Riak - demander la liste de diffusion si vous avez pas déjà et nous allons trouver une configuration saine d'esprit pour vous. 60 écritures/seconde ne sont pas dans la norme.

Voir: http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com

+0

Nous avons demandé .. Pas encore de réponse: http://lists.basho.com/pipermail/riak-users_lists.basho.com/2010-May/001170.html Juste le fait que personne n'a même dit que 60 écritures/seconde n'était pas la norme une très mauvaise nouvelle –

+0

Désolé pour ça Julien, je n'ai pas connecté les points, merci de m'envoyer un email et nous pouvons mettre en place un appel téléphonique pour résoudre votre problème: sean AT basho.com – seancribbs

0

Je suggérerais regardant CloudIQ Storage de Appistry. C'est un magasin de fichiers entièrement distribué. Son accessible via une API basée sur REST, et peut fonctionner sur du matériel de base. Vous pouvez définir le nombre de copies conservées fichier par fichier. Il prend en charge un modèle Eventuellement cohérent afin que vous puissiez équilibrer la cohérence des fichiers avec les performances.