2010-06-16 13 views
5

Je suis novice en ce qui concerne l'utilisation de l'informatique en nuage, mais je comprends le concept et je suis assez douée pour suivre les instructions. Je voudrais faire quelques simulations sur mes données et chaque étape prend plusieurs minutes. Compte tenu de la hiérarchie dans mes données, cela prend plusieurs heures pour chaque ensemble. Je voudrais accélérer cela en l'exécutant sur le nuage EC2 d'Amazon. Après avoir lu this, je sais comment lancer une AMI, me connecter via le shell et lancer R à l'invite de commande. Qu'est-ce que je voudrais aider sur est de pouvoir copier des données (fichiers .rdata) et un script et juste le source à l'invite de commande R. Ensuite, une fois que tous les résultats sont écrits dans les nouveaux fichiers .rdata, je voudrais les copier sur mon ordinateur local.Aidez-moi à copier des données sur l'EC2 de l'Amazonie et à lancer un script.

Comment faire?

+0

Il existe des services qui rendront cela facile pour vous. Voir, par exemple, http://www.monkeyanalytics.com/ ou http://biocep-distrib.r-forge.r-project.org/ –

+0

monkeyanalytics semble très bien, mais malheureusement, ils ne semblent pas être en direct (ou au moins leur inscription n'est pas instantanée). J'apprécie cependant les heads-up. – Maiasaura

Répondre

3

Je ne sais pas grand-chose sur R, mais je fais des choses similaires avec d'autres langues. Ce que je suggère vous donnerait probablement quelques idées.

  1. Configurez un serveur FTP sur votre machine locale.
  2. Créez un "script de démarrage" que vous lancez avec votre instance. Laissez le script de démarrage télécharger les fichiers R depuis votre machine locale, initialisez R et effectuez les calculs, puis téléchargez les nouveaux fichiers sur votre machine.

script de démarrage:

#!/bin/bash 
set -e -x 
apt-get update && apt-get install curl + "any packages you need" 
wget ftp://yourlocalmachine:21/r_files > /mnt/data_old.R 
R CMD BATCH data_old.R -> /mnt/data_new.R 
/usr/bin/curl -T /mnt/data_new.r -u user:pass ftp://yourlocalmachine:21/new_r_files 

exemple Démarrer avec un script de démarrage

ec2-run-instances --key KEYPAIR --user-data-file my_start_up_script ami-xxxxxx 
1

première utilisation id amazon S3 pour stocker les fichiers
à la fois de votre machine locale et à l'arrière de l'instance
Comme indiqué précédemment, vous pouvez créer des scripts de démarrage, ou même regrouper votre propre AMI personnalisée avec tous les paramètres nécessaires et exécuter vos instances
donc télécharger les fichiers à partir d'un seau dans S3, exécuter et traiter, enfin télécharger les résultats dans le même/seau différent dans S3
en supposant que les données sont petites (la taille des scripts peuvent être) que S3 coût/utilisabilité serait très efficace