2010-05-20 10 views

Répondre

0

De l'developer manual:

Par défaut, heritrix écrit tout son crawl sur le disque en utilisant ARCWriterProcessor. Ce processeur écrit le contenu d'analyse trouvé en tant que fichiers ARC Internet Archive. Le format de fichier ARC est décrit ici: Arc File Format. Heritrix écrit les fichiers ARC version 1 1.

Les fichiers ARC se trouvent dans le dossier arcs/ de votre instance d'analyse. Vous pouvez changer l'emplacement dans les paramètres de l'interface web de heritrix. Au lieu de l'ARCWriterProcessor par défaut, vous pouvez le définir sur WARCWriterProcessor (fichiers WARC), sur MirrorWriterProcessor (aucun conteneur) ou sur Kw3WriterProcessor. AFAIK, vous pouvez même définir plusieurs écrivains. Notez que lorsque vous choisissez MirrorWriterProcessor, tous les fichiers ne peuvent pas être écrits sur le disque, selon le système de fichiers utilisé pour écrire les fichiers.

[1] Internet Archive ARC files