je veux savoir où les fichiers explorés sont stockés dans web crawler Heritrix ...où les fichiers explorés sont stockés dans web crawler Heritrix
merci et avance
je veux savoir où les fichiers explorés sont stockés dans web crawler Heritrix ...où les fichiers explorés sont stockés dans web crawler Heritrix
merci et avance
De l'developer manual:
Par défaut, heritrix écrit tout son crawl sur le disque en utilisant ARCWriterProcessor. Ce processeur écrit le contenu d'analyse trouvé en tant que fichiers ARC Internet Archive. Le format de fichier ARC est décrit ici: Arc File Format. Heritrix écrit les fichiers ARC version 1 1.
Les fichiers ARC se trouvent dans le dossier arcs/
de votre instance d'analyse. Vous pouvez changer l'emplacement dans les paramètres de l'interface web de heritrix. Au lieu de l'ARCWriterProcessor par défaut, vous pouvez le définir sur WARCWriterProcessor (fichiers WARC), sur MirrorWriterProcessor (aucun conteneur) ou sur Kw3WriterProcessor. AFAIK, vous pouvez même définir plusieurs écrivains. Notez que lorsque vous choisissez MirrorWriterProcessor, tous les fichiers ne peuvent pas être écrits sur le disque, selon le système de fichiers utilisé pour écrire les fichiers.
Avez-vous vérifié le manuel? –
oui, je voudrais voir le fichier d'analyse ... quel est le format de ce fichier ... comment vais-je analyser? –