Je travaille sur un projet dans lequel j'ai besoin d'extraire des données xml (sitemap) du fichier gz en utilisant apache tika [AM NEW TO TIKA]. le nom de fie est quelque chose comme sitemap01.xml.gz Je pourrais extraire des données à partir du fichier texte normal ou html, mais je ne sais pas comment extraire xml de gz et extraire le méta et les données de xml ... J'ai cherché Google pour les deux derniers jours.Extraire les données XML du fichier gzip en utilisant apache tika?
Ai-je besoin d'utiliser delegateParser dans tika pour extraire des données de xml? S'il vous plaît me guider à certains échantillons ou articles ....
Voici mon essai
public void parseXml() throws IOException{
Metadata metadata = new Metadata();
ContentHandler handler = new BodyContentHandler();
Parser parser = new AutoDetectParser();
ParseContext context = new ParseContext();
InputStream stream =this.getClass().getResourceAsStream("sitemap.xml.gz");
try {
parser.parse(stream,handler,metadata,context);
for(int i = 0; i <metadata.names().length; i++) {
String name = metadata.names()[i];
System.out.println(name + " : " + metadata.get(name));
}
System.out.println(handler.toString());
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (SAXException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (TikaException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}finally{
if(stream!=null) {
stream.close();
}
}
}