2010-05-02 20 views
3

Je construis une application en Java en utilisant Jena pour le raclage d'informations sémantiques. Je suis à la recherche d'un analyseur RDFa qui me permettrait d'extraire correctement toutes les déclarations RDFa. Plus précisément, une qui extrait des informations sur les espaces de noms utilisés et en supposant que les balises RDFa sont correctes dans la page produit des triplets corrects, ceux qui distinguent les propriétés d'objet et de données. J'ai parcouru tous les parseurs RDFa à partir du site http://rdfa.info/wiki/Consume pour Java. Ils ont tous du mal à extraire toutes les déclarations RDFa et si elles ne se plantent pas, l'analyseur Jena RDFa montre beaucoup d'erreurs et meurt ensuite d'une mort terrible, les données sont peu utiles car elles sont incorrectement traitées et généralement mélangées. Je suis novice dans ce domaine alors s'il vous plaît soyez gentil :)Quel parseur rdfa pour Java qui supporte les attributs rdfa actuellement utilisés?

Je pensais aussi à utiliser une bibliothèque écrite en différentes langues mais là encore je ne sais pas vraiment comment le brancher en code Java. Aucune suggestion?

Répondre

3

La plupart des parseurs RDFa sont confrontés à un code HTML invalide. Le any23 library inclut un analyseur RDFa capable de gérer du code HTML non valide. Il analyse tout RDFa en RDF complet, y compris les mappages d'espace de noms, etc., et est en cours de développement.

+0

Merci pour cela, j'ai utilisé any23 bibliothèque dans mon application, semblait le meilleur choix parmi les offres actuelles basées sur Java. –

3

Utilisez java-rdfa. Il prend en charge Jena et utilise l'analyseur syntaxique validator.nu html 5, qui gère l'analyse du code HTML comme un navigateur (c'est-à-dire qu'il répare les balisages interrompus).