2010-10-25 12 views
0

J'ai utilisé iText pour analyser des fichiers PDF. Il fonctionne bien sur les fichiers locaux, mais je veux analyser les fichiers PDF qui sont hébergés dans des serveurs web comme celui-ci:Analyse de fichiers PDF hébergés sur des serveurs Web

« http://protege.stanford.edu/publications/ontology_development/ontology101.pdf »

mais je ne sais pas comment ??? Pourriez-vous s'il vous plaît me répondre comment faire cette tâche en utilisant iText ou d'autres bibliothèques ... thx

+0

vous pouvez lire le fichier à partir de l'URL /. –

Répondre

0

Vous devez télécharger les octets du fichier PDF. Vous pouvez le faire avec:

URL url = new URL("http://....."); 
URLConnection conn = url.getConnection(); 

if (conn.getResponseCode() != HttpURLConnection.HTTP_OK) { ..error.. } 
if (! conn.getContentType().equals("application/pdf")) { ..error.. } 

InputStream byteStream = conn.getInputStream(); 
try { 
    ... // give bytes from byteStream to iText 
} finally { byteStream.close(); } 
0

Utilisez la classe URLConnection:

URL reqURL = new URL("http://www.mysite.edu/mydoc.pdf"); 
URLConnection urlCon = reqURL.openConnection(); 

Ensuite, vous pouvez utiliser la méthode URLConnection pour récupérer le contenu. Le moyen le plus simple:

InputStream is = urlCon.getInputStream(); 
byte[] b = new byte[1024]; //size of a buffer, can be any 
int len; 
while((len = is.read(b)) != -1){ 
    //Store the content in preferred way 
} 
is.close(); 
0

Rien à dire. Vous pouvez passer une URL directement dans PdfReader, et laissez-le gérer la diffusion en continu pour vous:

URL url = new URL("http://protege.stanford.edu/publications/ontology_development/ontology101.pdf"); 
PdfReader reader = new PDFReader(url); 

The JavaDoc is your friend.

+0

pense Le problème est que: quand j'exécute le code sur un site html, il fonctionne bien, mais quand je l'exécute sur un site web pdf, obtenir des caractères étranges comme ceci: £ $ 'Ëa » -ÕUø4¸s? · UTd × sËÌ • <Éæ $ ÒÒke'.ÆýLÞg, ðÿ Z5¼®bÔGìÄ; ¾q}! Zu2Ù · .Ûsn = ö • å? ÛZt? – Rim

+0

Les fichiers PDF contiennent généralement des données binaires, c'est normal. Images, polices, flux de contenu compressés, vous l'appelez. –