Analyse de fichiers PDF hébergés sur des serveurs Web

J'ai utilisé iText pour analyser des fichiers PDF. Il fonctionne bien sur les fichiers locaux, mais je veux analyser les fichiers PDF qui sont hébergés dans des serveurs web comme celui-ci:Analyse de fichiers PDF hébergés sur des serveurs Web

« http://protege.stanford.edu/publications/ontology_development/ontology101.pdf »

mais je ne sais pas comment ??? Pourriez-vous s'il vous plaît me répondre comment faire cette tâche en utilisant iText ou d'autres bibliothèques ... thx

Source

2010-10-25 Rim

vous pouvez lire le fichier à partir de l'URL /. –

Vous devez télécharger les octets du fichier PDF. Vous pouvez le faire avec:

URL url = new URL("http://....."); 
URLConnection conn = url.getConnection(); 

if (conn.getResponseCode() != HttpURLConnection.HTTP_OK) { ..error.. } 
if (! conn.getContentType().equals("application/pdf")) { ..error.. } 

InputStream byteStream = conn.getInputStream(); 
try { 
    ... // give bytes from byteStream to iText 
} finally { byteStream.close(); }

Source

2010-10-25 08:55:22

Utilisez la classe URLConnection:

URL reqURL = new URL("http://www.mysite.edu/mydoc.pdf"); 
URLConnection urlCon = reqURL.openConnection();

Ensuite, vous pouvez utiliser la méthode URLConnection pour récupérer le contenu. Le moyen le plus simple:

InputStream is = urlCon.getInputStream(); 
byte[] b = new byte[1024]; //size of a buffer, can be any 
int len; 
while((len = is.read(b)) != -1){ 
    //Store the content in preferred way 
} 
is.close();

Source

2010-10-25 08:59:17

Rien à dire. Vous pouvez passer une URL directement dans PdfReader, et laissez-le gérer la diffusion en continu pour vous:

URL url = new URL("http://protege.stanford.edu/publications/ontology_development/ontology101.pdf"); 
PdfReader reader = new PDFReader(url);

The JavaDoc is your friend.

Source

2010-10-25 18:21:57

pense Le problème est que: quand j'exécute le code sur un site html, il fonctionne bien, mais quand je l'exécute sur un site web pdf, obtenir des caractères étranges comme ceci: £ $ 'Ëa » -ÕUø4¸s? · UTd × sËÌ • <Éæ $ ÒÒke'.ÆýLÞg, ðÿ Z5¼®bÔGìÄ; ¾q}! Zu2Ù · .Ûsn = ö • å? ÛZt? – Rim

Les fichiers PDF contiennent généralement des données binaires, c'est normal. Images, polices, flux de contenu compressés, vous l'appelez. –

Analyse de fichiers PDF hébergés sur des serveurs Web

Répondre

Questions connexes