J'utilise ExtractingRequestHandler dans Solr pour obtenir du contenu de document et l'indexer. Cela fonctionne correctement pour tous les documents Microsoft, mais pour les fichiers PDF, le contenu extrait est vide. J'ai aussi essayé extractOnly = true avec curl, et cela retourne aussi juste le corps vide.Solr ExtractingRequestHandler donnant un contenu vide pour les documents pdf
J'ai utilisé TIKA indépendamment sur les mêmes documents et cela extrait très bien le contenu. La différence est quand faire indépendamment j'utilise BodyContentHander qui vient avec Tika au lieu de SolrContentHandler qui est utilisé par Solr. Est-ce que quelqu'un a vu ça? Je préférerais vraiment laisser Solr gérer cela que moi en utilisant Tika pour extraire le contenu en dehors de Solr.
Avez-vous essayé de définir le paramètre stream.type? (c'est-à-dire application/pdf) –
J'ai essayé. N'a pas aidé. Toujours avoir ce problème. – aseem