Je voudrais reproduire la fonctionnalité que Facebook utilise pour analyser un lien. Lorsque vous soumettez un lien dans votre statut Facebook, leur système s'éteint et récupère un title
, summary
suggéré et souvent un ou plusieurs image
s à partir de cette page, à partir de laquelle vous pouvez choisir une vignette.Récupérer des résumés de liens de type Facebook (titre, résumé, images pertinentes) en utilisant Python
Mon application doit accomplir ceci en utilisant Python, mais je suis ouvert à n'importe quel genre de guide, blog ou expérience d'autres développeurs qui se rapporte à ceci et pourrait m'aider à comprendre comment l'accomplir. .
Je voudrais vraiment apprendre de l'expérience des autres avant tout sauter dans
Pour être clair, quand il reçoit l'URL d'une page Web, je veux être en mesure de récupérer:
- Le titre: Probablement juste le
<title>
tag mais peut-être le<h1>
, pas sûr. - Un résumé d'un paragraphe de la page.
- Un ensemble d'images pertinentes pouvant être utilisées comme vignettes. (La partie difficile est de filtrer les images non pertinentes comme des bannières ou des coins arrondis)
Je dois peut-être l'implémenter moi-même, mais j'aimerais au moins savoir comment d'autres personnes ont fait ce genre de tâches.
BeautifulSoup est pas bien pris en charge sur Python 3.1, et son auteur original ne le fait pas plus beaucoup de développement. Il vaut probablement mieux utiliser lxml.html et/ou html5lib (ce dernier est recommandé par l'auteur de BeautifulSoup). – lunaryorn
Bon à savoir pour référence future. Merci! –