2009-08-20 19 views
6

Je viens de mettre la main sur un Stackoverflow data dump, et je suis déçu de voir que le champ Body des posts est en HTML plutôt qu'en Markdown. Je pense qu'il y a Markdown dans la base de données originale parce que c'est ce que je vois si j'essaie d'éditer une réponse.Quel est le moyen le plus simple de convertir un fichier de données SO de HTML en Markdown?

Je veux récupérer Markdown à partir d'un grand nombre de réponses. Je traiterai des centaines d'entrées en mode de traitement par lots, en utilisant soit des outils en ligne de commande, soit une bibliothèque Lua ou C, donc un outil interactif comme le wmd Markdown editor ne convient pas. Est-ce que les gens peuvent dire quels sont les outils disponibles pour m'aider à récupérer Markdown à partir d'une sauvegarde de données Stackoverflow?


(question connexe, pas un doublon. Convert HTML back to Markdown within wmd)

Répondre

5

Markdownify convertit HTML à Markdown.

Voir aussi: MetaSO/Can Markdown be recovered from the SO data dump?

+0

Norman devrait savoir, il a posé cette question aussi! :) –

+0

Quand il s'agit d'utiliser PHP sur la ligne de commande, je suis un troglodyte. Je n'arrive pas à comprendre à partir du manuel s'il y a une fonction de bibliothèque pour lire tout le contenu d'un fichier. Est-ce que dio_read (STDIN) est sur la bonne piste? –

+0

Si vous voulez lire le contenu d'un fichier, il existe plusieurs façons - une simple fonction qui le fait est 'file_get_contents();' – Sampson