2010-06-21 13 views
1

Je dois créer un nuage de tags sur une page/un flux. Une fois que vous obtenez le tableau de fréquence des mots, il est facile de construire le tagcloud. Mais mon doute est de savoir comment puis-je récupérer les tags/mots-clés de la page/du flux?Comment puis-je obtenir des tags/mots-clés à partir d'une page/d'un flux?

C'est ce que je fais maintenant:

Obtenez le contenu -> bande HTML -> les diviser avec \ s \ n \ t (espace, saut de ligne, onglet) -> Liste des mots-clés

Mais cela ne fonctionne pas très bien.

Y a-t-il un meilleur moyen?

+2

Pourquoi ça ne marche pas très bien? –

+0

1. En utilisant cette méthode, vous ne pouvez jamais obtenir des étiquettes à plusieurs mots. 2. Les non-alphabets (symboles spéciaux) rendent les étiquettes moins significatives (ex: dans ma question même, "\ s \ n \ t (espace, nouvelle ligne, tabulation)" ce tout sera considéré comme étiquette unique) 3 Même en remplaçant les caractères de séparation par de l'espace avant de diviser les étiquettes, ils affectent la signification des étiquettes. (ex: 16.25 deviendra 1625 et www.google.com -> wwwgooglecom) –

Répondre

0

Ce que vous avez est une approximation grossière de 1er ordre. Je pense que si vous revenez ensuite dans les données et recherchez la fréquence des phrases de 2 mots, puis 3 phrases de mots, jusqu'à ce que le nombre total de mots qui peuvent être considérés comme une étiquette, vous obtiendrez une meilleure représentation de la fréquence des mots clés.

Vous pouvez affiner ce motif de recherche approximatif en spécifiant certains mots qui peuvent être contenus dans une phrase (pronoms ect).