Je dois créer un nuage de tags sur une page/un flux. Une fois que vous obtenez le tableau de fréquence des mots, il est facile de construire le tagcloud. Mais mon doute est de savoir comment puis-je récupérer les tags/mots-clés de la page/du flux?Comment puis-je obtenir des tags/mots-clés à partir d'une page/d'un flux?
C'est ce que je fais maintenant:
Obtenez le contenu -> bande HTML -> les diviser avec \ s \ n \ t (espace, saut de ligne, onglet) -> Liste des mots-clés
Mais cela ne fonctionne pas très bien.
Y a-t-il un meilleur moyen?
Pourquoi ça ne marche pas très bien? –
1. En utilisant cette méthode, vous ne pouvez jamais obtenir des étiquettes à plusieurs mots. 2. Les non-alphabets (symboles spéciaux) rendent les étiquettes moins significatives (ex: dans ma question même, "\ s \ n \ t (espace, nouvelle ligne, tabulation)" ce tout sera considéré comme étiquette unique) 3 Même en remplaçant les caractères de séparation par de l'espace avant de diviser les étiquettes, ils affectent la signification des étiquettes. (ex: 16.25 deviendra 1625 et www.google.com -> wwwgooglecom) –