Quelque temps dans un proche avenir, je devrai mettre en œuvre un compte de mots inter-langues, ou si ce n'est pas possible, un nombre de caractères inter-langue. Par nombre de mots, je veux dire un compte précis des mots contenus dans le texte donné, en prenant la langue du texte. La langue du texte est définie par un utilisateur et sera supposée correcte. Par comptage de caractères, on entend un comptage des caractères "éventuellement dans un mot" contenus dans le texte donné, avec les mêmes informations de langage décrites ci-dessus.Une bibliothèque/classe PHP pour compter les mots dans différentes langues?
Je préférerais beaucoup le premier compte, mais je suis conscient des difficultés que cela implique. Je suis également conscient que ce dernier compte est beaucoup plus facile, mais préfère beaucoup le premier, si possible. Je voudrais si je devais regarder l'anglais, mais j'ai besoin de considérer toutes les langues ici, chinois, coréen, anglais, arabe, hindi, et ainsi de suite.
Je voudrais savoir si le débordement de pile a des pistes sur l'endroit où commencer à chercher un produit existant/méthode pour le faire en PHP, comme je suis un bon programmeur paresseux *
A simple test montrant comment str_word_count avec set_locale ne fonctionne pas, et une fonction de la page str_word_count de php.net.
* http://blogoscoped.com/archive/2005-08-24-n14.html
CJK vont être la plus délicate, car ils n'utilisent pas des espaces pour séparer les mots. – Turnor
Observation astucieuse. C'est la raison pour laquelle j'ai posté ma question ici;) –
C'est la question que j'ai posée précédemment comme réponse: Pourriez-vous être plus précis de ce que vous entendez par "compte de mots"? Voulez-vous vérifier qu'un mot existe réellement dans le dictionnaire de cette langue, ou recherchez-vous simplement un nombre de phrases séparées par les délimiteurs de cette langue? – Grantismo