J'essaie de résoudre un problème qui consiste à comparer un grand nombre d'ensembles de mots, chacun contenant un grand nombre ordonné de mots d'un ensemble de mots (totalisant 600+, très haute dimensionnalité!) Pour la similarité et ensuite les regrouper en groupes distincts. La solution doit être aussi non supervisée que possible.De meilleures métriques de distance en dehors de Levenshtein pour les ensembles de mots ordonnés et le clustering suivant
Les données ressemble
[Apple, banane, orange ...]
[Pomme, Banane, Raisin ...]
[Jelly, Anise, Orange ...]
[Fraise , banane, orange ...]
... etc
L'ordre des mots dans chaque matière set ([Apple, banane, orange] est distinct de [Apple, orange, banane]
Le approche que j'ai b Jusqu'à présent, l'utilisation de la distance de Levenshtein (limitée par un seuil de distance) était une métrique calculée dans un script Python, chaque mot étant l'identifiant unique, générant une matrice de similarité à partir des distances et lançant cette matrice dans k-Mediods. KNIME pour les groupements.
Mes questions sont les suivantes:
- est-Levenshtein la distance la plus appropriée métrique à utiliser pour ce problème?
- Est-ce que le regroupement de prototypes moyen/médio est le meilleur moyen de contourner les regroupements?
- Je n'ai pas encore beaucoup réfléchi à la validation du choix de 'k' dans le clustering. L'évaluation d'une courbe SSE de la classification serait-elle le meilleur moyen d'y parvenir?
- Y a-t-il des failles dans ma méthodologie?
- En tant qu'extension de la solution à l'avenir, étant donné les données d'entraînement, quelqu'un aurait-il des idées pour attribuer des probabilités aux affectations de cluster? Par exemple, l'ensemble 1 a 80% de chance d'être dans le groupe 1, etc.
J'espère que mes questions ne sembleront pas trop bêtes ou les réponses douloureusement évidentes, je suis relativement nouveau à l'exploration de données.
Merci!
Probablement, d'autres informations générales pourraient être utiles. Pouvez-vous en dire plus sur la similarité souhaitée? Dans quel but le regroupement est-il fait? – SebastianK
Si chacun des ensembles que j'ai donné comme exemple dans le message d'origine représente un panier d'articles d'épicerie (où l'ordre que les articles sont placés dans le panier), je voudrais être en mesure de regrouper les paniers selon leur contenu est et doit pouvoir étiqueter chaque groupe pour l'analyse (l'étiquetage devra être fait manuellement, bien sûr). Le panier [pomme, banane, orange] serait plus semblable à [pomme, banane, raisin] qu'à [gelée, anis, orange], parce que deux articles devraient être changés dans ce dernier par opposition à un dans le premier. – don