Je voudrais utiliser le Time Warping dynamique pour comparer deux vecteurs de caractéristiques pour deux enregistrements audio (bien sûr, je fais d'abord tous les prétraitements nécessaires). Mon programme devrait afficher la similitude entre les deux enregistrements audio en pourcentage. Par exemple 100% signifie que les deux enregistrements sont complètement identiques, et plus les enregistrements sont différents, plus le nombre est petit. Comment puis-je y arriver? Le DTW me donne seulement la longueur du chemin ou le coût de la transition et je ne sais pas comment convertir un de ces nombres en une valeur en pourcentage.Déformation temporelle dynamique pour comparer deux enregistrements audio
Répondre
Je ne connais aucune mesure de distance entre les signaux qui est mesurée en pourcentage. S'il y a une signification de 100%, alors il doit y avoir une signification de 0%. Donc d'abord vous devez vous demander: que signifie 0%? Pour DTW, je suis à peu près sûr qu'il n'y a pas de conversion établie de la distance minimum en "pourcentage de correspondance". Si vous devez le faire, vous devez définir une quantité heuristique qui est fonction de la distance DTW minimale.
EDIT: En fait, vous pourriez définir une distance plus longue si vous avez deux enregistrements de longueur finie. Ce serait la distance d'un chemin qui est allé (si l'on regarde la matrice des coûts) tout le chemin à droite puis en bas, ou tout le chemin vers le bas puis à droite. Le meilleur chemin, c'est-à-dire la correspondance parfaite, descend la diagonale principale.
Une idée simple: si vous utilisez (0,1) (1,0) (1,1) comme candidat à l'étape, vous pouvez utiliser le nombre de pas effectués par (0,1) et (1,0) comme une mesure de la méchanceté. Cette mesure a certainement un maximum et un minimum, alors il pourrait être mappé à une gamme souhaitable, comme 0-100%.
0% pourrait signifier que les enregistrements sont infiniment différents (longueur infinie du chemin DTW). Donc, bien sûr, en pratique, je n'aurais jamais 0%. Mais permettez-moi de reformuler la question - que dois-je faire pour rendre les longueurs des chemins DTW directement comparables les uns aux autres? Parce que bien sûr, plus la longueur des enregistrements que je compare est grande, plus le chemin sera long. – pako
Donc, je ne peux pas utiliser la longueur du chemin DTW directement pour fournir une note en pourcentage à l'utilisateur. J'ai besoin d'un moyen de normaliser la longueur du chemin résultant en premier. Des idées? – pako
Merci pour reformuler. Voir éditer. –