Dans la plupart des cas, un fichier audio n'a pas de fréquence unique. A son dans lequel l'onde sonore a une fréquence unique, est (typiquement) une tonalité sinusoïdale pure, et ressemble à ceci:
http://www.wolframalpha.com/input/?i=sound+440+Hz&a=*MC.~-_*PlaySoundTone-&a=*FS-_**DopplerShift.fo-.*DopplerShift.vs-.*DopplerShift.c--&f3=10+m/s&f=DopplerShift.vs_10+m/s&f4=340.3+m/s&f=DopplerShift.c_340.3+m/s&a=*FVarOpt.1-_***DopplerShift.fo-.*DopplerShift.fs--.***DopplerShift.DopplerRatio---.*--&a=*FVarOpt.2-_**-.***DopplerShift.vo--.**DopplerShift.vw---.**DopplerShift.fo-.*DopplerShift.fs---
Ceci est une onde sinusoïdale pure de 440 Hz. (Il n'a pas été possible d'établir un lien correct en raison des limitations de MarkDown.)
Un son général, tel qu'un enregistrement (de la parole, de la musique ou simplement du bruit urbain), consiste en (un nombre infini de) des combinaisons de telles ondes sinusoïdales, superposées. Autrement dit, si vous deviez dessiner le graphique de la pression en fonction du temps (à un point donné dans l'espace) de l'onde, ou (plus ou moins) de la position de la membrane du locuteur en fonction du temps, donc ne pas être a pure sine wave, mais quelque chose de beaucoup plus compliqué. (En effet, comment toute l'information d'une symphonie de Beethoven peut-elle être représentée par une onde sinusoïdale simple, entièrement déterminée par sa seule fréquence?)
La fréquence d'échantillonnage d'un enregistrement numérique est simplement le nombre de échantillons par seconde de l'onde sonore. En effet, une onde sonore physique a une amplitude p (t) à chaque instant, donc, parce qu'il y a un nombre infini de t entre 0 s et 10 s (disons), théoriquement, pour sauver l'audio, nous aurions besoin d'un nombre infini d'octets (chaque échantillon nécessite un nombre fixe d'octets - par exemple, un enregistrement de 16 bits utilise 16 bits, ou 2 octets, par échantillon - bien sûr, plus le "nombre de bits" est élevé, plus la qualité est élevée ; pour un son de 16 bits, nous avons 2 niveaux de = 65536 à choisir lorsque vous spécifiez un seul échantillon). En pratique, un son est échantillonné, de sorte que l'amplitude p (t) n'est sauvegardée qu'à intervalles fixes. Par exemple, un CD audio typique a une fréquence d'échantillonnage de 44,1 kHz; c'est-à-dire qu'un échantillon est sauvegardé tous les 22,7 μs. Par conséquent, une onde sinusoïdale pure de n'importe quelle fréquence, ou n'importe quel enregistrement, pourrait être stockée sur un ordinateur en utilisant n'importe quelle fréquence d'échantillonnage, la qualité de l'enregistrement étant déterminée par le taux d'échantillonnage. [Note technique: Bien sûr, il existe une limite inférieure (dans un certain sens) au taux d'échantillonnage. C'est ce qu'on appelle le Nyquist rate.]
Pour déterminer la fréquence moyenne du son à tout moment, vous pouvez utiliser certaines techniques avancées de Fourier analysis, mais ce n'est pas entièrement trivial.
J'essaie de voir si je peux trouver la note en cours de lecture alors quand je gratte une guitare, je peux trouver la fréquence et voir à quelle distance il est, – monkeyguy
+1 pour DSP, difficulté de reconnaissance de hauteur et «lancer des FFT ne vous mènera pas très loin» - donnerait plus si je le pouvais! – walkytalky
@monkeyguy: donc un accordeur de guitare essentiellement? Donc dans ce cas, les FFT ne sont pas susceptibles d'aider parce que la résolution ne sera pas assez précise. Donc, je voudrais examiner certaines des méthodes classiques de détection de hauteur telles que l'autocorrélation. –