2010-10-25 10 views
0

En matière de processus de Dirichlet, selon [Teh, 2007], un DP est défini comme par une base Probabilité H et un facteur d'échelle « alpha »Masse Point, Dirac Delta dans Dirichlet Procédés

Selon le bâton rupture de construction, les tirages au sort G à partir d'un DP:

G ~ DP (alpha, H)

sont donnés par:

G = somme (pi_k * delta_theta_k) sur k allant de 1 à l'infini

pi_k sont commandés en tire une distribution bêta étant donné la longueur d'un bâton unitaire

delta_theta_k est une masse ponctuelle centrée sur « theta_k » (theta_k sont choisies au hasard parmi la distribution de base)

J'ai à peu près une Compréhension claire de toutes les variables, mais je ne sais pas ce qu'elles veulent dire par «point de masse», c'est la densité de probabilité de ce tirage, ou est-ce autre chose?

Ce serait génial si vous pouviez me diriger dans n'importe quelle direction, seulement une référence serait incroyable.

Merci

+0

Il serait utile si vous donniez plus de détails sur votre référence que simplement [Teh, 2007] – Stompchicken

+0

Je vais supposer que c'est 'Dirichlet Processes' Yee Whye Teh, Encyclopédie de l'apprentissage automatique – Stompchicken

Répondre

1

G est une distribution de probabilité sur des distributions de probabilité. Ces distributions de (sub) probabilités sont sur un domaine, appelons-le BigTheta. Chaque theta_k est un tirage d'une distribution sur BigTheta, donc c'est un élément de BigTheta. Chaque delta_theta_k est une distribution de probabilité sur BigTheta, définie comme delta_theta_k (theta_k) = 1 et delta_theta_k (n'importe quoi d'autre) = 0. C'est ce qu'on appelle la distribution de «masse ponctuelle», car toute la masse de la distribution est sur un seul point du domaine. G est une distribution de probabilités sur des distributions de probabilité sur BigTheta, définie comme: pour une distribution sur BigTheta appelée f (qui est paramétrée par theta), G (f (theta)) = somme (pi_k * delta_theta_k (theta)) .

J'espère que cela aide, je pense que vous avez généralement la bonne idée c'est juste que la notation peut devenir un peu compliquée (et SO n'est pas le meilleur pour ce genre de notation). Il est généralement utile, chaque fois que vous rencontrez un symbole, de penser à quel type de fonction il s'agit, c'est-à-dire sur quoi il est défini.

+0

C'était une très bonne réponse, merci , désolé de ne pas pointer toute la référence –

+0

Pas de problème, bonne chance en essayant de comprendre les processus de Dirichlet - ils me confondent bien sûr :) – Stompchicken

+0

Par ailleurs, poser ce genre de questions (ie des discussions sur les statistiques NLP/bayésiennes) à http://metaoptimize.com/qa/ pourrait obtenir de meilleurs résultats. – Stompchicken