J'ai besoin d'analyser certaines données sur les sessions Internet pour une ligne DSL. Je voulais voir comment les durées de sessions sont distribuées. J'ai pensé qu'un moyen simple de le faire serait de commencer par faire un graphique de densité de probabilité de la durée de toutes les sessions. J'ai chargé les données dans R et j'ai utilisé la fonction density()
. Donc, c'était quelque chose comme çaObtention de la densité de données probables
plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
xlab = "duration(h)", ylab = "probability density")
Je suis nouveau à R et ce genre d'analyse. C'est ce que j'ai trouvé en passant par google. J'ai eu une intrigue mais il me restait quelques questions. Est-ce la bonne fonction de faire ce que j'essaie de faire ou y a-t-il autre chose?
Dans le graphique, j'ai trouvé que l'échelle de l'axe Y était de 0 à 1,5. Je ne comprends pas comment ça peut être 1.5, ne devrait-il pas être de 0 ... 1?
En outre, je voudrais obtenir une courbe plus lisse. Depuis, l'ensemble de données est vraiment grand les lignes sont vraiment déchiquetées. Ce serait plus agréable de les aplanir quand je présente cela. Comment ferais-je cela?
Vous interprétez mal la densité. La densité de X peut être vue comme une valeur ** proportionnelle à ** la chance de tirer de la population un nombre qui se trouve à proximité de X. Par définition, l'intégrale de la fonction de densité est égale à 1.Cela ne signifie pas que la valeur maximale de la fonction de densité doit être 1, elle peut facilement être plus grande. En effet, pour une distribution F avec df = (1,1), la valeur maximale de la densité (à 0) est égale à l'infini. –
@Joris oui je réalise maintenant que je ne l'ai pas interprété correctement. plutôt simpliste j'ai supposé que puisque sa sa distribution de probabilité serait moins de 1 :). – sfactor