2009-11-25 15 views
0

Je suis à la recherche d'un outil qui me permettra de générer un ensemble de données avec certaines propriétés statistiques. Par exemple, supposons que je veux générer 1 million d'entiers avec x nombre de valeurs aberrantes à utiliser dans les tests.Comment générer des ensembles de données statistiques quasi aléatoires?

Existe-t-il des outils pour générer des ensembles de données de test comme celui-ci? Je n'ai pas nécessairement besoin de quelque chose de fantaisiste, juste quelques fonctionnalités de base.

Répondre

1

Math from apache commons a quelques outils que vous pouvez utiliser pour générer des données à partir de distributions de probabilité simples. Il est en fait assez facile à roll your own variant de ces fonctions de génération en utilisant la fonctionnalité random() de n'importe quel système que vous utilisez. En supposant que random() renvoie un nombre aléatoire uniformément réparti entre 0 et 1, il vous suffit de passer le inverse cumulative distribution function de la distribution dont vous avez besoin pour obtenir les nombres aléatoires dont vous avez besoin. Si vous avez besoin de quelque chose de très sophistiqué, vous pouvez utiliser Markov Chains.