2010-09-18 24 views
4

J'ai une base de données avec de nombreux CV, y compris des données structurées sur le sexe, l'âge, l'adresse, le nombre d'années de scolarité et de nombreux autres paramètres de chaque personne.Faire des prédictions à partir d'un CV

Pour environ 10% de l'échantillon, j'ai également des données supplémentaires sur une certaine action qu'ils ont faite à un moment donné. Par exemple, que Jane a contracté un prêt immobilier en juillet 1998 ou que John a commencé sa formation de pilote en janvier 2007 et a obtenu sa licence en décembre 2007.

J'ai besoin d'un algorithme qui donnera, pour chacune des actions, le probabilité que cela se produise pour chaque personne dans les incréments de temps futurs. Par exemple, que la chance que Bill prenne un prêt immobilier est de 2% en 2011, de 3,5% en 2012, etc.

Comment devrais-je aborder cette question? Analyse de régression? SVM? Réseau neuronal? Autre chose?

Y a-t-il peut-être même un outil/bibliothèque standard que je peux utiliser avec juste les personnalisations évidentes?

+6

N'essayez pas de le faire vous-même. Embaucher quelqu'un avec une formation statistique décente. –

+2

C'est ce qu'on appelle l'algorithme Crystal Ball. –

+0

Je suppose que c'est aussi largement dépendant du nombre d'enregistrements que vous avez (et de leur représentativité) que vous pouvez réellement déduire des prédictions utiles. – Archimedix

Répondre

1

La probabilité que X se produise étant donné que Y est arrivé est juste en dehors de l'inférence bayésienne, je pense.

+0

Comme j'ai compris la question, il n'y a pas de Y. Il y a seulement question de chance de X arrive. – Marek

+0

Ce n'est pas forcément bayésien, ni fréquentiste. Mais, oui, un modèle stochastique intervient dans ce domaine. :) – Iterator

1

Lou a raison, c'est le cas de 'l'inférence bayésienne'.

Le meilleur outil/bibliothèque pour résoudre ce problème est le langage de programmation statistique R (r-project.org).

Jetez un oeil à la Bibliothèque R bayésien Inference: http://cran.r-project.org/web/views/Bayesian.html

Combien de personnes sont en « 10% de l'échantillon »? Si c'est moins de 100 personnes, je crains que les résultats de l'analyse ne soient pas significatifs. Si c'est 1000 personnes ou plus, les résultats seront plutôt bons (règle empirique).

Je voudrais d'abord exporter les données vers R (r-project) et effectuer un nettoyage des données. Puis trouver une personne familière avec R et les statistiques avancées, il sera en mesure de résoudre cela très rapidement. Ou essayez-vous, mais R prend un certain temps au début.

+0

D'accord: embauchez quelqu'un. Même si l'on n'utilise pas les méthodes bayésiennes et que l'on utilise plutôt le reste des boîtes à outils d'inférence pour R (par exemple, l'apprentissage automatique), il est préférable de savoir ce que vous faites. Il n'y a pas de boule de cristal. – Iterator

1

En ce qui concerne le choix de l'outil/bibliothèque, je vous suggère d'essayer Weka. C'est un outil open source pour expérimenter avec data mining et l'apprentissage automatique. Weka dispose de plusieurs outils pour lire, traiter et filtrer vos données, ainsi que des outils de prédiction et de classification.

Cependant, vous devez avoir une base solide dans les domaines mentionnés ci-dessus afin d'obtenir un résultat utile.