2008-12-27 9 views
13

Je ne trouve rien d'autre que des applications Web à source fermée. Y a-t-il des projets actifs? Je serais intéressé à utiliser le logiciel dans quelque chose que je développe et m'implique.Existe-t-il un logiciel open source qui analyse une chaîne et devine le genre de l'auteur?

+0

Je pense que la plupart des gens ont mal compris votre question. Vous voulez savoir, donné un corps de texte, si John ou Jane l'a écrit. Pas si John est un garçon ou une fille. Clarification pourrait être dans l'ordre. – biozinc

+1

+1 pour une question fascinante que je n'ai jamais pensé à –

Répondre

0

Vous allez rencontrer un problème: Les suppositions seront justes - devineront. Il n'y a pas de moyen, même à distance, de dire le genre d'un auteur strictement à partir de son écriture, le plus que vous obtiendrez est une mauvaise estimation.

+0

C'est bien. Je comprends que vous ne pouvez pas être entièrement précis, et une telle fonctionnalité ne pourrait être que pour le divertissement. – rmh

0

Hey, cela pourrait probablement être fait. Vous auriez besoin de prendre un tas de livres d'auteurs masculins et féminins, de sortir des phrases, de les mélanger et de les nourrir à une sorte de réseau de neurones pour la formation. Pour être honnête, je serais intéressé de voir si quelqu'un l'enlève. Oh, et je suis juste curieux pourquoi on aurait besoin d'un tel programme :)

+0

Une raison: analyser les blogs à des fins de marketing. – stalepretzel

+0

Une autre raison: deviner la démographie de vos utilisateurs. Vous pourriez probablement deviner, avec un bon programme, le genre, l'âge et la région géographique d'un utilisateur, seulement en regardant des échantillons d'écriture. – stalepretzel

+0

Si vous voulez les données démographiques de vos utilisateurs, il suffit de demander! S'ils se soucient suffisamment d'écrire du contenu (messages, commentaires, etc.) pour lequel ils doivent être connectés, il suffit d'obtenir cette information lors de l'inscription. –

1

Il y a des applications comme « Le genre Genie » qui fonctionnent avec un degré raisonnable de succès: http://bookblog.net/gender/genie.php (et en particulier avec des textes plus longs)

Il n'a pas besoin d'être entièrement réussi. J'aurais d'énormes quantités de données à traiter, et c'est surtout juste pour m'amuser.

Si quelqu'un sait quoi que ce soit, n'hésitez pas à partager.

Richard

+1

hmm, genre genie semble classer systématiquement les textes écrits par moi en tant que femme: -/ –

0

Il y a une section à ce sujet dans le livre de Stephen Baker, Le Numerati. Il existe des entreprises qui se consacrent à l'analyse informatique de la blogosphère à des fins de marketing, et une partie de leurs algorithmes traitent de décider si l'auteur est un homme ou une femme. Je suggère de lire ceci.

Je ne crois pas qu'un tel travail soit open source, mais vous pourriez être capable de construire vous-même une version compressée. Cependant, à court d'analyser beaucoup de données afin de programmer cela, je ne pense pas que ce soit très précis.

0

Il existe quelques implémentations open source d'indexation/analyse sémantique latente. Si vous avez un bon ensemble d'écritures masculines et féminines en rapport avec votre candidature, vous pourrez peut-être classer avec suffisamment de précision pour être utile.

1

Puisque vous assumez deux catégories, presque n'importe quel classificateur fera probablement bien. Quelques suggestions:

  • Naive Bayes
  • machines à vecteurs de support

Comme un commentateur dit plus tôt, à partir d'un échantillon connu de texte (et il devrait y avoir beaucoup ... corpus de journaux pourrait être bon), former et classer, sur certains attributs raisonnables (peut-être présence/absence ou mots ou paires de mots).

Celui-ci devrait être (comparativement) facile.

Si vous utilisez python, même quelque chose d'aussi simple que le Natural Language Toolkit (cf: nltk.org) et son livre devraient vous y aider.

2

Voici un autre site Web qui prétend le faire: GenderAnalyzer. Cependant, il s'appuie sur un autre site Web appelé uClassify.com qui est en baisse que j'écris ceci. Ils ont un lien de contact en bas pour les questions.Cela ressemble à une tenue universitaire: «Dans notre laboratoire, cela semble fonctionner plutôt bien».

+3

Tout le monde peut prétendre à un «laboratoire». Tout ce que cela signifie est un ordinateur sur lequel tester. – Tim

+0

@Tim: Cela semble académique bien. Je pourrais essayer de les contacter. – rmh

+0

Je les ai essayés. Ils ont dit que ma page avait probablement été écrite par un homme, ce qui est correct. Ils avaient des boutons à cliquer pour la bonne ou la mauvaise supposition, et les résultats étaient sur le niveau du hasard. Soit ils ne font pas bien ou les gens cliquent malhonnêtement (ou les deux). –

2

Il existe tout un ensemble d'analyseurs à deux classes qui peuvent être adaptés ici ... logiciel anti-spam et d'identification. Il faut encore que l'utilisateur reçoive du texte écrit par des hommes (traité comme du spam) et du texte féminin (traité comme du jambon, ou l'inverse), mais beaucoup devraient fonctionner.

0

nlpers blogué sur ce il y a quelques années; voir les commentaires là pour quelques suggestions ...