2008-12-04 26 views
7

Sur le podcast de Stackoverflow cette semaine, Jeff a mentionné qu'en 2004 il a écrit un script qui interrogeait Google avec 110 000 mots anglais et collectait une base de données contenant le nombre de hits pour chaque mot. Ils l'utilisent sur Stackoverflow, par ex. pour la liste "Related" sur le côté droit de chaque page de question. Comme il est difficile de créer l'un de ceux-ci aujourd'hui avec un script similaire (comme Joel l'a mentionné, "à 30 000 mots on vous frappe à la porte"), je me demandais si quelqu'un connaissait une version plus à jour , base de données gratuite des fréquences des mots de Google (par exemple pour les mots informatiques qui ont sûrement changé depuis lors comme jquery, ruby, azur, etc.).Base de données gratuite des fréquences de mots de Google?

+0

Un lien vers le podcast pertinent serait intéressant à avoir. – hippietrail

Répondre

4

Une recherche rapide sur Google (!) Permet d'obtenir quelques résultats. Ce link semble prometteur:

Mais il ne vise pas les mots informatiques.

0

Vous pouvez diviser une liste entre vos amis/collègues et utiliser des délais d'attente suffisamment longs pour ne pas dépasser 50 000 demandes par jour et par IP, puis fusionner les résultats. Je ne suis pas sûr de la légalité de cette approche, mais la probabilité d'avoir des gens de Google "frapper à votre porte" en utilisant cette méthode est assez faible.

NOTE: modifiée selon les données fournies par Skuta

1

Selon Google, vous pouvez envoyer 50.000 requêtes par jour et par une adresse IP. Je ne pense pas vraiment qu'il est illégal de le diviser entre vos amis ..

J'ai eu le même problème avec des requêtes par jour par IP mais nous l'avons résolu par une approche totalement différente.

+0

cela vous dérange-t-il de partager cette approche «différente»? –

2

Il est peut-être tard pour répondre à cette question mais je peux vous proposer différemment. Au lieu d'obtenir le "nombre de résultats" de Google pour en calculer une approximation par vous-même. Obtenez une grande collection de pages de texte (Corpus) et comptez le nombre de chaque mot dedans. Je l'ai fait avec Wikipedia. Il y a un vidage de toutes les pages wiki. Vous avez juste besoin d'écrire un analyseur pour extraire le texte et compter les mots. Le résultat est une liste de plus de 110K mots (au moins 2M-3M). Si vous avez vraiment besoin de chiffres dans les résultats de recherche Google, vous pouvez obtenir un échantillon de mots et interroger Google, puis effectuer une normalisation des valeurs calculées pour qu'elles correspondent aux valeurs de Google. J'espère que cela aide.