2010-10-20 17 views
0

J'ai été chargé d'implémenter un filtre blasphématoire basé sur la liste noire pour une application Rails. Je sais qu'il y a une tonne de problèmes avec le filtrage basé sur la liste noire, mais la décision a été prise au-dessus de ma tête. Défi: Je suis à la recherche d'une bonne liste de blasphèmes espagnols pour se retrouver dans le filtre. Pour l'anglais, nous construisons une liste exhaustive de conjugaisons/pluriels/etc, une par ligne d'un fichier texte. Une telle liste existe-t-elle dans le domaine public pour l'espagnol?Liste noire de blasphème espagnol

Répondre

1

Trouver de bonnes listes et les avoir accordées est difficile. Il semble également que vous faites beaucoup de travail manuel qui peut être automatisé (c'est-à-dire conjugaison). J'ai fait beaucoup de ceci pour profanity filter named CleanSpeak de mon entreprise et une grande partie de ceci peut être automatisée en utilisant des identifiants de point de vente pour des mots et dans beaucoup de cas vous pouvez manuellement faire le marquage de position ou trouver une source de point de vente.

Vous devez également tenir compte de la qualité des listes, de la mise à jour et de la gestion d'un filtre. Beaucoup de gens pensent que c'est simple et réalisent ensuite qu'il est extrêmement difficile d'empêcher les faux positifs. Cela dit, nous avons trouvé que la majorité de nos listes pour d'autres langues étaient difficiles à trouver en ligne et finissaient par payer pour que beaucoup d'entre elles soient construites ou achetées auprès d'autres entreprises. Les listes que nous avons trouvées en ligne ont fini par être presque sans valeur une fois que nous les avions traduites. Nous avons également tenté de supprimer la liste noire et de la faire traduire, ce qui a été un échec total car la plupart des profanations anglaises n'ont pas d'équivalent dans d'autres langues. Je suggère d'acheter des listes ou de travailler avec des étudiants de votre université locale pour générer des listes. Un certain nombre de nos clients ont trouvé cette méthode relativement bonne et pas trop chère.

Je vous suggère également de jeter un coup d'œil à certaines des ressources qui définissent les meilleurs moyens de gérer le contenu généré par l'utilisateur. Ceux-ci vous guideront dans toutes les décisions de construction et d'achat.

+1

POS = Point de vente? – Zabba

+0

POS = partie de la parole. Merci pour les commentaires, Brian; beaucoup de matière à réflexion ici. – Alterscape