0

Railsアプリにブラックリストベースの冒とく的なフィルターを実装するという任務を負っています。ブラックリストベースのフィルタリングには多くの問題があることは知っていますが、決定は私の頭上で行われました。課題:フィルターにぶつかるスペイン語の冒とく的な表現の良いリストを探しています。英語の場合、活用形/複数形などをテキストファイルの1行に1つずつ網羅的にリストするリストに基づいて作成しています。そのようなリストはスペイン語のパブリックドメインに存在しますか?

4

1 に答える 1

2

良いリストを見つけて調整するのは難しいです。また、自動化できる多くの手作業(つまり活用)を行っているようです。私はCleanSpeakという名前の会社の冒とく的なフィルターに対してこれをたくさん行いました。これの多くは単語のPOS識別子を使用して自動化でき、多くの場合、手動でPOSタグ付けを行うかPOSソースを見つけることができます。

また、リストの品質とフィルターの維持と管理についても考慮する必要があります。多くの人がそれは簡単だと思い、誤検知を防ぐことは非常に難しいことに気づきます。

とはいえ、他の言語のリストの大部分をオンラインで入手するのは困難であり、多くの言語を他の会社から作成または購入するためにお金を払うことになりました。私たちがオンラインで見つけたリストは、翻訳してもらうとほとんど価値がなくなりました。また、ブラックリストを削除して翻訳することも試みましたが、ほとんどの英語の冒とく的な表現には他の言語に相当するものがないため、これは完全な失敗でした。リストを購入するか、地元の大学の学生と協力してリストを作成することをお勧めします。多くのお客様は、この方法が比較的優れており、それほど高価ではないと感じています。

また、ユーザー生成コンテンツを管理するための最良の方法を定義しているリソースのいくつかを見てみることをお勧めします。これらは、ビルドと購入の決定をガイドするのに役立ちます。

于 2010-10-21T16:34:00.347 に答える