3

私と他の人が取り組んでいるエンタープライズアプリケーション研究プロジェクトでは、投稿されたメッセージを普遍的に保つために、ページから特定のコンテンツを削除しようとしています(不快ではなく、本質的に匿名であることを意味します)。今のところ、ユーザーがメッセージボードに投稿したメッセージを受け取り、あらゆる種類の名前、大学または機関の名前、冒とく的な表現を削除します(可能であれば、会社名を削除します)。

メッセージをスクラブしてデータベース内の値をチェックし、これらを認識するために接続できるデータベースはありますか?

4

1 に答える 1

8

この質問は、メッセージの処理中に照会されるオンラインデータベースを暗示しているようです。運用上の問題(このようなサービスの信頼性、応答時間の遅れなど)と完全性の問題(プロジェクトの字句のニーズを100%カバーするデータベースはないため、複数のデータベースにクエリを実行する必要があります)により、このオンライン/リアルタイムのアプローチは実用的ではありません。ただし、ダウンロード可能なデータベースは多数あり、「ホットワード」の独自のローカルデータベースを構築できます。

開始するのに適した場所はWordNetである可能性があります。匿名化/クレンジングするときに、通常はメッセージから削除する必要がある単語として、すべての「インスタンス」単語を使用する可能性があります。(たぶん、「非インスタンス」の単語を別のテーブル/単語のリストに「大丈夫である可能性が高い」ままにしておくこともできます)。このリストだけでも、アプリケーションの「0.9」バージョンを十分にサポートできる可能性があります。

最終的には、この「悪い単語」の字句データベースを拡張して、たとえば、すべての大学の略語(CMU、UCSD、DU、MIT、UNCなど)、スポーツチームの名前(Celtics、Bruins、Bruins、Red Sox)を含めることをお勧めします。 ...)そしてあなたのメッセージのドメインに応じて、公的な人物の追加の名前(WordnetにはGeorgeBushやRobertDe Niroなどがいくつかありますが、あまり有名ではない人々や最近有名になった人々が不足しています:例:BarackObama)

Wordnetを補完するために、2つの異なるタイプのソースが思い浮かびます。

  • 従来のオンラインデータベース
  • オントロジーとフォークソノミー

前者の例は、USPSの「郵便番号による都市/州」です。後者の例は、学者、組織、またはさまざまな個人によって編集されたさまざまな「リスト」です。これらのソースタイプのいずれかの完全なリストを提供することは不可能ですが、以下が役立つはずです。

より単純なケースでは、リストなどをダウンロードするか、「カットアンドペースト」するだけです。オントロジーは、解析する必要のある追加の属性で「妨げられ」ます(将来、これらの属性が実際に必要になり、より伝統的な方法でオントロジーを使用する可能性があります。今のところ、必要なのは字句エンティティを取得することだけです。 )。

この字句データベースのコンパイルタスクは、気が遠くなるように思えるかもしれません。しかし、80-20の法則では、「ホットワード」の20%がメッセージの引用の80%を占めるため、比較的少ない労力で、90%以上をカバーするシステムを作成できるはずです。あなたのユースケースの。

今後の展望:「ホットワード」データベースを超えて自然言語処理(NLP)
のさまざまな手法と概念を使用して、このタスクに取り組む方法はたくさんあります。プロジェクトが高度化するにつれて、これらの概念のいくつかについて学び、場合によってはそれらを実装することをお勧めします。たとえば、単純なPOSタガーが思い浮かびます。これは、アプリケーションが不快な単語を破棄するときに、トークン「SCREW」のさまざまな使用法を[部分的に]区別するのに役立つ場合があるためです。(「取締役会は生徒をねじ込みたい」対「ボードは1ヤードあたり最低4本のねじで固定する必要があります」。

これらの正式なNLP手法が必要になる前に、いくつかのパターンベースのルールを使用して、プロジェクトが対象とするメッセージのタイプに関連するドメインに関連する一般的なケースを処理できます。たとえば、次のことを検討できます。

  • (単語)州立大学
  • 上院議員(Word_Starting_with_Capitalレター)
  • 文字と数字が混在する単語(これらは、名前のつづりを間違えたり、プロジェクトで実装したいフィルターの種類を回避したりするためによく使用されます)

特に最初に役立つ可能性のある別のツールは、メッセージコーパスに関する統計情報(単語の頻度、最も一般的な単語、最も一般的なバイグラム(2つの連続した単語)など)を収集するシステムです。

于 2009-10-08T07:33:53.273 に答える