0

テキスト(特にTwitterメッセージ)をふるいにかけて、特定のトピックに関連しているかどうかを確認したいと思います。あなたはその道を進んだことがありますか?もしそうなら、私はあなたがどのようなアプローチを使用するか聞いてみたいです。

私の場合、トピックのキーワードを検索するだけで、約7%の確率で有用なテキストが得られます。キーワードには複数の意味があり、そのうちのいくつかはトピックに含まれていません。私の使用では、自動フィルタリングは完璧である必要はありません。抽出されたメッセージが80%の確率でトピックに関連していれば幸いです。また、トピックに関するメッセージの10〜30%を失っても構わないと思っています。

手作業で最初のパスを実行すると、特定の英語のフレーズのように、メッセージがかなり良いものになる可能性が高いいくつかの特性があります。URL、複数のハッシュタグ、その他のフレーズなど、その他の特性は拒否される可能性が高くなります。他のものは評価するのが難しいです。

たくさんの正規表現と関連するウェイトを手動で作成し、気に入った出力が得られるまで手作業で微調整することができました。それはうまくいく可能性があります。しかし、他のいくつかの可能なアプローチを挙げられます。そして、StackOverflowリーダーが幸運に恵まれたアプローチはどれか疑問に思います。

ありがとう!

4

1 に答える 1

1

これはそれ自体がフィールド全体です。自然言語処理の文献で調査することをお勧めします。

それを行うためのアドホックな方法がありますが、これらの方法は非常にエラーが発生しやすくなります。多くの誤検知と誤検知です。しかし、それは良いスタートかもしれません。

  1. キーワードを使用する場合は、問題のキーワードの前後の単語を使用して、キーワードの意味を明確にすることができます(複数の意味がある場合)。ただし、この曖昧性解消を行うには、処理されたコーパス(一連のドキュメント)で、どの単語が最も頻繁に一緒に表示されるかを判別できる必要があり、同じことを意味する場合があります。

  2. 分析しているテキストと類似していることがわかっているドキュメントとの間の距離を測定できます。両方のテキストソースからの単語数を使用してから、用語/ドキュメントベクトルを比較する必要があります。より徹底的な処理については、「ドキュメントベクトルモデル」を検索してください。

これは取り組むのに良いプロジェクトですが、単純ではありません。

于 2009-07-24T23:24:22.083 に答える