テキスト(特にTwitterメッセージ)をふるいにかけて、特定のトピックに関連しているかどうかを確認したいと思います。あなたはその道を進んだことがありますか?もしそうなら、私はあなたがどのようなアプローチを使用するか聞いてみたいです。
私の場合、トピックのキーワードを検索するだけで、約7%の確率で有用なテキストが得られます。キーワードには複数の意味があり、そのうちのいくつかはトピックに含まれていません。私の使用では、自動フィルタリングは完璧である必要はありません。抽出されたメッセージが80%の確率でトピックに関連していれば幸いです。また、トピックに関するメッセージの10〜30%を失っても構わないと思っています。
手作業で最初のパスを実行すると、特定の英語のフレーズのように、メッセージがかなり良いものになる可能性が高いいくつかの特性があります。URL、複数のハッシュタグ、その他のフレーズなど、その他の特性は拒否される可能性が高くなります。他のものは評価するのが難しいです。
たくさんの正規表現と関連するウェイトを手動で作成し、気に入った出力が得られるまで手作業で微調整することができました。それはうまくいく可能性があります。しかし、他のいくつかの可能なアプローチを挙げられます。そして、StackOverflowリーダーが幸運に恵まれたアプローチはどれか疑問に思います。
ありがとう!