ソーシャルメディアサイトで認証したユーザーがいます。ここで、最後のX(たとえば200)の投稿に基づいて、そのコンテンツがキーワードの有限リストとどの程度一致するかをマッピングしたいと思います。
関連する単語/概念をキャプチャするためにこれを行うための最良の方法は何ですか(多分それは難しすぎるかもしれません)、または私のツイート履歴が「セイウチ」または「バナナ」にどれだけマップされているかというスコアを取得するだけですか?
ナイーブベイズはここで「一致」と「一致なし」に分けるために機能しますか?
この場合、単純なベイが機能します。これは、電子メールがスパムであるかどうかを検出するために非常によく使用されるため、単純なキーワード一致の場合はかなりうまく機能するはずです。
この問題については、ユーザー(または投稿)に最も推奨されるキーワードを探す推奨システムを適用することもできます。
これを行うにはたくさんの方法があります。集合知プログラミングを読むことをお勧めします。Pythonを使用して説明されていますが、rubyを知っているので、コードを理解するのに問題はないはずです。
Pythonでは、NLTKで簡単に実行できます。Rubyでは、 lda-rubyと呼ばれるgemが役立つかもしれません。LDAの概念全体は、ここで十分に説明されています。たとえば、サラペイリンの電子メールを見てください。それを行ったアプリの例(完全にRubyではありませんが、それでも)もあります-> github.com/echen/sarah-palin-lda
あるいは、私は愚かなことを言うだけで、それはあなたをまったく助けることができません。私は専門家ではありません;)