タイトルで述べたように、私は単純に、Twitter ファイアホース (またはその一部) を取り込むために使用できるアルゴリズムまたはソリューションを探しています。
a) 一般的な質問を特定する b) 質問について、ある程度の自信を持って、同じ可能性のある質問を特定する
ありがとう!
タイトルで述べたように、私は単純に、Twitter ファイアホース (またはその一部) を取り込むために使用できるアルゴリズムまたはソリューションを探しています。
a) 一般的な質問を特定する b) 質問について、ある程度の自信を持って、同じ可能性のある質問を特定する
ありがとう!
(ア)
機械学習とBag of Words モデルを使用して質問を特定しようとします。
(ロ)
この問題は、情報検索の世界では「重複検出」または「ほぼ重複検出」と呼ばれています。
Markovitch と Gabrilovich の素晴らしい記事Wikipedia-based Semantic Interpretation for Natural Language Processing
で説明されているように、意味解釈を使用して、互いに非常によく似た質問を少なくとも見つけることができます。少なくとも、2 つの質問が同じ問題について話し合っているかどうかを特定するのに役立ちます (同一ではありませんが)。
アイデアは次のようになります。
t
の場合、エントリは、用語 と同時に出現した用語vector_t[i]
の tf-idf スコアです。アイデアは記事で詳しく説明されています。最初の 3 ~ 4 ページを読むだけで十分に理解できます。全部読む必要はありません。2i
t
編集:
よく考えてみると、BoW モデルは用語の位置を無視しているため、ここでは適切ではありません。ただし、特徴を抽出するためのNLP処理を追加すると(たとえば、用語ごとに前主語か事後主語も示し、これは NLP 処理を使用して決定されました)、機械学習と組み合わせるとかなり良い結果が得られると思います。結果。
(1) 分類子の評価には、クロス検証を使用して、期待される精度を確認できます。
(2) Evgeny Gabrilovich が、彼らが作成した実装済みアルゴリズムをオープン ソース プロジェクトとして公開したことを知っています。それを探す必要があるだけです。