2
The Foo Fighters performed at... 
(The Foo) (Foo Fighters) (Fighters performed) (performed at)...

多くの文から連結された2グラムのリストがあります。リスト全体から2語と3語のフレーズ( The Foo Fighters、 )を抽出したいと思います。しかし、私は長いフレーズBill Gatesを拒否したい()。to cancel this newsletter, please click...

編集:つまり、名詞などのエンティティである可能性が高いフレーズを抽出したいと思います。

これに対する良いアプローチは何ですか?


私が思いついた最も簡単なアプローチは、2語のフレーズとフィルタリングストップワードのみを検討することです。しかし、それは取り入れませんThe Foo Fighters。また、一般的すぎるフレーズを降格するためにTF-IDFについて簡単に検討しました。

4

1 に答える 1

1

ユニ用。プロジェクト 私はあなたが説明していることと非常によく似たことをしなければなりませんでした。

次のアプローチを試しました。

  1. 各 2 グラムの idf 値を取得します (Bing Developer API を使用しました。正確ではありませんが、フレーズが 10 ヒットか 10,000,000 ヒットかを評価できます)。もちろん、正規化を行う必要があります (非常に一般的な単語で構成された 2 グラムに多くのヒットがあったとしても、何の価値もありません)。
  2. ウィキペディア - ウィキペディアでフレーズを検索してみました (そのフレーズに関する記事、またはそのフレーズがその部分文字列である記事があるかどうかを検索します)、一致するフレーズを取得しました
  3. Ran El-Yaniv が記事でCo-Occuring Rankingとして説明している、別の高度なケース固有のアルゴリズム。

上記の 3 から、ウィキペディア ベースのアルゴリズムは、大幅な差をつけて最高のパフォーマンスを達成しました (p_value < 0.05 で、正確な値は覚えていません)。


正確な方法は次のとおりです。

  • 各アルゴリズム (スコアラーとして示される) は、各 2 グラムにスコアを与えました。
  • 次に、「最適な」2 グラムを選択する 2 番目のアルゴリズム (フィルター) を実行しました。単純なパーセンテージ アルゴリズム (例: 「上位 7% を取得する」)、固定スコア (例: 「0.5 以上」)、およびスコアの大きなマージンを探す動的アルゴリズムを試し、それを使用して摂取する2グラムの数を決定します。

ウィキペディア ランカー (固定および動的スコアリング) については、他のものについては、動的が私たちが試した中で最高でした。

于 2012-09-20T05:59:53.250 に答える