6

検索語のリストに「入力」するためのアルゴリズム (自然言語処理技術に依存すると想定しています) を作成しようとしています。私が知らないこの種の名前があるかもしれません。この種の問題は何と呼ばれ、どのようなアルゴリズムで次のような動作が得られるでしょうか?

入力:

    docs = [
    "I bought a ticket to the Dolphin Watching cruise",
    "I enjoyed the Dolphin Watching tour",
    "The Miami Dolphins lost again!",
    "It was good going to that Miami Dolphins game"
    ], 
    search_term = "Dolphin"

出力:

["Dolphin Watching", "Miami Dolphins"]

基本的に、「Dolphin」が表示される場合は、事実上、バイグラム「Dolphin Watching」または「Miami Dolphins」のいずれかにあることを理解する必要があります。Python でのソリューションが推奨されます。

4

2 に答える 2

7

基本的に、「Dolphin」が表示される場合は、事実上、バイグラム「Dolphin Watching」または「Miami Dolphins」のいずれかにあることを理解する必要があります。

Dolphinが出現するコロケーションを特定したいようですね。コロケーションの検索にはさまざまな方法がありますが、最も一般的な方法は、コーパス内の用語間の点ごとの相互情報量(PMI) を計算し、PMI が最も高い用語を選択することです。イルカ。前に提案した感情分析アルゴリズムの PMI を覚えているかもしれません。

さまざまなコロケーション検索メソッドの Python 実装が として NLTK に含まれていnltk.collocationsます。この分野は、Manning と Schütze のFSNLP (1999 年ですが、このトピックに関しては現在も最新です) である程度詳しく説明されています。

于 2011-09-30T09:28:39.603 に答える
0

私は大学の NLP クラスで自然言語ツールキットを使用し、かなりの成功を収めました。どれが名詞であるかを判断し、それをツリーに解析するのに役立つタガーがいくつかあると思います。あまり覚えていませんが、そこから始めます。

于 2011-09-29T23:49:28.740 に答える