2

実験を行う必要があり、NLP の初心者です。理論的な問題を説明している本を読んだことがありますが、実際的なことになると、ガイドを見つけるのが難しいことがわかりました. NLP について何か知っている人、特に実用的な問題について教えてください。道に迷っていると感じているので、正しい道を示してくれます (役立つ本、便利なツール、便利な Web サイト)。

私がやろうとしているのは、テキストを取得して、犬、猫などの動物などの特定の単語を見つけて、この単語と両側の 2 つの単語を抽出する必要があることです。例えば

I was watching TV with my lovely cat last night.

抽出されたテキストは

(my lovely cat last night)

これは、工作機械に対する私のトレーニング例になります

Q1: 上で説明したのと同様の約 100 のトレーニング例があります。tocknizer を使用して単語を抽出しましたが、両側に 2 つの単語がある特定の単語 (この例ではすべての種類の動物) を抽出するにはどうすればよいですか。たとえば、タグを使用する必要がありますか、それともあなたの考えは何ですか?

Q2: これらのトレーニング例がある場合、それを工作機械に与えてトレーニングできる適切なデータセットをどのように準備すればよいですか? 動物を特定するには、このデータセットに何を記述すればよいですか? また、他の特徴を与える必要がありますか? どうすればそれをデータセットに配置できますか。

あなたからの多くの言葉は私を大いに助けるかもしれません。あなたが知っていることを遠慮なく教えてください

4

2 に答える 2

0

あなたがやろうとしていることは、「オントロジー取得」または「自動オントロジー」として知られることもあり、かなり難しい問題です。ほとんどのアプローチは、「似ている単語は似たような文脈で使用される傾向がある」という結論に至ります。これに関する問題は、あなたのようなデータから意味的に意味のある関係を正常に抽出するアルゴリズムがある一方で、「シード タームと統計的に共通の分布を共有するタームがたくさんある」から「シード タームは動物の名前である」に移行することです。 、ここに他の動物の名前があります」は挑戦的です. たとえば、猫、犬、ヘビ、鳥のトレーニングでは、「哺乳類、ダックスフンド、クリーチャー、二足歩行」が同様のコンテキストで使用されるなどの結果が得られる可能性がありますが、要件によっては、必要なものとはまったく異なる場合があります。

以下は、あなたがやろうとしていることを正確に実装した研究論文へのリンクです。彼らは、データ表現と使用されるアルゴリズムへのアプローチを説明し、動物の名前の問題で少なくともある程度の成功を収めています。さらに、彼らの参照を追跡することは、実りある練習になるかもしれません..

http://www.cl.cam.ac.uk/~ah433/cluk.pdf

于 2011-03-15T03:05:53.973 に答える
-1

数年前に NLP の仕事を始めたときは独学のエンジニアだったので、あなたのフラストレーションは完全に理解できます。応用 NLP の素晴らしい入門書である NLTK の本を読むことをお勧めします。特に、生のテキスト データを処理して情報を抽出し、それをタグ付けに使用する方法を扱っている第 3 章から第 7 章を​​お読みください。この本はオンラインで入手できます

あなたの特定の質問に関して:

動物の小さなリストを作成し、コーパスからこれらの動物の名前を含む文を抽出する方がはるかに簡単だと思います。ウィキペディアの文章は、わかりやすい例の 1 つです。各文の動物の名前は既にわかっているため、この方法を使用してコーパスを構築できます。

// PSEUDO CODE
Dictionary animals = ["dog","dogs,"cat","cats","pig","pigs","cow","cows","lion","lions","lioness","lionesses"];
String[] sentences = getWikipediaSentences();
for(sent: sentences){
  for(token: Tokenizer.getTokens(sent)){
    if(animals.contains(token){
    addSentenceToCorpus(sent)
    } // else ignore sentence
  }
}

次に、これらの文でアルゴリズムをトレーニングして、トレーニング済みのモデルを使用して新しい動物の名前を抽出できるようにします。「トレーニングデータ」は人為的に収集されるため、このアプローチには注意点がありますが、それでも最初の経験としては十分です。

于 2011-03-31T20:34:11.657 に答える