問題タブ [named-entity-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
3782 参照

nlp - 固有表現認識のデータと特徴

条件付きランダム フィールドを使用して Named Entity Recognizer を構築しており、次の 2 つのことを探しています。

A) 個人、場所、および組織エンティティのオープン ソースの英語 NER データセット

B) 英語の NER 機能のリスト

私はすでに CoNLL-2003 コーパスを調べましたが、これがまさに私が望んでいたものであることがわかりましたが、すぐには入手できません。NER 機能のリストを見つけることができませんでした。これらの機能を手作業で設計する必要がないようにしています。

ありがとう

0 投票する
1 に答える
4649 参照

opennlp - openNLPを使用した名前付きエンティティの認識(デフォルトモデル)

openNLP NameFinderモジュールで使用されているアルゴリズムを誰かが指摘できますか?コードは複雑で、文書化がまばらで、ブラックボックスとして(デフォルトのモデルが提供されている場合)遊んでいるだけで、ほとんどヒューリスティックであるという印象を与えます。入力と出力の例を次に示します。

入力:

ジョン・スミスはイライラしています。

ジョン・スミスはイライラしています。

バラク・オバマはイライラしています。

ウゴチャベスはイライラしています。(もういや)

ジェフ・アトウッドはイライラしています。

Bing Liuは、openNLPNERモジュールに不満を感じています。

ノーム・チョムスキーは世界に不満を持っています。

ジェイデン・スミスはイライラしています。

スミスジェイデンはイライラしています。

レディー・ガガはイライラしています。

ガガさんはイライラしています。

ガガ夫人はイライラしています。

ジェイデンはイライラしています。

劉さんはイライラしています。

出力(ひし形を角かっこに変更しました):

[START:person]ジョンスミス[END]はイライラしています。

ジョン・スミスはイライラしています。

[START:person]バラクオバマ[END]はイライラしています。

ウゴチャベスはイライラしています。(もういや)

[START:person] JeffAtwood[END]はイライラしています。

Bing Liuは、openNLPNERモジュールに不満を感じています。

[START:person]ノーム・チョムスキー[END]は世界に不満を持っています。

ジェイデン[START:person]スミス[END]はイライラしています。

[START:person]スミス[END] [START:person]ジェイデン[END]はイライラしています。

レディー・ガガはイライラしています。

ガガさんはイライラしています。

ガガ夫人はイライラしています。

ジェイデンはイライラしています。

劉さんはイライラしています。

モデルは、トレーニングデータで注釈が付けられた名前の固定リストを学習し、いくつかのタイリングと組み合わせを許可しているようです。2つの注目すべき(FN)例は次のとおりです。

  1. Mr.やMrs.などの強い名前の指標は無視されます。
  2. ジェイデン(2011年に米国で最も人気のある4番目の名前)は特定されませんでしたが、次の「スミス」(「ジェイデンスミス...」)が特定されました。モデルは、文の先頭にある大文字のジェイデンが、NEであるためではなく、文の先頭が原因であると「考えている」と思います。「SmithJayden」という順序をヒントとして逆にすると(1と仮定)、openNLPは、「John Smith」などの他のフルネームとは異なり、2つの特徴的なNEとして識別し、「Smith」が姓のリストに含まれていることを示唆している可能性があります。 。

->私は戸惑い、イライラしています。誰かが私にアルゴリズムを教えてくれる(またはそれがうまくいかないことを確認する)ことができれば、私は感謝するでしょう。

psスタンフォードシステムとUIUCNERシステムはどちらも、興味深いがトピックから外れた微妙な違いがあり、パフォーマンスがはるかに優れています(この質問は長すぎます)

0 投票する
1 に答える
6614 参照

c#-4.0 - Castle.Windsor での名前付きインスタンスの登録と解決

クラス ctor に注入された適切なインスタンスを取得できないようです。これが私がやろうとしていることです:

誰でも問題を見つけることができますか?

0 投票する
1 に答える
2088 参照

opennlp - 英語以外の言語の OpenNLP をトレーニングするには?

OpenNLP API を使用して、キリル文字で書かれたスラブ言語など、英語以外の言語の OpenNLP をトレーニングすることは可能ですか?

0 投票する
3 に答える
16061 参照

nlp - スタンフォードNLPを使用したn-gramNERのトレーニング

最近、StanfordCoreNLPを使用してn-gramエンティティをトレーニングしようとしています。私は次のチュートリアルに従いました-http://nlp.stanford.edu/software/crf-faq.shtml#b

これにより、ユニグラムトークンとそれが属するクラスのみを指定できます。n-gramに拡張できるように、誰かが私を案内してくれますか。チャットデータセットから映画名などの既知のエンティティを抽出しようとしています。

スタンフォードチュートリアルを誤って解釈した場合に備えて、ガイドしてください。同じことがn-gramトレーニングにも使用できます。

私がこだわっているのは次のプロパティです

ここで、最初の列は単語(unigram)で、2番目の列はエンティティです。

ハルクタイタニックなどの既知のエンティティ(映画名など)を映画としてトレーニングする必要があるので、このアプローチを使用すると簡単になります。しかし、私がトレーニングする必要がある場合、私はあなたが去年の夏または赤ちゃんの日の外出で何をしたかを知っています、最良のアプローチは何ですか?

0 投票する
1 に答える
8727 参照

python-2.7 - スタンフォード NER (名前付きエンティティ認識) の python インターフェイスを使用するにはどうすればよいですか?

python で pyner ライブラリを使って Stanford NER を使いたいです。以下は、基本的なコード スニペットの 1 つです。

これをローカルのpythonコンソール(IDLE)で実行すると。このような出力が得られるはずでした

しかし、これを実行すると、空の括弧が表示されました。私は実際にこれらすべてに慣れていません。

0 投票する
2 に答える
1792 参照

java - スタンフォードの名前付きエンティティ認識エンジンを使用する場合、複数の分類子を含めるにはどうすればよいですか?

次のコマンドを実行してNERサーバーを起動します

ここでは、私が手動で作成した classifier(ner-model.ser.gz) を使用しました。english.muc.7class.distsim.crf.ser.gz私が作成したものと一緒にデフォルトの分類子(彼らによって与えられたもの)を使用したい

次のコマンドを試しました

しかし、うまくいきませんでした。私はこれが初めてなので、助けてください。

0 投票する
1 に答える
2515 参照

nlp - 名前付き実体認識で同義語を解決するにはどうすればよいですか?

自然言語処理では、名前付きエンティティの認識は、組織、場所、そして最も重要な名前などの名前付きエンティティを認識するという課題です。

これには大きな課題がありますが、私はそれを同義語と呼んでいます。伯爵ドラキュラは実際には同じ人物を指していますが、これがテキストで直接議論されることは決してない可能性があります.

これらの同義語を解決するための最適なアルゴリズムは何でしょうか?


Python ベースのライブラリにこれに関する機能がある場合は、教育を受けたいと思っています。私はNLTKを使用しています。

0 投票する
1 に答える
66 参照

wikipedia - Google ナレッジ グラフに似たデータを取得する最良の方法はどれですか

主に固有表現認識のために、GKG に似たデータが必要です。基本的に、エンティティ認識のためにエンティティの背後にあるコンテキスト(追加情報)を使用したいと考えています。推奨されるデータの使用方法は何ですか?

DBPedia で必要なものが提供されていることがわかりましたが、データが不完全だと感じました。「Larry_Page」のような一部のエンティティについては、3.8 バージョンの instance_types ダンプで、コンテンツは次のようになります。

したがって、「Larry_Page」の場合、情報は「Person」タイプまで制限されます。エンティティとそのタイプの完全な階層を取得する方法はありますか?