問題タブ [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - カスタム データを使用した NLTK 名前付きエンティティの認識
NLTK を使用してテキストから名前付きエンティティを抽出しようとしています。NLTK NER は私の目的に対してあまり正確ではないことがわかったので、独自のタグをいくつか追加したいと考えています。自分の NER をトレーニングする方法を見つけようとしていますが、適切なリソースを見つけることができないようです。NLTK についていくつか質問があります。
- 自分のデータを使用して NLTK で Named Entity Recognizer をトレーニングできますか?
- 自分のデータを使用してトレーニングできる場合、named_entity.py は変更するファイルですか?
- 入力ファイル形式は IOB である必要がありますか。エリック NNP B-PERSON ?
- nltkクックブックとPythonを使用したnlp以外に、使用できるリソースはありますか?
この点で本当に助けていただければ幸いです
python - テキストからウィキペディアのエントリを抽出する
大きなテキストがあり、このテキストを解析して識別したい (たとえば、このテキスト内に存在するウィキペディアのエントリ)。
次のような正規表現を使用することを考えました。
...などですが、これは数百万文字の長さになり、reはそれを受け入れません...
私が考えたもう 1 つの方法は、テキストをトークン化し、トークンごとにウィキペディアのエントリを検索することでしたが、特にテキストが大きすぎる場合、これはあまり効率的ではないように見えます...
Pythonでこれを行う方法はありますか?
java - OpenNLP Namefinder API でのカスタム特徴生成
Named Finder API に OpenNLP のカスタム機能生成を使用しようとしています。
http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html
ドキュメントを読みましたが、さまざまな機能を指定する方法を理解できませんでした。
それはただ言う:
しかし、これらのさまざまな機能ジェネレーターを実際に使用して、独自のカスタム機能を作成するにはどうすればよいでしょうか。これらの機能ジェネレーターを定義するサンプル コードと、それをカスタム機能生成に使用する方法を誰かが投稿できますか? ありがとうございます。
machine-learning - 病名認識
病気を説明するテキスト文書がたくさんあります。ほとんどの場合、これらのドキュメントは非常に短く、多くの場合、1 つの文しか含まれていません。次に例を示します。
原発性肺高血圧症は、最小の肺動脈の広範な閉塞が肺血管抵抗の増加につながり、続いて右心室不全を引き起こす進行性疾患です。
私が必要としているのは、文中のすべての病気の用語 (この場合は「肺高血圧症」など) を見つけて、それらをMeSHのような制御された語彙にマップするツールです。
ご回答ありがとうございます。
java - lingpipe - トークンと名前付きエンティティを単一のリストに抽出する方法
テキストからトークンを抽出する必要があるプロジェクトに取り組んでいます。このトークンには、名前付きエンティティも含まれている必要があります。
たとえば、テキスト:
私の望む出力
LingPipe を使用してトークンを抽出できますが、Exact Dictionary-Based Chunking アプローチを使用して目的の出力を取得する方法がわかりません。それをどのように行うかについてのアイデア/例をいただければ幸いです。
java - GATE: ANNIE で、Pronominal Coreference モジュールを実行した後に名前付きエンティティを抽出する
概要: GATE サイトから、この例があります。http://gate.ac.uk/wiki/jape-repository/coordinated-annotations.html#section-3 .
このルールは、co-reference モジュールの実行後にのみ発生する結果を参照します。相互参照モジュールの後で NE トランスデューサを再度実行せずにエンティティを抽出する方法はありますか?
私の問題: 現在、「オブジェクト」注釈でマークする名詞句を抽出するルールがあります。このルールは、代名詞で終わる句には一致しないため、「it」には一致しません。ただし、ANNIE の Pronominal Coreference モジュールを使用して、"it" のインスタンスを他の "Object" にリンクして、相互参照している可能性があります。
問題は、私の「オブジェクト」注釈が「それ」のインスタンスと一致しないため、「オブジェクト」注釈を使用する他のルールが、名詞句が単語「それ」であるが実際には参照している文と一致しないことです。別の「オブジェクト」。したがって、実際には、私のルールはこの文と一致するはずです。
Pronominal Coreference モジュールの後に NE 変換器を再度実行すれば、これは解決されますが、もちろん、これは高価で冗長になります。
これを行うより良い方法はありますか?明らかなことは、「それ」のインスタンスに一致するようにルールを変更することですが、より良い方法があれば、それを試してみたいと思います.
perl - Perlのテキストブロックから人のフルネームを抽出しますか?
Perl を使用して、テキスト ブロックから名前 (珍しい名前を含む) を抽出する必要があります。名前を抽出するためにこのモジュールを調べましたが、1990 年までさかのぼって米国で人気のある名前と姓のトップ 1000 しかありません。もう少し包括的なものが必要です。
社会保障指数を使用して比較用のデータベースを作成することを検討しましたが、これは非常に面倒で処理が集中するようです。別の方法を使用して Perl から名前を取得する方法はありますか?
解析するテキストの例:
LADNIER
Louis Anthony Ladnier、[Louie] 48 歳、アラバマ州モービル出身、2012 年 11 月 16 日金曜日、自宅で死亡。Louie は
1964 年 1 月 9 日、アラバマ州モービルで生まれました。彼はジョン・E・ラドニエ・シニアとグロリア・ボザージ・ラドニエの息子でした。彼はマギルトゥーレン高校を卒業し、南アラバマ大学に通いました。彼は退職するまで、バイユー・ラ・バトル警察署の通信監督者として雇用されていました。
彼は父親のジョンに先立って死にました。母親のグロリア、甥のドミニク・ラドニエとクリスチャン・ルビオが生き残り、彼が愛し、自分の息子、姉妹のマージュ・ラドニエとモーガン・ゴーディ [ジュリアン]、兄弟のエディ・ラドニエ [シンディ]、甥のジェイミーとして育てました。ジョーイ、エディ、ウィル、ベン、そして姪たち、アンナとエリザベス。
追悼式は、水曜日の午後 1 時にモービルの聖ドミニコ教会で行われます。
セレニティ葬儀場が手配を担当しています。
花の代わりに、記念品を St. Dominic School, 4160 Burma Road Mobile, AL 36693, Education Fund for Christian Rubio and McGill-Toolen High School, 1501 Old Shell Road Mobile, AL 36604, Education Fund for Dominic Ladnier に送ることができます。
家族は、この期間中のすべての祈りと支援に感謝しています. ルイはロックであり、私たち全員にとって喜びでした.
nlp - エンティティ抽出ライブラリ
テキスト分析を行い、エンティティを抽出するライブラリを探しています。
エンティティのタイプ/分類は重要ではありません。重要なのは価値のあるものの識別です。この場合のエンティティユニバースは無限であり、固定辞書に制限されていません。
それを行うWebサービスがいくつかあるようです(NERDではこれらのWebサービスの結果を比較できます:http://nerd.eurecom.fr/documentationこれは非常に便利です)が、私はローカルを探していますライブラリであり、リモートでホストされるサービスではありません。私はJavaまたは.NETを好みますが、それが優れたライブラリである場合は、それが記述されている言語をすべて学習します。
同様のトピックに関する古いスレッドはほとんどなく、この分野での新しい開発や、低レベルのNLPライブラリの上に構築されたライブラリを見つけることを望んでいました。
- LuceneIndexのフィード中の無料ツールによるエンティティの抽出/認識
- Luceneエンティティの抽出
- Luceneでエンティティ抽出を行うにはどうすればよいですか
- https://stackoverflow.com/questions/tagged/named-entity-extraction
- https://stackoverflow.com/questions/tagged/named-entity-recognition
まともな仕事をする良い図書館について誰か知っていますか?
nlp - Stanford NamedEntityRecognizerの複数用語の名前付きエンティティ
Stanford Named Entity Recognizer http://nlp.stanford.edu/software/CRF-NER.shtmlを使用していますが、正常に機能しています。これは
しかし、私が見つけた問題は、名前と名前を識別することです。レコグナイザーが「JoeSmith」に遭遇した場合、「Joe」と「Smith」を別々に返します。「ジョー・スミス」を一言で返して欲しいです。
これは、おそらく構成を介してレコグナイザーを介して達成できますか?これまで、javadocには何も見つかりませんでした。
ありがとう!
stanford-nlp - フレーズを構成する特定の名前付きエンティティ トークンのセットを取得することは可能ですか?
スタンフォード CoreNLP パーサーを使用してテキストを実行していますが、「10 月の第 2 月曜日」や「過去 1 年」などの日付フレーズがあります。ライブラリは各トークンを DATE という名前のエンティティとして適切にタグ付けしますが、この日付フレーズ全体をプログラムで取得する方法はありますか? 日付だけではなく、ORGANIZATION という名前のエンティティも同じことを行います (たとえば、「国際オリンピック委員会」は、特定のテキストの例で識別される可能性があります)。
スタンフォード アノテーターと分類子の読み込み後、次の出力が生成されます。
ライブラリはフレーズを認識し、それらを名前付きエンティティのタグ付けに使用する必要があるように感じます。そのため、問題は、データが保持され、API を介して何らかの方法で利用できるかということですか?
ありがとう、ケビン