問題タブ [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
location - NLTK を使用した Stanford Named Entity Recognizer (NER) 機能
これは可能ですか: NLTK だけを使用してスタンフォードの Named Entity Recognizer 機能を (同様に) 取得するには?
例はありますか?
特に、テキストの LOCATION 部分の抽出に興味があります。例えばテキストから
会議は、11 月から 18 日に 22 West Westin st., South Carolina, 12345 で開催されます。
理想的には、次のようなものを取得したいと思います
.....
または単に
代わりに、私は得ることができるだけです
テキストを http://nlp.stanford.edu:8080/ner/processに入力すると、完全にはほど遠い結果が得られることに注意してください (番地と郵便番号はまだ欠落しています) が、少なくとも「st」です。はLOCATIONの一部であり、サウスカロライナはLOCATIONであり、一部の「GPE / NNP」ではありません:?
私が間違っていることを教えてください。NLTK を使用してテキストからロケーション ピースを抽出するように修正するにはどうすればよいですか?
よろしくお願いします!
nlp - ビッグデータにスタンフォード テンポラル タガーを使用するのは適切ですか?
テキストから日付エンティティを抽出するプロジェクトのために、Stanford Temporal Tagger を調査しています。http://nlp.stanford.edu:8080/sutime/processのデモは有望なようです。このライブラリが成熟しているかどうかを理解したいと思います。また、このライブラリがビッグデータでどのように機能するかを理解するのを手伝ってくれる人もいます。また、特にビッグ データの要件に対応する、他の Java ベースのテンポラル タガー ライブラリについてもご案内いただければ助かります。一時的なタグ付けを行う apache プロジェクトはありますか?
私はいくつかのライブラリを見つけました
nlp - 死亡記事から死んだ名前のエンティティを抽出する - NLP
いくつかの新聞から抽出された広告の連続した文字列があります。広告は次のような形式で表示されます。ここでの私の仕事は、亡くなった人の名前を抽出することです。
段落全体は 2 つの広告で構成されています。そのような広告が複数ある場合、そのような種類のテキストを段落に分類する方法を誰か教えてもらえますか?
algorithm - 堅牢で非音声的で集中的でないあいまい部分文字列一致
「コカ・コーラ」と「コカ・コーラ」など、2 つの文字列をあいまいに一致させるコードを作成している場合、標準的な方法がいくつかあります。
- レーベンシュタイン編集距離の比較 ( http://en.wikipedia.org/wiki/Levenshtein_distance )
- 各文字列の音声ベースのハッシュ (例: Double Metaphone) を計算し、比較します。
ただし、部分文字列に対してこれを行う標準的で効率的な方法に関する情報が見つかりません。たとえば、入力「tell me about coca-kola」(「干し草の山」) の場合、会社「Coca-Cola」(「針」) を取り上げたいとします。
何百万もの針 (DB 内の会社) があり、リソースを大量に消費する可能性があるため、変更されたレーベンシュタイン アルゴリズムを使用することはできません。干し草の山にある各単語の音声ハッシュを計算し、各針と比較できる可能性がありますが、音声表現にも多くの制限があり、音声を使用しないこの問題を処理するための十分に確立された標準があるかどうか疑問に思っていますか?
よくスケーリングするシンプルで理解しやすいアルゴリズムを探しています。Bitapアルゴリズムなど、回答が示唆された場所に同様の質問がすでに投稿されていますが、Levenshteinのように、これはスケーリングされていないようです。
java - OpenNLP での固有表現認識に関するドキュメントの読み方
私はJavaが初めてで、ドキュメントを読んで名前付きエンティティのドキュメントを実行する必要があります。単純な文字列の場合、次のことを行いました
ただし、実際にドキュメントからストリームを読み取り、XML を生成する必要があります。誰かその方法を教えてください
ありがとう
machine-learning - 固有表現認識のための NLTK
NLTK ツールキットを使用して、テキスト メッセージから場所、日付、時刻を抽出しようとしています。ツールキットを自分のマシンにインストールしたばかりで、テスト用に次の簡単なスニペットを作成しました。
日付 (明日) と時刻 (午後 9 時) を識別できると想定していました。しかし、驚くべきことにそれを認識できませんでした。上記のコードを実行すると、次の結果が得られます。
何かが欠けているのか、それとも NLTK が時間と日付を適切にタグ付けするのに十分なほど成熟していないのかを誰かが理解するのを手伝ってくれますか? ありがとう!
java - OpenNLP での名前付きエンティティのトレーニング
インド人の名前のコーパスをトレーニングしたい:
次のコマンドを使用してこれをコンパイルします。
ただし、これらのエラーメッセージが表示されます
2つのことを知りたい
- 上記のコードはトレーニングに適していますか? はいの場合、トレーニング後に結果を確認するにはどうすればよいですか?
- 警告は何を意味しますか?
machine-learning - ner/nlp を使用してテキストから従業員指定を検出する
私はNLPの分野に非常に慣れていないので、名前、電子メール、電話番号などとともに位置/指定/役割を検出することに興味があります.スタンフォードNLPを使用してテキストから名前を検出しようとしました. メールと電話番号の解析は非常に簡単に思えます。ただし、特定のテキストから指定を検出できません。
たとえば、ここにテキストのサンプル例をいくつか示します
1) 医療監督官、Dr. AB Ahmad,example1@example.com
名前:Dr. AB Ahmad、電子メール: example1@example.com
2) サブディーン アカデミック Prof. S. Antony example2@example.com
Name:Prof. S. アントニー、メール: example2@example.com
3) サブディーン アカデミック & PG-Cell & Surg. 規律 レジデント Trg. プログラムさん Sandeep
名前: Mr. Sandeep、電子メール: なし
4) ディレクター、ネットワーキング、Robert Adams、example3@example.com、9900131213
名前: Robert Adams、電子メール: example3@example.com、電話: 9900131213
テキストの性質は非決定論的であるため、正規表現マッチングアルゴリズムには興味がありません。私が知りたいのは、テキストから上記の指定を抽出する方法です。nltk、lingpipeなどを使用するなど、スタンフォードNLPを超えたソリューションでも問題ありません。スタンフォード NLP を使用している場合、「POSITION」や「DESIGNATION」などの異なるエンティティ タイプで同じトレーニング モデルを構築する方法と、このモデルを他のモデルと一緒に含める方法 (サーバーでスタンフォード NLP を実行しています)モード)。
r - トレーニング済みデータによる固有表現認識
私のテキストファイル t1.txt にはこれが含まれていました
および t2.txt が含まれています
画像が示すようにデータをトレーニングしました
が、次のように目的の結果に戻ろうとすると
そして、個人エンティティをトレーニングした後の結果を期待していました
何か助けてください、なぜ期待した結果が得られないのですか。ありがとう、この方向の助け
編集済み
ここからen-ner-person.binファイルをダウンロードし、カットオフパラメーターが機能しました。このコマンドを使用しました
Daniel Naber に感謝します。