問題タブ [named-entity-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
2378 参照

named-entity-recognition - エンティティ抽出 Web サービス

利用可能な有償または無償の固有表現認識 Web サービスはありますか。

基本的に私は何かを探しています-次のようなテキストを渡す場合:

「ジョンはバーガーキングでフライドポテトを食べた」

それは識別されるべきです - 行に沿った何か:

人物: ジョン

組織: バーガーキング

GATE の Annieのことは聞いたことがありますが、Web サービスは利用できないと思います。

0 投票する
4 に答える
298 参照

rdf - テキスト内の実体参照のrdf表現

次のような文を考えてみましょう:

ジョン・スミスはワシントンに旅行しました。

ネームタグ作成者は、良い日には「ジョン・スミス」を人、「ワシントン」を場所として識別します。しかし、他の証拠がなければ、世界にある可能性のあるすべての「ジョン・スミス」のどれか、さらにはさまざまな「ワシントン」のどれを持っているかさえわかりません.

最終的には、他の証拠に基づいて、何らかの解決プロセスが決定される可能性があります。しかし、その時点までは、これらの参照を RDF で表現するための優れた方法は何でしょうか? いくつかの名前空間で作成された一意の識別子を割り当てますか? 空白のタプルを作成します (例: 「John Smith という名前の人物がドキュメント d で参照されました」)。他の代替案はありますか?私が持っている本には、匿名の気象観測所に関する例が示されていますが、それらの例が、記述されている RDF に関する他のすべてとどのように適合するかについてはよく理解していません。

0 投票する
5 に答える
2939 参照

lucene - Luceneでエンティティ抽出を行うにはどうすればよいですか

Luceneでエンティティ抽出(マッチングのようなもの)を実行しようとしています。サンプルワークフローは次のとおりです。

(URLからの)テキストと人の名前のリストを指定して、テキストから人の名前を抽出してみてください。

ノート:

人の名前は完全に正規化されていません。たとえば、X氏、Y夫人、John Doe、X、Yだけの人もいます。他の接頭辞と接尾辞は、Jr.、Sr.、Dr.、I、II ...などです(私に言わせないでください)。米国以外の名前から始めてください)。

Lucene MemoryIndexを使用して各URLからテキストのメモリ内インデックスを作成し(htmlタグを削除)、StandardAnalyzerを使用してすべての名前のリストを一度に1つずつ照会しています(100kの名前、他に方法はありますか?これ?平均して、これは私が持っている平均的なテキストで約8秒かかります)。

主な問題は、ノイズを除去するために、ベーススコアとして0.01のスコアを使用し、テキストに「John Doe」が含まれている場合、「Mr。John Doe」のようなクエリは、「JohnDoe」と比較してスコアが大幅に低くなることです。多くの場合、0.01のしきい値を見逃しています。

もう1つの問題は、すべての名前を正規化し、Dr。Mrs.などの出現箇所をすべて削除し始めると、「Dr。John Edward II」のような良い一致が失われ始め、「Mr。 。ジョンエドワード」。

Luceneもその仕事に適したツールではないかもしれないことは理解していますが、これまでのところ、それほど悪くはないことが証明されています。助けていただければ幸いです。

0 投票する
2 に答える
10032 参照

dbpedia - DBPediaを使用してコンテンツからタグ/キーワードを抽出する方法は?

ウィキペディアの分類情報を使用して、コンテンツからタグ/キーワードを抽出する方法を模索しています。

DBPediaに関する記事を見つけました。DBpediaは、ウィキペディアから構造化された情報を抽出し、この情報をWeb上で利用できるようにするためのコミュニティの取り組みです。

誰かが自分のWebサービスを使用したことがありますか?それらがどのように機能し、どれほど信頼できるか知っていますか?

0 投票する
2 に答える
436 参照

nlp - People、Org、Loc 以外の Lingpipe を使用して一般的なエンティティを抽出できますか?

Lingpipe for NLP を読んだところ、人、場所、組織の名前の言及を識別する機能があることがわかりました。私の質問は、たとえば、テキスト内にソフトウェア プロジェクトについて言及しているドキュメントのトレーニング セットがある場合、このトレーニング セットを使用して名前付きエンティティ認識エンジンをトレーニングできるかということです。トレーニングが完了すると、テキスト ドキュメントのテスト セットをトレーニング済みモデルにフィードできるようになり、そこにあるソフトウェア プロジェクトの言及を識別できるようになります。

この一般的な NER は NER を使用して可能ですか? もしそうなら、フィードするためにどの機能を使用する必要がありますか?

ありがとうアビシェクS

0 投票する
1 に答える
2468 参照

nlp - 固有表現の認識と解決の違いは?

固有表現認識と固有表現解決の違いは何ですか? 実用的な例をいただければ幸いです。

0 投票する
4 に答える
670 参照

regex - 大量のテキストから何千もの単純なパターンを抽出する高速アルゴリズム

これらの正規表現のほとんどが次のようにかなり単純になることを知って、GBのテキストから何千もの正規表現を効率的に照合できるようにしたいと思います。

私の現在のアイデアは、各正規表現からある種の最長の部分文字列を抽出し、Aho-Corasickを使用してこれらの部分文字列を照合し、ほとんどの正規表現を削除してから、残りのすべての正規表現を組み合わせて照合することです。誰かがもっと良いことを考えることができますか?

0 投票する
1 に答える
1420 参照

annotations - 半自動注釈ツール - RDF トリプレットの検索方法

私は医療テキスト用の半自動注釈ツールを開発していますが、注釈用の RDF トリプレットを見つけるのに完全に迷っています。

現在、NLP ベースのアプローチを使用しようとしています。私はすでにスタンフォード NER と OpenNLP を調査しましたが、どちらも病名を抽出するためのモデルを持っていません。

私の質問は次のとおりです: * 病名を抽出するための新しい NER モデルを作成するにはどうすればよいですか? OpenNLP または Standford NER から何か助けを得ることができますか? * NLP 以外に、テキストから RDF トリプレットを抽出するための別のアプローチはありますか?

どんな助けでも大歓迎です!ありがとう。

0 投票する
3 に答える
2193 参照

nlp - エンティティ抽出ライブラリ

テキスト分析を行い、エンティティを抽出するライブラリを探しています。

エンティティのタイプ/分類は重要ではありません。重要なのは価値のあるものの識別です。この場合のエンティティユニバースは無限であり、固定辞書に制限されていません。

それを行うWebサービスがいくつかあるようです(NERDではこれらのWebサービスの結果を比較できます:http://nerd.eurecom.fr/documentationこれは非常に便利です)が、私はローカルを探していますライブラリであり、リモートでホストされるサービスではありません。私はJavaまたは.NETを好みますが、それが優れたライブラリである場合は、それが記述されている言語をすべて学習します。

同様のトピックに関する古いスレッドはほとんどなく、この分野での新しい開発や、低レベルのNLPライブラリの上に構築されたライブラリを見つけることを望んでいました。

まともな仕事をする良い図書館について誰か知っていますか?