問題タブ [named-entity-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
2932 参照

bigdata - GATE ソースコードにカスタム jape ファイルを追加

1 つのカスタムJAPEファイルを作成し、それを GATE ソース コードで構成する方法を教えてください。次のコードを試してみましたが、「文法の解析中にエラーが発生しました:」や「grammarURL または binaryGrammarURL パラメーターが設定されていません!」などの例外が発生しました。

0 投票する
6 に答える
1760 参照

java - Java のテンプレートに基づいて Web ページ情報を抽出する

現在、Jsoupを使用して、サード パーティの Web ページから特定の情報 (すべてのテキストではない) を抽出しています。定期的に行っています。これは、特定の Web ページの HTML が変更されるまで問題なく機能します。この変更は、既存の Java コードの変更につながります。これらの Web ページは非常に頻繁に変更されるため、これは面倒な作業です。また、プログラマーが Java コードを修正する必要があります。これは、ウェブページで私が興味を持っている HTML コードの例です。

ここで私がやりたいことは次のとおりです。この Web ページ (HTML ファイル) をローカルに保存し、そこから次のようなテンプレートを作成します。

Web ページの実際の URL とともに、これらの HTML テンプレートは Java プログラムへの入力となり、これらの定義済みキーワード ( {MOVIE_RATING}{MOVIE_DIRECTOR}など) の場所を見つけ、実際の Web ページから値を抽出します。

この方法では、Web ページが変更されるたびに Java プログラムを変更する必要はありません。Web ページの HTML を保存し、データをこれらのキーワードに置き換えるだけで、残りはプログラムによって処理されます。たとえば、将来、実際の HTML コードは次のようになります。

対応するテンプレートは次のようになります。

また、これらの種類のテンプレートの作成は、プログラマーでなくても、ファイルを編集できる人なら誰でも行うことができます。

問題は、Javaでこれをどのように達成できるかということです。この問題に対する既存のより良いアプローチはありますか?

注: グーグルでいくつかの研究論文を見つけましたが、それらのほとんどは事前の学習データを必要とし、精度も懸念事項です。

0 投票する
3 に答える
16061 参照

nlp - スタンフォードNLPを使用したn-gramNERのトレーニング

最近、StanfordCoreNLPを使用してn-gramエンティティをトレーニングしようとしています。私は次のチュートリアルに従いました-http://nlp.stanford.edu/software/crf-faq.shtml#b

これにより、ユニグラムトークンとそれが属するクラスのみを指定できます。n-gramに拡張できるように、誰かが私を案内してくれますか。チャットデータセットから映画名などの既知のエンティティを抽出しようとしています。

スタンフォードチュートリアルを誤って解釈した場合に備えて、ガイドしてください。同じことがn-gramトレーニングにも使用できます。

私がこだわっているのは次のプロパティです

ここで、最初の列は単語(unigram)で、2番目の列はエンティティです。

ハルクタイタニックなどの既知のエンティティ(映画名など)を映画としてトレーニングする必要があるので、このアプローチを使用すると簡単になります。しかし、私がトレーニングする必要がある場合、私はあなたが去年の夏または赤ちゃんの日の外出で何をしたかを知っています、最良のアプローチは何ですか?

0 投票する
2 に答える
134 参照

search - 近似一致による辞書ベースのテキスト分析

200 万を超える名前、フェーズ、場所などのデータベース/辞書があります。サンプル データは次のとおりです。

各エントリには、ID があります。

現在、ユーザーが私のウェブサイトにテキストを送信すると、テキストが分析され、テキスト内の名前、フェーズ、および場所のすべての外観が、ある程度の許容度 (近似一致) で検出されます。例えば:

  1. フェーズ「狂気: 同じことを何度も繰り返す」は、完全なフェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」と一致します。</li>
  2. フェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」は、完全なフェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」と一致します</li>

私のデータベースには 2 行以上の長さのフェーズがあるため、これが名前付きエンティティの問題であるかどうかはわかりません。また、正確な位相を見つけたいわけではありません。おおよその一致が必要です。

オープンソースのソリューションを探しています。前もって感謝します

0 投票する
3 に答える
5581 参照

nlp - テキストから場所を抽出する方法は?

フリー テキストから場所を抽出するための推奨される方法は何ですか?

私が考えることができるのは、「words ... in location」のような正規表現ルールを使用することです。しかし、これよりも優れたアプローチはありますか?

また、国と都市の名前を含むルックアップ ハッシュ テーブル テーブルを用意し、テキストから抽出されたすべてのトークンをハッシュ テーブルのトークンと比較することも考えられます。

より良いアプローチを知っている人はいますか?

編集:ツイートのテキストから場所を抽出しようとしています。したがって、つぶやきの数が多いという問題も、方法の選択に影響を与える可能性があります。

0 投票する
1 に答える
1660 参照

machine-learning - 自然言語処理などの手法を使用して html からエンティティを抽出する方法

時間、場所、名前を含む Web ページからエンティティを解析しようとしています。自然言語処理とエンティティ抽出について少し読みましたが、間違った道を進んでいるかどうかわからないので、ここで質問しています。

私はまだ何も実装していないので、特定のオープン ソース ライブラリが特定の言語にのみ適している場合、それは問題ありません。

多くの場合、データは文ではなく、リストのような html 構造 (例:

  • 2013-02-01 - イベント名 - アリーナ名
)。

Web ページの構造は大きく異なります (リストを使用するものもあれば、テーブルに配置するものもあります)。

これを達成する方法について詳しく知るには、どのトピックを調査すればよいですか? エンティティ抽出を行う際に html の構造を考慮したオープン ソース ライブラリはありますか? これらの (名前、時間、場所) エンティティを html から抽出することは、マシン ビジョンを使用して、CSS のスタイリングによって非構造化テキストの重要な部分 (名前、時間、場所) を簡単に区別できるようにする方がよい (または可能である) でしょうか?

私が調査できるトピック/オープンソース プロジェクトに関するガイダンスがあれば、役立つと思います。

0 投票する
1 に答える
142 参照

java - ノイズの多い Web テキストを処理するために StanfordCoreNLP を適応させますか?

私は StanfordCoreNLP NER とすべてを Web サイトで手動で試してきましたが、たとえば、エンティティを検出するために非常に具体的/適切な英語の手がかりに依存しているようです。ただし、Web テキストを扱う場合は、次のようなテキストを使用できます。


ジョン・ドウ

コンピューター サイエンスの助教

スタンフォード大学


StanfordNLP には問題があるようです (前置詞/句読点がないため、全体を 1 つの組織としてラベル付けしています)。NER がこの種のテキストをより適切に処理できるようにするためにできることはありますか (たとえば、テキストの前処理をプログラムするなど)?

0 投票する
1 に答える
808 参照

regex - R のテキストから情報を抽出する

R でエンティティ抽出に取り組んでいます。andフィールドがUniqueIDありTextます。テキスト フィールドから位置情報を抽出する必要があります。私のテキストフィールドには場所名の説明があります

Locations のリストがあります。

を一致させ、フィールドlocからそれらの場所を抽出する必要がtextあります。テキスト フィールドSENOKO INDUSTRIAL ESTATEでは、さまざまな方法で綴られているSenoko Estateか、Senoko(半分の名前) またはスペルミスsenok Est.があります。上記のすべてのスペルミスと半分スペルの単語について - 正確な名前を取得する必要がありますlocすなわちから。SENOKO INDUSTRIAL ESTATE.

私の出力は次のようになります。

0 投票する
1 に答える
298 参照

java - スタンフォード NLP/NER - 抽出器と分類器の使用方法は?

スタンフォード大学の Named Entity Recognition パッケージに付属するデモ ファイルには、文の分類の例が示されています。出力オプションは、次のような文字列です。

=>

または単語ごとの分類のマップ。

分類のマップをエンティティのリストに返すメソッドはありますか?

例えば: