問題タブ [named-entity-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2967 参照

python - IOB の精度と精度の違い

名前付きエンティティの認識とチャンカーを使用して、NLTK でいくつかの作業を行っています。そのために使用する分類子を再トレーニングしたnltk/chunk/named_entity.pyところ、次の測定値が得られました。

しかし、この場合の IOB Accuracy と Precision の正確な違いは何なのかわかりません。実際、特定の例については、ドキュメント(here)で次のことを見つけました。

IOB タグの精度は、単語の 3 分の 1 以上が O でタグ付けされていること、つまり NP チャンクに含まれていないことを示しています。ただし、タガーはチャンクを見つけられなかったため、精度、再現率、および f 値はすべてゼロです。

では、IOB の精度が O ラベルの数だけである場合、その例では、チャンクがなく、同時に IOB の精度が 100% ではないのはなぜでしょうか?

前もって感謝します

0 投票する
2 に答える
134 参照

search - 近似一致による辞書ベースのテキスト分析

200 万を超える名前、フェーズ、場所などのデータベース/辞書があります。サンプル データは次のとおりです。

各エントリには、ID があります。

現在、ユーザーが私のウェブサイトにテキストを送信すると、テキストが分析され、テキスト内の名前、フェーズ、および場所のすべての外観が、ある程度の許容度 (近似一致) で検出されます。例えば:

  1. フェーズ「狂気: 同じことを何度も繰り返す」は、完全なフェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」と一致します。</li>
  2. フェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」は、完全なフェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」と一致します</li>

私のデータベースには 2 行以上の長さのフェーズがあるため、これが名前付きエンティティの問題であるかどうかはわかりません。また、正確な位相を見つけたいわけではありません。おおよその一致が必要です。

オープンソースのソリューションを探しています。前もって感謝します

0 投票する
1 に答える
98 参照

java - Javaの名前付きエンティティ認識の無限whileループ

これで私の最初のwhileループは壊れません。j と val の値を減らします

この後壊れそうになるが壊れない

何度も繰り返されます
NNP は品詞タグです
arr[]= はトークンのコレクションで
、J は arr のインデックスを示します
LName はデータベース フィールドを示し、最初の if ステートメントのトークンと一致する配列リストです

0 投票する
3 に答える
5581 参照

nlp - テキストから場所を抽出する方法は?

フリー テキストから場所を抽出するための推奨される方法は何ですか?

私が考えることができるのは、「words ... in location」のような正規表現ルールを使用することです。しかし、これよりも優れたアプローチはありますか?

また、国と都市の名前を含むルックアップ ハッシュ テーブル テーブルを用意し、テキストから抽出されたすべてのトークンをハッシュ テーブルのトークンと比較することも考えられます。

より良いアプローチを知っている人はいますか?

編集:ツイートのテキストから場所を抽出しようとしています。したがって、つぶやきの数が多いという問題も、方法の選択に影響を与える可能性があります。

0 投票する
2 に答える
5535 参照

solr - Apache solr および LingPipe または同様のツールでエンティティ認識を使用する方法

Apache Solr でデータのインデックスを作成する際に NLP を使用したいと考えています。

  1. 単語の同義語を識別し、それもインデックスにします。

  2. 名前付きエンティティを識別し、インデックス作成中にラベルを付けます。

  3. ある人が Solr インデックスにクエリを実行すると、クエリから名前付きエンティティと意図を抽出し、クエリ文字列を形成して、インデックス付きファイルを効果的に検索できるようにする必要があります。

私の要件を満たすために利用できるツール/プラグインはありますか? これは、ほとんどのコンテンツ ベースの Web サイトで一般的な使用例だと思います。人々はそれをどのように扱っていますか?

0 投票する
0 に答える
519 参照

weka - 分類子を構築する Weka の NLTK ラッパー

私は Named Entity 分類器を構築してnltkおり、場所の取得 (国から美術館、レストラン、道路まで、あらゆる種類の) に焦点を当てています。使用する機能セットと方法を変えようとしています。

今のところ、NLTK の組み込みのMaxentNaiveBayesPositiveNaiveBayesDecisionTreesおよび を使用しましSVMた。機能セットの 40 の異なる組み合わせを使用しています。

Maxent最高のようですが、遅すぎます。はバイナリ分類用であり、最終的な分類子のピクルス化に問題がありましたnltkSVM次に、nltkのラッパーを試しscikit-learn SVMましたが、入力を受け入れませんでした。適応しようとしましたが、フロート強制の問題がありました。

現在、nltkのラッパーをに使用することを検討してWekaいますが、試してみる価値のある非常に異なる結果が得られるかどうかはわかりません。私の質問は、の組み込み分類子Wekaよりも優れている点は何ですか?nltk