“named-entity-recognition”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

2967 参照

python - IOB の精度と精度の違い

名前付きエンティティの認識とチャンカーを使用して、NLTK でいくつかの作業を行っています。そのために使用する分類子を再トレーニングしたnltk/chunk/named_entity.pyところ、次の測定値が得られました。

しかし、この場合の IOB Accuracy と Precision の正確な違いは何なのかわかりません。実際、特定の例については、ドキュメント（here）で次のことを見つけました。

IOB タグの精度は、単語の 3 分の 1 以上が O でタグ付けされていること、つまり NP チャンクに含まれていないことを示しています。ただし、タガーはチャンクを見つけられなかったため、精度、再現率、および f 値はすべてゼロです。

では、IOB の精度が O ラベルの数だけである場合、その例では、チャンクがなく、同時に IOB の精度が 100% ではないのはなぜでしょうか?

前もって感謝します

2013-06-26T16:27:49.713

0 投票する

2 に答える

134 参照

search - 近似一致による辞書ベースのテキスト分析

200 万を超える名前、フェーズ、場所などのデータベース/辞書があります。サンプルデータは次のとおりです。

各エントリには、ID があります。

現在、ユーザーが私のウェブサイトにテキストを送信すると、テキストが分析され、テキスト内の名前、フェーズ、および場所のすべての外観が、ある程度の許容度 (近似一致) で検出されます。例えば：

フェーズ「狂気: 同じことを何度も繰り返す」は、完全なフェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」と一致します。</li>
フェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」は、完全なフェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」と一致します</li>

私のデータベースには 2 行以上の長さのフェーズがあるため、これが名前付きエンティティの問題であるかどうかはわかりません。また、正確な位相を見つけたいわけではありません。おおよその一致が必要です。

オープンソースのソリューションを探しています。前もって感謝します

search lucene named-entity-recognition text-analysis named-entity-extraction

2013-07-11T21:45:26.827

0 投票する

1 に答える

98 参照

java - Javaの名前付きエンティティ認識の無限whileループ

これで私の最初のwhileループは壊れません。j と val の値を減らします

この後壊れそうになるが壊れない

何度も繰り返されます
NNP は品詞タグです
arr[]= はトークンのコレクションで
、J は arr のインデックスを示します
LName はデータベースフィールドを示し、最初の if ステートメントのトークンと一致する配列リストです

java while-loop named named-entity-recognition

2013-07-13T20:07:28.953

0 投票する

3 に答える

5581 参照

nlp - テキストから場所を抽出する方法は?

フリーテキストから場所を抽出するための推奨される方法は何ですか?

私が考えることができるのは、「words ... in location」のような正規表現ルールを使用することです。しかし、これよりも優れたアプローチはありますか?

また、国と都市の名前を含むルックアップハッシュテーブルテーブルを用意し、テキストから抽出されたすべてのトークンをハッシュテーブルのトークンと比較することも考えられます。

より良いアプローチを知っている人はいますか？

編集:ツイートのテキストから場所を抽出しようとしています。したがって、つぶやきの数が多いという問題も、方法の選択に影響を与える可能性があります。

nlp text-mining information-extraction named-entity-recognition named-entity-extraction

2013-07-20T12:58:47.163

0 投票する

2 に答える

5535 参照

solr - Apache solr および LingPipe または同様のツールでエンティティ認識を使用する方法

Apache Solr でデータのインデックスを作成する際に NLP を使用したいと考えています。

単語の同義語を識別し、それもインデックスにします。
名前付きエンティティを識別し、インデックス作成中にラベルを付けます。
ある人が Solr インデックスにクエリを実行すると、クエリから名前付きエンティティと意図を抽出し、クエリ文字列を形成して、インデックス付きファイルを効果的に検索できるようにする必要があります。

私の要件を満たすために利用できるツール/プラグインはありますか? これは、ほとんどのコンテンツベースの Web サイトで一般的な使用例だと思います。人々はそれをどのように扱っていますか？

solr nlp named-entity-recognition stanford-nlp

2013-08-04T09:46:15.017

0 投票する

0 に答える

519 参照

weka - 分類子を構築する Weka の NLTK ラッパー

私は Named Entity 分類器を構築してnltkおり、場所の取得 (国から美術館、レストラン、道路まで、あらゆる種類の) に焦点を当てています。使用する機能セットと方法を変えようとしています。

今のところ、NLTK の組み込みのMaxent、NaiveBayes、PositiveNaiveBayes、DecisionTreesおよびを使用しましSVMた。機能セットの 40 の異なる組み合わせを使用しています。

Maxent最高のようですが、遅すぎます。はバイナリ分類用であり、最終的な分類子のピクルス化に問題がありましたnltk。SVM次に、nltkのラッパーを試しscikit-learn SVMましたが、入力を受け入れませんでした。適応しようとしましたが、フロート強制の問題がありました。

現在、nltkのラッパーをに使用することを検討してWekaいますが、試してみる価値のある非常に異なる結果が得られるかどうかはわかりません。私の質問は、の組み込み分類子Wekaよりも優れている点は何ですか?nltk

weka nltk named-entity-recognition

2013-08-09T13:08:39.440

問題タブ [named-entity-recognition]

python - IOB の精度と精度の違い

search - 近似一致による辞書ベースのテキスト分析

java - Javaの名前付きエンティティ認識の無限whileループ

nlp - テキストから場所を抽出する方法は?

solr - Apache solr および LingPipe または同様のツールでエンティティ認識を使用する方法

weka - 分類子を構築する Weka の NLTK ラッパー

Reference