問題タブ [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - IOB の精度と精度の違い
名前付きエンティティの認識とチャンカーを使用して、NLTK でいくつかの作業を行っています。そのために使用する分類子を再トレーニングしたnltk/chunk/named_entity.py
ところ、次の測定値が得られました。
しかし、この場合の IOB Accuracy と Precision の正確な違いは何なのかわかりません。実際、特定の例については、ドキュメント(here)で次のことを見つけました。
IOB タグの精度は、単語の 3 分の 1 以上が O でタグ付けされていること、つまり NP チャンクに含まれていないことを示しています。ただし、タガーはチャンクを見つけられなかったため、精度、再現率、および f 値はすべてゼロです。
では、IOB の精度が O ラベルの数だけである場合、その例では、チャンクがなく、同時に IOB の精度が 100% ではないのはなぜでしょうか?
前もって感謝します
search - 近似一致による辞書ベースのテキスト分析
200 万を超える名前、フェーズ、場所などのデータベース/辞書があります。サンプル データは次のとおりです。
各エントリには、ID があります。
現在、ユーザーが私のウェブサイトにテキストを送信すると、テキストが分析され、テキスト内の名前、フェーズ、および場所のすべての外観が、ある程度の許容度 (近似一致) で検出されます。例えば:
- フェーズ「狂気: 同じことを何度も繰り返す」は、完全なフェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」と一致します。</li>
- フェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」は、完全なフェーズ「狂気: 同じことを何度も繰り返し、異なる結果を期待する」と一致します</li>
私のデータベースには 2 行以上の長さのフェーズがあるため、これが名前付きエンティティの問題であるかどうかはわかりません。また、正確な位相を見つけたいわけではありません。おおよその一致が必要です。
オープンソースのソリューションを探しています。前もって感謝します
java - Javaの名前付きエンティティ認識の無限whileループ
これで私の最初のwhileループは壊れません。j と val の値を減らします
この後壊れそうになるが壊れない
何度も繰り返されます
NNP は品詞タグです
arr[]= はトークンのコレクションで
、J は arr のインデックスを示します
LName はデータベース フィールドを示し、最初の if ステートメントのトークンと一致する配列リストです
nlp - テキストから場所を抽出する方法は?
フリー テキストから場所を抽出するための推奨される方法は何ですか?
私が考えることができるのは、「words ... in location」のような正規表現ルールを使用することです。しかし、これよりも優れたアプローチはありますか?
また、国と都市の名前を含むルックアップ ハッシュ テーブル テーブルを用意し、テキストから抽出されたすべてのトークンをハッシュ テーブルのトークンと比較することも考えられます。
より良いアプローチを知っている人はいますか?
編集:ツイートのテキストから場所を抽出しようとしています。したがって、つぶやきの数が多いという問題も、方法の選択に影響を与える可能性があります。
solr - Apache solr および LingPipe または同様のツールでエンティティ認識を使用する方法
Apache Solr でデータのインデックスを作成する際に NLP を使用したいと考えています。
単語の同義語を識別し、それもインデックスにします。
名前付きエンティティを識別し、インデックス作成中にラベルを付けます。
ある人が Solr インデックスにクエリを実行すると、クエリから名前付きエンティティと意図を抽出し、クエリ文字列を形成して、インデックス付きファイルを効果的に検索できるようにする必要があります。
私の要件を満たすために利用できるツール/プラグインはありますか? これは、ほとんどのコンテンツ ベースの Web サイトで一般的な使用例だと思います。人々はそれをどのように扱っていますか?
weka - 分類子を構築する Weka の NLTK ラッパー
私は Named Entity 分類器を構築してnltk
おり、場所の取得 (国から美術館、レストラン、道路まで、あらゆる種類の) に焦点を当てています。使用する機能セットと方法を変えようとしています。
今のところ、NLTK の組み込みのMaxent
、NaiveBayes
、PositiveNaiveBayes
、DecisionTrees
および を使用しましSVM
た。機能セットの 40 の異なる組み合わせを使用しています。
Maxent
最高のようですが、遅すぎます。はバイナリ分類用であり、最終的な分類子のピクルス化に問題がありましたnltk
。SVM
次に、nltk
のラッパーを試しscikit-learn SVM
ましたが、入力を受け入れませんでした。適応しようとしましたが、フロート強制の問題がありました。
現在、nltk
のラッパーをに使用することを検討してWeka
いますが、試してみる価値のある非常に異なる結果が得られるかどうかはわかりません。私の質問は、の組み込み分類子Weka
よりも優れている点は何ですか?nltk