問題タブ [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - テキスト コンテンツにジオタグまたはジオラベルを付ける方法
テキストに都市/地域または起源を自動的にラベル付けするための優れたアルゴリズムは何ですか? つまり、ブログがニューヨークに関するものである場合、プログラムでどのように伝えることができるでしょうか。ある程度確実にこれを行うと主張するパッケージ/ペーパーはありますか?
私はいくつかの tfidf ベースのアプローチ、固有名詞の交差を見てきましたが、これまでのところ目覚ましい成功はありません。アイデアをいただければ幸いです。
より一般的な質問は、トピックのリストが与えられた場合のトピックへのテキストの割り当てに関するものです。
シンプル/単純なアプローチは、ベイジアン アプローチで完全に好まれましたが、私はオープンです。
java - Java の名前付きエンティティ認識ライブラリ
Java用のシンプルだが「十分な」名前付きエンティティ認識ライブラリ(および辞書)を探しています。電子メールとドキュメントを処理し、名前、場所、住所、日付などの「基本情報」を抽出しようとしています。
私は周りを見回してきましたが、ほとんどは重い側にあり、完全な NLP のようなプロジェクトのようです。
推奨事項はありますか?
algorithm - ウェブページの住所を認識するアルゴリズム
HTML ページの構造化データを認識するための最適なアルゴリズムは何ですか?
たとえば、Google は電子メール内の自宅/会社の住所を認識し、この住所への地図を提供します。
nlp - NLP で固有名詞を認識するための戦略
自然言語処理(NLP)についてもっと学ぶことに興味があります。現在、辞書認識に基づかないテキスト内の固有名詞を認識する方法があるかどうか知りたいです。また、現在の辞書ベースの方法を説明するリソースを説明したり、リンクしたりできますか? NLP の権威ある専門家は誰ですか、またはこのテーマに関する決定的なリソースは何ですか?
php - 固有表現抽出のアルゴリズム
固有表現抽出(NER)を使用して、データベース内のテキストに適切なタグを見つけたいと思います。
これに関するウィキペディアの記事や、NERについて説明している他の多くのページがあることを知っています。このトピックについて、あなたから何か聞いていただければ幸いです。
- さまざまなアルゴリズムでどのような経験をしましたか?
- どのアルゴリズムをお勧めしますか?
- 実装が最も簡単なアルゴリズム(PHP / Python)はどれですか?
- アルゴリズムはどのように機能しますか?手動トレーニングは必要ですか?
例:
「昨年、私はバラク・オバマを見たロンドンにいました。」=>タグ:ロンドン、バラク・オバマ
あなたが私を助けてくれることを願っています。事前にどうもありがとうございました!
java - 人の名前をテキストで定義する方法 (Java)
1 つ以上の人名を含む入力テキストがあります。これらの名前の辞書はありません。入力テキストから名前を定義するのに役立つ Java ライブラリはどれですか? OpenNLP を調べましたが、コードに適用する方法の例やガイド、または少なくとも説明は見つかりませんでした。(私は javadoc を見ましたが、そのようなプロジェクトのドキュメントはかなり貧弱です。)
ランダムなテキストから名前を見つけたい。入力テキストが「私の友人のジョー・スミスが店に行きました。」の場合、「ジョー・スミス」を取得します。私は、人間の名前を理解できる、より小さな辞書に基づいて、スマート エンジンに十分な大きさの辞書が必要だと思います。
metadata - 名前付きエンティティの認識に条件付きランダム フィールドを使用する
条件付き確率場とは?Conditional Random Fieldは、構造化テキストまたは非構造化テキスト内の人物、組織、または場所として固有名を正確にどのように識別しますか?
例: この製品は、StackOverFlow Inc. によって注文されました。
StackOverFlow Inc. を組織として識別するために、Conditional Random Field は何をしますか?
named-entity-recognition - エンティティ抽出 Web サービス
利用可能な有償または無償の固有表現認識 Web サービスはありますか。
基本的に私は何かを探しています-次のようなテキストを渡す場合:
「ジョンはバーガーキングでフライドポテトを食べた」
それは識別されるべきです - 行に沿った何か:
人物: ジョン
組織: バーガーキング
GATE の Annieのことは聞いたことがありますが、Web サービスは利用できないと思います。
java - Javaで名前付きエンティティを明確にする
文字列(この場合は会社名)のリストと、ほとんど構造化されていないテキストから会社名のように見えるもののリストを抽出するJavaプログラムがあります。抽出されたテキストの各要素をリスト内の文字列に一致させる必要があります。警告:構造化されていないテキストには、「Blah、Inc。」などのタイプミスがあります。「Blah」などと呼ばれます。LevenshteinEditDistanceを試しましたが、予測可能な理由で失敗します。この問題に取り組むための既知のベストプラクティスの方法はありますか?または、手動のデータ入力に戻りますか?
nltk - 固有表現抽出のための無料のタグ付きコーパス
固有表現抽出のためにトレーニングするシステム用の無料のタグ付きコーパスを探しています。私が見つけたもののほとんど(ニューヨークタイムズのもののように)は高価で、開いていません。誰か助けてもらえますか?