問題タブ [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - Python / PHP の名前のプリセット リストによる固有表現認識
各行のように、組織の名前とその組織内の個人の位置を非構造化テキストとして含むテキスト フィールドを持つ CSV ファイルを処理しようとしています。このフィールドは通常、次のようなテキストの混乱です。
役職と組織名を出さなければなりません。役職については、さまざまな職業の約 60 の異なる正規表現のシリーズに preg_match を使用していますが、かなりうまく機能していると思います (私の推測では、約 80% をキャッチすると思います)。しかし、組織名を聞き取れずに困っています。簡単な preg_match を実行できる約 16,000 の組織名を含む MySQL テーブルがありますが、一般的なスペルミスと略語により、組織の約 30% しか検出できません。たとえば、私のデータベースには
ただし、CSV ファイルには次のいずれかのオプションが含まれる場合があります。
数十万件のレコードを処理する必要があり、現在正しく処理されていないレコードの 70% を修正したり、組織ごとに複数のエイリアスを苦労して作成したりするのに時間を費やすことはできません。私ができるようにしたいのは、小さな違い (小さなスペルミス、ハイフンとスペース、一般的な略語など) をキャッチし、それでも一致が見つからない場合は、理想的には組織名を認識して新しいレコードを作成することです。それのための。
- Python または PHP のどのライブラリまたはツールを使用すると、より広い範囲で類似性を照合できますか?
- Python の NLTK はスペルミスをキャッチしますか?
- AlchemyAPI を使用してスペルミスのある組織を検出することは可能ですか? これまでのところ、正しいスペルの組織をキャッチするためにしか使用できませんでした
- 短い文字列 (組織名) を長い文字列 (名前と無関係な情報を含む) と比較しているので、PHP の similar_text 関数を使用する希望はありますか?
どんな助けや洞察もいただければ幸いです。
java - スタンフォード NER ツールキット - 小文字エンティティの認識
私は NLP の初心者であり、Named Entity Recognizer が名前付きエンティティに注釈を付ける方法を理解しようとしています。私は Stanford NER ツールキットを試しています。ニュースワイヤーやニュース ブログなど、すべての命名規則に従って名前付きエンティティを表す、より正式な標準的なデータセットで NER を使用すると、NER はエンティティに正しく注釈を付けます。ただし、Twitter などの非公式のデータセットで NER を実行すると、名前付きエンティティが本来のように大文字にされない可能性があり、NER はエンティティに注釈を付けません。私が使用している分類子は、3-CRF のシリアル化された分類子です。NERに小文字のエンティティも認識させる方法を誰か教えてもらえますか?? NER をハックする方法と、この改善をどこで行うべきかについての有益な提案は大歓迎です。ご協力いただきありがとうございます。
php - PHPを使用してテキストから名前を認識する方法
phpを使用してテキストから名前(名と姓)を抽出したい。例:以下のテキストから名前を抽出したい(この場合はAlineWrightとJesseWright)
Aline Wrightは、癌の生存者であり、切断者であり、新婚者です。水曜日の夜、彼女は脳卒中の兆候を示し始めました。
「左腕のしびれと顔面の垂れ下がりを感じ始めました」とAlineは言いました。
「私はおそらく脳卒中を起こしているように見えました。」
その時、4日間の夫であるジェシー・ライトが彼女を車に乗せ、アーランガー医療センターに駆けつけました。ライトは緊急事態を知っています。彼はアーランガーの看護技術者です。
nlp - 共参照の解決にはNERが必要ですか?
...または性別情報で十分ですか?具体的には、StanfordCoreNLPによって読み込まれるモデルの数を減らして共参照を抽出できるかどうかを知りたいと思っています。私は実際の固有表現抽出には興味がありません。
ありがとうございました
nlp - OpenCalaisの関連性スコアを理解する
opencalaisが各エンティティに関連付けて返す関連性スコアを理解しようとしていますか?それは何を意味し、どのように解釈されますか?これについての洞察に感謝します。
python - Python を使用した官報からの固有表現認識
NLTK を使用して、Python で名前付きエンティティの認識を試みています。スキルの個人リストを抽出したい。スキルのリストがあり、求人でそれらを検索し、スキルにタグを付けたいと考えています。NLTK には、Person、Location などの事前定義タグ用の NER タグがあることに気付きました。使用できる Python の外部ガゼッター タガーはありますか? 用語の検索よりも洗練された方法(複数の単語の用語)を行う方法はありますか?
ありがとう、アサフ
perl - さらに処理するためにベース名を保持しながら、複数のファイルをループするにはどうすればよいですか?
トークン化する必要がある複数のテキスト ファイル、POS および NER があります。私はC&Cタガーを使用しており、そのチュートリアルを実行しましたが、1 つずつではなく複数のファイルにタグを付ける方法があるかどうか疑問に思っています。
現時点では、ファイルをトークン化しています:
次のように、品詞のタグ付けを行います。
最後に固有表現認識:
これを行うためにループを作成し、ファイル名を入力と同じに保ちますが、拡張子はタグ付けを表す方法がわかりません。ディレクトリを開くために bash スクリプトまたはおそらく Perl を考えていましたが、スクリプトが理解するために C&C コマンドを入力する方法がわかりません。
現時点では手動で行っていますが、控えめに言ってもかなり時間がかかります!
named-entity-recognition - 隠れマルコフ モデルと条件付きランダム フィールドに関する質問
名前付きエンティティ認識のタスクについて、隠れマルコフ モデルと条件付きランダム フィールドを調べてきましたが、基本的な概念に固執しているようです。つまり、学習プロセスの目標は、トレーニング データから argmax を計算することです。 、その argmax シーケンスをテスト データのすべてのインスタンスに適用しますか?
この隠れマルコフ モデルの例を考えてみましょう。2 つの状態 {1,0} があります。1 はエンティティ、0 はその他の単語です。簡単にするために、私はまだエンティティの分類には関心がなく、エンティティの検出だけに関心があります。
私のトレーニングデータは次のとおりです。
オバマはワシントンに住んでいる 1 0 0 1
iPadはいいですね 0 1 0 0
スティーブ・ジョブズは病気です 1 1 0 0
次の argmax ルールに従います。
P(状態 1 から状態 1) = 1/9
P(状態 1 から状態 0) = 1 - 1/9
P(状態 0 から状態 0) = 3/9
P(状態 0 から状態 1) = 1 - 3/9
V 行列と U 行列を計算すると、次のことがわかります。
トレーニング データから抽出された最良のラベル シーケンス = 1 1 0 0
テスト文を考えてみましょう:
アイフォンはいいぞ
テスト文を 1 1 0 0 に適用するだけで実際に機能しますが、「ソニーのスポークスパーソンが解雇されました」のような別のテスト文がある場合、シーケンス 1 1 0 0 はまったく役に立たないことがわかります。その文のために。
要約すると、トレーニングの目的は、1 つの最適なラベル シーケンスを抽出し、それをすべてのテスト センテンスに適用することですか? それはありそうもないでしょう!私は何が欠けていますか??
javascript - Google Geocoding API を使用して Named-Entity Recognition タグ付きファイルを Google マップにリンクする
NER を使用してタグ付けされたテキスト ファイルがあり、それらを Google マップにリンクする必要があります。
場所は正しくタグ付けされていませんが。ダブリンは人としてタグ付けされています。Google Geocoding API を使用して、NER タグが付けられていると識別された場所をフィードし、場所を見つけたいです。
これは可能ですか?
場所、組織、または人物としてタグ付けされた情報を抽出してGoogleに提供し、それに対応する緯度と経度の座標があるかどうかを確認するための正規表現を作成することを考えていました。または、NER としてタグ付けされた 2 ~ 3 語を続けて取り出し、それらをアドレス全体として追加します。
この情報を実際に Google に提供する方法がわかりません!?
次に、Json レスポンスを使用して、Google Geocoder が一致した住所を使用してテキスト ファイルをマップにリンクします。
どんな洞察やアイデアも大歓迎です!ありがとう
nltk - NLTK を使用した固有表現認識。抽出したキーワードの関連性
NLTK の Named Entity Recognition 機能を調べていました。抽出されたキーワードのうち、原文と最も関連性が高いキーワードを特定することはできますか? また、抽出したキーワードの種類(人・組織)を知ることは可能ですか?