問題タブ [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - データのトレーニングにテキスト全体を必要としないエンティティ認識分類アルゴリズムはありますか?
私が持っているテキスト上のいくつかのエンティティを認識したいのですが、多くのアルゴリズム(NaiveBayes、隠れマルコフモデル、条件付き確率場など)を見つけましたが、ほとんどすべてがエンティティを分類するために膨大なトレーニングデータを必要としているようです。
トレーニングデータにテキストがなくても認識できるアルゴリズムがあるかどうかを知りたいのですが、認識したいデータを表す単語だけか、文字列パターンなどがあります。
私が避けたい唯一のことは、トレーニングデータとして巨大なテキストを持つ必要性です。
.net - HTML文字列を展開して、名前付き文字エンティティを作成します
.NETクラスライブラリに文字列をエンコードして、名前付きエンティティが存在する文字を置き換えて、この名前付きエンティティを使用する方法はありますか?HttpUtility.HtmlEncodeは役に立たないようです:
java - Java でのクロスリンク提案のためのカスタム制御ボキャブラリーによる教師なし固有表現認識 (NER)
最初にラベル付けされたトレーニング データを必要とせずに、カスタム制御語彙を使用して名前付きエンティティ認識 (NER) を実行できる Java ライブラリを探しています。SEでいくつか検索しましたが、ほとんどの質問はかなり具体的ではありません.
次の使用例を検討してください。
- 編集者が CMS に記事を入力しています (約 500 ワード)。
- テキストには、特定のドメインのエンティティへの参照 (プレーン テキスト) が含まれている場合があります。例えば:
- バー、レストラン、近所などの名所の名前。
- これらのエンティティの制御語彙が存在します (約 5.000 エンティティ)。
- 実体は語彙の -tuple であると想像します
- テキストを完成させた後、ユーザーはドキュメントを保存できるはずです。
- これにより、ワークフローがトリガーされ、エンティティの名前と比較することで、語彙に対してテキストの一部をスキャンします。100% 一致する必要はありません。Jarao-winkler などで 97% (私はアルゴリズムの NER が使用するものに精通していません) で十分かもしれません。これを構成可能にする必要があります。
- ヒットはコントローラーのサーバー側に返されます。これにより、エンティティを含むクライアントに JSON が返され、エディターへの提案されたクロスリンクとして表されます。
理想的には、NRE を使用して、CMS 環境内でピギーバックするクロスリンクを提案するプロジェクトを探しています。(たとえば、wordpressのプラグインが存在すると確信しています)Javaに同様のものが存在するかどうかはわかりません。
制御されたカスタム語彙で動作する NRE ライブラリへの他のすべてのより一般的なポインタも同様に歓迎されます。
statistics - 自然言語処理の最大エントロピー
自然言語処理で使用した場合に最大エントロピーモデルがどのように機能するかを簡単に説明できますか?単純な単語やフレーズを統計的に解析して、特定の単語の可能性と、それらが参照しているオブジェクトや、それらが含まれているフレーズを把握する必要があります。
nlp - 固有表現の認識と解決の違いは?
固有表現認識と固有表現解決の違いは何ですか? 実用的な例をいただければ幸いです。
python - テキストの短いスニペットにセマンティック タグを提案する
短いテキスト スニペットを投稿しているユーザーに (Freebase、ウィキペディア、または別のシステムへのリンクを介して) 提案されたセマンティック タグのリストを生成することに興味があります。テキストが実際に言っていることを「理解」したり、自動的にタグ付けしたりするつもりはありません。ユーザーの投稿に最も可能性の高いセマンティックタグをユーザーに提案したいだけです。私の主な目標は、ユーザーに意味的にタグを付けさせることです。したがって一貫性を保ち、あいまいなテキスト文字列を書き込まないようにします。合理的に機能し、手頃な価格のツールが市場に出回っていれば、私はそれを使用します。私はそのようなツールを見つけていないので、自分で書くことを検討しています。
私の質問は、まず第一に、私が遭遇したことのないツールがあるかどうかです。Zemanta、AlchemyAPI、OpenCalais を見てきましたが、必要なサービスを提供しているようには見えませんでした。
私が自分で書いていると仮定すると、私はPythonでそれをやっているでしょう(他の何かを使う本当にやむを得ない理由がない限り)。私の最初の推測は、Freebase で「エンティティ」に一致する n-gram を検索し、それらをタグとして提案することです。おそらくエンティティの説明も検索して、もう少し「賢く」することでしょう。それが不十分であることが判明した場合、私は読んでつま先を存在論の水に浸します. これは非常に難しい問題であり、私のアプリケーションがその解決策を必要としているとは思えないため、実際の意味解析はできるだけ控えたいと考えています。
セマンティック データベース システムを扱った経験のある方はいらっしゃいますか?
text - 政治ドメインにおける固有表現認識
テキスト分類に関する私の研究プロジェクトでは、政治ドメイン内の名前付きエンティティを特定する必要があります (NER を使用してテキスト分類を改善します)。
分類器をトレーニングできるように、政治ドメインの名前付きエンティティはどこで見つけることができますか?
政治分野以外のデータセットを知っている場合はお知らせください。
ありがとう!
machine-learning - Appleはどのようにして電子メールの日付、時刻、アドレスを見つけますか?
iOSの電子メールクライアントでは、電子メールに日付、時刻、または場所が含まれている場合、テキストはハイパーリンクになり、リンクをタップするだけで予定を作成したり、地図を表示したりできます。英語のメールだけでなく、他の言語でも機能します。私はこの機能が大好きで、彼らがどのようにそれを行うのかを理解したいと思います。
これを行うための素朴な方法は、多くの正規表現を持ち、それらすべてを実行することです。ただし、これはあまり拡張性がなく、特定の言語や日付形式などでのみ機能します。Appleは、エンティティを抽出するために機械学習の概念を使用している必要があると思います(8:00 PM、8PM、8:00、 0800、20:00、20h、20h00、2000など)。
Appleが電子メールクライアントでエンティティをこれほど迅速に抽出できる方法について何か考えはありますか?そのようなタスクを実行するために、どの機械学習アルゴリズムを適用しますか?
nlp - 自然なテキストで日付への参照を見つける方法は?
私がやりたいことは、生の自然なテキストを解析し、日付を説明するすべてのフレーズを見つけることです。
日付へのすべての参照がマークアップされた、かなり大きなコーパスがあります。
日付フレーズを解釈したくありません。ただ見つけてください。それらが日付であるという事実は関係ありません (実際には日付でさえありませんが、詳細で退屈させたくありません)、基本的には可能な値の制限のないセットです。値自体の文法はコンテキストフリーとして近似できますが、手動で構築するのは非常に複雑であり、複雑さが増すにつれて誤検出を回避することがますます難しくなります。
私はこれが少し遠いショットであることを知っているので、すぐに使えるソリューションがそこに存在するとは思っていませんが、どのような技術や研究を使用できる可能性がありますか?
text - ML ベースのドメイン固有固有名認識 (NER)?
特定のドメイン内の NE を識別する分類器を構築する必要があります。たとえば、私のドメインがホッケーまたはフットボールの場合、分類器はそのドメインの NE を受け入れる必要がありますが、Web ページに表示されるすべての代名詞を受け入れるわけではありません。私の最終的な目標は、NER によるテキスト分類を改善することです。
この分野で働いている人のために、そのような分類器をどのように構築すればよいか教えてください。ありがとう!