問題タブ [pos-tagger]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 品詞のタグ付け : 未知の単語のタグ付け
品詞タガーでは、与えられた文の最も可能性の高いタグは、HMM を使用して次のように決定されます。
しかし、'Word' がトレーニング コーパスに表示されなかった場合、P(Word/Tag) は考えられるすべてのタグに対して 0 を生成するため、最適なものを選択する余地がありません。
いくつかの方法を試しましたが、
1) すべての未知の単語に少量の確率を割り当てる P(UnknownWord/AnyTag)~Epsilon ... は、一定の確率を割り当てることにより、未知の単語の P(Word/Tag) を完全に無視することを意味します..したがって、未知の単語に関する意思決定事前確率によるものです。予想通り、良い結果が得られていません。
2) ラプラス スムージング 私はこれと混同しました。(1)とこれの違いがわかりません。ラプラス平滑化を理解する私の方法は、すべての未知の既知の単語に一定の確率(ラムダ)を追加します..したがって、すべての未知の単語は一定の確率(ラムダの割合)を取得し、すべての単語の確率が増加するため、既知の単語の確率は相対的に同じになりますラムダ。ラプラス平滑化は前のものと同じですか?
*)未知の単語を扱うより良い方法はありますか?
machine-learning - POS タグ付けのための構造化パーセプトロンを理解する
品詞のタグ付けのために構造化パーセプトロンを実装する方法を正確に理解するのに苦労しています。私の考えを確認または修正してください。不足しているギャップを埋めてください。
基本的に、構造化パーセプトロンはマルチクラス パーセプトロンの変形ですが、最高のスコアを収集する実装方法が異なります。現在のシーケンス インデックスは前のインデックスのみに依存するという一次マルコフ仮定が行われます。入力は、構造化されていない場合の 1 つの単語だけではなく、単語のシーケンス全体であり、すべての可能なラベル (y) のベクトルです。関数 f(x,y) は、指定された単語シーケンスに対して推測されたラベル シーケンスを返します。
マルチクラス パーセプトロンでは、1 つのラベルを 1 つのインスタンスに分類するだけなので、反復によって最高のスコアを簡単に取得できます。配列全体を分類する際の問題は、可能な標識の数が指数関数的に増加することです。これは、2 つの機能セットを使用して最適なパスを再帰的に見つけるビタビ アルゴリズムが必要な場所です。1 つは特定の POS タグが特定の単語にどの程度当てはまるかを判断するためのもので、もう 1 つは特定の POS タグが別の POS タグの直後に来る可能性を判断するためのものです。これらの各機能セットからのスコアは、各状態の一意の重みで乗算されます。選択したパスが間違っている場合、間違ったパスの状態の各重みが罰せられ、正しいパスの重みが与えられます。
これは、私が(できれば)理解している範囲です。現在の私の最大の質問は、機能がどのように構成されているか (以前のタグ シーケンスは機能の一部ですか?)、およびビタビ アルゴリズムを実際に実装する方法です。また、構造化パーセプトロンを使用した POS タガーの実装はどこにでもありますか (できれば Java で) 分析できますか?
ヒントを教えていただけると大変助かります!
python - scikit-learn の SVM で非整数文字列ラベルを使用するにはどうすればよいですか? パイソン
scikit-learn には、機械学習用の非常に使いやすい Python モジュールがあります。
ラベルと入力データが単語と注釈である自然言語処理 (NLP) 用に SVM タガーをトレーニングしようとしています。入力タプルとして double/integer データを使用するのではなく、品詞のタグ付けなど[[1,2], [2,0]]
、私のタプルは次のようになります[['word','NOUN'], ['young', 'adjective']]
文字列タプルでSVMを使用する方法の例を誰か教えてください。ここで提供されるチュートリアル/ドキュメントは、整数/倍精度入力用です。http://scikit-learn.org/stable/modules/svm.html
python - Python NLTK の操作: POS タガーの精度を向上させるにはどうすればよいですか?
私はNLTKのPOSタガーを使用しています:
しかし、時々不正確な結果が得られます (JJ を取得する必要があるときに NN など。タグ付けしたいテキストはかなり特定のビジネス ドメイン内にあります...ここでどのドメインを言うかは自由ではありません)。確かに、私は Python や NLTK の専門家ではありませんが (ただし、それに取り組んでいます)、タガーの精度を向上させる方法はないかと考えていました。
タガーは、与えられたテキストを事前にタグ付けされたテキストのコーパスと比較することによって機能することを理解していると思います。私の自然な傾向は、このコーパスに自分でタグ付けした一連の文を追加しようとすることです...しかし、これを行う方法がわかりません。
自分のテキストをコーパスに追加する方法 (完全に新しいものを開始するのではなく、既存のテキストに追加することをお勧めします)、またはタグ付けの精度を向上させるための他の提案がある場合は、アドバイスをいただければ幸いです。私の目的のために、私はそれを聞きたいです。
ありがとうございました!
java - 入力ファイルを読み取ってタグを投稿する
テキスト内の単語のファイルがあります。ファイルを読みたいです
私の問題は、ファイルを読み取り、ファイルの行ごとに文字列としてタガーに渡して、出力ファイルに出力する必要があることです。
nlp - 差別的に訓練された監視された品詞のタグ付け
私は、差別的に訓練された品詞タガーを実装する必要があり、最尤法、パーセプトロン、および大マージン(SVM)を含むいくつかの手法を検討してきました。最後に、いくつかの研究論文で引用されたいくつかの実験結果を読んだ後、私はそれにSVMを使用することになりました。私はしばらくの間それを研究してきました、そして理論的にはいくつかのことが少し混乱しているようです。誰かが私に、実際の実装に関連するいくつかの読み物、またはビタビアルゴリズムを使用してそれを実装する方法についてのより明確な説明を教えてもらえますか?
PS:私は解決策を求めていませんが、いくつかのガイダンスが必要です。
java - 文字列トークナイザーを使用して単語のリストから単語を削除するには?
JavaでPos Taggingの後に単語のリストがあります。指定したタグを持つ特定の単語を削除したいのですが、文字列トークナイザを使用してタグ付きの単語を削除するにはどうすればよいですか? to-PRPなど?およびタグ prp を持つすべての単語?
入力ファイル:
. . . . . . . . . 等々
python - Python でスタンフォード タガーを使用するとエラーが発生する
これは私のコードとエラーメッセージです:
どうすれば修正できますか?Python で stanford tagger を使用したいです。ありがとうございます。
java - jvntextpro による POS タグ付け
誰かがJvntextpro の経験がありますか? ベトナム語のPOSタグデータに使用したいのですが、このツールの使い方がわかりません。どのファイルを変更する必要があり、入力ファイルはどの形式にする必要がありますか?
nltk - nltkpos_tagの使用法
NLTKで音声タグ付けを使用しようとしていますが、次のコマンドを使用しました。
ただし、次のようなエラーメッセージが表示されます。
コーパス全体をダウンロードしました。english.pickleファイルはmaxtent_treebank_pos_taggerにあります。
これを機能させるにはどうすればよいですか?