問題タブ [pos-tagger]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-2.7 - NLTK POS タガーが機能しない
これを試してみると:
出力:
python - How do I use Regexp Tagger in nltk?
If I try this code :
I get an output likr this:
[('H', None), ('e', None), (' ', None), ('w', None), ('a', None), ('s', None), (' ', None), >('b', None), ('o', None), ('r', None), ('n', None), (' ', None), ('i', None), ('n', None), (' ', None), ('M', None), ('a', None), ('r', None), ('c', None), ('h', None), (' ', None), ('1', None), ('9', None), ('9', None), ('1', None)]
In fact I would like this tagger to recognise 'March' word with 'MAR' tag.
python - python NLTKで正規表現バックオフタガーを使用してNNをオーバーライドする方法は?
カスタム トレーニング済みの nltk pos_tagger を使用してきましたが、明らかに動詞 (ING または ED で終わる) が NN として入ってくることがあります。追加の動詞を見つけるためだけに、追加の regexpTagger を介してタガーにすべての NN を処理させるにはどうすればよいですか?
セカンダリ正規表現タガーのサンプル コードをいくつか含めました。
ありがとう
algorithm - 品詞タグ付けのための機能関数の作成
パーセプトロンを使用して教師あり分類を実行し、それによって文の品詞タグ付けを実行しようとしています。今のところ、各単語のタグは互いに独立していると想定しています。(つまり、機能として単語だけを使用しています)。私は機械学習アルゴリズムにかなり慣れていないため、各単語の特徴関数を表す方法を理解できません。
私は100文のトレーニングセットを持っており、各単語には特定のタグ(たとえば、N、V、J(形容詞)など)が付けられています。例えば、
ジャック(N)と(&)ジル(N)は(V)から(PRP)ペルー(N)に行きました
タグは中かっこで囲まれています。合計10個の可能なタグがあるとしましょう。さて、私の質問は、ジャックという単語の特徴ベクトルはどのように見えるかということです。
私のコードは表記法とよりよく一致するので、私はそれをベクトルとして実装することに非常に興味があります。機能関数がどのように見えるかを理解すると、パーセプトロンアルゴリズムを実装できるようになります。
また、次のような機能を追加したいとします。(a)最初の文字は大文字ですか?(b)単語はハイフンでつながれているなど、特徴ベクトルに組み込むにはどうすればよいですか?
直感的には、ベクトルには2進値のみが必要であることがわかりますが、それを超えることはできません。
できれば具体的な例で説明してみてください!
pos-tagger - マレットCRFSimpleTaggerフレーズ/マルチワード
私はマレットの初心者です。マレットシンプルタガー/CRFを使用してフレーズを試しています。マレットサイトでドキュメントを検索し、ユーザーアーカイブも調べましたが、何の役にも立ちませんでした。
簡単なタグ付けのために木槌をトレーニングしてみましたが、それはうまく機能します。私のデータは次のようになります(トレーニング間には異なるセットであることを示す改行があることに注意してください)
サンプルトレーニングデータ:
私が抱えている問題は、都市名が複数の単語である場合です、と言います
上記のトレーニングデータでは、「新規」はストップワードの質問であることに注意してください。
- Simple taggerの場合、上記の表現は問題ありませんか?そうでない場合、どのように私は薬局を表すのですか?
- SimpleTagger/CRFが前の「n」の単語を使用してタグに到達できるようにデータを表現する方法がない場合はどうでしょうか。つまり、私の入力のチャンクのようなもの
installation - TreeTagger のインストールは成功しましたが、.par ファイルを開けません
このファイル読み取りエラーを解決する方法を知っている人はいますか?これは、文のタグ付け、見出し語化、およびチャンクにTreeTagger
使用される一般的な自然言語処理ツールです。POS
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/installation-hints.txtで示唆されているように、インストールに関する問題は発生しませんでした。Web ページの指示に従いましたが、適切にインストールされています ( http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/#Linux ):
しかし、ソフトウェアをテストしようとすると、次のエラーが発生します。
nlp - Stanford Core NLP 確率と誤差範囲を取得する方法
パーサーを使用する場合、またはコア NLP の注釈のいずれかを使用する場合、確率またはエラーのマージンにアクセスする方法はありますか?
私の質問を文脈に入れるために、あいまいさのケースをプログラムで検出する方法があるかどうかを理解しようとしています。たとえば、以下の文では、動詞の欲望が名詞として検出されます。あいまいさがある可能性があることを伝えるために、Core NLP APi からアクセスまたは計算できるような種類の測定値を知りたいです。
python - nltk のバックオフ タガー
私はpythonコーディングが初めてです。バックオフ(私の場合はRegexpTagger)とともにUnigramTaggerを使用したいのですが、以下のエラーが何であるかを理解するのに苦労しています。これに関する助けに感謝します。
これは、パターンと backoff_tagger の tag_util にあるコードです
c# - 外部バッチと Java ファイルを実行する C#
Stanford POS-tagger アプリケーションを使用して、約 300 ファイルの記事にタグを付けています。これを行うために、ファイルを調べてタガーを使用する C# コードを作成しました。
私のコードは次のようになります。
stanford-postagger.bat は次のようになります。
使用法: stanford-postagger model textFile 例: stanford-postagger models\left3words-wsj-0-18.tagger sample-input.txt
java -mx300m -cp "stanford-postagger.jar;" edu.stanford.nlp.tagger.maxent.MaxentTagger -モデル %1 -textFile %2
問題は:
コードはそれを実行しますが、java コマンドは実行しません。ラップトップで試してみたところ、魅力的に機能し、タグ付けされます。ただし、メモリが不足しているため、大きなファイルにはタグ付けできません。しかし、より強力な私の PC では、Java は実行されません。
CMD を開いて、ファイルの正しいパラメーターを指定してその Java コマンドを入力すると、機能します。それが機能しない原因について何か考えはありますか? すべてのパスは良好です。トリプルチェックしました。
これは、動作していないプログラム (PC 上) から取得した出力の例です。
C:\postagger>java -mx300m -cp "stanford-postagger.jar;" edu.stanford.nlp.tagger.maxent.MaxentTagger -モデル C:\postagger\models\wsj-0-18-bidirectional-distim.tagger -textFile C:\brown2\aaa.txt
latex - 数式を含むテキストの品詞タグ付けを行う方法は?
目標は、科学的なテキストの構文解析です。まず、そのようなテキストの文の品詞タグ付けを行う必要があります。テキストはarxiv.orgからのものです。したがって、元は LaTeX です。LaTeX ドキュメントからテキストを抽出する場合、数式を MathML に変換できます (または他の形式かもしれませんが、特定の Web アプリを作成するためにこの作業が行われているため、私は MathML を好みます。MathML はそのための便利なツールです)。
私が持っている唯一のアイデアは、数式を自然言語のいくつかのフレーズに置き換えてから、投稿タグ付けに実装されたアルゴリズムを使用することです。問題は、この置換をどのように実装するか、または一般的に、数学を含むテキストの pos-tagging をどのように実装するかです。