問題タブ [pos-tagger]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Javaでのミニサマライザーの実装
私はJavaで小さな要約ユーティリティを作成することに取り組んでいます。スタンフォードの対数線形品詞タガーを使用して、文の品詞を検索しています。次に、特定のタグをスコアリングし、各文にスコアを付けます。そして、最後に要約すると、スコアが一定の制限を超えている行のみを追加します。それが計画です。
これは、形容詞をスコアリングし、たとえば1より大きいスコアに基づいて要約を生成するために作成したサンプルコードです。
しかし、どうやら、私はどこかで間違っています。必要な行をに書き込みますtempFile
が、余分な行もたくさんあります。親切に助けてください!
java - タグに基づいて行内の各文にスコアを付け、テキストを要約します。(ジャワ)
Java でサマライザーを作成しようとしています。Stanford Log-linear Part-Of-Speech Taggerを使用して単語にタグを付けてから、特定のタグについて文にスコアを付け、最後に要約でスコア値の高い文を出力しています。コードは次のとおりです。
上記のコードは機能しません。ただし、作業を切り取り、すべての行 (文ではない) のスコアを生成すると、機能します。しかし、要約はそのようには生成されませんね。そのためのコードは次のとおりです: (すべての宣言は上記と同じです)
編集1:
MaxentTagger の機能に関する情報。機能していることを示すサンプルコード:
出力:
編集2:
文の区切りを見つけるために BreakIterator を使用してコードを変更しました。それでも問題は解決しません。
c# - CYK (Cocke-Younger-Kasami) 文法規則
私は自然言語解析に興味があり、Brill Part of Speech Tagger を作成しました。これを文法規則に基づいた POS タガーと組み合わせて拡張したいと考えています。英語のオープン ソース ルールセット ファイルを知っている人はいますか? CYK (Cocke-Younger-Kasami) アルゴリズム、特に C# に関連するものに特に興味があります。ありがとう。
nltk - タグ付きテキスト ファイルからカスタム nltk コーパスを作成する
多くの投稿を読んだ後でも、nltk でカスタム コーパスを作成することにまだ問題があります。タグ付きの文のテキスト ファイルがあり、各項目は ... word/tag の形式の文字列です。これを使ってタガーを訓練したい。さまざまなタイプのタガーをトレーニングする train-tagger という nltk パッケージを使用しようとしています。2つの質問。1) train-tagger はテキスト ファイルを入力として使用できますか、それとも nltk コーパス オブジェクトのみを使用できますか? 2) コーパスのみを使用する場合、テキスト ファイルからコーパスを作成するにはどうすればよいですか? コーパスを作成するために次のコードを試しました...
動作しているようですが、出力が見つかりません。このコードが実行されるフォルダー、または nltk_data/corpora のいずれかにコーパスが作成されるはずですが、何も見つかりません。私が作成した「newcorpus」を保存するはずのコーパスモジュールにメソッドはありますか? 次に、train-tagger への入力として使用できますか? また、タグ付きの文ファイルを PlaintextCorpusReader への入力として使用する必要がありますか?
rules - 形態素解析用の Drools
Drools はステミングや POS タグ付けのルールを書くのに適していますか? より良いルール言語の提案を歓迎します。ルールベースのアプローチを使用するこの分野の多くの論文を読みましたが、ルールを記述するために使用されたライブラリまたはフレームワークについて言及したものはありませんでした。
私のルールは次のようなものです。
... 等々。
問題は、これらのルールが多すぎて処理できないことです。10 個の文字グループがあり、各グループに属する各文字にケースがあると想像してください。単語を正しく分類するためのルールは簡単に 1,000 を超えます。これらのルールのうち 30 個を単純な C# コードで記述しましたが、これだけで、このアプローチがいかに非効率的であるかを理解できました。私はすでにルールを紙の上にツリーとして整理しています。それらを挿入、表現、微調整、テストするための適切なフレームワークが必要なだけです。
私の質問が明確であることを願っています。ありがとうございました。
google-app-engine - GAEでのPOSタグ付け
GoogleAppEngineでPythonの文の名詞を引き出すために文字列のタグ付けの一部を実行しようとしています。これまで、nltkライブラリを使用しようとしました。しかし、GAEでnltkを動作させることができません。エラーメッセージは、numpyモジュールがないことについて文句を言います。
この人は同じ問題を抱えています: https ://groups.google.com/forum/?fromgroups#!topic / nltk-users / 2nWZtLgFyvI
nltkをGAEで実行する方法、またはGAEで実行する代替POSタガーを取得する方法についての明確な指示が見つかりません
編集:
nltkを機能させるための私の手順(私はosx 10.7を使用しています):
- ターミナル「easy_installnltk」を介してnltkをインストールします
- nltkをappengineプロジェクトのルートにコピーします/Library/Python/2.7/site-packages/nltk-2.0.1-py2.7.egg/nltk/
次の設定をapp.yamlに追加します。
/li>import nltk
その中にtest.pyを書く- デプロイして実行すると、次のエラーが発生します(numpyエラーは解決されましたが、新しいエラーが発生します):
トレースバック(最後の最後の呼び出し):ファイル "/base/data/home/apps/s~domain/1.359540170137090086/dynamic/test.py"、4行目、importnltkファイル"/ base / data / home / apps / s 〜domain / 1.359540170137090086 / nltk / init .py "、行116、インポートccgファイル" / base / data / home / apps / s〜domain / 1.359540170137090086 / nltk / ccg / init .py "、行14、nltkから.ccg.combinator import(UndirectedBinaryCombinator、DirectedBinaryCombinator、File "/base/data/home/apps/s~domain/1.359540170137090086/nltk/ccg/combinator.py"、line 8 in from nltk.parse import ParserI File "/ base / data / home / apps / s〜domain / 1.359540170137090086 / nltk / parse / init.py "、68行目、nltk.parse.utilからインポートload_parser、TestGrammar、extract_test_sentencesファイル" /base/data/home/apps/s~domain/1.359540170137090086/nltk/parse/util.py "、15行目、 from nltk.data import load File "/base/data/home/apps/s~domain/1.359540170137090086/nltk/data.py"、75行目、if os.path.expanduser('〜/')!='〜 /':パス+ =[ファイル"/base/python27_runtime/python27_dist/lib/python2.7/posixpath.py"、259行目、expanduser import pwd ImportError:pwdという名前のモジュールがありません
以下はnltk/data.pyからのものです(75行目あたり):
unicode - Unicode スペル チェッカーの開発プラットフォーム?
南アジア言語の最終年度のプロジェクトで (Unicode) スペル チェッカーを開発することにしました。プラグインやWebサービスとして開発したい。しかし、それに適した開発プラットフォームを決定する必要があります。(これは辞書ファイルをチェックするだけでなく、形態素解析/生成モジュール (ステマー) も使用されます)。
Java スクリプトは、公平な応答時間でそのような処理を処理できますか?
クライアント側で大きな辞書を処理できますか?
あなたができるより良い提案はありますか?
java - JAVA 品詞 (POS) タグを含む文を POS タグ文のない文と POS タグ文のみに分離しますか?
文が次のとおりであると仮定します。
それは/pps が/vbd/cs the/cs the/at next/ap 議会/nn-tl
/
提供/vb 有効化/vbg 資金/nns および/cc リセット/vb the/at effective/jj date/nn so/cs that /cs an/at orderly/jj implementation/nn of/in the/law/nn may/md be/be effected/vbn ''/'' ./.
上記の文はブラウンコーパスからの抜粋です。これらすべてのPOSタグと印刷物から文を解放するにはどうすればよいですか。別の文はPOSタグだけです。
POS タグのない文は、次のようになります。
それは、次の議会が「法律の秩序ある実施が行われるように、有効な資金を提供し、発効日を再設定する」ことを求めた.
POS タグのみの文は、次のようになります。
pps vbd cs at ap nn-tl `` vb vbg nns cc vb at jj nn cs cs at jj nn in at nn md be vbn '' .
objective-c - Mac OSX 上のイタリア語用の POS タグ付け API
イタリア語のドキュメントで動作する POS-Tagging API を探しています。私の好みは、オープン ソース コード (おそらく、ruby、jruby、macruby、java、scala) です。私が書いたプログラムは Mac OsX で動作し、すでにこのリストを調査しましたが、「イタリア語」にはあまりありません。
10.8 の時点で、Cocoa NSLinguisticTagger はスペイン語とイタリア語の品詞タグと見出し語を提供しています。試すことはできますが、OSX 10.7 をアップグレードする前に、本当に価値があると思うか、または他に良いオプションがあるかどうかをお知らせください。
java - Stanford POS Tagger: How to preserve newlines in the output?
My input.txt file contains the following sample text:
you have to let's
come and see me.
Now if I invoke the Stanford POS tagger with the default command:
I get the following in my output.txt file:
The problem with the above output is that I have lost my original newline delimiter used in the input file.
Now, if I use the following command to preserve my newline sentence delimiter in the output file I have to set -tokenize option to false:
The problem with this code is that it totally messed up the output:
Here let's and me. are tagged inappropriately.
My question is how can I preserve the newline delimiters in the output file without messing up the tokenization?