問題タブ [stanford-nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java、StanfordNLP パーサー:山かっこをマークアップとしてトークン化するのをやめる方法/山かっこを句読点としてトークン化する方法は?
私は、人々が単に句読点として山括弧を使用しているデータセットを解析していますが、実際のマークアップは決して (決して) 発生しません。
を呼び出す代わりにパーサーの機能を変更する手段はありますか?
単一のトークン、取得できます
かなり単純な問題のように思えますが、ドキュメントやコードを調べても簡単な修正を見つけることができませんでした。
前もって感謝します!
PS このように振る舞う、私が知っておくべき他のキャラクターはいますか?
python - スタンフォード ポス タガーを nltk にインポートする際の問題
これはおそらく非常に些細な質問です。ここで指定された nltk を介してスタンフォード pos タガーを使用しようとしています。問題は、私の nltk ライブラリにスタンフォード モジュールが含まれていないことです。そのため、同じものを適切なフォルダーにコピーし、同じものをコンパイルしました。例を実行しようとすると、モジュールが検出されますが、モジュール内のクラスは検出されません。誰が私が間違っているのか教えてもらえますか?? 繰り返しますが、これはおそらく非常にばかげています。
私は py_compile を使用して stanford.py ファイルをコンパイルしました。私は何かが欠けていますか
java - 文を分割するにはどうすればよいですか?
それで、私はスタンフォードパーサーを見つけて現在使用しています、そしてそれは文を分割するために素晴らしい働きをします。私たちの文章のほとんどはAPからのものなので、そのタスクには非常にうまく機能します。
ここに問題があります:
- たくさんのメモリを消費します(600Mたくさん)
- 後で使用するために多くのエッジケースを作成する必要がある場合、テキストの本文のフォーマットが実際に台無しになります。(ドキュメントプリプロセッサAPI呼び出しでは、ascii / utf8引用符を指定できません。すぐにラテックススタイルになり、収縮は(明らかに)異なる単語に分割され、偽のスペースは異なる場所に配置されます)
この目的のために、私は実際に行う必要がないことを補うために、すでに複数のパッチを作成しました。
基本的には、最初に文を分割する問題と同じくらい、使用するのが邪魔になるところです。
私の他のオプションは何ですか?他に役立つ可能性のあるNLPタイプのフレームワークはありますか?
私の元々の問題は、高い確率で文のエッジを検出できることです。
parsing - スタンフォード パーサーに言語を追加する
まだ実装されていない別の言語でスタンフォード パーサーを使用したいと考えています。
私はウェブサイトを見ましたが、それを助けることができるものは何も見つかりませんでした.
私がしなければならないことは、新しい言語PCFG.serを「ただ」作成することだと思いますが、それを行うには?
また、フランス語とスペイン語がリリースされるかどうか知っている人はいますか?
java - 文中の単語の検索に関するJavaクエリ
私はスタンフォードのNLPパーサー(http://nlp.stanford.edu/software/lex-parser.shtml)を使用して、テキストのブロックを文に分割し、どの文に特定の単語が含まれているかを確認しています。
これまでの私のコードは次のとおりです。
「javaTokenizerDemotestfile.txtwall」を使用してコマンドラインからコードを実行します
testfile.txtの内容は次のとおりです。
したがって、プログラムで最初の文の「wall」を検出する必要があります(「wall」はコマンドラインの2番目の引数として入力されます)。しかし、プログラムは「yes!」を出力しないため、「wall」を検出しません。プログラムの出力は次のとおりです。
スタンフォードパーサーのDocumentPreprocessorは、テキストを2つの文に正しく分割します。問題は、equalsメソッドの使用にあるようです。各単語のタイプは「edu.stanford.nlp.ling.Word」です。単語の基になる文字列にアクセスしようとしたので、文字列が「壁」に等しいかどうかを確認できますが、アクセス方法がわかりません。
2番目のforループを"for(Word word:sentence){"と書くと、コンパイル時に互換性のないタイプのエラーメッセージが表示されます。
java - スタンフォードNLPパーサーのロード時にエラーを解決できません
スタンフォードNLPパーサーJARファイルを使用すると、同じエラーが発生し続けます。
コード:
エラー:
使用法:リレーションツリーバンクnumberRanges
それはバグですか、それともこれを修正する方法がありますか?ありがとう!
language-agnostic - POSタグ付けなどの略語はどういう意味ですか?
次のペンツリーがあるとします。
VP
などの略語はSBAR
どういう意味ですか?これらの定義はどこにありますか?これらの略語は何と呼ばれていますか?
java - スタンフォード CoreNLP のビルド中にエラーが発生しました
自分で Core-NLP をビルドすると、次のメッセージが表示されます。
問題のある行:
問題のある機能:
これを修正する方法が本当にわかりません。プロジェクトで簡単に使用できるように、Maven で CoreNLP を構築しようとしています。アイデア?
nlp - ペンツリーバンク形式のテキストから句を抽出する
私が文を持っているとしましょう:
私のプログラムでは、次の出力が得られます。
条項内にないものをマージして独立した条項にするにはどうすればよいですか?このような:
はっきりしないことは確かですが、基本的には、文の独立節と従属節、およびそれらの節の副節を抽出したいと思います。