問題タブ [stanford-nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
529 参照

java - Java、StanfordNLP パーサー:山かっこをマークアップとしてトークン化するのをやめる方法/山かっこを句読点としてトークン化する方法は?

私は、人々が単に句読点として山括弧を使用しているデータセットを解析していますが、実際のマークアップは決して (決して) 発生しません。

を呼び出す代わりにパーサーの機能を変更する手段はありますか?

単一のトークン、取得できます

かなり単純な問題のように思えますが、ドキュメントやコードを調べても簡単な修正を見つけることができませんでした。

前もって感謝します!

PS このように振る舞う、私が知っておくべき他のキャラクターはいますか?

0 投票する
2 に答える
7016 参照

python - スタンフォード ポス タガーを nltk にインポートする際の問題

これはおそらく非常に些細な質問です。ここで指定された nltk を介してスタンフォード pos タガーを使用しようとしています。問題は、私の nltk ライブラリにスタンフォード モジュールが含まれていないことです。そのため、同じものを適切なフォルダーにコピーし、同じものをコンパイルしました。例を実行しようとすると、モジュールが検出されますが、モジュール内のクラスは検出されません。誰が私が間違っているのか教えてもらえますか?? 繰り返しますが、これはおそらく非常にばかげています。

私は py_compile を使用して stanford.py ファイルをコンパイルしました。私は何かが欠けていますか

0 投票する
4 に答える
2527 参照

java - 文を分割するにはどうすればよいですか?

それで、私はスタンフォードパーサーを見つけて現在使用しています、そしてそれは文を分割するために素晴らしい働きをします。私たちの文章のほとんどはAPからのものなので、そのタスクには非常にうまく機能します。

ここに問題があります:

  • たくさんのメモリを消費します(600Mたくさん)
  • 後で使用するために多くのエッジケースを作成する必要がある場合、テキストの本文のフォーマットが実際に台無しになります。(ドキュメントプリプロセッサAPI呼び出しでは、ascii / utf8引用符を指定できません。すぐにラテックススタイルになり、収縮は(明らかに)異なる単語に分割され、偽のスペースは異なる場所に配置されます)

この目的のために、私は実際に行う必要がないことを補うために、すでに複数のパッチを作成しました。

基本的には、最初に文を分割する問題と同じくらい、使用するのが邪魔になるところです。

私の他のオプションは何ですか?他に役立つ可能性のあるNLPタイプのフレームワークはありますか?

私の元々の問題は、高い確率で文のエッジを検出できることです。

0 投票する
1 に答える
1579 参照

parsing - スタンフォード パーサーに言語を追加する

まだ実装されていない別の言語でスタンフォード パーサーを使用したいと考えています。

私はウェブサイトを見ましたが、それを助けることができるものは何も見つかりませんでした.

私がしなければならないことは、新しい言語PCFG.serを「ただ」作成することだと思いますが、それを行うには?

また、フランス語とスペイン語がリリースされるかどうか知っている人はいますか?

0 投票する
2 に答える
1436 参照

java - 文中の単語の検索に関するJavaクエリ

私はスタンフォードのNLPパーサー(http://nlp.stanford.edu/software/lex-parser.shtml)を使用して、テキストのブロックを文に分割し、どの文に特定の単語が含まれているかを確認しています。

これまでの私のコードは次のとおりです。

「javaTokenizerDemotestfile.txtwall」を使用してコマンドラインからコードを実行します

testfile.txtの内容は次のとおりです。

したがって、プログラムで最初の文の「wall」を検出する必要があります(「wall」はコマンドラインの2番目の引数として入力されます)。しかし、プログラムは「yes!」を出力しないため、「wall」を検出しません。プログラムの出力は次のとおりです。

スタンフォードパーサーのDocumentPreprocessorは、テキストを2つの文に正しく分割します。問題は、equalsメソッドの使用にあるようです。各単語のタイプは「edu.stanford.nlp.ling.Word」です。単語の基になる文字列にアクセスしようとしたので、文字列が「壁」に等しいかどうかを確認できますが、アクセス方法がわかりません。

2番目のforループを"for(Word word:sentence){"と書くと、コンパイル時に互換性のないタイプのエラーメッセージが表示されます。

0 投票する
2 に答える
652 参照

java - スタンフォードNLPパーサーのロード時にエラーを解決できません

スタンフォードNLPパーサーJARファイルを使用すると、同じエラーが発生し続けます。

コード:

エラー:

使用法:リレーションツリーバンクnumberRanges

それはバグですか、それともこれを修正する方法がありますか?ありがとう!

0 投票する
3 に答える
3778 参照

language-agnostic - POSタグ付けなどの略語はどういう意味ですか?

次のペンツリーがあるとします。

VPなどの略語はSBARどういう意味ですか?これらの定義はどこにありますか?これらの略語は何と呼ばれていますか?

0 投票する
4 に答える
4037 参照

nlp - NLP を使用した文の圧縮

機械翻訳を使用して、文章の非常に圧縮されたバージョンを取得できますか。私は本当においしいおいしいコーヒーを飲みたいです I want coffeeに翻訳され ます NLPエンジンのいずれかがそのような機能を提供しますか?

パラフェーズ生成文圧縮を行う研究論文をいくつか入手しました。しかし、これをすでに実装しているライブラリはありますか?

0 投票する
1 に答える
947 参照

java - スタンフォード CoreNLP のビルド中にエラーが発生しました

自分で Core-NLP をビルドすると、次のメッセージが表示されます。

問題のある行:

問題のある機能:

これを修正する方法が本当にわかりません。プロジェクトで簡単に使用できるように、Maven で CoreNLP を構築しようとしています。アイデア?

0 投票する
1 に答える
1416 参照

nlp - ペンツリーバンク形式のテキストから句を抽出する

私が文を持っているとしましょう:

私のプログラムでは、次の出力が得られます。

条項内にないものをマージして独立した条項にするにはどうすればよいですか?このような:

はっきりしないことは確かですが、基本的には、文の独立節と従属節、およびそれらの節の副節を抽出したいと思います。