“stanford-nlp”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

529 参照

java - Java、StanfordNLP パーサー:山かっこをマークアップとしてトークン化するのをやめる方法/山かっこを句読点としてトークン化する方法は?

私は、人々が単に句読点として山括弧を使用しているデータセットを解析していますが、実際のマークアップは決して (決して) 発生しません。

を呼び出す代わりにパーサーの機能を変更する手段はありますか?

単一のトークン、取得できます

かなり単純な問題のように思えますが、ドキュメントやコードを調べても簡単な修正を見つけることができませんでした。

前もって感謝します！

PS このように振る舞う、私が知っておくべき他のキャラクターはいますか?

java stanford-nlp

2011-08-20T00:53:14.457

0 投票する

2 に答える

7016 参照

python - スタンフォードポスタガーを nltk にインポートする際の問題

これはおそらく非常に些細な質問です。ここで指定された nltk を介してスタンフォード pos タガーを使用しようとしています。問題は、私の nltk ライブラリにスタンフォードモジュールが含まれていないことです。そのため、同じものを適切なフォルダーにコピーし、同じものをコンパイルしました。例を実行しようとすると、モジュールが検出されますが、モジュール内のクラスは検出されません。誰が私が間違っているのか教えてもらえますか?? 繰り返しますが、これはおそらく非常にばかげています。

私は py_compile を使用して stanford.py ファイルをコンパイルしました。私は何かが欠けていますか

2011-09-08T08:01:59.760

0 投票する

4 に答える

2527 参照

java - 文を分割するにはどうすればよいですか？

それで、私はスタンフォードパーサーを見つけて現在使用しています、そしてそれは文を分割するために素晴らしい働きをします。私たちの文章のほとんどはAPからのものなので、そのタスクには非常にうまく機能します。

ここに問題があります：

たくさんのメモリを消費します（600Mたくさん）
後で使用するために多くのエッジケースを作成する必要がある場合、テキストの本文のフォーマットが実際に台無しになります。（ドキュメントプリプロセッサAPI呼び出しでは、ascii / utf8引用符を指定できません。すぐにラテックススタイルになり、収縮は（明らかに）異なる単語に分割され、偽のスペースは異なる場所に配置されます）

この目的のために、私は実際に行う必要がないことを補うために、すでに複数のパッチを作成しました。

基本的には、最初に文を分割する問題と同じくらい、使用するのが邪魔になるところです。

私の他のオプションは何ですか？他に役立つ可能性のあるNLPタイプのフレームワークはありますか？

私の元々の問題は、高い確率で文のエッジを検出できることです。

java parsing stanford-nlp

2011-09-21T21:33:59.910

0 投票する

1 に答える

1579 参照

parsing - スタンフォードパーサーに言語を追加する

まだ実装されていない別の言語でスタンフォードパーサーを使用したいと考えています。

私はウェブサイトを見ましたが、それを助けることができるものは何も見つかりませんでした.

私がしなければならないことは、新しい言語PCFG.serを「ただ」作成することだと思いますが、それを行うには?

また、フランス語とスペイン語がリリースされるかどうか知っている人はいますか?

parsing nlp stanford-nlp

2011-09-29T12:05:51.883

0 投票する

2 に答える

1436 参照

java - 文中の単語の検索に関するJavaクエリ

私はスタンフォードのNLPパーサー（http://nlp.stanford.edu/software/lex-parser.shtml）を使用して、テキストのブロックを文に分割し、どの文に特定の単語が含まれているかを確認しています。

これまでの私のコードは次のとおりです。

「javaTokenizerDemotestfile.txtwall」を使用してコマンドラインからコードを実行します

testfile.txtの内容は次のとおりです。

したがって、プログラムで最初の文の「wall」を検出する必要があります（「wall」はコマンドラインの2番目の引数として入力されます）。しかし、プログラムは「yes！」を出力しないため、「wall」を検出しません。プログラムの出力は次のとおりです。

スタンフォードパーサーのDocumentPreprocessorは、テキストを2つの文に正しく分割します。問題は、equalsメソッドの使用にあるようです。各単語のタイプは「edu.stanford.nlp.ling.Word」です。単語の基になる文字列にアクセスしようとしたので、文字列が「壁」に等しいかどうかを確認できますが、アクセス方法がわかりません。

2番目のforループを"for（Word word：sentence）{"と書くと、コンパイル時に互換性のないタイプのエラーメッセージが表示されます。

java string nlp stanford-nlp sentence

2011-10-13T13:36:21.230

0 投票する

2 に答える

652 参照