問題タブ [opennlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - SentenceDetector用のOpennlp 1.5?
今、私は次のコードを持っています:
しかし、私は次の結果を得ました:
絶対に、これは私たちが望んでいるものではありません。どうすれば問題を解決できますか? ありがとう。
parsing - opennlp vs stanford nlptools vs berkeley
こんにちは目的は、ウィキペディアのようなかなりのコーパスを解析して、最も可能性の高い解析ツリーと固有表現抽出を生成することです。パフォーマンスと精度の観点から、これを実現するのに最適なライブラリはどれですか?上記のライブラリを複数使用したことがありますか?
java - OpenNLPパーサートレーニング
私は以前にOpenNLPsourceforgeページでこれを尋ねようとしましたが、ヘルプフォーラムではまだ悲しいことに苦しんでいます:
ツリーバンクがあり、それに基づいてモデルをトレーニングしたいと思います。ParserMEを使用していくつかのコードがありましたが、そのクラスはもう存在しないようです。TreebankParserに置き換えられた可能性がありますが、そこに電車の道具が見つからないようです。これを行う方法はありますか?
ヒントは大歓迎です
java - 複数のテキストに使用する場合の OpenNLP の POSTagging の高速化
私は現在、キーフレーズ抽出ツールに取り組んでいます。これは、Web サイト上のテキストまたはドキュメントのタグ候補を提供する必要があります。私はこの論文で提案されている方法に従います:ニューラル ネットワークを使用したキーフレーズ抽出への新しいアプローチ私は最初のステップ、つまり候補選択に OpenNLP ツールキットの POSTagger を使用しています。
一般に、キーフレーズ抽出は非常にうまく機能します。私の問題は、POSTagger を使用するたびに、モデルに対応するファイルからこの高価なロードを実行する必要があることです。
これは、このコードが Web サーバー自体のスコープではなく、特定の 1 つの要求のみを処理するライフサイクルを持つ「ハンドラー」内にあるためです。私の質問は、ファイルを一度だけロードするにはどうすればよいですか? (モデルがロードされるのを待って、その後200ミリ秒だけ使用するのに10秒を費やしたくありません。)
私の最初のアイデアは、Java の組み込みメカニズムを使用して、POSTaggerME ( TokenizerME resp.) をシリアライズし、必要なたびにデシリアライズすることでした。残念ながら、これは機能しません。例外が発生します。(毎回分類子を構築 (またはトレーニング) する必要がないように、最後に候補を分類する WEKA ツールキットから分類子をシリアル化します。したがって、これは POSTaggeME にも適用できると思います。残念ながら、これはそうではありません。)
Tokenizer の場合、単純なWhitespaceTokenizerを参照できます。これは劣ったソリューションですが、それほど悪くはありません。
しかし、信頼できる POSTagger にはこのオプションがありません。
tags - OpenNLP のドイツ語 maxent モデルで使用されるタグ セットは?
現在、OpenNLP ツールを使用して、ドイツ語の文章に PoS タグを付けています。maxent モデルは、ダウンロード サイトにリストされています。
これは非常にうまく機能し、次のような結果が得られました。
タグ付けされた文を使用して、単一のタグの意味を知る必要がある場合に、さらに処理を行いたいと考えています。残念ながら、 OpenNLP-Wikiでタグ セットを検索することは、次のようにあまり役に立ちません。
ドイツの maxent モデルで使用されているタグ セットがどこにあるか知っている人はいますか?
r - テキストから名詞+名詞または(adj|名詞)+名詞を抽出する
RパッケージのopenNLPで名詞+名詞または(adj|名詞)+名詞を抽出できるか問い合わせたいのですが?やり方を教えていただけますか?どうもありがとう。
回答ありがとうございます。コードは次のとおりです。
リーダーは、 acqTagSplitのインデックスを参照して、名詞 + 名詞または (adj|名詞) + 名詞の抽出を行うことができます。(コードは最適ではありませんが動作します。何かアイデアがあれば教えてください。)
さらに、私にはまだ問題があります。
Justeson と Katz (1995) は、名詞句の候補を抽出する別の言語フィルタリングを提案しました。
((Adj|名詞)+|((Adj|名詞) (名詞-プレップ)?)(Adj|名詞) )名詞
その意味がよく理解できません。それを説明するか、そのような表現をR言語に変換してください。どうもありがとう。
java - OpenNLP は「2009 年 1 月 10 日」という形式の日付を識別できませんか?
OpenNLP (Java) は、「2010 年 1 月 10 日」または「2010 年 1 月 10 日」という形式の日付を識別できません。OpenNLP トークナイザーを使用する前に、テキスト内のすべての「,」を空の文字列「」に置き換えました。これは、「2010 年 1 月 10 日」という形式の日付に対して正常に機能します。そこで、「th,」を「,」に置き換えてみましたが、うまくいきませんでした。上記のフォームの日付が OpenNLP で識別されるようにするにはどうすればよいでしょうか?
前もって感謝します
java - OpenNLP で「missing the manifest.properties」を解決する方法は?
トークン化に OpenNLP を使用しようとしています。何が問題なのかわからない。以下は例外です。
nlp - NameFinderME クラスの OpenNLP での Nullpointer 例外
OpenNLPを使用して、特定のテキストから名前付きエンティティを抽出しています。大きなデータに対してコードを実行すると、次のエラーが発生します。小さなデータで実行すると、正常に動作します。
これで私を助けてください。
java - OpenNLP を使用して文の主語を取得する方法はありますか?
OpenNLP を使用して文の主語を取得する方法はありますか? ユーザーの文の最も重要な部分を特定しようとしています。通常、ユーザーは私たちの「エンジン」に文を送信します。私たちは、その文の中心的なトピックが何であるかを正確に知りたいと考えています。
現在、openNlp を使用して次のことを行っています。
- 文をチャンクする
- 文の名詞句、動詞などを特定する
- 文のすべての「トピック」を特定する
- (まだ完了していません!) 文の「コア トピック」を特定する
何か明るいアイデアがあれば教えてください..