問題タブ [nltk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1287 参照

python - Google App Engine での NLTK の使用

GAE で NLTK を使用している人はいますか? このスレッドから、GAE は NLTK をサポートしていないようです (特別なインストールのトリックが必要です)。他の軽量で同様の Python モジュールをご存知ですか? ありがとう。

0 投票する
4 に答える
8446 参照

python - FreqDist、pythonを使用して単語の頻度を合計します

FreqDistのfd.items()を使用して単語の頻度を合計するにはどうすればよいですか?

たとえば、の各単語most_freq_wが10回出現する場合、結果は次のようになります。100

!!! テキスト内のすべての単語の数は必要ありません。最も頻繁に使用されるのは10語だけです。

0 投票する
0 に答える
2222 参照

python - NLTKでテキストを分類するためのコーパスまたはコーパスを作成するには?

分類子テキストを作成しています。

1、10のカテゴリがあり、各カテゴリにはより多くの関連キーワードがあります。2、今、私はテキストを持っています。1 つのカテゴリに分類する必要がある 3、NLTK を使用しているが、最適なトレーニング コーパス、コーパスの作成方法がわからない

誰かが特徴を抽出する方法を手伝ってくれませんか... tks u

0 投票する
1 に答える
513 参照

python - 埋め込まれたタプル/文字列の操作、python

タプル形式のタグ付きテキスト (単語、タグ) があるとします。タグに変更を加えるために、文字列に変換したいと考えています。以下の私の関数は、テキストの最後の文のみを表示します。私が理解できない明らかで愚かな間違いがあると思います。そのため、テキスト全体で機能するようにしてください。

興味のある方へのPS、tuple2str関数はここに記載されています

編集:今、同じ形式のタプルに変換する必要があります。どうすればいいのですか?

上記のものはタプル全体に変換されますが、埋め込まれたものが必要です (入力 ( tpl) と同じ)

EDIT2:まあ、おそらくコード全体を公開する価値があります:

0 投票する
5 に答える
1497 参照

python - アイテムのシーケンスを数える、python

タスクはcount_vowels(text)、 string を受け取り、textテキスト内の母音をカウントし (カウントには Python 辞書を使用)、母音の頻度情報を文字列として返す関数を定義することです。例:

これまでのところ、私は思いついた:

では、私のコードの何が問題なのですか?どうすれば例と同じ結果を得ることができますか?

0 投票する
3 に答える
2311 参照

python - PyPyはNLTKで動作しますか?

PyPyはNLTKで動作しますか?動作する場合、ベイズ分類器の場合など、パフォーマンスが大幅に向上しますか?

私たちがそれに取り組んでいる間、他のpython環境(shedskinなど)のいずれかがcpythonよりも優れたnlktパフォーマンスを提供しますか?

0 投票する
2 に答える
2688 参照

python - MEGAMをNLTKClassifierBasedPOSTaggerとして使用しようとしていますか?

私は現在、NLTKを使用して汎用(または実用的な範囲で)POSタガーを構築しようとしています。トレーニングのためにブラウンとツリーバンクのコーパスに手を出しましたが、おそらくツリーバンクのコーパスに落ち着くでしょう。

学習しながら、分類子POSタガーが最も正確であることがわかりました。Maximum Entity分類器は最も正確であることが意図されていますが、非常に多くのメモリ(および処理時間)を使用するため、トレーニングデータセットを大幅に削減する必要があるため、デフォルトの単純ベイズ分類器を使用するよりも最終結果の精度が低くなります。

MEGAMを使用することをお勧めします。NLTKはMEGAMをある程度サポートしていますが、私が見つけたすべての例は、より具体的なPOSタガーではなく、一般的な分類子(たとえば、単語の特徴のベクトルを使用するテキスト分類子)を対象としています。独自のPOS特徴抽出器とコンパイラーを再作成する必要はありません(つまり、すでにNLTKにあるものを使用することを好みます)。MEGAMMaxEnt分類器をどのように使用できますか?つまり。次の行に沿っている既存のMaxEntコードにドロップするにはどうすればよいですか?

0 投票する
1 に答える
1209 参照

collections - NLTK で文字列のコレクションからコーパスを作成できますか?

ファイルに項目を持たなくてもコーパスを作成する方法はありますか? たとえば、Web から取得したツイートや段落を操作したいとします。次のようなことができますか

または

目的は、既存の NLTK 機能を使用してコーパスを操作することです。確認TextCollectionしましたが、カテゴリを扱っていないようです。

0 投票する
8 に答える
28373 参照

python - 効率的な文脈自由文法パーサー、できれば Python フレンドリー

私のプロジェクトの 1 つで英語の小さなサブセットを解析する必要があり、(1 レベルの) 機能構造を持つ文脈自由文法 ( example ) として記述されており、それを効率的に行う必要があります。

現在、正しい出力を生成するNLTKのパーサーを使用していますが、非常に遅いです。約 450 のかなりあいまいな非語彙規則と 50 万の語彙エントリからなる私の文法では、単純な文の解析には、結果のツリーの数にもよりますが、2 秒から 30 秒かかります。レキシアル エントリは、パフォーマンスにほとんどまたはまったく影響を与えません。

もう 1 つの問題は、最初に (25MB) 文法と語彙集をロードするのに 1 分ほどかかることです。

私が文献で見つけたものから、そのような文法 (Earley または CKY) を解析するために使用されるアルゴリズムの実行時間は、文法のサイズに対して線形であり、入力トークン リストのサイズに対して 3 次でなければなりません。私の NLTK の経験から、文法の絶対的なサイズではなく、あいまいさがパフォーマンスに最も悪影響を与えることが分かります。

そこで、NLTK に代わる CFG パーサーを探しています。私はPLYを検討してきましたが、私の場合に必要な CFG の機能構造をサポートしているかどうかはわかりません。私が見た例では、文法を指定するだけでなく、多くの手続き型解析を行っているようです。機能構造体をサポートし、宣言型文法を使用する PLY の例を誰かに見せてもらえますか?

また、必要なことを効率的に実行できる他のパーサーでも問題ありません。Python インターフェイスが望ましいですが、絶対に必要というわけではありません。

0 投票する
6 に答える
93016 参照

python - NLTK を使用した FreqDist

Python のNLTKには、テキスト内の単語の頻度を示す関数FreqDistがあります。テキストを引数として渡そうとしていますが、結果は次の形式です。

[' ', 'e', 'a', 'o', 'n', 'i', 't', 'r', 's', 'l', 'd', 'h', 'c', 'y', 'b', 'u', 'g', '\n', 'm', 'p', 'w', 'f', ',', 'v', '.', "'", 'k', 'B', '"', 'M', 'H', '9', 'C', '-', 'N', 'S', '1', 'A', 'G', 'P', 'T', 'W', '[', ']', '(', ')', '0', '7', 'E', 'J', 'O', 'R', 'j', 'x']

一方、NLTK Web サイトの例では、結果は単なる文字ではなく単語全体でした。私はこのようにしています:

私が間違っていることを知っていますか?ありがとう!