問題タブ [nltk-trainer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
126 参照

python - nltk-trainer 分類器の再トレーニング

新しく取得したデータを使用して、既存の分類器 (nltk-trainer を使用してトレーニングされた .pickle ファイル) を再トレーニングできるかどうかを確認しようとしています。これらのリンクを参照として使用して分類器をトレーニングしました[1][2]

今のところ、新しいトレーニング データを受け取るたびにすべてのデータで新しい分類子を再トレーニングしていますが、データセット全体で何度もトレーニングを行うと時間と計算コストがかかるため、これは面倒です。

より良い方法はありますか?

0 投票する
1 に答える
302 参照

python - NLTKで異なるチャンカーを連続して使用するには?

「NLTK3クックブックによるPython 3テキスト処理」を使用してテキストを分析しています。「LocationChunker」と「PersonChunker」の 2 つのチャンカーを作成しましたが、うまく機能します。

どこでも見ましたが、文を分析するために両方を同時に使用するにはどうすればよいでしょうか? その後、ne_chunk 関数も使用したいと思います。

POStaggers を使用すると、バックオフを宣言するのは非常に簡単ですが、ChunkParserI でこれを行うにはどうすればよいですか?

どうもありがとう。

0 投票する
1 に答える
3764 参照

python - NLTK - ダウンローダ UI を使用せずにコマンド ラインから corpara を除くすべての nltk データをダウンロードする

以下を使用して、すべての nltk データをダウンロードできます。

または、以下を使用した特定のデータ:

しかし、「コーパラ」ファイル以外のすべてのデータをダウンロードしたいのですが、たとえば、すべてのチャンカー、グラマー、モデル、ステマー、タガー、トークナイザーなどです。

ダウンローダ UI なしでこれを行う方法はありますか? 何かのようなもの、

0 投票する
1 に答える
664 参照

python - plaintext.split('\n') の行の取得: UnicodeDecodeError: 'ascii' コーデックは位置 2 のバイト 0x96 をデコードできません: 序数が範囲内にありません(128)

nltk チュートリアルを使用して Twitter データのセンチメンタル分析を設計しようとしていますが、次のコードを実行できません。

0 投票する
0 に答える
573 参照

python - テキストから興味/トピックを特定する

提供されたテキストの関心カテゴリ/トピックを識別しようとするモデルを構築しようとしています。例えば:

私たちの尽きることのない美しいデザイナーサリーからブライダルウェディングサリーを購入してください。お得な情報、高品質のステッチ、無料の国際配送を入手してください。

次のような最上位カテゴリに解決されます。

ファッションまたはウェディングファッション

これを実現するために、一連のドキュメントから単語の頻度に基づいてトピックを生成するトピック モデルである潜在的ディリクレ配分 (LDA) を使用しました。

だから私は以下のようにドキュメントのトピックを取得しましたが、それらを人間が理解できる形式にマッピングする方法が見つかりません

トピック #0 (0.500): 0.100*sare + 0.060*intern + 0.060*get + 0.060*deal + 0.060*exhaust + 0.060*design + 0.060*free + 0.060*qualiti + 0.060*shop + 0.060*great

トピック #1 (0.500): 0.063*sare + 0.063*beauti + 0.063*deliveri + 0.063*stitch + 0.063*varieti + 0.063*wed + 0.062*bridal + 0.062*great + 0.062*shop + 0.062*quality

このスクリプトを使用して上記のものを実装しました。

問題は、上記のトピックをファッションのような人間が読めるカテゴリにマッピングする方法です。

0 投票する
1 に答える
8461 参照

nltk - NLTK - チャンク ツリーをリストに変換する (IOB タグ付け)

名前付きエンティティの認識/分類を実行し、IOB タグ付き形式で出力を生成する必要があります。

NLTK-train libraryによって提供される NLTK チャンカーを使用していますが、それは IOB タグのリストではなくツリーを生成します。

次のように c を Tree として取得します。

...

しかし、私は次のようなものを探しています:

これは、list_of_words パラメーターの IOB タグ付きリストであり、list_of_words と同じ順序です。

ツリーからそのタグ付きリストを取得するにはどうすればよいですか?

0 投票する
1 に答える
7085 参照

python-3.x - nltk を Python と私のシステム、そしてコマンド プロンプトから削除する方法

pythonコマンドプロンプトでコマンドを使ってnltkをダウンロードしてみた

システムからすべての nltk ファイルを削除したいのですが、nltk のすべてのファイルのアンインストールと削除を手伝ってください。