問題タブ [nltk-trainer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - NLTKで異なるチャンカーを連続して使用するには?
「NLTK3クックブックによるPython 3テキスト処理」を使用してテキストを分析しています。「LocationChunker」と「PersonChunker」の 2 つのチャンカーを作成しましたが、うまく機能します。
どこでも見ましたが、文を分析するために両方を同時に使用するにはどうすればよいでしょうか? その後、ne_chunk 関数も使用したいと思います。
POStaggers を使用すると、バックオフを宣言するのは非常に簡単ですが、ChunkParserI でこれを行うにはどうすればよいですか?
どうもありがとう。
python - NLTK - ダウンローダ UI を使用せずにコマンド ラインから corpara を除くすべての nltk データをダウンロードする
以下を使用して、すべての nltk データをダウンロードできます。
または、以下を使用した特定のデータ:
しかし、「コーパラ」ファイル以外のすべてのデータをダウンロードしたいのですが、たとえば、すべてのチャンカー、グラマー、モデル、ステマー、タガー、トークナイザーなどです。
ダウンローダ UI なしでこれを行う方法はありますか? 何かのようなもの、
python - plaintext.split('\n') の行の取得: UnicodeDecodeError: 'ascii' コーデックは位置 2 のバイト 0x96 をデコードできません: 序数が範囲内にありません(128)
nltk チュートリアルを使用して Twitter データのセンチメンタル分析を設計しようとしていますが、次のコードを実行できません。
python - テキストから興味/トピックを特定する
提供されたテキストの関心カテゴリ/トピックを識別しようとするモデルを構築しようとしています。例えば:
私たちの尽きることのない美しいデザイナーサリーからブライダルウェディングサリーを購入してください。お得な情報、高品質のステッチ、無料の国際配送を入手してください。
次のような最上位カテゴリに解決されます。
ファッションまたはウェディングファッション
これを実現するために、一連のドキュメントから単語の頻度に基づいてトピックを生成するトピック モデルである潜在的ディリクレ配分 (LDA) を使用しました。
だから私は以下のようにドキュメントのトピックを取得しましたが、それらを人間が理解できる形式にマッピングする方法が見つかりません
トピック #0 (0.500): 0.100*sare + 0.060*intern + 0.060*get + 0.060*deal + 0.060*exhaust + 0.060*design + 0.060*free + 0.060*qualiti + 0.060*shop + 0.060*great
トピック #1 (0.500): 0.063*sare + 0.063*beauti + 0.063*deliveri + 0.063*stitch + 0.063*varieti + 0.063*wed + 0.062*bridal + 0.062*great + 0.062*shop + 0.062*quality
このスクリプトを使用して上記のものを実装しました。
問題は、上記のトピックをファッションのような人間が読めるカテゴリにマッピングする方法です。
nltk - NLTK - チャンク ツリーをリストに変換する (IOB タグ付け)
名前付きエンティティの認識/分類を実行し、IOB タグ付き形式で出力を生成する必要があります。
NLTK-train libraryによって提供される NLTK チャンカーを使用していますが、それは IOB タグのリストではなくツリーを生成します。
次のように c を Tree として取得します。
...
しかし、私は次のようなものを探しています:
これは、list_of_words パラメーターの IOB タグ付きリストであり、list_of_words と同じ順序です。
ツリーからそのタグ付きリストを取得するにはどうすればよいですか?
python-3.x - nltk を Python と私のシステム、そしてコマンド プロンプトから削除する方法
pythonコマンドプロンプトでコマンドを使ってnltkをダウンロードしてみた
システムからすべての nltk ファイルを削除したいのですが、nltk のすべてのファイルのアンインストールと削除を手伝ってください。