問題タブ [nltk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4544 参照

python - PythonのNLTKツールキットのデフォルトのチャンカーは何ですか?

私はデフォルトのPOSタグ付けとデフォルトのトークン化を使用しています。それで十分なようです。デフォルトのチャンカーも欲しいです。

NLTKツールキットの本を読んでいますが、デフォルトのチャンカーがないようです。

0 投票する
1 に答える
1873 参照

nlp - NLTKを使用したチャンク化/テキスト解析

私はあなたが文章を書くように、いくつかのテキストを解析してそれを図解しようとしています。私はNLTKを初めて使用し、これを達成するのに役立つ何かをNLTKで見つけようとしています。これまでのところ、私は見nltk.ne_chunkてきnltk.pos_tagました。私はそれらがあまり役に立たないことに気づき、良いオンラインドキュメントを見つけることができません。

私も使用しようとしましたがLancasterStemmer、それが何をするのか、どのように使用するのか、なぜ存在するのかを完全には理解していません。

誰かがこれを手伝ってくれませんか?私は本当に途方に暮れていて、ガイドライトなしでかなりイライラしています。

前もって感謝します

0 投票する
5 に答える
3807 参照

python - 単語をカテゴリにする方法。(NLP)

私の目的は、これら2つの文を分析するだけでFOODSPORTSを返すことです。どうやってそれができる?

私はNLPとWordnetに精通しています。しかし、もっとハイレベル/実用的/現代的なテクノロジーはありますか?

単語を自動的に「レベル」に分類するものはありますか?

さらに重要なことに、このプロセスの専門用語は何ですか?

0 投票する
12 に答える
123113 参照

nlp - レンマ化とステミングの違いは何ですか?

それぞれをいつ使用しますか?

また...NLTKのレンマ化は品詞に依存していますか?もしそうなら、もっと正確ではないでしょうか?

0 投票する
3 に答える
6716 参照

python - Pythonと.NETの統合

私はテキスト解析機能とnltkライブラリが本当に好きなので、現在pythonを検討していますが、従来は.Net / C#プログラマーです。私はNLTKを使用しており、おそらくそのライブラリをCLRに移植する必要があるため、IronPythonは統合ポイントではないと思います。Python for .NETを少し見てみましたが、ここから始めるのが良いのではないかと考えていました。PythonクラスをC#にマーシャリングする方法はありますか?また、このソリューションはまだ使用されていますか?さらに良いことに、誰かがこれをしましたか?私が検討していることの1つは、永続性メディアを仲介として使用することです(Pythonで解析し、MongoDBに格納し、.NETでサイトを実行します)。

0 投票する
1 に答える
8768 参照

python - NLTK/pyNLTK は「言語ごと」(つまり、英語以外) に動作しますか? また、どのように動作しますか?

テキストを特定の言語で処理するように NLTK に指示するにはどうすればよいですか?

ときどき、非英語 (ただしヒンドゥー ヨーロッパ語) のテキスト ドメインで POS のタグ付け、トークン化などを行うための特殊な NLP ルーチンを作成します。

この質問は、コード/設定の変更ではなく、異なるコーパスのみに対応しているようです: ドイツ語での POS タグ付け

あるいは、Python 用の特殊なヘブライ語/スペイン語/ポーランド語の NLP モジュールはありますか?

0 投票する
7 に答える
215147 参照

math - 「エントロピーと情報獲得」とは何ですか?

私はこの本(NLTK)を読んでいて、混乱しています。 エントロピーは次のように定義されます:

エントロピーは、各ラベルの確率と同じラベルの対数確率の合計です。

テキストマイニングの観点からエントロピー最大エントロピーを適用するにはどうすればよいですか?誰かが私に簡単で単純な例(視覚的)を教えてもらえますか?

0 投票する
2 に答える
8791 参照

python - NLTK - Python 内からどのコーパスがインストールされているかを調べる方法は?

NLTKインストーラーでインストールしたコーパスを読み込もうとしていますが、次のようになりました:

しかし、ダウンロード マネージャー ( nltk.download()) では、パッケージ machado がインストール済みとしてマークされており、nltk_data/corpus/machadoフォルダーがあります。

インストールされているコーパスを Python インタプリタ内から確認するにはどうすればよいですか?

また、このハウツーを使用するには、どのパッケージをインストールすればよいですか? http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html

nltk.examplesハウツーで参照されているモジュールが見つかりません。

0 投票する
2 に答える
1368 参照

nlp - トレーニング セット - 肯定文、否定文、中立文の割合

私はツイッターのメッセージにポジティブ、ネガティブ、ニュートラルのタグを付けています。私は、メッセージのどの割合がポジティブ/ネガティブおよびニュートラルであるべきかを特定するために使用できるいくつかのロジックがあるかどうかを評価しようとしていますか?

たとえば、1000 個の Twitter メッセージを使用して単純ベイズ分類器をトレーニングしている場合、pos : neg : ニュートラルの割合は 33 % : 33 % : 33 % にする必要があります。または、25 % : 25 % : 50 % にする必要があります。

論理的には、私の頭の中では、システムがニュートラルな文をポジティブかネガティブかよりも識別しやすくなるように訓練する (つまり、ニュートラルのサンプルを増やす) ようです。それは本当ですか? または、ここでいくつかの理論が欠けていますか?

ありがとうラフル

0 投票する
3 に答える
1586 参照

nlp - 特徴選択アルゴリズムの選択方法 - アドバイス

目の前の問題について、どのような特徴選択アルゴリズムが最適に機能するかを教えてくれる、私が読むことができる研究論文/本はありますか?

Twitterメッセージを単純に正/負として識別しようとしています(そもそも)。私は周波数ベースの機能選択から始めました (NLTK 本から始めました) が、同様の問題に対してさまざまな個人が異なるアルゴリズムを選択していることにすぐに気付きました。

周波数ベース、相互情報量、情報取得、その他のさまざまなアルゴリズムを試すことができますが、リストは無限にあるようです..そして、試行錯誤しながら効率的な方法があるかどうか疑問に思っていました.

何かアドバイス