問題タブ [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PythonのNLTKツールキットのデフォルトのチャンカーは何ですか?
私はデフォルトのPOSタグ付けとデフォルトのトークン化を使用しています。それで十分なようです。デフォルトのチャンカーも欲しいです。
NLTKツールキットの本を読んでいますが、デフォルトのチャンカーがないようです。
nlp - NLTKを使用したチャンク化/テキスト解析
私はあなたが文章を書くように、いくつかのテキストを解析してそれを図解しようとしています。私はNLTKを初めて使用し、これを達成するのに役立つ何かをNLTKで見つけようとしています。これまでのところ、私は見nltk.ne_chunk
てきnltk.pos_tag
ました。私はそれらがあまり役に立たないことに気づき、良いオンラインドキュメントを見つけることができません。
私も使用しようとしましたがLancasterStemmer
、それが何をするのか、どのように使用するのか、なぜ存在するのかを完全には理解していません。
誰かがこれを手伝ってくれませんか?私は本当に途方に暮れていて、ガイドライトなしでかなりイライラしています。
前もって感謝します
python - 単語をカテゴリにする方法。(NLP)
私の目的は、これら2つの文を分析するだけでFOODとSPORTSを返すことです。どうやってそれができる?
私はNLPとWordnetに精通しています。しかし、もっとハイレベル/実用的/現代的なテクノロジーはありますか?
単語を自動的に「レベル」に分類するものはありますか?
さらに重要なことに、このプロセスの専門用語は何ですか?
nlp - レンマ化とステミングの違いは何ですか?
それぞれをいつ使用しますか?
また...NLTKのレンマ化は品詞に依存していますか?もしそうなら、もっと正確ではないでしょうか?
python - Pythonと.NETの統合
私はテキスト解析機能とnltkライブラリが本当に好きなので、現在pythonを検討していますが、従来は.Net / C#プログラマーです。私はNLTKを使用しており、おそらくそのライブラリをCLRに移植する必要があるため、IronPythonは統合ポイントではないと思います。Python for .NETを少し見てみましたが、ここから始めるのが良いのではないかと考えていました。PythonクラスをC#にマーシャリングする方法はありますか?また、このソリューションはまだ使用されていますか?さらに良いことに、誰かがこれをしましたか?私が検討していることの1つは、永続性メディアを仲介として使用することです(Pythonで解析し、MongoDBに格納し、.NETでサイトを実行します)。
python - NLTK/pyNLTK は「言語ごと」(つまり、英語以外) に動作しますか? また、どのように動作しますか?
テキストを特定の言語で処理するように NLTK に指示するにはどうすればよいですか?
ときどき、非英語 (ただしヒンドゥー ヨーロッパ語) のテキスト ドメインで POS のタグ付け、トークン化などを行うための特殊な NLP ルーチンを作成します。
この質問は、コード/設定の変更ではなく、異なるコーパスのみに対応しているようです: ドイツ語での POS タグ付け
あるいは、Python 用の特殊なヘブライ語/スペイン語/ポーランド語の NLP モジュールはありますか?
python - NLTK - Python 内からどのコーパスがインストールされているかを調べる方法は?
NLTKインストーラーでインストールしたコーパスを読み込もうとしていますが、次のようになりました:
しかし、ダウンロード マネージャー ( nltk.download()
) では、パッケージ machado がインストール済みとしてマークされており、nltk_data/corpus/machado
フォルダーがあります。
インストールされているコーパスを Python インタプリタ内から確認するにはどうすればよいですか?
また、このハウツーを使用するには、どのパッケージをインストールすればよいですか? http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html
nltk.examples
ハウツーで参照されているモジュールが見つかりません。
nlp - トレーニング セット - 肯定文、否定文、中立文の割合
私はツイッターのメッセージにポジティブ、ネガティブ、ニュートラルのタグを付けています。私は、メッセージのどの割合がポジティブ/ネガティブおよびニュートラルであるべきかを特定するために使用できるいくつかのロジックがあるかどうかを評価しようとしていますか?
たとえば、1000 個の Twitter メッセージを使用して単純ベイズ分類器をトレーニングしている場合、pos : neg : ニュートラルの割合は 33 % : 33 % : 33 % にする必要があります。または、25 % : 25 % : 50 % にする必要があります。
論理的には、私の頭の中では、システムがニュートラルな文をポジティブかネガティブかよりも識別しやすくなるように訓練する (つまり、ニュートラルのサンプルを増やす) ようです。それは本当ですか? または、ここでいくつかの理論が欠けていますか?
ありがとうラフル
nlp - 特徴選択アルゴリズムの選択方法 - アドバイス
目の前の問題について、どのような特徴選択アルゴリズムが最適に機能するかを教えてくれる、私が読むことができる研究論文/本はありますか?
Twitterメッセージを単純に正/負として識別しようとしています(そもそも)。私は周波数ベースの機能選択から始めました (NLTK 本から始めました) が、同様の問題に対してさまざまな個人が異なるアルゴリズムを選択していることにすぐに気付きました。
周波数ベース、相互情報量、情報取得、その他のさまざまなアルゴリズムを試すことができますが、リストは無限にあるようです..そして、試行錯誤しながら効率的な方法があるかどうか疑問に思っていました.
何かアドバイス