問題タブ [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ドキュメントをカテゴリに分類する
トピック カテゴリでタグ付けされた約 30 万のドキュメントが Postgres データベースに格納されています (合計で約 150 のカテゴリがあります)。まだカテゴリがないドキュメントが 15 万件あります。プログラムでそれらを分類する最良の方法を見つけようとしています。
私はNLTKとその Naive Bayes Classifier を調べてきました。良い出発点のように思えます (このタスクのためのより良い分類アルゴリズムを提案できるなら、私はすべて耳にします)。
私の問題は、NaiveBayesClassifier を 150 カテゴリ/300k ドキュメントすべてで一度にトレーニングするのに十分な RAM がないことです (5 つのカテゴリでトレーニングすると 8GB が使用されます)。さらに、より多くのカテゴリでトレーニングするにつれて、分類器の精度が低下するようです (2 つのカテゴリで 90% の精度、5 で 81%、10 で 61% の精度)。
一度に 5 つのカテゴリで分類器をトレーニングし、150,000 のドキュメントすべてを分類器で実行して、一致するかどうかを確認する必要がありますか? これはうまくいくように思えますが、どのカテゴリにも実際には一致しないドキュメントが、利用可能な最良の一致であるという理由だけで分類子によって押し付けられるという多くの誤検知があることを除いて... ありますか?ドキュメントがどのカテゴリにも当てはまらない場合に備えて、分類子に「上記のいずれでもない」オプションを設定する方法はありますか?
ここに私のテストクラスがあります http://gist.github.com/451880
python - 異なる長さのベクトルのコサイン類似度?
TF-IDFを使用してドキュメントをカテゴリに分類しようとしています。いくつかのドキュメントの tf_idf を計算しましたが、これらのドキュメントの 2 つの間のコサイン類似度を計算しようとすると、次のようなトレースバックが表示されます。
len(u)==len(v) が正しいアプローチになるようにベクトルをスライスしていますか? コサインの類似性は、異なる長さのベクトルで機能すると思います。
私はこの機能を使用しています:
また、ベクトル内の tf_idf 値の順序は重要ですか? それらをソートする必要がありますか?それとも、この計算では重要ではありませんか?
python - NLTKには依存関係の解析用のツールがありますか?
私はNLPアプリケーションを構築しており、ほとんどの解析作業にスタンフォードパーサーを使用していますが、Pythonの使用を開始したいと思います。
これまでのところ、NLTKが最善の策のようですが、文法的な依存関係を解析する方法がわかりません。つまり、これはスタンフォードパーサーの例です。元の文「Pythonに切り替えています」からPythonを使用してNTLKでこれを生成できるようにしたいと思います。
誰かが私に文法的な依存関係を解析するための正しい方向への突き刺しを与えることができますか?
python - NLTK と言語検出
NLTK を使用して、テキストがどの言語で書かれているかを検出するにはどうすればよいですか?
私が見た例では を使用nltk.detect
していますが、Mac にインストールすると、このパッケージが見つかりません。
java - javaからpythonスクリプト(nltkとscrapyを使用)を実行するにはどうすればよいですか
私のプロジェクトでは、scrapy、nltk、および simplejson を使用する Python スクリプトを作成しましたが、メンターがサーバーにデプロイしたいため、Java から実行する必要があり、これを行う時間が非常に少なくなりました。 exec() を Java と jython で使用しているため、言うまでもなく、Java からシステム コマンドを実行するのも簡単ではありません。
したがって、Java からシステム コマンド -'python example.py' として runtime.exec() を使用して、または代わりに jython を使用して Python スクリプトを実行する方が、より簡単で実際に実行可能かどうか、またはより簡単な回避策があるかどうかを知りたいと思います。また、Jython を使用して Java から nltk を使用する Python コードを実行したことがある人がいるかどうか、問題が発生したかどうかを知ることもできます。できるだけ早くこれを行う必要があるので、助けてください。
よろしくお願いします!
nltk - 固有表現抽出のための無料のタグ付きコーパス
固有表現抽出のためにトレーニングするシステム用の無料のタグ付きコーパスを探しています。私が見つけたもののほとんど(ニューヨークタイムズのもののように)は高価で、開いていません。誰か助けてもらえますか?
python - Python / NLTKを使用して単語のセットを抽出し、それを標準の英語辞書と比較します
私は持っています:
これはNLTKマニュアルから直接です。次にやりたいのはvocab
、OEDのような完全な英語の単語のセットと比較し、違いを抽出することです。つまり、OEDに含まれていない、またはおそらく含まれないであろうFinnegansWakeの単語のセットです。私は数学志向の人というよりは口頭の人なので、その方法はまだわかりません。マニュアルでは、実際にはやりたくないことについて詳しく説明しすぎています。ただし、コードはあと1行か2行だと思います。
nlp - NLTK を使用して、コメントが肯定的か否定的かを判断できますか?
http://www.nltk.org/codeを使用して、幸せな気分または動揺した気分に関する文字列を判断する簡単な例を教えてください。
python - nltk で複雑な文と複合文を分割/分解する
nltk または他の自然言語処理ライブラリで、複雑な文を単純な文に分解する方法はありますか?
例えば:
太陽が沈み、涼しい風が吹いているときの公園はとても素晴らしい ==> 太陽が沈んでいます。涼しい風が吹いています。公園はとても素晴らしいです。