“nltk”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

13990 参照

python - ドキュメントをカテゴリに分類する

トピックカテゴリでタグ付けされた約 30 万のドキュメントが Postgres データベースに格納されています (合計で約 150 のカテゴリがあります)。まだカテゴリがないドキュメントが 15 万件あります。プログラムでそれらを分類する最良の方法を見つけようとしています。

私はNLTKとその Naive Bayes Classifier を調べてきました。良い出発点のように思えます (このタスクのためのより良い分類アルゴリズムを提案できるなら、私はすべて耳にします)。

私の問題は、NaiveBayesClassifier を 150 カテゴリ/300k ドキュメントすべてで一度にトレーニングするのに十分な RAM がないことです (5 つのカテゴリでトレーニングすると 8GB が使用されます)。さらに、より多くのカテゴリでトレーニングするにつれて、分類器の精度が低下するようです (2 つのカテゴリで 90% の精度、5 で 81%、10 で 61% の精度)。

一度に 5 つのカテゴリで分類器をトレーニングし、150,000 のドキュメントすべてを分類器で実行して、一致するかどうかを確認する必要がありますか? これはうまくいくように思えますが、どのカテゴリにも実際には一致しないドキュメントが、利用可能な最良の一致であるという理由だけで分類子によって押し付けられるという多くの誤検知があることを除いて... ありますか?ドキュメントがどのカテゴリにも当てはまらない場合に備えて、分類子に「上記のいずれでもない」オプションを設定する方法はありますか?

ここに私のテストクラスがあります http://gist.github.com/451880

2010-06-24T19:56:42.323

0 投票する

3 に答える

23314 参照

python - 異なる長さのベクトルのコサイン類似度?

TF-IDFを使用してドキュメントをカテゴリに分類しようとしています。いくつかのドキュメントの tf_idf を計算しましたが、これらのドキュメントの 2 つの間のコサイン類似度を計算しようとすると、次のようなトレースバックが表示されます。

len(u)==len(v) が正しいアプローチになるようにベクトルをスライスしていますか? コサインの類似性は、異なる長さのベクトルで機能すると思います。

私はこの機能を使用しています：

また、ベクトル内の tf_idf 値の順序は重要ですか? それらをソートする必要がありますか?それとも、この計算では重要ではありませんか?

python nlp similarity nltk tf-idf

2010-06-25T20:27:51.190

0 投票する

1 に答える

4952 参照

python - NLTKには依存関係の解析用のツールがありますか？

私はNLPアプリケーションを構築しており、ほとんどの解析作業にスタンフォードパーサーを使用していますが、Pythonの使用を開始したいと思います。

これまでのところ、NLTKが最善の策のようですが、文法的な依存関係を解析する方法がわかりません。つまり、これはスタンフォードパーサーの例です。元の文「Pythonに切り替えています」からPythonを使用してNTLKでこれを生成できるようにしたいと思います。

誰かが私に文法的な依存関係を解析するための正しい方向への突き刺しを与えることができますか？

python nlp nltk

2010-06-27T00:11:58.547

0 投票する

4 に答える

50149 参照

python - NLTK と言語検出

NLTK を使用して、テキストがどの言語で書かれているかを検出するにはどうすればよいですか?

私が見た例ではを使用nltk.detectしていますが、Mac にインストールすると、このパッケージが見つかりません。

python nlp nltk detection

2010-07-05T21:30:32.630

0 投票する

1 に答える

1479 参照

java - javaからpythonスクリプト（nltkとscrapyを使用）を実行するにはどうすればよいですか

私のプロジェクトでは、scrapy、nltk、および simplejson を使用する Python スクリプトを作成しましたが、メンターがサーバーにデプロイしたいため、Java から実行する必要があり、これを行う時間が非常に少なくなりました。 exec() を Java と jython で使用しているため、言うまでもなく、Java からシステムコマンドを実行するのも簡単ではありません。

したがって、Java からシステムコマンド -'python example.py' として runtime.exec() を使用して、または代わりに jython を使用して Python スクリプトを実行する方が、より簡単で実際に実行可能かどうか、またはより簡単な回避策があるかどうかを知りたいと思います。また、Jython を使用して Java から nltk を使用する Python コードを実行したことがある人がいるかどうか、問題が発生したかどうかを知ることもできます。できるだけ早くこれを行う必要があるので、助けてください。

よろしくお願いします！

java python jython nltk scrapy

2010-07-13T07:24:50.107

0 投票する

3 に答える

10505 参照

nltk - 固有表現抽出のための無料のタグ付きコーパス

固有表現抽出のためにトレーニングするシステム用の無料のタグ付きコーパスを探しています。私が見つけたもののほとんど（ニューヨークタイムズのもののように）は高価で、開いていません。誰か助けてもらえますか？

nltk corpus named-entity-recognition tagged-corpus

2010-07-25T17:27:43.830

0 投票する

1 に答える

3017 参照

python - Python / NLTKを使用して単語のセットを抽出し、それを標準の英語辞書と比較します

私は持っています：

これはNLTKマニュアルから直接です。次にやりたいのはvocab、OEDのような完全な英語の単語のセットと比較し、違いを抽出することです。つまり、OEDに含まれていない、またはおそらく含まれないであろうFinnegansWakeの単語のセットです。私は数学志向の人というよりは口頭の人なので、その方法はまだわかりません。マニュアルでは、実際にはやりたくないことについて詳しく説明しすぎています。ただし、コードはあと1行か2行だと思います。

python text set nlp nltk

2010-08-06T22:04:00.197

0 投票する

2 に答える

9212 参照

python - NLTK を使用して英語の動詞の時制を検出する

私は英語のテキストが過去、現在、未来の時制で動詞句を数える方法を探しています。今のところ、私はNLTKを使用しており、POS (品詞) タグ付けを行ってから、「VBD」と数えて過去の時制を取得しています。ただし、これは十分に正確ではないため、さらに進んでチャンキングを使用し、特定の時制パターンについて VP チャンクを分析する必要があると思います。それを行うものは存在しますか？役立つかもしれないさらなる読書はありますか？NLTKの本は主に NP チャンクに焦点を当てており、VP チャンクに関する情報はほとんど見つかりません。

python nlp nltk

2010-08-08T11:31:14.743

0 投票する

4 に答える

5168 参照

nlp - NLTK を使用して、コメントが肯定的か否定的かを判断できますか?

http://www.nltk.org/codeを使用して、幸せな気分または動揺した気分に関する文字列を判断する簡単な例を教えてください。

nlp nltk

2010-08-11T22:25:15.567

0 投票する

1 に答える

5880 参照

python - nltk で複雑な文と複合文を分割/分解する

nltk または他の自然言語処理ライブラリで、複雑な文を単純な文に分解する方法はありますか?

例えば：

太陽が沈み、涼しい風が吹いているときの公園はとても素晴らしい ==> 太陽が沈んでいます。涼しい風が吹いています。公園はとても素晴らしいです。

python nlp nltk

2010-08-17T10:22:29.413

問題タブ [nltk]

Reference