“nltk”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

516 参照

python - ジオネームのテキストの検索

テキストでgeonamesをマークする必要がある場合、巨大なパッケージnltkのどの部分を調べて使用する必要がありますか？

2010-04-02T20:19:50.583

0 投票する

5 に答える

28134 参照

python - テキストコンテンツからのタグ生成

いくつかの重み計算、出現率、またはその他のツールを使用して、特定のテキストからキーワード/タグを生成するアルゴリズム/方法が存在するかどうかに興味があります。

さらに、Python ベースのソリューション / ライブラリを指摘していただければ幸いです。

ありがとう

python tags machine-learning nlp nltk

2010-04-18T09:39:23.953

0 投票する

2 に答える

4476 参照

twitter - 小さなテキストコンテンツ（ツイートなど）からのタグの生成

私はすでに同様の質問をしましたが、私には大きな制約があることに気づきました。タグ（キーワード）を生成するためにユーザーツイートなどの小さなテキストセットに取り組んでいます。

そして、受け入れられた提案（ポイントごとの相互情報アルゴリズム）は、より大きなドキュメントで機能することを意図しているようです。

この制約（小さなテキストセットでの作業）を使用して、タグを生成するにはどうすればよいですか？

よろしく

twitter nlp text-extraction nltk text-analysis

2010-05-04T09:20:59.540

0 投票する

6 に答える

17645 参照

php - PHPによるテキストマイニング

私が取っている大学のクラスのプロジェクトをやっています。

PHP を使用して、一連の辞書に基づいてツイートを "ポジティブ" (またはハッピー) と "ネガティブ" (または悲しい) に分類する単純な Web アプリを作成しています。私が今考えているアルゴリズムは、単純ベイズ分類器または決定木です。

しかし、本格的な言語処理を行うのに役立つ PHP ライブラリーが見つかりません。Python には NLTK ( http://www.nltk.org ) があります。PHPにそのようなものはありますか？

Web アプリのバックエンドとして (PHP 内からコマンドラインで Weka を呼び出して) WEKA を使用する予定ですが、効率的ではないようです。

このプロジェクトに何を使用すればよいか分かりますか? それとも Python に切り替える必要がありますか?

ありがとう

php nlp data-mining nltk weka

2010-05-06T17:17:53.227

0 投票する

2 に答える

1064 参照

python - NetBeans で nltk をインポートできません

NLTKPython コードをインポートしようとすると、次のエラーが発生します。

を使用してNetBeans: 6.7.1いPython 2.6 NLTKます。私の NLTK モジュールはにインストールされており、これをのパスに/usr/local/lib/python2.6/dist-packages/nltk/追加しました。PythonNetbeans

ここで何が欠けていますか？
前もって感謝します。

python netbeans nltk

2010-05-07T05:25:35.270

0 投票する

2 に答える

16737 参照

nlp - サンプルデータまたはWebサービスを使用した文のNLTKpythonによる感情分析？

私は感情分析のためのNLPプロジェクトに着手しています。

私はPython用のNLTKを正常にインストールしました（これには素晴らしいソフトウェアのようです）。しかし、それを使用して自分のタスクを実行する方法を理解するのに苦労しています。

これが私の仕事です：

私は1つの長いデータから始めます（彼らのWebサービスからの英国の選挙の主題に関する数百のツイートを言うことができます）
これを文（または100文字以下の情報）に分割したいと思います（Pythonでこれを実行できると思いますか??）
次に、すべての文を検索して、その文内の特定のインスタンスを検索します（例：「デービッドキャメロン」）。
次に、各文のポジティブ/ネガティブな感情をチェックし、それに応じてそれらを数えたいと思います

注意：私のデータセットは大きく、皮肉についてもあまり心配していないので、精度についてはあまり心配していません。

これが私が抱えている問題です：

私が見つけることができるすべてのデータセット。たとえば、Webサービス形式のNLTKアレントに付属するコーパス映画レビューデータ。これはすでにいくつかの処理が行われているようです。私が見る限り、（スタンフォードによる）処理はWEKAで行われました。NLTKがこれをすべて自分で行うことはできませんか？ここでは、すべてのデータセットがすでに正/負に編成されています。たとえば、極性データセットhttp://www.cs.cornell.edu/People/pabo/movie-review-data/これはどのように行われますか？（感情ごとに文章を整理するために、それは間違いなくWEKAですか？それとも何か他のものですか？）
なぜWEKAとNLTKが一緒に使われるのか理解できません。彼らはほとんど同じことをしているようです。感情を見つけるために最初にWEKAでデータを処理している場合、なぜNLTKが必要になるのでしょうか。これが必要な理由を説明することは可能ですか？

このタスクにいくらか近いスクリプトをいくつか見つけましたが、すべて同じ前処理されたデータを使用しています。リンクにあるデータサンプルを使用するのではなく、このデータを自分で処理して文の感情を見つけることはできませんか？

どんな助けでも大歓迎です、そして私に多くの髪を救うでしょう！

乾杯ケ

nlp nltk weka classification

2010-05-14T07:04:19.967

0 投票する

1 に答える

1289 参照

python - PythonNLTKでの形容詞の名詞化

NLTKを使用してWordnet形容詞の名詞化を取得する方法はありますか？たとえばhappy、目的の出力の場合はhappiness。

掘り下げてみましたが、何も見つかりませんでした。

python nlp nltk wordnet

2010-05-14T19:19:37.843

0 投票する

4 に答える

332 参照

java - Java または Python の分散コンピューティングジョブ (学生の予算内)?

ルートアクセス権がなく、ユーザースペースが1Gしかないラボ内の2台のコンピューターでNLP（大部分は恥ずかしいほど並列）に使用したい大きなデータセット（c。40G）があります。私は Hadoop を試してみましたが、もちろんこれは水の中で死んでいました。データは外付けの USB ハードドライブに保存されており、1G のユーザースペースキャップのために dfs にロードできません。私はいくつかのPythonベースのオプションを調べてきました（私がそれを助けることができれば、Javaのlingpipeの代わりにNLTKを使用したいので）、分散コンピューティングオプションは次のように見えます：

パイソン
ディスコ

私の Hadoop の経験の後、私は十分な情報に基づいた選択をしようと努めています。

予算がほとんどないため、AmazonのEC2などは実際にはオプションではありません。

java python nlp hadoop nltk

2010-05-16T14:28:34.290

0 投票する

3 に答える

1814 参照

artificial-intelligence - 与えられたテキストのアイデアや概念を特定する方法

現在、特定のトピック/アイデアがテキストの本文で言及されていることを検出できると非常に便利なプロジェクトに取り組んでいます。たとえば、テキストに次のものが含まれているとします。

ジョーンズ氏についてもう少し教えていただければ助かります。彼の外見の説明、または写真があればそれも役に立ちますか?

その人がジョーンズ氏の写真を要求したことを検出できれば素晴らしいことです。私は非常に素朴なアプローチを取り、「写真」または「写真」という単語を探すだけで済みますが、次のように書いた場合、これは明らかに良くありません。

ジョーンズさんの写真を送らないでください。

どこから始めればよいか知っている人はいますか？それは可能ですか？

私は nltk のようなものを調べましたが、誰かが同様のことをしている例をまだ見つけておらず、この種の分析が何と呼ばれているのかまだ完全にはわかりません. 私を地面から離すことができるどんな助けも素晴らしいでしょう.

ありがとう！

artificial-intelligence nlp nltk text-mining

2010-05-17T22:38:11.883

0 投票する

1 に答える

1111 参照

python - テキストマイニング: パーサー、タガー、NER ツールをいつ使用するか?

ブログのコンテンツをマイニングするプロジェクトを行っていますが、使用するツールを区別するのに助けが必要です。いつパーサーを使用し、いつタガーを使用し、いつ NER ツールを使用する必要がありますか?

たとえば、いくつかのブログ間で最も話題になっているトピック/主題を見つけたいと考えています。品詞タガーを使用して名詞を取得し、頻度をカウントする必要がありますか? 非常に一般的な用語がポップアップする可能性があるため、それはおそらく不十分でしょうか? または、一致できるカテゴリとこれらの同義語のリストはありますか?

ところで、私は nltk を使用していますが、数人の男が良いと言っていたので、スタンフォードタガーまたはパーサーを見ています。

python nlp nltk

2010-06-24T09:18:36.073

問題タブ [nltk]

Reference