問題タブ [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ジオネームのテキストの検索
テキストでgeonamesをマークする必要がある場合、巨大なパッケージnltkのどの部分を調べて使用する必要がありますか?
python - テキストコンテンツからのタグ生成
いくつかの重み計算、出現率、またはその他のツールを使用して、特定のテキストからキーワード/タグを生成するアルゴリズム/方法が存在するかどうかに興味があります。
さらに、Python ベースのソリューション / ライブラリを指摘していただければ幸いです。
ありがとう
twitter - 小さなテキストコンテンツ(ツイートなど)からのタグの生成
私はすでに同様の質問をしましたが、私には大きな制約があることに気づきました。タグ(キーワード)を生成するためにユーザーツイートなどの小さなテキストセットに取り組んでいます。
そして、受け入れられた提案(ポイントごとの相互情報アルゴリズム)は、より大きなドキュメントで機能することを意図しているようです。
この制約(小さなテキストセットでの作業)を使用して、タグを生成するにはどうすればよいですか?
よろしく
php - PHPによるテキストマイニング
私が取っている大学のクラスのプロジェクトをやっています。
PHP を使用して、一連の辞書に基づいてツイートを "ポジティブ" (またはハッピー) と "ネガティブ" (または悲しい) に分類する単純な Web アプリを作成しています。私が今考えているアルゴリズムは、単純ベイズ分類器または決定木です。
しかし、本格的な言語処理を行うのに役立つ PHP ライブラリーが見つかりません。Python には NLTK ( http://www.nltk.org ) があります。PHPにそのようなものはありますか?
Web アプリのバックエンドとして (PHP 内からコマンド ラインで Weka を呼び出して) WEKA を使用する予定ですが、効率的ではないようです。
このプロジェクトに何を使用すればよいか分かりますか? それとも Python に切り替える必要がありますか?
ありがとう
python - NetBeans で nltk をインポートできません
NLTK
Python コードをインポートしようとすると、次のエラーが発生します。
を使用してNetBeans: 6.7.1
いPython 2.6 NLTK
ます。私の NLTK モジュールは にインストールされており、これを のパスに/usr/local/lib/python2.6/dist-packages/nltk/
追加しました。Python
Netbeans
ここで何が欠けていますか?
前もって感謝します。
nlp - サンプルデータまたはWebサービスを使用した文のNLTKpythonによる感情分析?
私は感情分析のためのNLPプロジェクトに着手しています。
私はPython用のNLTKを正常にインストールしました(これには素晴らしいソフトウェアのようです)。しかし、それを使用して自分のタスクを実行する方法を理解するのに苦労しています。
これが私の仕事です:
- 私は1つの長いデータから始めます(彼らのWebサービスからの英国の選挙の主題に関する数百のツイートを言うことができます)
- これを文(または100文字以下の情報)に分割したいと思います(Pythonでこれを実行できると思いますか??)
- 次に、すべての文を検索して、その文内の特定のインスタンスを検索します(例:「デービッドキャメロン」)。
- 次に、各文のポジティブ/ネガティブな感情をチェックし、それに応じてそれらを数えたいと思います
注意:私のデータセットは大きく、皮肉についてもあまり心配していないので、精度についてはあまり心配していません。
これが私が抱えている問題です:
私が見つけることができるすべてのデータセット。たとえば、Webサービス形式のNLTKアレントに付属するコーパス映画レビューデータ。これはすでにいくつかの処理が行われているようです。私が見る限り、(スタンフォードによる)処理はWEKAで行われました。NLTKがこれをすべて自分で行うことはできませんか?ここでは、すべてのデータセットがすでに正/負に編成されています。たとえば、極性データセットhttp://www.cs.cornell.edu/People/pabo/movie-review-data/これはどのように行われますか?(感情ごとに文章を整理するために、それは間違いなくWEKAですか?それとも何か他のものですか?)
なぜWEKAとNLTKが一緒に使われるのか理解できません。彼らはほとんど同じことをしているようです。感情を見つけるために最初にWEKAでデータを処理している場合、なぜNLTKが必要になるのでしょうか。これが必要な理由を説明することは可能ですか?
このタスクにいくらか近いスクリプトをいくつか見つけましたが、すべて同じ前処理されたデータを使用しています。リンクにあるデータサンプルを使用するのではなく、このデータを自分で処理して文の感情を見つけることはできませんか?
どんな助けでも大歓迎です、そして私に多くの髪を救うでしょう!
乾杯ケ
python - PythonNLTKでの形容詞の名詞化
NLTKを使用してWordnet形容詞の名詞化を取得する方法はありますか?たとえばhappy
、目的の出力の場合はhappiness
。
掘り下げてみましたが、何も見つかりませんでした。
java - Java または Python の分散コンピューティング ジョブ (学生の予算内)?
ルートアクセス権がなく、ユーザースペースが1Gしかないラボ内の2台のコンピューターでNLP(大部分は恥ずかしいほど並列)に使用したい大きなデータセット(c。40G)があります。私は Hadoop を試してみましたが、もちろんこれは水の中で死んでいました。データは外付けの USB ハード ドライブに保存されており、1G のユーザー スペース キャップのために dfs にロードできません。私はいくつかのPythonベースのオプションを調べてきました(私がそれを助けることができれば、Javaのlingpipeの代わりにNLTKを使用したいので)、分散コンピューティングオプションは次のように見えます:
- パイソン
- ディスコ
私の Hadoop の経験の後、私は十分な情報に基づいた選択をしようと努めています。
予算がほとんどないため、AmazonのEC2などは実際にはオプションではありません。
artificial-intelligence - 与えられたテキストのアイデアや概念を特定する方法
現在、特定のトピック/アイデアがテキストの本文で言及されていることを検出できると非常に便利なプロジェクトに取り組んでいます。たとえば、テキストに次のものが含まれているとします。
ジョーンズ氏についてもう少し教えていただければ助かります。彼の外見の説明、または写真があればそれも役に立ちますか?
その人がジョーンズ氏の写真を要求したことを検出できれば素晴らしいことです。私は非常に素朴なアプローチを取り、「写真」または「写真」という単語を探すだけで済みますが、次のように書いた場合、これは明らかに良くありません。
ジョーンズさんの写真を送らないでください。
どこから始めればよいか知っている人はいますか?それは可能ですか?
私は nltk のようなものを調べましたが、誰かが同様のことをしている例をまだ見つけておらず、この種の分析が何と呼ばれているのかまだ完全にはわかりません. 私を地面から離すことができるどんな助けも素晴らしいでしょう.
ありがとう!
python - テキスト マイニング: パーサー、タガー、NER ツールをいつ使用するか?
ブログのコンテンツをマイニングするプロジェクトを行っていますが、使用するツールを区別するのに助けが必要です。いつパーサーを使用し、いつタガーを使用し、いつ NER ツールを使用する必要がありますか?
たとえば、いくつかのブログ間で最も話題になっているトピック/主題を見つけたいと考えています。品詞タガーを使用して名詞を取得し、頻度をカウントする必要がありますか? 非常に一般的な用語がポップアップする可能性があるため、それはおそらく不十分でしょうか? または、一致できるカテゴリとこれらの同義語のリストはありますか?
ところで、私は nltk を使用していますが、数人の男が良いと言っていたので、スタンフォード タガーまたはパーサーを見ています。