問題タブ [weka]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
5617 参照

artificial-intelligence - 初心者向けリソース/分類アルゴリズムの概要

みんな。私は分類アルゴリズムのトピックにまったく慣れていないので、「真剣な読書」をどこから始めればよいかについて、いくつかの良い指針が必要です。私は現在、機械学習と自動分類アルゴリズムが私のアプリケーションに追加する価値のあるものであるかどうかを調べる過程にあります。

Z.MichalewiczとD.Fogelによる「HowtoSolveIt :Modern heuristics」 (特に、ニューロンネットワークを使用した線形分類器に関する章)をすでにスキャンしましたが、実用的な面では、現在WEKAツールキットのソースを調べています。コード。私の次の(計画された)ステップは、ベイズ分類アルゴリズムの領域に飛び込むことです。

残念ながら、私はこの分野での深刻な理論的基盤を欠いています(言うまでもなく、まだそれを何らかの方法で使用しています)ので、次にどこを見るべきかについてのヒントをいただければ幸いです。特に、利用可能な分類アルゴリズムの適切な紹介が役立ちます。より職人であり、理論家ではないほど、より実用的であり、より良い...

ヒント、誰か?

0 投票する
6 に答える
17645 参照

php - PHPによるテキストマイニング

私が取っている大学のクラスのプロジェクトをやっています。

PHP を使用して、一連の辞書に基づいてツイートを "ポジティブ" (またはハッピー) と "ネガティブ" (または悲しい) に分類する単純な Web アプリを作成しています。私が今考えているアルゴリズムは、単純ベイズ分類器または決定木です。

しかし、本格的な言語処理を行うのに役立つ PHP ライブラリーが見つかりません。Python には NLTK ( http://www.nltk.org ) があります。PHPにそのようなものはありますか?

Web アプリのバックエンドとして (PHP 内からコマンド ラインで Weka を呼び出して) WEKA を使用する予定ですが、効率的ではないようです。

このプロジェクトに何を使用すればよいか分かりますか? それとも Python に切り替える必要がありますか?

ありがとう

0 投票する
2 に答える
3105 参照

xml - XMLファイルをWEKAにインポートする方法

weka に大量の xml データをインポートしたいと考えています。簡単な解決策やチュートリアルはありますか、それとも csv または arff ファイル形式に手動で変換する必要がありますか?

0 投票する
2 に答える
16737 参照

nlp - サンプルデータまたはWebサービスを使用した文のNLTKpythonによる感情分析?

私は感情分析のためのNLPプロジェクトに着手しています。

私はPython用のNLTKを正常にインストールしました(これには素晴らしいソフトウェアのようです)。しかし、それを使用して自分のタスクを実行する方法を理解するのに苦労しています。

これが私の仕事です:

  1. 私は1つの長いデータから始めます(彼らのWebサービスからの英国の選挙の主題に関する数百のツイートを言うことができます)
  2. これを文(または100文字以下の情報)に分割したいと思います(Pythonでこれを実行できると思いますか??)
  3. 次に、すべての文を検索して、その文内の特定のインスタンスを検索します(例:「デービッドキャメロン」)。
  4. 次に、各文のポジティブ/ネガティブな感情をチェックし、それに応じてそれらを数えたいと思います

注意:私のデータセットは大きく、皮肉についてもあまり心配していないので、精度についてはあまり心配していません。

これが私が抱えている問題です:

  1. 私が見つけることができるすべてのデータセット。たとえば、Webサービス形式のNLTKアレントに付属するコーパス映画レビューデータ。これはすでにいくつかの処理が行われているようです。私が見る限り、(スタンフォードによる)処理はWEKAで行われました。NLTKがこれをすべて自分で行うことはできませんか?ここでは、すべてのデータセットがすでに正/負に編成されています。たとえば、極性データセットhttp://www.cs.cornell.edu/People/pabo/movie-review-data/これはどのように行われますか?(感情ごとに文章を整理するために、それは間違いなくWEKAですか?それとも何か他のものですか?)

  2. なぜWEKAとNLTKが一緒に使われるのか理解できません。彼らはほとんど同じことをしているようです。感情を見つけるために最初にWEKAでデータを処理している場合、なぜNLTKが必要になるのでしょうか。これが必要な理由を説明することは可能ですか?

このタスクにいくらか近いスクリプトをいくつか見つけましたが、すべて同じ前処理されたデータを使用しています。リンクにあるデータサンプルを使用するのではなく、このデータを自分で処理して文の感情を見つけることはできませんか?

どんな助けでも大歓迎です、そして私に多くの髪を救うでしょう!

乾杯ケ

0 投票する
4 に答える
85687 参照

classification - weka分類をどう解釈するか?

単純ベイズを使用して、weka の分類結果をどのように解釈できますか?

平均値、標準偏差、重量合計、精度はどのように計算されますか?

カッパ統計、平均絶対誤差、二乗平均平方根誤差などはどのように計算されますか?

混同行列の解釈は何ですか?

0 投票する
1 に答える
3734 参照

machine-learning - 単純ベイズ分類器の結果をwekaで解釈する方法は?

単純ベイズを使用した分類のためにwekaで生成された次の結果を解釈するのを手伝ってください。

何であるかを明確に説明してください

  • 正規分布
  • 平均
  • StandardDev
  • WeightSum
  • 精度。

私を助けてください。私はwekaが初めてです。

**単純ベイズ分類器

0 投票する
1 に答える
3104 参照

weka - Weka による属性のフィルタリング

WEKA での属性のフィルタリングについて簡単な質問があります。

500 個の属性、30 個のクラス、各クラスに 100 個のサンプルがあるとします。これは、3000 行と 500 列に相当します。これにより、推測できる時間とメモリの問題が発生します。

3000 行で 1 回または 2 回 (または n 回) しか発生しない属性をフィルター処理するにはどうすればよいですか。そして、それは良い考えですか?

ありがとうございました

0 投票する
2 に答える
1878 参照

java - MOAを使用して新しい例を分類しますか?

Java機械学習ライブラリMOAを使用して、トレーニングデータストリームでトレーニングし、テストデータストリームのクラスを予測しようとしています。最初の部分は、(たとえば)を使用して正常に機能します

java -cp。:moa.jar:weka.jar -javaagent:sizeofag.jar moa.DoTask "LearnModel -l MajorityClass -s(ArffFileStream -f atrain.arff -c -1)-O amodel.moa"

しかし、別のストリーム(atest.arff)でトレーニング済みモデル(amodel.moa)を使用して、クラスを予測する方法がわかりません。誰かがこれを以前にやったことがありますか?

0 投票する
2 に答える
3314 参照

machine-learning - Weka ツリー分類器を意図的に過剰適合させる方法は?

「0」クラスへの大きな偏り(約30000対1500)を持つバイナリクラスデータセット(0 / 1)があります。各インスタンスには 7 つの特徴があり、欠損値はありません。

J48 またはその他のツリー分類子を使用すると、ほとんどすべての「1」インスタンスが「0」として誤分類されます。

分類子を「プルーニングなし」に設定し、葉ごとのインスタンスの最小数を 1 に設定し、信頼係数を 1 に設定し、インスタンス ID 番号を持つダミー属性を追加しましたが、これらはすべて役に立ちませんでした。

自分のデータに過適合するモデルを作成することはできません!

Weka が提供する他のほとんどすべての分類器も試しましたが、同様の結果が得られました。

IB1 を使用すると 100% の精度が得られるため (トレインセットのトレインセット)、同じ特徴値と異なるクラスを持つ複数のインスタンスの問題はありません。

完全に剪定されていないツリーを作成するにはどうすればよいですか? または、Weka に私のデータをオーバーフィットさせますか?

ありがとう。

更新:わかりました、これはばかげています。私は約 3100 の否定的な例と 1200 の肯定的な例だけを使用しました。

言うまでもなく、IB1 でも 100% の精度が得られます。

更新 2:どうして見逃したのかわからない - プルーニングされていない SimpleCart は動作し、100% の精度でトレーニングを実行できます。プルーニングされた SimpleCart は、J48 ほどバイアスがかかっておらず、適切な偽陽性率と偽陰性率を示しています。

0 投票する
1 に答える
36206 参照

java - Eclipse - 既存のプロジェクトの .classpath ファイルを設定する

私はJavaプロジェクトを持っています。他の誰かの Eclipse プロジェクトの作業フォルダー (これは Repast Simphony プロジェクトだったと思います)。

私のEclipseでは、新しいJavaプロジェクトを作成し、既存のコードを使用するように指示しました。それで、すべてのコードが持ち込まれたようです。

ただし、プロジェクトをロードした後、次のエラーが発生します。

次の内容の .classpath ファイルがあります。

私がこれまでに試したこと:

Weka3-7をインストールしました。次に、.classpath ファイルを次のように更新し、プロジェクトをリロードしました。

しかし、今ではエラーメッセージが表示されます:

助けてください。私は立ち往生しています。