問題タブ [scikit-learn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python で BernoulliNB (単純ベイズ分類器) scikit-learn を使用した簡単な例 - 分類を説明できない
scikit-learn 0.10 の使用
次の簡単なコード スニペットはなぜですか。
「1」の答えを出力しますか?[0,0,0,0,0] => 2 でモデルをトレーニングしたので、答えとして「2」を期待していました。
そして、なぜ Y を
答えとして別のクラス「2」を与えてください (正しいもの) ? これは単なるクラスのラベルではありませんか?
誰かがこれに光を当てることができますか?
python - TF-IDF の簡単な使い方 - NLTK/Scikit Learn
さて、私は少し混乱しています。ただし、これは単純で直接的な質問です。
コーパス全体に対してドキュメントの TF-IDF マトリックスを計算すると、次のような結果が得られます。
この結果を使用して、検索クエリに対して最も類似したドキュメントを取得するにはどうすればよいですか? 基本的に、ウィキペディアの検索バーを再作成しようとしています。検索クエリに基づいて、Wikipedia から最も関連性の高い記事を返したいと考えています。このシナリオでは、6 つの記事 (行) があり、検索クエリには 3 つの単語 (列) が含まれています。
列のすべての結果を合計するか、それともすべての行を合計するか? 値が大きいほど関連性が高いですか、それとも値が小さいほど関連性が高いですか?
python - Python 3x に最適な機械学習パッケージ?
私は、scikit-learn が Python 3 をサポートしていないことに気がつきました...Python 3 に推奨できる同等のパッケージはありますか?
python - 検索クエリのTF*IDF
さて、私はTF * IDFに関するこれらの2つの投稿をフォローしていますが、少し混乱しています:http: //css.dzone.com/articles/machine-learning-text-feature
基本的に、複数のドキュメントの検索を含む検索クエリを作成したいと思います。scikit-learnツールキットとPython用のNLTKライブラリを使用したい
問題は、2つのTF*IDFベクトルがどこから来ているのかわからないことです。検索するには、1つの検索クエリと複数のドキュメントが必要です。各クエリに対する各ドキュメントのTF*IDFスコアを計算し、それらの間の余弦の類似性を見つけてから、スコアを降順で並べ替えてランク付けすることを考えました。ただし、コードは正しいベクトルを考え出していないようです。
クエリを1回の検索に減らすと、0の膨大なリストが返されますが、これは非常に奇妙なことです。
コードは次のとおりです。
python - インポート エラー: Python モジュールをインポートしようとすると、Windows 7 で DLL が見つかりません
詳細:
Python 3.2 (32 ビット インストール) Windows 7 64 ビット
エラーを引き起こすコード:
エラー:
欠落している他の DLL スレッドで提案されている解決策をいくつか試しましたが、成功しませんでした...
python - Python:UnicodeDecodeError:'utf8'コーデックはバイトをデコードできません
たくさんのRTFファイルをPython文字列に読み込んでいます。一部のテキストでは、次のエラーが発生します。
私はもう試した:
- ファイルのテキストをコピーして新しいファイルに貼り付ける
- rtfファイルをtxtファイルとして保存する
- Notepad ++でtxtファイルを開き、「utf-8に変換」を選択し、エンコーディングをutf-8に設定します
- Microsoft Wordでファイルを開き、新しいファイルとして保存する
何も機能しません。何か案は?
おそらく関連性はありませんが、疑問に思っている場合のコードは次のとおりです。
python - iPythonでscikit-learn(sklearn)グリッド検索分類子をシリアル化する際の問題
iPythonで下からグリッド検索分類子を実行しました:
http://scikit-learn.org/dev/auto_examples/grid_search_digits.html
次に、ピクルスでシリアル化しようとしましたが、次のトレースバックを受け取りました。
回避策はありますか?
私はiPythonとsklearnの両方の最新のベータ版を使用しています。
ありがとう :)
python - scikit Learnでターゲットラベルとして複素数を使用することは可能ですか?
sklearn を使用して、回転を表す変数を予測しようとしています。回転の極限で -pi から pi への不運なジャンプのため、ターゲットとして複素数を使用する方がはるかに優れた方法だと思います。そうすれば、1+0.01j から 1-0.01j までの誤差はそれほど壊滅的ではありません。
sklearn が分類子のターゲットとして複素数をサポートしているかどうかを説明するドキュメントが見つかりません。理論的には、距離メトリックは問題なく機能するはずなので、少なくともいくつかの回帰アルゴリズムで機能するはずです。
回帰アルゴリズムを複素数をターゲットとして動作させる方法を誰かが提案できますか?
python - sklearnを使用したPyDevの未解決のインポート
MountainLionのEclipse4.2でPyDevを実行しています。SciPy Superpackをインストールし、PythonインタープリターとIPythonを介して、Scikit-learnとMatPlotLibを含むすべてのパッケージを使用できます。ただし、それらをPyDevにインポートしようとすると、「未解決のインポート」エラーが発生します。
Python.orgからPython2.7.3をインストールし、PyDevが正しいインタープリターを指していることを確認しました。また、sklearnおよびmatplotlibディレクトリ(からのパスを介して確認済みsklearn.__file__
)をPyDev設定のシステムPYTHONPATHに追加しようとしました。これでは問題は解決しませんでした。
他に何を試してみるべきか考えてみませんか?