問題タブ [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - センチメント アナライザーのデバッグ
Python の NLTK モジュールを使用して選択したツイートに対して感情分析を実行する NLP の最初のショットを試みています。私はこのチュートリアルに従い、 Sentiment140 ツイート コーパスをトレーニング データ セットとしてダウンロードしました。
私のコードはここにあります。これは iPython Notebook の Python 2 で行われていることに注意してください。
質問パート 1 トレーニング セットから 10,000 行を使用してコードをテストし、160 万行すべてをフィードする前に動作するかどうかを確認しています。コードを実行すると、96 行目で None が返されます。
ただし、チュートリアルでは、次のようなものが表示される必要があることを示唆しています。
分類子が機能しているかどうかを示す指標として 96 行を使用しています。私がすでに試した修正に関しては、87行目が次のようになることを示唆するチュートリアルのコメントを見ました。
現在のものの代わりに:
これらのバリエーションの両方を試しました。
1.6m 行のデータセット全体を実行して分類器をトレーニングする前に、これを解決したいと思います。
ノートブックのすべてのインポート ステートメントを次に示します (一部のインポート ステートメントは、ノートブックの他の領域で使用されます)。
質問パート 2 このコードを微調整して、極性スコア自体を返すにはどうすればよいですか。何かのようなもの:
この NLTK ページに基づいて、.polarity_socres() メソッドを呼び出すように見えますが、コードのどこでそれを行うかはわかりません。上記を返すコードは次のとおりです。
data-mining - 「シーケンシャル パターン マイニング」と「シーケンシャル ルール マイニング」の違いは何ですか
非常に強力なオープン ソース データ マイニング ツール SPMF のドキュメントには、それらが個別にリストされています。
http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php
誰でも理由を知っていますか?
machine-learning - 機械学習の哲学: 偏ったデータにモデルを適用する
機械学習の問題があり、理論的な解決策があるかどうかわかりません。
データにラベルを付けて (データセットD1と呼びましょう)、ランダム フォレスト分類モデルを構築しましたが、うまく機能します。
今、私の主な関心は、このモデルをラベルがゼロの別のデータセットD2に適用することです。つまり、トレーニングには使用できません。D2でパフォーマンスを測定する唯一の方法は、D2 から予測されるクラスの割合を確認することです。
問題: D2はD1と比較して歪んでいます (特徴の平均が同じでないか、同じ分布に適合していません)。このため、 D2に適用されたモデルは、1 つのクラスに大きく偏った結果をもたらします。D2の大部分はD1の小さなサブセットに似ているため、これが正常であることはわかっています。
しかし、そのゆがみを修正する方法はありますか? 私の問題の性質から、予測されたクラスの割合はあまり偏っていないはずです。正規化を試みましたが、実際には役に立ちません。
私はまっすぐに考えていないと感じます:3
geolocation - 特定の文字列が有効な地理的位置であるかどうかを確認するにはどうすればよいですか?
文字列 (名詞句) のリストがあり、それらからすべての有効な地理的位置を除外したいと考えています。これら (不要な場所の名前) のほとんどは、国、都市、または州の名前です。これを行う方法は何ですか?世界のすべての国、州、都市を含むオープンソースの参照テーブルはありますか?
望ましい出力の例: TREC4 : false、 Vienna : true、 Ministry : false、 IBM : false、 Montreal : true、 Singapore : true
この投稿とは異なり: Verify user input location string is a valid geographic location? 私はこれらのような文字列を多数 (~70 万) 持っているので、Google Geolocation APIはおそらく私にとって選択肢ではありません。
python - どの Keras モデルが優れているかを見分ける方法は?
2 つの Keras モデルを比較してどちらが優れているかを確認するために使用する出力の精度がわかりません。
"acc" (トレーニング データから?) と "val acc" (検証データから?) のどちらを使用しますか?
エポックごとに異なる acc と val acc があります。モデル全体の acc または val acc を知るにはどうすればよいですか? モデル全体の acc または val acc を見つけるために、すべてのエポック acc または val acc を平均しますか?
モデル 1 出力
モデル 2 出力
python - Keras の BatchNormalization 関数はどこで呼び出すのですか?
Keras で BatchNormalization 関数を使用したい場合、最初に一度だけ呼び出す必要がありますか?
私はそれについてこのドキュメントを読みました: http://keras.io/layers/normalization/
どこに電話すればいいのかわからない。以下は、それを使用しようとしている私のコードです:
バッチ正規化を含む 2 行目でコードを実行すると、2 行目なしでコードを実行すると、同様の出力が得られるためです。したがって、関数を適切な場所で呼び出していないか、それほど大きな違いはないと思います。
python - Keras を使用する場合、レイヤー内のユニット数をどのように変更しますか?
以下のコードは問題なく動作します。すべての 64 を 128 に変更しようとすると、形状に関するエラーが発生します。Keras を使用する場合、人工ニューラル ネットワークのレイヤー数を変更すると、入力データの形状を変更する必要がありますか? 正しいinput_dimを要求するので、そうは思いませんでした。
作品:
動作しません:
python - Keras で高度なアクティベーション レイヤーを使用するには?
これは、tanh のような他のアクティベーション レイヤーを使用する場合に機能する私のコードです。
この場合、動作せず、「TypeError: 'PReLU' object is not callable」と表示され、model.compile 行でエラーが呼び出されます。これはなぜですか?高度でないアクティベーション機能はすべて機能します。ただし、これを含む高度なアクティベーション機能はいずれも機能しません。