問題タブ [apache-spark-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - テキスト分類 - アプローチ方法
私が心に留めていることを説明しようとします。
MS SQL データベースに保存されているテキスト コンテンツがあります。コンテンツはストリームとして毎日配信されます。毎日コンテンツを確認し、コンテンツが特定の基準に適合する場合は、検証済みとしてマークする人もいます。カテゴリは 1 つだけです。それは「有効」かどうかです。
私が望むのは、既に検証されたコンテンツに基づいてモデルを作成し、それを保存し、このモデルを使用して「事前検証」または新しい受信コンテンツをマークすることです。また、新しく検証されたコンテンツに基づいてモデルを更新することもあります。うまくいけば、私は自分自身を明確に説明しました。
作成したモデルに基づくデータ分類に Spark ストリーミングを使用することを考えています。そしてナイーブベイズアルゴリズム。しかし、モデルの作成、更新、保存にどのようにアプローチしますか? さまざまな長さの 200K 以上の検証済み結果 (テキスト) があります。モデルにはそんなにたくさん必要ですか?そして、Spark Streaming でこのモデルを使用する方法。
前もって感謝します。
apache-spark - Spark DataFrame 変換 - 3 文字未満の単語を削除する
モデル構築用のデータセットにRegexTokenizer
とStopWordsRemover
を使用しています。同時に、3 文字未満の単語を削除したいと考えています。また、. どうやってやるの?これが私のコードです: ` tokenize
http
https
apache-spark - Spark で fp-tree (任意の形式) を抽出できますか?
FPGrowthは、データ セット内の頻繁な項目セットを検索しApache Spark
ます。fp-tree
しかし、データセットを視覚化するには本当に を取得する必要があります。
fp-tree
私のデータセットで which spark 構造を取得することは可能ですか?
apache-spark - Apache Spark - モデルの保存
私は現在Apache Sparkに取り組んでおり、WebアプリケーションからJavaコードを実行しようとしています. コードを Java アプリケーションとして実行しようとすると、正常に動作します。しかし、それを Web アプリケーションとしてデプロイしようとすると、プログラムがモデルを保存する段階に達したときにmodel.save(sparkcontext,modelpath)
、permgen java.lang.OutOfMemory exception
. しかし、モデルをオブジェクトファイルとして書き込もうとすると、次のようになります。
それは正常に動作します。model.save()
Apache Spark ではどのように実装されていますか?
モデルを保存する他の方法はありますか?
前もって感謝します
apache-spark - ClassCastException が原因で Spark 1.6.0 エグゼキュータが停止し、タイムアウトが発生する
Spark ML パイプラインを適合させようとしていますが、executor が停止します。このプロジェクトは GitHub にもあります。動作しないスクリプトは次のとおりです (少し簡略化されています)。
最終行まで実行されます。「Training model on xx rows」と表示され、フィッティングが開始され、エグゼキュータが停止し、ドライバがエグゼキュータからハートビートを受信せず、タイムアウトになり、スクリプトが終了します。その一線を越えません。
これはエグゼキューターを殺す例外です:
後で、タイムアウトが発生します。
ここに INFO レベルのログ ファイルをアップロードしました。DEBUG ログは最大 500MB です。
ビルド ファイルと依存関係は問題ないようです。
scala - Spark データフレーム API のトークナイザー
Spark データフレームの各行には、df
列にタブ区切りの文字列が含まれていますrawFV
。array of 3 strings
タブで分割すると、すべての行が生成されることは既に知っています。これは、次の方法で確認できます。
カウントが実際に であることを確認します0
。
私の質問は次のとおりです。パイプライン API を使用してこれを行うにはどうすればよいですか?
これが私が試したことです:
と等しくありません0
。
この問題は、欠損値の存在に関係しています。例えば:
のパイプライン コードはRegexTokenizer
、最初の行では 3 つのフィールドを返しますが、2 行目では 2 つしか返しません。一方、最初のコードはどこでも 3 つのフィールドを正しく返します。
apache-spark - SPARK、ML、Tuning、CrossValidator: メトリクスへのアクセス
NaiveBayes マルチクラス分類器を構築するために、CrossValidator を使用してパイプラインで最適なパラメーターを選択しています。
パイプラインには、通常のトランスフォーマーと推定器が次の順序で含まれています: Tokenizer、StopWordsRemover、HashingTF、IDF、そして最後に NaiveBayes。
最適なモデルについて計算された指標にアクセスすることは可能ですか?
理想的には、すべてのモデルのメトリックにアクセスして、パラメーターを変更すると分類の品質がどのように変化するかを確認したいと考えています。しかし、現時点では、最高のモデルで十分です。
参考までに、私はSpark 1.6.0を使用しています
apache-spark - SPARK ML、チューニング: マルチクラス ロジスティック回帰の相互検証
私は Spark 1.6 を使用しており、分類子CrossValidator
を調整するために a を使用しようとしています。multiclass Logistic Regression
問題は、がfor でMultiClassClassificationEvaluator
サポートされていないことです。CrossValidator
multiclass Logistic Regression
1 つの解決策は、自分のコードで交差検証を手動で書き直すことです。これは、他の誰かがこの問題に直面したかどうか、およびどのように解決したかを尋ねる前に開始したくないものです。