問題タブ [apache-spark-ml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
547 参照

apache-spark - テキスト分類 - アプローチ方法

私が心に留めていることを説明しようとします。

MS SQL データベースに保存されているテキスト コンテンツがあります。コンテンツはストリームとして毎日配信されます。毎日コンテンツを確認し、コンテンツが特定の基準に適合する場合は、検証済みとしてマークする人もいます。カテゴリは 1 つだけです。それは「有効」かどうかです。

私が望むのは、既に検証されたコンテンツに基づいてモデルを作成し、それを保存し、このモデルを使用して「事前検証」または新しい受信コンテンツをマークすることです。また、新しく検証されたコンテンツに基づいてモデルを更新することもあります。うまくいけば、私は自分自身を明確に説明しました。

作成したモデルに基づくデータ分類に Spark ストリーミングを使用することを考えています。そしてナイーブベイズアルゴリズム。しかし、モデルの作成、更新、保存にどのようにアプローチしますか? さまざまな長さの 200K 以上の検証済み結果 (テキスト) があります。モデルにはそんなにたくさん必要ですか?そして、Spark Streaming でこのモデルを使用する方法。

前もって感謝します。

0 投票する
1 に答える
788 参照

apache-spark - Spark DataFrame 変換 - 3 文字未満の単語を削除する

モデル構築用のデータセットにRegexTokenizerStopWordsRemoverを使用しています。同時に、3 文字未満の単語を削除したいと考えています。また、. どうやってやるの?これが私のコードです: ` tokenizehttphttps

0 投票する
0 に答える
52 参照

apache-spark - Spark で fp-tree (任意の形式) を抽出できますか?

FPGrowthは、データ セット内の頻繁な項目セットを検索しApache Sparkます。fp-treeしかし、データセットを視覚化するには本当に を取得する必要があります。

fp-tree私のデータセットで which spark 構造を取得することは可能ですか?

0 投票する
1 に答える
286 参照

apache-spark - Apache Spark - モデルの保存

私は現在Apache Sparkに取り組んでおり、WebアプリケーションからJavaコードを実行しようとしています. コードを Java アプリケーションとして実行しようとすると、正常に動作します。しかし、それを Web アプリケーションとしてデプロイしようとすると、プログラムがモデルを保存する段階に達したときにmodel.save(sparkcontext,modelpath)permgen java.lang.OutOfMemory exception. しかし、モデルをオブジェクトファイルとして書き込もうとすると、次のようになります。

それは正常に動作します。model.save()Apache Spark ではどのように実装されていますか?

モデルを保存する他の方法はありますか?

前もって感謝します

0 投票する
2 に答える
1236 参照

apache-spark - ClassCastException が原因で Spark 1.6.0 エグゼキュータが停止し、タイムアウトが発生する

Spark ML パイプラインを適合させようとしていますが、executor が停止します。このプロジェクトは GitHub にもあります。動作しないスクリプトは次のとおりです (少し簡略化されています)。

最終行まで実行されます。「Training model on xx rows」と表示され、フィッティングが開始され、エグゼキュータが停止し、ドライバがエグゼキュータからハートビートを受信せず、タイムアウトになり、スクリプトが終了します。その一線を越えません。

これはエグゼキューターを殺す例外です:

後で、タイムアウトが発生します。

ここに INFO レベルのログ ファイルをアップロードしました。DEBUG ログは最大 500MB です。

ビルド ファイルと依存関係は問題ないようです。

0 投票する
1 に答える
1797 参照

scala - Spark データフレーム API のトークナイザー

Spark データフレームの各行には、df列にタブ区切りの文字列が含まれていますrawFVarray of 3 stringsタブで分割すると、すべての行が生成されることは既に知っています。これは、次の方法で確認できます。

カウントが実際に であることを確認します0

私の質問は次のとおりです。パイプライン API を使用してこれを行うにはどうすればよいですか?

これが私が試したことです:

と等しくありません0

この問題は、欠損値の存在に関係しています。例えば:

例

のパイプライン コードはRegexTokenizer、最初の行では 3 つのフィールドを返しますが、2 行目では 2 つしか返しません。一方、最初のコードはどこでも 3 つのフィールドを正しく返します。

0 投票する
2 に答える
3307 参照

apache-spark - SPARK、ML、Tuning、CrossValidator: メトリクスへのアクセス

NaiveBayes マルチクラス分類器を構築するために、CrossValidator を使用してパイプラインで最適なパラメーターを選択しています。

パイプラインには、通常のトランスフォーマーと推定器が次の順序で含まれています: Tokenizer、StopWordsRemover、HashingTF、IDF、そして最後に NaiveBayes。

最適なモデルについて計算された指標にアクセスすることは可能ですか?

理想的には、すべてのモデルのメトリックにアクセスして、パラメーターを変更すると分類の品質がどのように変化するかを確認したいと考えています。しかし、現時点では、最高のモデルで十分です。

参考までに、私はSpark 1.6.0を使用しています

0 投票する
0 に答える
389 参照

apache-spark - SPARK ML、チューニング: マルチクラス ロジスティック回帰の相互検証

私は Spark 1.6 を使用しており、分類子CrossValidatorを調整するために a を使用しようとしています。multiclass Logistic Regression

問題は、がfor でMultiClassClassificationEvaluatorサポートされていないことです。CrossValidatormulticlass Logistic Regression

1 つの解決策は、自分のコードで交差検証を手動で書き直すことです。これは、他の誰かがこの問題に直面したかどうか、およびどのように解決したかを尋ねる前に開始したくないものです。