問題タブ [apache-spark-2.0]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2970 参照

apache-spark - Apache Spark での Jaro-Winkler スコアの計算

Apache Spark Datasetの文字列全体で Jaro-Winkler 距離計算を実装する必要があります。Spark は初めてで、Web で検索してもあまり見つかりません。ご案内いただければ幸いです。flatMapを使用することを考えましたが、役に立たないことに気付き、いくつかの foreach ループを使用しようとしましたが、先に進む方法を理解できませんでした。各文字列をすべてと比較する必要があるためです。以下のデータセットのように。

上記のデータフレームで見つかったすべての文字列の jaro winkler スコアの例。

ラベル間の距離スコア、0,1 -> 0.56
ラベル間の距離スコア、0,2 -> 0.77
ラベル間の距離スコア、0,3 -> 0.45
ラベル間の距離スコア、1,2 -> 0.77
ラベル間の距離スコア、2 ,3 -> 0.79

0 投票する
5 に答える
6324 参照

apache-spark - Spark ストリーミング アプリケーションを再起動する最良の方法は何ですか?

基本的に、イベントの到着時に Spark ストリーミング アプリケーションを再起動するイベント コールバックをドライバー プログラムに記述したいと考えています。私のドライバー プログラムは、ファイルから構成を読み取ることによって、ストリームと実行ロジックを設定しています。ファイルが変更される (新しい構成が追加される) たびに、ドライバー プログラムは次の手順を順番に実行する必要があります。

  1. 再起動、
  2. 構成ファイルを (メイン メソッドの一部として) 読み取り、
  3. ストリームを設定する

これを達成するための最良の方法は何ですか?