問題タブ [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Apache Spark での Jaro-Winkler スコアの計算
Apache Spark Datasetの文字列全体で Jaro-Winkler 距離計算を実装する必要があります。Spark は初めてで、Web で検索してもあまり見つかりません。ご案内いただければ幸いです。flatMapを使用することを考えましたが、役に立たないことに気付き、いくつかの foreach ループを使用しようとしましたが、先に進む方法を理解できませんでした。各文字列をすべてと比較する必要があるためです。以下のデータセットのように。
上記のデータフレームで見つかったすべての文字列の jaro winkler スコアの例。
ラベル間の距離スコア、0,1 -> 0.56
ラベル間の距離スコア、0,2 -> 0.77
ラベル間の距離スコア、0,3 -> 0.45
ラベル間の距離スコア、1,2 -> 0.77
ラベル間の距離スコア、2 ,3 -> 0.79
apache-spark - Spark ストリーミング アプリケーションを再起動する最良の方法は何ですか?
基本的に、イベントの到着時に Spark ストリーミング アプリケーションを再起動するイベント コールバックをドライバー プログラムに記述したいと考えています。私のドライバー プログラムは、ファイルから構成を読み取ることによって、ストリームと実行ロジックを設定しています。ファイルが変更される (新しい構成が追加される) たびに、ドライバー プログラムは次の手順を順番に実行する必要があります。
- 再起動、
- 構成ファイルを (メイン メソッドの一部として) 読み取り、
- ストリームを設定する
これを達成するための最良の方法は何ですか?