問題タブ [lsh]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

49 問題

0 投票する

1 に答える

313 参照

apache-spark - scalaを使用してSparkでminHashLSHを評価するには?

学術論文のデータセットがあり、27770 の論文 (ノード) と、352807 エントリの長さの元のエッジを持つ別のファイル (グラフファイル) があります。minHashLSH を計算して類似のドキュメントを見つけ、2 つのノード間のリンクを予測したい! 怒鳴ると、これを scala で spark に実装する私の試みを見ることができます。私が直面している問題は、結果を評価する方法がわからないことです!

元のグラフは、nodeAId、nodeBId の形式のファイルです。私の結果は、nodeAId、nodeBId、JaccardSimilarity の形式になっています。どちらもデータフレームです。結果を評価し、精度または F1 スコアを取得するにはどうすればよいですか?

Accuracy と F1 スコアを見つける方法を読んだので、それらを計算する関数を作成しようとしました。私のアプローチは以下のコードです。

でも、走らせてみると止まらない!! 精度と F1 スコアを得るために、これを改善する方法や修正する方法がわかりません。これを行う簡単な方法はありますか？

皆さんのお陰で！

2019-01-26T18:40:50.527

1 2 3 4 5 6 7 8 9 10

問題タブ [lsh]

apache-spark - scalaを使用してSparkでminHashLSHを評価するには?

Reference