問題タブ [lsh]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - scalaを使用してSparkでminHashLSHを評価するには?
学術論文のデータセットがあり、27770 の論文 (ノード) と、352807 エントリの長さの元のエッジを持つ別のファイル (グラフ ファイル) があります。minHashLSH を計算して類似のドキュメントを見つけ、2 つのノード間のリンクを予測したい! 怒鳴ると、これを scala で spark に実装する私の試みを見ることができます。私が直面している問題は、結果を評価する方法がわからないことです!
元のグラフは、nodeAId、nodeBId の形式のファイルです。私の結果は、nodeAId、nodeBId、JaccardSimilarity の形式になっています。どちらもデータフレームです。結果を評価し、精度または F1 スコアを取得するにはどうすればよいですか?
Accuracy と F1 スコアを見つける方法を読んだので、それらを計算する関数を作成しようとしました。私のアプローチは以下のコードです。
でも、走らせてみると止まらない!! 精度と F1 スコアを得るために、これを改善する方法や修正する方法がわかりません。これを行う簡単な方法はありますか?
皆さんのお陰で!