ツリーの構築に使用するファイル/フォルダー構造からの階層データがあります。私は今、これらの木をランダムなものと比較しようとしています。
ランダム ツリーと比較するために、リーフ ノードの数とラベルを保持し、従来のツリー距離メトリック (たとえば、ロビンソン フォールズ距離) を使用できます。それにもかかわらず、さまざまなデータからのさまざまなツリーを比較するために(葉とラベルの数が異なる)、どのメトリック/アルゴリズムを使用すればよいかわかりません。助言がありますか?
ありがとう!
PS-比較の目的は、これらのツリー間のトポロジーがどの程度類似しているかを確認し、どのクラスターが存在するかを確認することです (したがって、フォルダー構造の背後にある生成メカニズムの考えにいくつかの証拠を追加します)。