1

2 つのデータ セット (2 つのファイルなど) を比較する場合、これらのセット間の違いは、WinMerge のように 2 つの列または 2 つのペインに表示できます。

しかし、複数のデータセット間の違いを表示するための視覚的なパラダイムはありますか?

アップデート

私の質問の出発点は、WinMerge について述べたように、2 つのファイル間の違いを表示するのは比較的簡単であるという仮定でした。一方、3 つ以上のテキスト ファイルを比較することは、より複雑になることがわかりました。時間をかけて作成されたドキュメントのさまざまなバージョン。

2 つのバージョンで同じであるが、他のバージョンとは異なるファイルの部分をどのように強調表示しますか?

私が念頭に置いているデータセットは、存在する場合と存在しない場合があるオブジェクト (A、B、C、...) であり、設定されているか設定されていないプロパティ (a、b、c、...) があります。

例:

セット 1: A(a、b、c)、B(b、c)、C(c)

セット 2: A(a、b、c)、B(b)、C(c)

セット 3: A(a、b)、B(b)

2 つのセット、たとえば 1 と 2 を比較すると、違いは B(c) になります。セット 2 と 3 を比較すると、差 A(c) と C() が得られます。

3 つのセットすべてを比較すると、最終的に 3 つの比較 (n * (n-1) / 2) になります。

4

4 に答える 4

1

私は、回答者の一部とは異なる見解を持っています。つまり、問題をさらに特定する必要があるということです。抽象化レベルはほぼ正しいです。詳細な仕様は問題をより簡単にしますが、解決策はあまり役に立ちません。

数年前、ProgrammableWebでグラフィックを見ました。これは、Yahoo での検索結果と Google での同じ検索結果を比較したものです。伝えるべき情報はたくさんあります。両方のセットにある結果もあれば、1 つのセットにある結果もあり、共通の結果はそれぞれのエンジンの結果で異なる位置にあるため、何らかの方法で表示する必要があります。

グラフィックが気に入り、Matplotlib (Python 科学プロット ライブラリ) で再実装しました。以下は、いくつかのランダムポイントと、それを生成するために使用したpythonコードを使用した例です。

from matplotlib import pyplot as PLT
xvals = NP.array([(2,3), (5,7), (8,6), (1.5,1.8), (3.0,3.8), (5.3,5.2), 
      (3.7,4.1), (2.9, 3.7), (8.4, 6.1), (7.1, 6.4)])
yvals = NP.tile( NP.array([5,3]), [10,1] )
fig = PLT.figure()
ax1 = fig.add_subplot(111)
ax1.plot(x, y, "-", lw=3, color='b')
ax1.plot(x, y2, "-", lw=3, color='b')
for a, b in zip(xvals, yvals) : ax1.plot(a,b,'-o',ms=8,mfc='orange', color='g')
PLT.axis("off")
PLT.show()

代替テキスト

このモデルにはいくつかの興味深い機能があります。(i) 実際には、類似度を集計するのではなく、アイテムごとに (ドットを結ぶ垂直方向の線) 「類似度」を扱います。(ii) 2 つのデータ ポイント間の類似度は、それらを結ぶ線の角度に比例します。それらが等しい場合は 90 度であり、差が大きくなるにつれて角度が減少します。これは非常に直感的です。(iii) 1 つのデータ セットのポイントが 2 番目のデータ セットに存在しない場合は、簡単に表示できます。ポイントは 2 本の線の一方に表示されますが、それをもう一方の線のポイントに接続する線はありません。

このモデルは、検索結果を比較するのに適しています。これは、各検索結果に「スコア」(そのインデックス、または結果リスト内の順序) があるためです。他のタイプのデータの場合は、各データ ポイントにスコアを割り当てる必要がある場合があります。これは、類似度の指標であると考えられます (ある意味では、それが実際の検索結果の順序であり、リストの先頭からの距離です)。

于 2010-01-13T20:16:22.147 に答える
0

ピーターに同意します。データのタイプと比較で何を引き出したいかを指定する必要があります。

データ/比較の性質に応じて、さまざまな視覚化を検討できます。あなたのデータは順序付けられていますか、それとも順序付けられていませんか? 細粒度比較または全体比較など、いくつの項目を比較していますか?

例:

  • 順序付けされていないデータの比較を視覚化することは、セットの 2 つのヒストグラム (つまり、分布) をプロットすることです。

    ヒストグラム

    画像ソース

  • 一方、DNA のような大量の順序付けられたデータセットを比較することは、革新的に行うことができます

また、視覚的な複雑さを確認してください。これは、興味深い視覚化のための優れたリソースです。

于 2009-09-15T23:47:51.280 に答える
0

少し実験して、2 つのディスプレイを実装しました。

于 2009-10-08T10:36:00.180 に答える
0

2 つのファイルの差分を表示するために多くの作業が行われたため、「複数のデータ セット」を適切なテキスト形式で表現することから始めて、それらのテキスト形式間の差分を表示したいものを何でも使用できます。

しかし、あなたのデータセットについてもっと教えてください!

于 2009-09-15T06:32:09.803 に答える