r - グループ化されていないラベル名に基づいてRを使用して樹状図ラベルに色を付ける方法

Question

ラベル名の一部に基づいて樹形図のラベルに色を付けようとしています。ラベル名は、フォルダー内のファイル名から派生します。ファイルは .txt ファイルで、次のように名前が付けられます: 167_001.txt の最初の 3 つの数字はテキストの特定の著者を示し、最後の 3 つの数字はその著者による個別の文章を区別します。ファイルの完全な名前でブランチにラベルを付けたいのですが、最初の 3 つの数字のみに基づいてラベルに色を付けて、特定の作者のどの作品が別の作者と共通点が多いかを確認して、誰が誰に影響を与えたかを確認できます。これらは中世の作家なので、何かを盗用した可能性のある現代の作家を見つけるのを手伝ってくれません. したがって、ファイルが 080 で始まる場合、ファイル名の最後の部分が何であっても、グループ化されている場所に関係なく、すべての 080 ファイルを 1 つの色にしたいのですが、ファイルの最後の部分をラベル名。これが私がこれまでに持っているものです：

# Load data
data(USArrests)
dd <- dist(scale(USArrests), method = "euclidean")

#Perform a cluster analysis on the distance object 
hc <- hclust(dd)
#Get the text file names to use as labels


dend <- as.dendrogram(hc)

dend2 = color_unique_labels(dend)
d5gr=color_branches(dend2,5,groupLabels=TRUE)
#plot(d5gr)
plot(d5gr, horiz=TRUE)

ご覧のとおり、dendextend パッケージを使用しています。誰かがより良いパッケージ、または私が必要とするものを同様に達成するパッケージを持っているなら、それは素晴らしいことです. 私が現在持っているものは、dendextend によって提供される「color_unique_labels」関数と十分に類似しているため、ファイルを同じカラーファミリに配置します。同じ作者は常に同じ色で、どの作品が異なる作者と類似性を共有しているかを簡単に確認できるようにしたいと考えています。下記参照。数百人の異なる著者がいるので、それぞれに個別の色を手動で割り当てるのは避けたいと思います (A = "赤"、B = "青"、C = "蘭" など)。「color_unique_labels」のように機能しますファイル名の最初の 3 つの数字に基づいて色を自動的に選択して割り当てます。私の例は USArrests パッケージを使用しており、最初の文字で州名に色を付ける方法を確認したいので、すべての「A」州と「C」州などは同じ色になります。したがって、アラバマ、アラスカ、アリゾナ、アーカンソーはすべて同じ色で、カリフォルニア、コロラド、コネチカットも同じ色です。繰り返しますが、実際のデータセットには 50 ではなく数百の可能性があるため、より自動化する方法を見つけたいと思いますが、それが唯一の選択肢である場合は反対しません。前もって感謝します！したがって、すべての「A」状態と「C」状態などは同じ色です。したがって、アラバマ、アラスカ、アリゾナ、アーカンソーはすべて同じ色で、カリフォルニア、コロラド、コネチカットも同じ色です。繰り返しますが、実際のデータセットには 50 ではなく数百の可能性があるため、より自動化する方法を見つけたいと思いますが、それが唯一の選択肢である場合は反対しません。前もって感謝します！したがって、すべての「A」状態と「C」状態などは同じ色です。したがって、アラバマ、アラスカ、アリゾナ、アーカンソーはすべて同じ色で、カリフォルニア、コロラド、コネチカットも同じ色です。繰り返しますが、実際のデータセットには 50 ではなく数百の可能性があるため、より自動化する方法を見つけたいと思いますが、それが唯一の選択肢である場合は反対しません。前もって感謝します！

「color_unique_labels」関数を使用したデンドログラム

r - グループ化されていないラベル名に基づいてRを使用して樹状図ラベルに色を付ける方法

1 に答える 1

Related

Reference