OpenRefine を使用して、Twitter のメタデータをエッジ リストにフォーマットし、Gephi で読み取れるようにしています。ユーザーメンションの関連付けやユーザーとハッシュタグの関連付けを調べたい場合は、簡単に機能します。しかし、今は共同ハッシュタグを研究したいと思っています。
これを OpenRefine で行うのは (私にはよくわかりませんが) 少しトリッキーで、助けが必要です。私のデータは、ユーザーのユーザー名、ツイートで使用されたハッシュタグのコンマ区切り文字列の 2 つの列を持つ csv 形式です。OpenRefine でユーザー ハッシュタグ エッジ リストを取得するには、ハッシュタグ列で「多値セルの分割」を使用してから、ユーザー列で「入力」を使用します (非常に簡単です)。ハッシュタグ ハッシュタグ エッジ リストを取得する方法がわかりません。ハッシュタグ列で「複数値のセルを分割」を使用して、ツイートで言及されているすべてのハッシュタグの新しい行を取得できます。しかし、ハッシュタグとハッシュタグの共起のすべての組み合わせを取得するために、行を「埋める」にはどうすればよいでしょうか?
例:
データ:
User Hashtags
Dario Data mining, R, OpenRefine
望ましい結果:
Hashtag 1 Hashtag 2
Data mining R
Data mining OpenRefine
R OpenRefine