0

私にはこの仕事があります。雑誌の記事は、さまざまなテーマをカバーしています。特定のテーマと記事の間の関係 (リンク) の強さを反映する数値を割り当てます。次のように、生データをより便利な表示に再フォーマットします。

INPUT DATA (tab-separated)

Theme  Article  Link_strength
A      aaa      2
A      bbb      8
B      bbb      7
C      aaa      3      

OUTPUT DATA

Article Theme_A Theme_B Theme_C
aaa     2       0       3
bbb     8       7       0

Rを試してみましたが、データサイズが問題なので、awkコマンドが役立つかどうかを調べる必要があります。しかし、どうやってそれをするのですか?

4

2 に答える 2

0

Rでの解決策:

library(reshape)
cast(df,Article ~ Theme,fill=0)

出力

  Article A B C
1     aaa 2 0 3
2     bbb 8 7 0

代わりに使用して同じことreshape2

library(reshape2)
dcast(df,Article ~ Theme,value.var='Link_strength',fill=0)
于 2013-10-15T01:52:40.697 に答える