Freebase Easyデータセット(3.3GB) をダウンロードしました。いくつかのエンティティを入力する際に、このデータセットを調査したいと思います。例: ドイツ語 (freebase のタイプ: 場所、国、土地.....)。
これら 3 つのファイルを連結して完全なデータセットを取得するにはどうすればよいですか?
Freebase Easyデータセット(3.3GB) をダウンロードしました。いくつかのエンティティを入力する際に、このデータセットを調査したいと思います。例: ドイツ語 (freebase のタイプ: 場所、国、土地.....)。
これら 3 つのファイルを連結して完全なデータセットを取得するにはどうすればよいですか?
ファイル (facts.txt、freebase-links.txt、score.txt) はすべて同じ形式であるため、単純に連結できます。Unix ライクなシステムでは、次のコマンドを使用できます。
cat facts.txt freebase-links.txt scores.txt > all.txt
または、次のようなことを行うことで、すべてを圧縮したままにすることができます
unzip -ca freebase-easy-latest.zip \*.txt | gzip > freebase-easy-all.txt.gz
エントリの例は次のようになります
$ unzip -ca freebase-easy-latest.zip \*.txt | grep $"^B\t"
B prominence-score 1758.0 .
B freebase-entity <http://rdf.freebase.com/ns/m.0560cf> .
B Transit System New York City Subway .
B is-a Topic .
B is-a Transit Line .
B kg/object_profile/prominent_type Transit Line .
ここで、最初の行は からscores.txt
、2 行目は からfreebase-links.txt
、残りは からfacts.txt
です。