音楽をジャンル別に分類する場合、ウィキペディアには他のほとんどのデータ ソースよりも興味深いジャンル情報が含まれていることがわかりました。
ウィキペディアからこの種の情報を収集し、アクセスしやすくしたデータベースを覚えているようですが、今日は何もググることができませんでした。
このデータを取得しようとした場合、どのような選択肢がありますか? 私が説明したようなものはありますか、それともスクリーンスクレイピングを行う必要がありますか?
音楽をジャンル別に分類する場合、ウィキペディアには他のほとんどのデータ ソースよりも興味深いジャンル情報が含まれていることがわかりました。
ウィキペディアからこの種の情報を収集し、アクセスしやすくしたデータベースを覚えているようですが、今日は何もググることができませんでした。
このデータを取得しようとした場合、どのような選択肢がありますか? 私が説明したようなものはありますか、それともスクリーンスクレイピングを行う必要がありますか?
Freebaseを調べる必要があります(たとえば、彼らの音楽アーティストの表を参照してください)。ウィキペディアを選択する場合は、おそらくデータベース ダンプをダウンロードする必要があります。
バンド Radiohead の Freebase と Wikipedia のジャンル リストを比較する例:
編集: さらに重要なことに、Freebase 用に設計された Javascript フレームワークである mjt を使用した実際の例を含めました。これをコピーしてファイルに貼り付け、ブラウザで開き、アーティスト名を入力して、Freebase がどのジャンルを持っているかを確認してください。
それほど重要ではありませんが、例を変更し、デフォルトを Radiohead に変更しました。=)
<html>
<head>
<script type="text/javascript" src="http://mjtemplate.org/dist/mjt-0.6/mjt.js"></script>
</head>
<body onload="mjt.run()">
<pre mjt.script="">
var name = mjt.urlquery.name ? mjt.urlquery.name : 'Radiohead';
</pre>
<div mjt.task="q">
mjt.freebase.MqlRead([{
type: '/music/artist',
name: {
value:name,
lang:{name:{value:'English'}}
},
genre: [{
name: {
value:null,
lang:{name:{value:'English'}}}
}]
}])
</div>
<form method="get" action="">
<input type="text" name="name" value="$name" />
<input type="submit" value="search" />
</form>
<table mjt.for="topic in q.result">
<tr mjt.for="(var rowi = 0; rowi < topic.genre.length; rowi++)">
<td><pre mjt.script="">var gname = topic.genre[rowi].name;</pre>$gname.value</td>
</tr>
</table>
</body></html>
別の言語を使用している可能性が高いですが、上記のクエリを簡単に翻訳できることを願っています。
ウィキペディアではなく、 MusicBrainz ( http://musicbrainz.org/ ) が必要な場合があります。音楽のメタデータ(作曲者名、アルバム名、曲名、その曲のトロンボーン奏者名など)を自由にライセンス許諾した高品質なコレクションを作るプロジェクトです。彼らは素晴らしいデータベース、詳細なデータベース スキーマ、メタデータを正確かつ一貫性のあるものにするための包括的なスタイル ガイドライン、音楽データ ファイルのタグにメタデータを挿入できるアプリケーション ソフトウェア、およびデータを使用できる API を開発しました。すべて自由に利用でき、共同編集されています。
MusicBrainz のメタデータの 1 つの弱点は、音楽のジャンルです。これは、ある人の「ファンク」が別の人の「ポップ」であるという、手に負えない問題だからです。
質問を投稿したときに考えていたことを見つけました。Infochimpsは、ウィキペディアのインフォボックスのコレクションを保持しています。たとえば、音楽アーティスト向けのものです。ダウンロードでしか入手できないので、私が本当に欲しいものではありません。
調べているうちに、レンダリングされていない wiki マークアップを使用してXML 形式の記事にアクセスする方法を見つけました。どうやらウィキペディアのサーバーの方が簡単なようですが、解析が簡単かどうかはわかりません。