私は現在、特定のキーワードが関連する「知識のドメイン」を見つけることを含むプロジェクトに取り組んでいます。DMOZを使用してこれを行う予定です。たとえば、「ブラッド・ピット」は
Arts: People: P: Pitt, Brad: Fan Pages (10)
Arts: People: P: Pitt, Brad: Articles and Interviews (5)
Arts: People: P: Pitt, Brad (4)
Arts: People: P: Pitt, Brad: Image Galleries (2)
Arts: People: P: Pitt, Brad: Movies (2)
等々...
DMOZ Web サイトからの structure.rdf.u8 ダンプがあります。URL が必要ない場合は、このファイルだけで十分だと誰かが私に言いました (Web サイトは必要なく、キーワードに関連するカテゴリのみが必要です)。または、コンテンツ ファイルも必要ですか?
さらに、Python(任意のライブラリ)を使用して構造ファイルを解析する最良の方法を知りたいです。Python は得意ですが、XML の知識はありません。