2

私は現在、特定のキーワードが関連する「知識のドメイン」を見つけることを含むプロジェクトに取り組んでいます。DMOZを使用してこれを行う予定です。たとえば、「ブラッド・ピット」は

Arts: People: P: Pitt, Brad: Fan Pages (10)

Arts: People: P: Pitt, Brad: Articles and Interviews (5)

Arts: People: P: Pitt, Brad (4)

Arts: People: P: Pitt, Brad: Image Galleries (2)

Arts: People: P: Pitt, Brad: Movies (2)

等々...

DMOZ Web サイトからの structure.rdf.u8 ダンプがあります。URL が必要ない場合は、このファイルだけで十分だと誰かが私に言いました (Web サイトは必要なく、キーワードに関連するカテゴリのみが必要です)。または、コンテンツ ファイルも必要ですか?

さらに、Python(任意のライブラリ)を使用して構造ファイルを解析する最良の方法を知りたいです。Python は得意ですが、XML の知識はありません。

4

1 に答える 1