python - Python でのカテゴリクエリの DMOZ ダンプの解析

翻译自：https://stackoverflow.com/questions/18044438 2013-08-04T15:16:40.783

819 次

私は現在、特定のキーワードが関連する「知識のドメイン」を見つけることを含むプロジェクトに取り組んでいます。DMOZを使用してこれを行う予定です。たとえば、「ブラッド・ピット」は

Arts: People: P: Pitt, Brad: Fan Pages (10)

Arts: People: P: Pitt, Brad: Articles and Interviews (5)

Arts: People: P: Pitt, Brad (4)

Arts: People: P: Pitt, Brad: Image Galleries (2)

Arts: People: P: Pitt, Brad: Movies (2)

等々...

DMOZ Web サイトからの structure.rdf.u8 ダンプがあります。URL が必要ない場合は、このファイルだけで十分だと誰かが私に言いました (Web サイトは必要なく、キーワードに関連するカテゴリのみが必要です)。または、コンテンツファイルも必要ですか?

さらに、Python（任意のライブラリ）を使用して構造ファイルを解析する最良の方法を知りたいです。Python は得意ですが、XML の知識はありません。

python - Python でのカテゴリ クエリの DMOZ ダンプの解析

1 に答える 1

Related

Reference

python - Python でのカテゴリクエリの DMOZ ダンプの解析