perl - Dmoz ODP ファイル (RDF) から URL のみを抽出する方法

Question

dmoz/ODP ファイルからの URL だけが必要です。しかし、ファイルはRDFです。odp ファイルから URL のみを取得するにはどうすればよいですか? すべての URL をテキストファイルに抽出したいと考えています。

rdf ファイルから URL のみを解析するスクリプトを知っている人はいますか?

score 2 · Accepted Answer

一般的な SemWeb API のいくつか (Jena、Sesame、および dotNetRDF) はすべて、RDF ファイル用の完全なストリーミング API を提供するため、生成された URI のみを取得し、興味のない残りのものを破棄するカスタムデータハンドラーを作成できます。 .

おそらく perl を使ってハッキーなことをすることができます。そのほうが速いかもしれませんが、特に RDF が解決する必要がある相対 URI を使用している場合は、完全に正確ではないかもしれません。

score 1 · Accepted Answer

オプション 1. http://sourceforge.net/projects/dmoz2mysql/files/latest/downloadから dmoz_v3.zip をダウンロードします。これは、DMOZ RDF データダンプファイルを自動的に解析するために使用される PHP スクリプトです。ファイルのダウンロード、データの抽出、クリーニング、解析、および MySQL データベースへの挿入が特徴です。

オプション 2. 次のリンクを使用して、RDF ダンプファイルから URL を抽出するツールを見つけます。

http://www.dmoz.org/Computers/Internet/Searching/Directories/Open_Directory_Project/Use_of_ODP_Data/Upload_Tools/

score 1 · Accepted Answer

たぶん、このようなものはありますか？

#!/usr/bin/perl
use strict;
use warnings;

my $file = "kt-content.rdf.u8";
my @urls;

open(my $fh, "<", $file) or die "Unable to open $file\n";

while (my $line = <$fh>) {
    if ($line =~ m/<(?:ExternalPage about|link r:resource)="([^\"]+)"\/?>/) {
        push @urls, $1;
    }
}

close $fh;

次に、@urls の内容をテキストファイルに出力します。

perl - Dmoz ODP ファイル (RDF) から URL のみを抽出する方法

3 に答える 3

Related

Reference