r - R：オントロジーとWeb抽出のデータ構造

Question

大規模なウェブサイトから情報を抽出し、オントロジーを生成したいと思います。記述論理で処理できるもの。

抽出されたhtmlデータにはどのようなデータ構造が推奨されますか？

私のアイデアはまだ：
-データフレーム、テーブル構造を使用する
-セットとリレーション（セットパッケージと良好なリレーション）
-グラフ

。

最後に、データをエクスポートし、別のプログラミング言語を使用して述語論理（または記述論理）で処理することを計画しています。

Rを使用してhtmlページから情報を抽出したいと思います。しかし、私が理解しているように、述語論理またはRDF / OWLのR（またはパッケージ）には直接のサポートはありません。

したがって、抽出を実行し、プロセスでデータ構造を使用して、データをエクスポートする必要があります。

データ例：

SomeDocument rdf:type PDFDocument
PDFDocument rdfs:subClassOf Document
SomeDocument isUsedAt DepartmentA

DepartmentA rdf:type Department
PersonA rdf:type Person
PersonA headOf DepartmentA

PersonA hasName "John"

インスタンスデータが「SomeDocument」、「DepartmentA」、「PersonA」の場合。

。

それが理にかなっている場合、ある種の推論（しかしおそらくRではない）：

AccessedOften(SomeDocument) => ImportantDocument(SomeDocument)

score 0 · Accepted Answer

たくさんのページをダウンロードする必要がある場合は、WGETを使用してそれらをダウンロードします。ファイルを処理するには、Perlスクリプトを使用して、データをより読みやすい形式に変換します。カンマ区切り。それから私はあなたが説明する方法で組み合わせるためにいくつかのプログラミング言語に目を向けます、しかし私はこの問題でRに行きません。

score 0 · Accepted Answer

最も重要なのは、あなたのウェブサイトのデータがどのように見えるかです。たとえば、すでにRDFaが含まれている場合は、RDFa蒸留器を使用してRDFを取り出します。単純; 終わり。次に、RDFをトリプルストアに押し込むことができます。SPARQLを使用してクエリを実行する独自のオントロジーを作成することで、Webサイトのデータを拡張できます。オントロジーが、Webサイトで見つけたデータと同等のクラスを作成する場合、あなたは黄金になります。多くのトリプルストアは、URLのみを介してSPARQLエンドポイントとしてクエリでき、XML形式で返されるため、RにSPARQLまたはOWL ontlgoyパッケージ自体がない場合でも、データをまったくクエリできないわけではありません。

r - R：オントロジーとWeb抽出のデータ構造

2 に答える 2

Related

Reference