大規模なウェブサイトから情報を抽出し、オントロジーを生成したいと思います。記述論理で処理できるもの。
抽出されたhtmlデータにはどのようなデータ構造が推奨されますか?
私のアイデアはまだ:
-データフレーム、テーブル構造を使用する
-セットとリレーション(セットパッケージと良好なリレーション)
-グラフ
。
最後に、データをエクスポートし、別のプログラミング言語を使用して述語論理(または記述論理)で処理することを計画しています。
Rを使用してhtmlページから情報を抽出したいと思います。しかし、私が理解しているように、述語論理またはRDF / OWLのR(またはパッケージ)には直接のサポートはありません。
したがって、抽出を実行し、プロセスでデータ構造を使用して、データをエクスポートする必要があります。
データ例:
SomeDocument rdf:type PDFDocument
PDFDocument rdfs:subClassOf Document
SomeDocument isUsedAt DepartmentA
DepartmentA rdf:type Department
PersonA rdf:type Person
PersonA headOf DepartmentA
PersonA hasName "John"
インスタンスデータが「SomeDocument」、「DepartmentA」、「PersonA」の場合。
。
それが理にかなっている場合、ある種の推論(しかしおそらくRではない):
AccessedOften(SomeDocument) => ImportantDocument(SomeDocument)