私はHTMLテーブルの非常に大きなデータセットを持っています(元々ウィキペディアから抽出されました)。これらの各テーブルから意味のあるtripleSetを抽出したいと思います(これは、比較的簡単なタスクであるwikipediaインフォボックスからのトリプルの抽出と競合しないようにする必要があります)。
トリプルは、URIやその他の形式に抽出されるDBpediaとは異なり、人間にとって意味的に意味のあるものでなければなりません。だから私はテーブルのテキスト値を抽出するだけで大丈夫です。
テーブルの向きや形の多様性に注意してください。私が見る主なタスクは、テーブルレコードのメインエンティティ(たとえば、学校のレコードの学生名)を抽出して、トリプルの「サブジェクト」として使用できるようにすることです。
例
このようなテーブルの場合、メインエンティティは「サーバー」であり、他のエンティティはオブジェクトのみであるため、リレーションは次のようになります。
<AOLserver> <Developed by> <NaviSoft>.
<AOLserver> <Open Source> <Yes>.
<AOLserver> <Software license> <Mozilla>.
<AOLserver> <Last stable version> <4.5.1>.
<AOLserver> <Release date> <2009-02-02>.
また、メインエンティティがテーブルの最初の列にあるとは限らないことに注意してください。同じ主題について話しているわけではないテーブルもあります。
これは、メインエンティティが最初ではなく最後の列であるテーブルです。
このテーブルは、次のような関係を生成する必要があります。
<Arsène Wenger> <Position> <Manager>.
<Steve Bould> <Position> <Assistant manager>
質問
私の最初の質問は、これをルールベースのメソッドを使用して実行し、例に基づいていくつかのルールを作成し、適切なエンティティを検出できるように一般化することを試みることができるかどうかです。ルールの例を提案できますか?
2番目の質問は評価についてですが、どうすればそのようなシステムを評価できますか?パフォーマンスを向上させるために、どのようにパフォーマンスを測定できますか?