非表示または不完全なデータを含む半構造化情報を取得できる情報抽出ライブラリを探しています。構造に基づいてコンテンツを抽出するようにいくつかの分類子をトレーニングしたいと考えています。
ブラウザーでテキストを選択できるツールの構築に取り組んでおり、他のドキュメントでテキストを引き出すために使用できる分類子を (Web サービス呼び出しを介して) 生成します。
私は主に、コンテンツが何であるかを示すためにドキュメントの構造をどのように使用できるかを調べています。
非表示または不完全なデータを含む半構造化情報を取得できる情報抽出ライブラリを探しています。構造に基づいてコンテンツを抽出するようにいくつかの分類子をトレーニングしたいと考えています。
ブラウザーでテキストを選択できるツールの構築に取り組んでおり、他のドキュメントでテキストを引き出すために使用できる分類子を (Web サービス呼び出しを介して) 生成します。
私は主に、コンテンツが何であるかを示すためにドキュメントの構造をどのように使用できるかを調べています。
ある種の html パーサー ジェネレーターを探しているようですね。ページ上の領域を選択し、xpath 解析ルールを生成できる Web サービス (名前は思い出せません) がありましたが、それがどの程度うまく機能したか、またはまだ存在しているのかさえわかりません。
一般に、コードを書ける場合は、自分でパーサーを作成するのが最も簡単です。BeautifulSoupまたはlxmlをお勧めします。