時間、場所、名前を含む Web ページからエンティティを解析しようとしています。自然言語処理とエンティティ抽出について少し読みましたが、間違った道を進んでいるかどうかわからないので、ここで質問しています。
私はまだ何も実装していないので、特定のオープン ソース ライブラリが特定の言語にのみ適している場合、それは問題ありません。
多くの場合、データは文ではなく、リストのような html 構造 (例:
- 2013-02-01 - イベント名 - アリーナ名
Web ページの構造は大きく異なります (リストを使用するものもあれば、テーブルに配置するものもあります)。
これを達成する方法について詳しく知るには、どのトピックを調査すればよいですか? エンティティ抽出を行う際に html の構造を考慮したオープン ソース ライブラリはありますか? これらの (名前、時間、場所) エンティティを html から抽出することは、マシン ビジョンを使用して、CSS のスタイリングによって非構造化テキストの重要な部分 (名前、時間、場所) を簡単に区別できるようにする方がよい (または可能である) でしょうか?
私が調査できるトピック/オープンソース プロジェクトに関するガイダンスがあれば、役立つと思います。