machine-learning - 自然言語処理などの手法を使用して html からエンティティを抽出する方法

Question

時間、場所、名前を含む Web ページからエンティティを解析しようとしています。自然言語処理とエンティティ抽出について少し読みましたが、間違った道を進んでいるかどうかわからないので、ここで質問しています。

私はまだ何も実装していないので、特定のオープンソースライブラリが特定の言語にのみ適している場合、それは問題ありません。

多くの場合、データは文ではなく、リストのような html 構造 (例:

2013-02-01 - イベント名 - アリーナ名

）。

Web ページの構造は大きく異なります (リストを使用するものもあれば、テーブルに配置するものもあります)。

これを達成する方法について詳しく知るには、どのトピックを調査すればよいですか? エンティティ抽出を行う際に html の構造を考慮したオープンソースライブラリはありますか? これらの (名前、時間、場所) エンティティを html から抽出することは、マシンビジョンを使用して、CSS のスタイリングによって非構造化テキストの重要な部分 (名前、時間、場所) を簡単に区別できるようにする方がよい (または可能である) でしょうか?

私が調査できるトピック/オープンソースプロジェクトに関するガイダンスがあれば、役立つと思います。

score 1 · Accepted Answer

多くのプログラミング言語には、さまざまな形式から正規の日付スタンプを生成する外部ライブラリがあります (たとえば、Java ではを使用SimpleDateFormat)。あなたが言うように、ウェブページの構造は大きく異なりますが、日付は少数のバリエーションのみを使用して表現できます。すべてではないにしても、ほとんどの HTML ページからの日付の抽出を有効にします。

ただし、地名の抽出はより困難です。ここで、自然言語処理が必要になります。あなたが探しているのは、固有表現認識システムです。最高のオープンソース NER システムの 1 つは、Standford NERです。使用する前に、オンラインデモをチェックしてください。デモには、選択できる 3 つの分類子 (英語用) があります。私のタスクのほとんどで、english.all.3class.distsim分類器は非常に正確であることがわかりました。

NER は、抽出した場所と名前が文中に出現する場合にうまく機能することに注意してください。それらが HTML ラベルで発生する場合、このアプローチはおそらくあまり役に立ちません。

machine-learning - 自然言語処理などの手法を使用して html からエンティティを抽出する方法

1 に答える 1

Related

Reference