parsing - ドキュメントが記事かどうかを判断するにはどうすればよいですか?

Question

アルゴリズム/ライブラリ/tika config/nekohtml フィルターがどのアルゴリズム/ライブラリ/tika config/nekohtml フィルターでどれが「記事」で、どれがそうでないかを X 文書化しているとします。）。

記事とは、少なくとも 1 つの段落を構成する構造化されたテキストの塊を意味し、ほとんどの人間の読者はそれらを除外できると思います。

私が考えた最も簡単な方法は、doclength > Y を確保することです。ここで、Y はたとえば 350 語になります。しかし、これは最も信頼できる方法ではありません。たとえば、リストが非常に長くなる可能性があり、記事のテキストが得られないからです。探している

タグ、十分ではありません。

score 2 · Accepted Answer

Boilerpipeを使用してページからテキストを抽出し、ヒューリスティックス (記事の長さ) に基づいてそれが記事かどうかを判断できます。とにかくあなたの解決策がうまくいかないのではないかと心配しています。切り離された項目のリストは、依然として文のリストのように見えます。内容を「理解」する必要があります。

score 2 · Accepted Answer

スループット、レイテンシー、接続性、およびお金などのその他の非技術的要因などの要因に応じて、人間には簡単にできるがコンピューターには難しいことである場合は、Amazon Mechanical Turkを使用して HIT を定義し、記事を特定することを検討することをお勧めします。他の種類のテキスト。HIT の結果をコードに統合するためのAPIがあります。

parsing - ドキュメントが記事かどうかを判断するにはどうすればよいですか?

2 に答える 2

Related

Reference