アルゴリズム/ライブラリ/tika config/nekohtml フィルターがどのアルゴリズム/ライブラリ/tika config/nekohtml フィルターでどれが「記事」で、どれがそうでないかを X 文書化しているとします。 )。
記事とは、少なくとも 1 つの段落を構成する構造化されたテキストの塊を意味し、ほとんどの人間の読者はそれらを除外できると思います。
私が考えた最も簡単な方法は、doclength > Y を確保することです。ここで、Y はたとえば 350 語になります。しかし、これは最も信頼できる方法ではありません。たとえば、リストが非常に長くなる可能性があり、記事のテキストが得られないからです。探している
タグ、十分ではありません。