-1

任意の Web サイトを取得し、その Web サイトからすべてのテキストのチャンクを取得する必要があります。

私はこれを「段落の曖昧さ回避」と呼んでいます (Wikipedia の「文の曖昧さ回避」を参照してください)。

これらのチャンク自体に他の HTML のようなものが含まれているかどうか、または段落テキストを抽出した後にこれらを取り除くことができるかどうかは気にしません。

また、段落を区別する必要があります。これは段落 1 で、これは段落 2 などです。

ほとんどの段落は通常、

鬼ごっこ。しかし、これは必ずしもそうではありません。テキストは、次のものにも含めることができます。

<div>
<span>
<td>
<li>

テキストのブロックを含む可能性のある他の HTML 要素はありますか?

「白い言葉」を探してその境界を見つけるなど、ランダムな Web ページからテキスト ブロックを抽出する他の方法はありますか?

前もって感謝します

ジェフ

4

2 に答える 2

0

ほぼすべての HTML 要素にテキストを含めることができます。

  • p
  • dt
  • dd
  • td
  • 番目

そして、現時点では思い出せないことがたくさんあります。HTML タグの完全なリストを見て、テキストを含めるのに適したものとそうでないものを確認してください。

于 2012-09-14T18:26:35.130 に答える
0

Python の Beautiful Soup を使用して、body 要素で .get_text() を呼び出します。これにより、ページ内のすべてのテキストが表示されます。

get_text() のドキュメントから:

>>> markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'
>>> soup = BeautifulSoup(markup)
>>> soup.get_text()
u'\nI linked to example.com\n'
于 2012-09-16T06:51:09.703 に答える