0

Google Scholar が特定のクエリに対して提供するテスト スニペットからテキストを抽出しようとしています。テキスト スニペットとは、タイトルの下のテキスト (黒文字) を意味します。現在、pythonを使用してhtmlファイルから抽出しようとしていますが、次のような多くの余分なテストが含まれています

/div><div class="gs_fl"...等。

これらの冗長なテキストなしでテキストを取得するのに役立つ簡単な方法またはコードはありますか。

4

2 に答える 2

1

HTMLパーサーが必要です:

import lxml.html

doc = lxml.html.fromstring(html)
text = doc.xpath('//div[@class="gs_fl"]').text_content()

「pip install lxml」で lxml をインストールできますが、その依存関係をビルドする必要があり、詳細はプラットフォームによって異なります。

于 2013-04-02T16:18:02.130 に答える