python - Google Scholar からテキストを抽出する

Question

Google Scholar が特定のクエリに対して提供するテストスニペットからテキストを抽出しようとしています。テキストスニペットとは、タイトルの下のテキスト (黒文字) を意味します。現在、pythonを使用してhtmlファイルから抽出しようとしていますが、次のような多くの余分なテストが含まれています

/div><div class="gs_fl"...等。

これらの冗長なテキストなしでテキストを取得するのに役立つ簡単な方法またはコードはありますか。

score 1 · Accepted Answer

HTMLパーサーが必要です：

import lxml.html

doc = lxml.html.fromstring(html)
text = doc.xpath('//div[@class="gs_fl"]').text_content()

「pip install lxml」で lxml をインストールできますが、その依存関係をビルドする必要があり、詳細はプラットフォームによって異なります。

python - Google Scholar からテキストを抽出する

2 に答える 2

Related

Reference