shell - Scrapy response.xpath がクエリに対して何も返さない

Question

私はスクレイピーシェルを使用してテキストデータを抽出しています。スクレイピーシェルで私が与えたコマンドは次のとおりです。

>>> scrapy shell "http://jobs.parklandcareers.com/dallas/nursing/jobid6541851-nurse-resident-cardiopulmonary-icu-feb2015-nurse-residency-requires-contract-jobs"

>>> response.xpath('//*[@id="jobDesc"]/span[1]/text()')
[<Selector xpath='//*[@id="jobDesc"]/span[1]/text()' data=u'Dallas, TX'>]
>>> response.xpath('//*[@id="jobDesc"]/span[2]/p/text()[2]')
[<Selector xpath='//*[@id="jobDesc"]/span[2]/p/text()[2]' data=u'Responsible for attending assigned nursi'>]
>>> response.xpath('//*[@id="jobDesc"]/span[2]/p/text()[preceding-sibling::*="Education"][following-sibling::*="Certification"]')
[]

3 番目のコマンドはデータを返しません。コマンドの 2 つのキーワードの間でデータを抽出しようとしていました。どこが間違っていますか？

score 1 · Accepted Answer

//*[@id="jobDesc"]/span[2]/p/text()テキストノードのリストを返します。関連するノードを Python でフィルタリングできます。"Education/Experience:"と"Certification/Registration/Licensure:"テキスト段落の間のテキストを取得する方法は次のとおりです。

>>> result = response.xpath('//*[@id="jobDesc"]/span[2]/p/text()').extract()
>>> start = result.index('Education/Experience:')
>>> end = result.index('Certification/Registration/Licensure:')
>>> print ''.join(result[start+1:end])
- Must be a graduate from an accredited school of Nursing.

UPD (コメントの追加の質問について):

>>> response.xpath('//*[@id="jobDesc"]/span[3]/text()').re('Job ID: (\d+)')
[u'143112']

score 0 · Accepted Answer

試す：

substring-before(
  substring-after('//*[@id="jobDesc"]/span[2]/p/text()', 'Education'), 'Certification')

注：テストできませんでした。

同じテキストノードを参照しているためpreceding-sibling、 and を使用できないという考えです。following-sibling使用したいテキスト部分を抽出しsubstring-before()、substring-after()

この 2 つの機能を組み合わせることで、その中間にあるものを選択します。

shell - Scrapy response.xpath がクエリに対して何も返さない

2 に答える 2

Related

Reference