xml - Saxon-PE コマンドラインを使用して HTML ページから XPATH を抽出する方法

Question

この Web ページから XPATH //DIV[@id="ps-content"] を抽出したいと思います: http://www.amazon.com/dp/1449319432 (ローカルファイルとして保存)

Saxon-PE や BaseX などの最高のパーサーの 1 つを使用して、1 行のコマンドラインでそれを実行したいと考えています。

これまでのところ、私が（持っていると思われる）見つけた最短の解決策は、次の2行です。

java -jar tagsoup-1.2.1.jar <page.html >page.xhtml"
java -cp saxon9pe.jar net.sf.saxon.Query -s:"page.xhtml" -qs:"//DIV[@id='ps-content']"

しかし、それが返すのはこれだけです。これは、HTMLコードの私の予想されるブロックではありません:

<?xml version="1.0" encoding="UTF-8"?>

私の質問は2つあります：

コマンドラインの何が問題になっていますか? XPATH で定義されているように、期待される HTML コードのブロックが返されないのはなぜですか?
Saxon-PE には TagSoup 機能が組み込まれているため ( https://www.odesk.com/leaving-odesk?ref=http%253A%252F%252Fsaxonica.com%252Fdocumentation9.4-demo%252Fhtml%252Fextensions%252Ffunctions%252Fparse-を参照)。 html.html )、どうすれば 2 行を 1 行に統合できますか?

score 0 · Accepted Answer

TagSoup なしでクエリを起動するための正しいコマンドラインを見つけました。

java -cp saxon9pe.jar net.sf.saxon.Query -s:"test.xhtm" -qs:"//*:div[@id='ps-content']"

このような引用符のタイプの反転は機能しないことに注意してください (Win7 の場合):

java -cp saxon9pe.jar net.sf.saxon.Query -s:"test.xhtm" -qs:'//*:div[@id="ps-content"]'

TagSoup 前処理を同じコマンドラインに追加する方法を知っている人はいますか?

score -1 · Accepted Answer

同じコマンドラインで TagSoup を統合しようとして最後に失敗した試み:

...\SaxonPE9-4-0-7J>java -cp saxon9pe.jar;tagsoup-1.2.1.jar
 net.sf.saxon.Query --xqueryVersion:3.0 -qs:"saxon:parse-html(fn:unparsed-text('
page.html'))//*:div[@id='ps-content']"
Error on line 1 column 17
  XPST0017 XQuery static error near #...:unparsed-text('page.html'))//#:
    System function unparsed-text#1 is not available with this host language/ver
sion
Static error(s) in query

...\SaxonPE9-4-0-7J>java -cp saxon9pe.jar;tagsoup-1.2.1.jar
 net.sf.saxon.Query --xqueryVersion:3.0 -qs:"fn:parse-html(fn:unparsed-text('pag
e.html'))//*:div[@id='ps-content']"
Error on line 1 column 14
  XPST0017 XQuery static error near #...:unparsed-text('page.html'))//#:
    System function unparsed-text#1 is not available with this host language/ver
sion
Static error(s) in query

...\SaxonPE9-4-0-7J>java -cp saxon9pe.jar;tagsoup-1.2.1.jar
 net.sf.saxon.Query --xqueryVersion:3.0 -qs:"saxon:parse-html(collection('page.h
tml;unparsed=yes'))//*:div[@id='ps-content']"
Error on line 1 of *module with no systemId*:
  FODC0002: The file or directory
  file:/C:/Users/diego/Downloads/SaxonPE9-4-0-7J/page.html;unparsed=yes does not
 exist
Query processing failed: Run-time errors were reported

...\SaxonPE9-4-0-7J>java -cp saxon9pe.jar;tagsoup-1.2.1.jar
 net.sf.saxon.Query --xqueryVersion:3.0 -qs:"saxon:parse-html(collection('page.h
tml';'unparsed=yes'))//*:div[@id='ps-content']"
Error on line 1 column 39
  XPST0003 XQuery syntax error near #...ion('page.html';'unparsed=yes'#:
    expected ")", found ";"
Static error(s) in query

xml - Saxon-PE コマンドラインを使用して HTML ページから XPATH を抽出する方法

2 に答える 2

Related

Reference