この Web ページから XPATH //DIV[@id="ps-content"] を抽出したいと思います: http://www.amazon.com/dp/1449319432 (ローカル ファイルとして保存)
BaseX や Saxon-PE などの最高のパーサーの 1 つを使用して、1 行のコマンドラインでそれを実行したいと考えています。
これまでのところ、私が(持っていると思われる)見つけた最短の解決策は、次の2行です。
java -jar tagsoup-1.2.1.jar <page.html >page.xhtml"
basex -ipage.xhtml "//DIV[@id='ps-content']"
しかし、それが返すものはすべて、予想されるhtmlコードのブロックではなく、空の行です:
私の質問は2つあります:
- コマンドラインの何が問題になっていますか? XPATH で定義されているように、期待される HTML コードのブロックが返されないのはなぜですか?
- BaseX には TagSoup 機能が組み込まれているため ( https://www.odesk.com/leaving-odesk?ref=http%253A%252F%252Fdocs.basex.org%252Fwiki%252FParsers%2523HTML_Parserを参照)、どうすれば 2 つの行を統合できますか? 1行に?