問題タブ [html-treebuilder]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
682 参照

regex - または HTML::TreeBuilder の look_down 機能に一致

最初の 3 文字が または で始まるアイテムtr照合しようとしています。これは私の試みです:classeveday

ちょっと興味がありますが、どのようなオブジェクトが入ってい@stuffますか?


これでよろしいですか?下記参照:

0 投票する
2 に答える
96 参照

perl - Xpath で ID が見つからない

ID でノードを取得できません。コードは簡単で、一目瞭然です。

上記のコードは以下を出力します。

ID でノードを選択するにはどうすればよいですか?

前もって感謝します。

0 投票する
1 に答える
263 参照

perl - Perl で HTML ファイルをスクレイピングし、コンテンツのみを順番に返す

HTML::TreeBuilder -- または Mojo::DOM -- を使用して、コンテンツをスクレイピングしたいのですが、テキスト値を配列に入れることができるように (そして、テキスト値を変数に置き換えます)テンプレート目的)

しかし、これは TreeBuilder で

順序を返しません -- もちろん、ハッシュは順序付けされていません。では、ルートからツリーにアクセスして、返された一連の値を保持するにはどうすればよいでしょうか。再帰的にツリーを歩きますか? 基本的に、各要素以外は「as_text」メソッドを使いたいと思います。(この素晴らしいアイデアに従いましたが、すべての要素に必要です)

0 投票する
2 に答える
598 参照

perl - TreeBuilder を使用して Perl でリンクを抽出する

大量の情報を 1 つの HTML ファイルに抽出するスクリプトを作成しています。ただし、問題のページから特定のリンクのセットのみを抽出するのに苦労しています。

サイトの大まかな構成はこちら。innercontent div と以下に示す内容の間には、他にもいくつかの見出しと段落があります。

現在、div ID「innercontent」に複数のリンクが見つかっているため、文字列に一致させるか、必要なリンクのみを取得する方法を探しています。私が取得しようとしているリンクはすべて .pdf であることを覚えておいてください。私が行った調査に基づいて、TreeBuilder がこれを処理できると確信しています私が試している2つの方法を紹介します。最初のものを使用して解決したいと思います。

後者の方法はページ全体でリンクを検索するだけだと思いますが、その方法がより効率的である場合、またはこれらの方法の両方を組み合わせることができる場合に備えて、後者の方法を含めています.

どんな助けやアドバイスも大歓迎です!

0 投票する
1 に答える
177 参照

perl - Unicode テキストに関する Tree Builder の問題

lookdownメソッドで返された文字列からテキスト部分を使用HTML::TreeBuilderして抽出することにより、URLのコンテンツを抽出するために使用しています。tree->lookdownここでの私の問題は、そのテキストを読んで、ジャンクとして表示されているファイルに書き込むときです。私はこれに関して進歩を遂げることができません。

私のサンプルコード:

出力ファイルハンドルにbinmodeを試しましたが、役に立たず、ASCII文字などのUnicode以外のテキストがファイルに正しく出力されました。