問題タブ [html-treebuilder]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - または HTML::TreeBuilder の look_down 機能に一致
最初の 3 文字が または で始まるアイテムをtr
照合しようとしています。これは私の試みです:class
eve
day
ちょっと興味がありますが、どのようなオブジェクトが入ってい@stuff
ますか?
これでよろしいですか?下記参照:
perl - Xpath で ID が見つからない
ID でノードを取得できません。コードは簡単で、一目瞭然です。
上記のコードは以下を出力します。
ID でノードを選択するにはどうすればよいですか?
前もって感謝します。
perl - Perl で HTML ファイルをスクレイピングし、コンテンツのみを順番に返す
HTML::TreeBuilder -- または Mojo::DOM -- を使用して、コンテンツをスクレイピングしたいのですが、テキスト値を配列に入れることができるように (そして、テキスト値を変数に置き換えます)テンプレート目的)
しかし、これは TreeBuilder で
順序を返しません -- もちろん、ハッシュは順序付けされていません。では、ルートからツリーにアクセスして、返された一連の値を保持するにはどうすればよいでしょうか。再帰的にツリーを歩きますか? 基本的に、各要素以外は「as_text」メソッドを使いたいと思います。(この素晴らしいアイデアに従いましたが、すべての要素に必要です)
perl - TreeBuilder を使用して Perl でリンクを抽出する
大量の情報を 1 つの HTML ファイルに抽出するスクリプトを作成しています。ただし、問題のページから特定のリンクのセットのみを抽出するのに苦労しています。
サイトの大まかな構成はこちら。innercontent div と以下に示す内容の間には、他にもいくつかの見出しと段落があります。
現在、div ID「innercontent」に複数のリンクが見つかっているため、文字列に一致させるか、必要なリンクのみを取得する方法を探しています。私が取得しようとしているリンクはすべて .pdf であることを覚えておいてください。私が行った調査に基づいて、TreeBuilder がこれを処理できると確信しています。私が試している2つの方法を紹介します。最初のものを使用して解決したいと思います。
後者の方法はページ全体でリンクを検索するだけだと思いますが、その方法がより効率的である場合、またはこれらの方法の両方を組み合わせることができる場合に備えて、後者の方法を含めています.
どんな助けやアドバイスも大歓迎です!
perl - Unicode テキストに関する Tree Builder の問題
lookdownメソッドで返された文字列からテキスト部分を使用HTML::TreeBuilder
して抽出することにより、URLのコンテンツを抽出するために使用しています。tree->lookdown
ここでの私の問題は、そのテキストを読んで、ジャンクとして表示されているファイルに書き込むときです。私はこれに関して進歩を遂げることができません。
私のサンプルコード:
出力ファイルハンドルにbinmodeを試しましたが、役に立たず、ASCII文字などのUnicode以外のテキストがファイルに正しく出力されました。