問題タブ [jericho-html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Jerichoで2つのコメント間を解析するには?
Jericho を使用して、2 つのコメント タグ間のすべてのテキストを解析できるようにしたいと考えています。例えば、
戻るだろう
それはまったく可能ですか?
java - Java htmlパーサーでネストされたタグ間のコンテンツを取得するにはどうすればよいですか?
例えば。
<html>
<body>
<p> Hello <b> world </b> </p>
</body>
</html>
解析中にコンテンツ「Hello」を取得するにはどうすればよいですか?私を助けてください。Javaで必要です。jehricoのようないくつかのhtmlパーサーを知っています。
java - Jerichoを使用してネストされたhtml要素なしでテキストを解析する方法は?
Jerichoを使用して、次のようなものを解析する必要があります。
「スプーンボウ」を解析したいのですが<div>
、次のコードを使用してタグ内のコンテンツ全体を取得します。
java - jericho htmlパーサーを使用して、ページから指定されたテキストを解析します
指定したテキストをページから取得するときに問題が発生しています。私が使用している例は、Patent Assignee Summaryです。
サイトにアクセスすると、「Total: 82」と表示されています (これは基準 SASA のヒット数です)。この番号を取得する必要があります。jericho htmlパーサーを使用していますが、それを行うための関数が見つかりません。
誰かがこれについて私を助けることができますか? 私は本当にページでこの番号を取得する必要があります.
よろしくお願いします-Sasa
java - HTML解析では、読み取られてもデータは返されません
次の問題が発生しています。既知の構造のhtmlファイルを読み取るJavaスニペットを作成しました(以下を参照)。私はそれを要素に分割し、jerichoパーサーを使用してそれらのテキストを取得します。次に、検索が正しいことを確認するためにテキストを印刷したらすぐに、各要素をArrayListに追加します(明らかに検索は正しいです)。html構造から推測できるように、ArrayListの要素iがEmailの場合、要素i+1は値です。スコープの問題だと思いますが、理解できません。手伝ってくれますか?次のコードを使用して値を取得しています。
HTML:
html - GWT ページから HTML コンテンツを抽出する
GWT で書かれた HTML ページのコンテンツを解析したいと考えています。Jericho HTML コンテンツ パーサーを使用して解析しようとしましたが、問題はページ ソースにコンテンツがないことです。GWT ページについて調査した結果、GWT ページは Java で記述されており、GWT コンパイラーは Java コードから複雑な構造の js ページを作成して HTML コンテンツをブラウザーに表示することを知りました。
これらのタイプのページを解析する方法はありますか?
java - JavaJerichoハイパーリンク解析
アンカーtag()にある場合を除いて、Webページ内のすべてのハイパーリンクを取得する方法を見つけようとしています。
このために、私はJerichoパーサーを使用しています。
私の最初のアプローチはとの違いを理解することでしたが
List<Element> elementList = source.getAllElements();
、
getAllElements(HTMLElementName.A)
他の要素にもアンカーリンクが含まれている可能性があるため、それが正しいアプローチではないと思います。
java - jericho htmlパーサーを使用してWebサイトからデータを取得するには?
Javaでjericho htmlパーサーを使用しています。ウェブサイトからデータを取得したい。ウェブサイトのhtmlコンテンツでは、このようなものです....
コンテンツ 1、コンテンツ 2、コンテンツ 3、コンテンツ 4 をフェッチしたいのですが、これをフェッチするにはどうすればよいですか?
このコードを使用しています
java - どの html パーサーを使用すればよいですか?
HTML ドキュメントを解析する必要がある製品に取り組んでいます。Jericho、TagSoup、Jsoup、および Crawl4J を探しました。Quartz を使用してマルチスレッド環境でこのプロセスを実行する必要があるため、HTML を解析するにはどのパーサーを使用すればよいですか?
一度に 10 個のスレッドがメモリ内で実行される場合、メモリの消費量が少ない API が必要です。ジェリコでは、テキストベースの検索 API であり、メモリ消費量が少ないことをどこかで読みました。私は正しいですか?または、他の方法を選択する必要がありますが、その理由は何ですか?
java - jSoup を使用して最も内側の html タグを解析する
これが私のコードです。
タグごとにタグを返す HTML を解析する方法。ループは最内タグでカバーされていません。
これは適切にフォーマットされた html コードです。すべてのタグを最も内側まで解析します。
タグの間にあるすべての html を、html コードで示した html の階層として取得したいと考えています。だから私は、親子のシーケンスごとにすべてのタグを次々と取得するのが好きです。