問題タブ [jericho-html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
825 参照

java - Noclassdeffounderror Jericho htmlparser

Jericho html パーサーを使用する Android プロジェクトに取り組んでいます。アプリは起動しますが、検索ボタンを押したときにパーサーを使用したい場合、次のエラーが表示されます。

Jerco html パーサー JAR ファイルをインポートしたので、それは問題ではありません..なぜこのエラーが発生するのかわかりません!

何か案は?

0 投票する
1 に答える
7679 参照

java - JAVA用のJSPおよびHTMLパーサー

私はHTMLファイルの解析にJsoupを使用してきましたが、これまでのところ、それは素晴らしい仕事をしています。ただし、サーバータグ(<%...%>)を解析することはできません。私はそれを拡張することに決めましたが、そのパーサーとそれらすべてのプライベート/パッケージレベルのクラス(つまり、TreeBuilder、TransitionState ...など)を拡張する簡単な方法を見つけることができません...

そこで、サーバータグを解析できると主張しているJerichoを調べ始めましたが、ドキュメントが非常に貧弱で、簡単に始めることすらできません。そして、そのAPIはJsoupが提供するものほどフレンドリーではないようです-いくつかのノードを抽出して移動するのはそれほど簡単ではありません...

誰かが以前に同じような状況にあるのだろうか、そしてあなたはそれをどのように解決するのだろうか?つまり、JavaでJSPファイルを解析したいだけです。(まあ..自分で実装するように言わないでください; p)

0 投票する
2 に答える
1048 参照

java - 特定のIDを持つ要素を除外または無視しながら、JavaでJerichoを使用してソースからすべてのリンクを解析する方法は?

すべての href リンクを解析するために Jericho Java クライアント ライブラリを使用しています。私がやりたいことは、特定の ID を含むソースからのすべてのリンクを除外またはスキップすることです。私はいくつかのことを試しましたが、私の解決策はきれいではありませんが、基本的には次のようなものをチェックすることでこれを達成できます:

しかし、私はよりクリーンなソリューションを好みます。これがソースであると仮定しましょう:

ちょっとしたスニペットですが、最終的に返してほしいのは「www.google.com」だけです。これについて何か助けていただければ幸いです。ありがとう。

0 投票する
1 に答える
253 参照

html-parsing - 複数のページにわたって特定の HTML の場所からテキストを抽出する

複数のページにわたって HTML 内の特定の場所からテキストを抽出する目的で、Jericho HTML パーサーと Selenium IDE を試してきました。

これを行う方法の簡単な例が見つかりませんでしたし、Java も知りません。

1 番目のテーブル、4 番目の行、1 番目の div の任意のテキスト文字列のすべての HTML ページをフォルダで検索したいと思います。

そして、選択したテキストを次のようなリストの txt ファイルに出力します。

すべてのソース ファイルはローカルに保存され、不適切な HTML が含まれている可能性があるため、この目的には Jericho が最適であると考えられます。ただし、望ましい結果を達成するための方法を喜んで学びます。

0 投票する
2 に答える
1303 参照

java - HTMLコードをwysiwygエディターから生成されたプレーンテキストにレンダリングまたは変換する方法

Web アプリケーションで wysiwyg エディター (CKEditor) を使用して、ユーザーに基本的なワープロを提供しました。そのCKEditorの出力をpdfドキュメントに保存しようとしました。PDFドキュメントを生成できるようになりましたが、問題はCKEditorからの出力がHTMLコードであり、そのままPDFで公開されていることです。CKEditor に表示されるようにその pdf ドキュメントを公開したいのですが、それらの HTML タグを pdf に入れたくありません。これらのhtmlタグを削除してそのhtmlコードをプレーンテキストにレンダリングまたは変換するJavaのライブラリはありますが、その効果は保持されます。つまり、HTMLコードにThis is Boldがある 場合、pdfはThis is Boldとして保存する必要があります<b></b>

0 投票する
1 に答える
266 参照

java - Jericho を使用して 2 つの特定のテキスト間のデータを抽出する

Jericho を使用して Html を解析しています。2 つの特定のテキストの間でデータを抽出する必要がある html ページがあります。

アイテム 7.アイテム 8.の間のデータを jercio を使用して抽出するにはどうすればよいですか。

前もって感謝します

0 投票する
2 に答える
489 参照

java - jericho-html - テキスト抽出と不正確なテキスト長

今日、単純なhtmlからテキストを抽出するために、libをjericho-html-3.2として使用しようとしました...そして、次のような奇妙なテキスト偽の長さの問題に直面しました:

私がこれとしてhtmlを持っている場合

...私のRichTextArea は、実際には正しい長さである42getText().length()を返しますが、このhtmlからテキストを抽出しようとすると、

...text.length()リターン44

長さ42のテキストが長さ44のテキストに変わる理由と、それを修正する方法がわかりませんか?

ありがとう

0 投票する
1 に答える
166 参照

html - HTMLコードで要素にアクセスする方法

1-このコードのすべての「アクセスしたい」要素を取得するために作成したコードは、「一部のデータ」のような他の要素はなく、divクラス bestMFdtl2の要素のみが必要です。

2-そして、これを行う方法の選択に従って、このコードに特定の要素が必要な場合は、htmlジェリコパーサーを使用しています。助けてください。コードの読み取りに問題があります。申し訳ありませんが、あなたはプログラマーです。これ。

3-タグからhrefリンクを取得する方法。

0 投票する
1 に答える
434 参照

java - jerichoを使用してJavaでhtmlタグを検証する

を使用してjericho api、次のような特定の html タグを検証でき<input type="test" .....>ますか? そうするAPIをジェリコで見つけることができませんでした。のみを使用してそれを行う方法はありjerichoますか? HTMLタグを整理したりサニタイズしたりしたくありません。その有効性を確認したいだけです。

0 投票する
1 に答える
155 参照

jericho-html-parser - jericho htmlパーサーを使用してhtmlまたはjspページからコメントを取得する方法

//Comments&のようなコメントを/*Comments*/HTML および JSP ページから取得する方法。

jericho htmlパーサーを使用して、次の方法でコメントを取得し<!--Comments-->ました。<%--Comments--%><%Comments%>

//しかし、 &を見つけることができません/*Comments*/