問題タブ [jericho-html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1367 参照

java - Java で Jericho を使用してカスタム開始タグを探すにはどうすればよいですか?

タイトルが示すように、非標準の StartTagType を次の形式で一致させようとしています<foo:bar ...>

ジェリコでこれを行うにはどうすればよいですか?

編集

次のカスタム StartTagType を作成しました。

...と:

ただし、 を実行するsource.getAllElements(...)と、一致が得られません。

0 投票する
1 に答える
4601 参照

java - jTidy と TagSoup のドキュメント

TagSoup および jTidy ライブラリのドキュメント (可能であれば公式のドキュメント) を探しています。

このライブラリを使用して、html (html、xhtml、または html5) タグの間に異なる名前空間が混在する xml タグを含む html "tagsoup" ファイルを操作したいと考えています。

HTMLCleaner、NekoHTML、および Jericho をテストしましたが、ファイルをクリアするための最も単純な例を除けば、jTidy と TagSoup のドキュメントは見つかりません。

コンテンツの操作、タグの置換、情報の抽出などに関するドキュメントが必要です...

ありがとう

注: すべてのオプションをテストした後、StAX / Woodstoxを使用しました。

0 投票する
1 に答える
1209 参照

java - Jericho-html:ソースファイル内の位置を参照してテキストを抽出することは可能ですか?

Jericho HTMLParser3.1を使用しています。

htmlからテキストを抽出して処理する必要があり、これに従って、元のhtmlにタグを挿入する必要があります。

しかし、これには、抽出されたテキストとソースhtmlを一致させる必要があります。

net.htmlparser.jericho.TextExtractorテキストをかなりうまく抽出しますが、元のファイルで場所を見つける方法を見つけることができませんでした。

Jericho-htmlでそうすることは可能ですか?

0 投票する
2 に答える
8354 参照

java - Jericho HTMLパーサーを使用して特定のタグ間のテキストとその他のタグを取得するには?

特定のタグを含む HTML ファイルがあります。たとえば<TABLE cellspacing=0>、終了タグは</TABLE>です。これらのタグの間のすべてを取得したいと思います。Java で Jericho HTML パーサーを使用して HTML を解析しています。Jericho パーサーで特定のタグ間のテキストとその他のタグを取得することは可能ですか?

例えば:

答え:

0 投票する
1 に答える
775 参照

java - パーサーを使用して HTML ページのテキストを更新する

middlebitparent.replaceWith(nodespan); HTMLドキュメントをナビゲートし、「In」という単語の背景色を変更するためにjsoupで記述された次のコードで、常にエラーが発生します

エラーは言う

アップデート:

簡単な方法でテキスト ノード内のテキストを更新できるパーサーはありますか

0 投票する
1 に答える
404 参照

xquery - HTML ページのテキスト内の特定の単語を取得する

次の HTML ページがある場合

たとえば「こんにちは」などの特定の単語を取得し、ドキュメント内のどこにいても「ようこそ」に変更したい

何か提案はありますか?使用しているパーサーの種類に関係なく、喜んでお答えいたします。

0 投票する
1 に答える
216 参照

html-parser - Jericho HTML Parser に関するクエリ

パーサーを使用して、本文内の特定の H2 (または h3/h4/h5/h6) テキストの出現位置番号を特定したいと考えています。位置番号とは、この特定の h2 (または h3/h4/h5/h6) フレーズの前に発生した「単語」の数のカウントを意味します...また、フレーズが h2 と h4 テキストの両方で発生した場合 (たとえば)、これら両方のテキストの正しい位置番号を取得するにはどうすればよいですか?

0 投票する
3 に答える
3224 参照

java - Java での HTML ドキュメントの整形 (「インデントのみ」) (JTidy なし)

Apache Velocity ジェネリック テンプレート エンジンから HTML ファイルを生成しています。生成された HTML は見苦しく、正しいインデントがありません。

私の場合、この方法で操作したい String に格納された HTML を持っているので、きれいに印刷されているように見えます。

私はすでに JTidy を試してみましたが、生の HTML をパイプでパイプすると、HTML ソース コードが変更されます。HTMLタグを追加または削除することがあります。

私の質問:

HTMLドキュメントにタグを追加したり削除したりせずにHTMLコードをきれいに印刷するJavaライブラリまたは何か他のものがありますか? きれいに印刷されるように、インデントのみを行います。それ以上でもそれ以下でもありません。何か案は?:-)

コードの提案、ヒント、またはヒントも大歓迎です。

よろしくお願いします

0 投票する
1 に答える
3158 参照

java - JerichoHTMLパーサーを使用してXMLを解析する方法

私はJavaとサーブレットを初めて使用し、現在JerichoXMLParserを使用してXMLを解析しようとしています。たとえば、各リンクタグからリンクを取得したいのですが、何も表示されず、合計数は27と表示されます(文字列なしで正しい合計数しか取得できません)。方法を知っている人は、教えてください。

0 投票する
1 に答える
875 参照

java - Jericho パーサーがこの HTML コードを解析できないのはなぜですか?

アプリケーションで jericho パーサーを使用して、軽量バージョンの Web ページを取得し、そこからいくつかの部分を抽出します。たとえば、次のコードを取得すると、次のようになります。

jericho パーサーを使用してもう一度解析したいのですが、実行すると

私はこの例外を得ました

そして、アプリケーションがクラッシュします...では、軽量化されたページの何が問題になっているのでしょうか?