問題タブ [jericho-html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
511 参照

jsoup - HTML ジェリコ、jTidy、または JSoup のスニペットをフォーマットしていますか?

HTML のスニペットをフォーマット/インデントしたい

これに

jTidy と JSoup を試してみましたが、HTML を and/or で調整します。上記の例のように、HTML の一部を単純にフォーマットするものが必要です。

私は jericho を見つけました。それは私が望むことをしているようですが、jTidy/JSoup を使用したいと思います。

jTidy や JSoup でやりたいことはできますか?

0 投票する
1 に答える
1733 参照

html - Java の新しいコードで HTML ヘッダー セクションを更新する方法

ヘッダー セクションを新しいコード行に置き換えたい HTML はほとんどありません。(私の新しいコードは、新しい CSS、新しい JS ファイルのインポート、およびいくつかのスクリプトです)。

既存のすべてのヘッダー セクションを置き換え、新しいものに置き換えたい。この変更は永続的なものでなければなりません。

私はJSまたはJqueryでそれを行う方法を知っていますが、htmlがロードされるたびに実行されるため、実現可能ではありません.

特定のバックエンド コードを 1 回だけ実行し、HTML ファイルを永久に更新するように Java で解決策を取得した場合。

AND に置き換えるには

また、更新された HTML ファイルの Body タグにいくつかの新しい Div タグ構造を追加したいと考えています。

助けてください。:)

0 投票する
1 に答える
478 参照

java - html の他の言語空間を削除する

StringUtils.strip() を使用して、タグ名と属性の間のスペースを削除したいと考えています。次のJerichoメソッドでは削除できないスペースがあるため:

  • CharacterReference.decodeCollapseWhiteSpace(htmlFragment))
  • TextExtractor -Tag[] allTags = source.fullSequentialParse();

最初の方法は通常のスペースを削除しますが、他の言語スペースは削除しません。これは私が得ているエラーです。例えば

ジェリコには generateHTML メソッドもありますが、すべての属性値などを提供する必要があります

完全順次解析では、他の言語空間を認識しません。

タグ名と属性の間の他の言語スペースのみを削除するにはどうすればよいですか? (属性値の間の他の言語スペースはOKです)それが私ができない理由ですstring.replaceALL()

0 投票する
3 に答える
7042 参照

java - Windows-1251 テキストを読みやすいものに変換するにはどうすればよいですか?

Jericho HTML パーサーによって返され、ロシア語のテキストを含む文字列があります。それぞれの HTML ファイルのヘッダーによるsource.getEncoding()と、エンコーディングは Windows-1251 です。

この文字列を読み取り可能なものに変換するにはどうすればよいですか?

私はこれを試しました:

変数bytesには、デバッガーに表示されるデータが含まれています。これはnet.htmlparser.jericho.Element.getContent().toString().getBytes(). ここにその配列をコピーして貼り付けただけです。

これは機能しません -readableStringゴミが含まれています。

Windows-1251 文字列が正しくデコードされていることを確認するにはどうすればよいですか?

更新 1 (2015 年 7 月 30 日 12:45 MSK):の呼び出しでエンコーディングを変更しconvertStringWindows-1251も、何も変わりません。以下のスクリーンショットを参照してください。

スクリーンショット

更新 2:別の試み:

2 番目のスクリーンショット

更新 3 (2015 年 7 月 30 日 14:38):デコードする必要があるテキストは、以下に示すドロップダウン リストのテキストに対応しています。

期待される結果

更新 4 (30.07.2015 14:41):エンコーディング検出器 (コードは以下を参照) は、エンコーディングがWindows-1251ではなくUTF-8.

0 投票する
0 に答える
92 参照

html - サーバー側の非 HTML タグを解析する

このようなタグを使用して、Play フレームワーク テンプレート ファイルを解析したいと思います。

この種の構文でタグを作成するにはどうすればよいですか?

から始める

(ハッシュタグ){フォーム --> タグの名前

@UneReponses.modifier(unereponse.id) --> 名前

method:'PUT' および id:'creationForm' --> 属性

} タグの終わり;

解決策はありますか?

ありがとう

0 投票する
2 に答える
97 参照

java - 任意の HTML から JavaScript を解析する方法

HTMLのサニタイズにジェリコを使用していますが、うまく機能します。1つの状況を除いて、私には理解できません。スクリプトとスクリプトの内容を完全に削除したい。現在、スクリプト タグを削除していますが、実際のスクリプト コンテンツは保持されています。

そのため、現在、Source オブジェクトを作成し、fullSequentialParse を実行しています。次に、OutputDocument を作成し、各タグをループします。

「スクリプト」タグに到達したら、全体を「」に置き換えたいだけです。

何か案は?

ティア

0 投票する
1 に答える
132 参照

jericho-html-parser - Jericho SourceFormatter からエラー文字列を取得する

HTMLのインデントを行うために、jerichoのSourceFormatterを使用しています。現在、HTML フォーマッターに問題がある場合は、それをサーバー コンソールに送信します。

エラーをキャッチしてログ システムに出力するにはどうすればよいですか (実際には文字列/オブジェクトとして取得したいのですが)。

これが私が使用するコードの例です

LoggerProvider - hericho のログイン システムを表す

0 投票する
1 に答える
940 参照

java - JBoss 4.2 からの移行時に JBoss wildfly 10 NoClassDefFoundError が発生する

JBoss 4.2 で実行されている spring mvc アプリケーションがあります。この Web アプリを JBoss wildfly 10 (wildfly-10.0.0.Final バージョン) に移行しようとしています。

アプリをデプロイしようとすると、次のエラーが表示されます。

Web を探していると、jar "jericho-html-2.6.1.jar" をロードする必要があることを読みました。そのために、 ${wildfly_home}/modules/system/layers/base/au/id/jericho/lib/html/main に jericho-html-2.6.1.jar とこの module.xml を追加しました

拡張機能をstandalone.xmlに追加しました

しかし、同じエラーが発生します。