問題タブ [jericho-html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jsoup - HTML ジェリコ、jTidy、または JSoup のスニペットをフォーマットしていますか?
HTML のスニペットをフォーマット/インデントしたい
これに
jTidy と JSoup を試してみましたが、HTML を and/or で調整します。上記の例のように、HTML の一部を単純にフォーマットするものが必要です。
私は jericho を見つけました。それは私が望むことをしているようですが、jTidy/JSoup を使用したいと思います。
jTidy や JSoup でやりたいことはできますか?
html - Java の新しいコードで HTML ヘッダー セクションを更新する方法
ヘッダー セクションを新しいコード行に置き換えたい HTML はほとんどありません。(私の新しいコードは、新しい CSS、新しい JS ファイルのインポート、およびいくつかのスクリプトです)。
既存のすべてのヘッダー セクションを置き換え、新しいものに置き換えたい。この変更は永続的なものでなければなりません。
私はJSまたはJqueryでそれを行う方法を知っていますが、htmlがロードされるたびに実行されるため、実現可能ではありません.
特定のバックエンド コードを 1 回だけ実行し、HTML ファイルを永久に更新するように Java で解決策を取得した場合。
AND に置き換えるには
また、更新された HTML ファイルの Body タグにいくつかの新しい Div タグ構造を追加したいと考えています。
助けてください。:)
java - html の他の言語空間を削除する
StringUtils.strip() を使用して、タグ名と属性の間のスペースを削除したいと考えています。次のJerichoメソッドでは削除できないスペースがあるため:
- CharacterReference.decodeCollapseWhiteSpace(htmlFragment))
- TextExtractor -Tag[] allTags = source.fullSequentialParse();
最初の方法は通常のスペースを削除しますが、他の言語スペースは削除しません。これは私が得ているエラーです。例えば
ジェリコには generateHTML メソッドもありますが、すべての属性値などを提供する必要があります
完全順次解析では、他の言語空間を認識しません。
タグ名と属性の間の他の言語スペースのみを削除するにはどうすればよいですか? (属性値の間の他の言語スペースはOKです)それが私ができない理由ですstring.replaceALL()
java - Windows-1251 テキストを読みやすいものに変換するにはどうすればよいですか?
Jericho HTML パーサーによって返され、ロシア語のテキストを含む文字列があります。それぞれの HTML ファイルのヘッダーによるsource.getEncoding()
と、エンコーディングは Windows-1251 です。
この文字列を読み取り可能なものに変換するにはどうすればよいですか?
私はこれを試しました:
変数bytes
には、デバッガーに表示されるデータが含まれています。これはnet.htmlparser.jericho.Element.getContent().toString().getBytes()
. ここにその配列をコピーして貼り付けただけです。
これは機能しません -readableString
ゴミが含まれています。
Windows-1251 文字列が正しくデコードされていることを確認するにはどうすればよいですか?
更新 1 (2015 年 7 月 30 日 12:45 MSK):の呼び出しでエンコーディングを変更しconvertString
てWindows-1251
も、何も変わりません。以下のスクリーンショットを参照してください。
更新 2:別の試み:
更新 3 (2015 年 7 月 30 日 14:38):デコードする必要があるテキストは、以下に示すドロップダウン リストのテキストに対応しています。
更新 4 (30.07.2015 14:41):エンコーディング検出器 (コードは以下を参照) は、エンコーディングがWindows-1251
ではなくUTF-8
.
html - サーバー側の非 HTML タグを解析する
このようなタグを使用して、Play フレームワーク テンプレート ファイルを解析したいと思います。
この種の構文でタグを作成するにはどうすればよいですか?
から始める
(ハッシュタグ){フォーム --> タグの名前
@UneReponses.modifier(unereponse.id) --> 名前
method:'PUT' および id:'creationForm' --> 属性
} タグの終わり;
解決策はありますか?
ありがとう
java - 任意の HTML から JavaScript を解析する方法
HTMLのサニタイズにジェリコを使用していますが、うまく機能します。1つの状況を除いて、私には理解できません。スクリプトとスクリプトの内容を完全に削除したい。現在、スクリプト タグを削除していますが、実際のスクリプト コンテンツは保持されています。
そのため、現在、Source オブジェクトを作成し、fullSequentialParse を実行しています。次に、OutputDocument を作成し、各タグをループします。
「スクリプト」タグに到達したら、全体を「」に置き換えたいだけです。
何か案は?
ティア
jericho-html-parser - Jericho SourceFormatter からエラー文字列を取得する
HTMLのインデントを行うために、jerichoのSourceFormatterを使用しています。現在、HTML フォーマッターに問題がある場合は、それをサーバー コンソールに送信します。
エラーをキャッチしてログ システムに出力するにはどうすればよいですか (実際には文字列/オブジェクトとして取得したいのですが)。
これが私が使用するコードの例です
LoggerProvider - hericho のログイン システムを表す
java - JBoss 4.2 からの移行時に JBoss wildfly 10 NoClassDefFoundError が発生する
JBoss 4.2 で実行されている spring mvc アプリケーションがあります。この Web アプリを JBoss wildfly 10 (wildfly-10.0.0.Final バージョン) に移行しようとしています。
アプリをデプロイしようとすると、次のエラーが表示されます。
Web を探していると、jar "jericho-html-2.6.1.jar" をロードする必要があることを読みました。そのために、 ${wildfly_home}/modules/system/layers/base/au/id/jericho/lib/html/main に jericho-html-2.6.1.jar とこの module.xml を追加しました
拡張機能をstandalone.xmlに追加しました
しかし、同じエラーが発生します。