問題タブ [htmltidy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
htmltidy - HtmlTidy がウムラウトを変換しないようにする方法 (例: ü から ü)
私たちの Web サイトは、HtmlTidy を介してユーザーの入力を実行し、クリーンアップします。どうやらこれを行っている間、ウムラウトを変換することで、海外の加入者に苦痛を与えているようです. これを行わないように HtmlTidy に指定するオプションはありますか?
可能なすべてのオプションで CharacterEncoding を試しましたが、何も機能していないようです。
c# - 終了タグを挿入するためのhtmltidyコーディングをどのように記述できますか?
終了タグが欠落しているhtmlファイルに終了タグを挿入するためだけにhtml整頓されたコーディングを書くにはどうすればよいですか?
HtmlAgilitiyPackを使用してhtmlの表形式の情報を解析しています。ただし、終了タグが欠落している場合、htmlアジリティパックを使用した情報の抽出は適切に実行されません。また、終了タグを手動で記述して、html agility packを使用して情報を完全に抽出できる場合は、欠落している場所に終了タグを挿入して、htmlagilitypackが情報を完全に抽出できるようにします。
c# - 最高の HTML tidy pack はどれですか? HTML アジリティ パックに、HTML Web ページを整理するためのオプションはありますか?
HTML表形式の情報を解析するためにhtmlアジリティパックを使用しています。現在、終了タグが欠落しているいくつかの html コンテンツがあり、終了タグが欠落しているため、そのようなページから html アジリティ パックは情報を適切に解析しません。不足している終了タグを挿入するにはどうすればよいですか?それには独自のコードを作成するか、 html tidy packを使用する必要がありますか?
html tidy pack の場合、どのhtml tidy packが最適で、可能であればどのように使用しますか? そして、それがどのようなものであるかよりも自分のコードなら?
最初にhtmlページを整頓してからWebページを解析できるようにするhtmlアジリティパックのオプションはありますか?
html - HTML Tidy でタグを閉じる前に改行を入れないようにするにはどうすればよいですか?
HTML Tidy には、終了タグの前に改行を入れるという腹立たしい癖があります。例えば:
になる
終了タグをコンテンツの最後と同じ行に保持するように Tidy に指示するにはどうすればよいですか?
ところで、違いがあれば、メモ帳++でTidyを実行しています。
jslint - CSSTidy、HTMLTidy、JSlint pre-commit hooks(Hg) - 自動化ツール
html
、をリポジトリにコミットする前にcss
テスト/検証する方法を探しています。js
このプロセスを自動化する方法はありますか。理想的には、特定のファイル (js ライブラリなど) を除外する機能が必要です。
java - HTMLを浄化するためのJTidyの適切な使用
JTidy (jtidy-r938.jar) を使用して入力 HTML 文字列をサニタイズしようとしていますが、デフォルト設定を正しく取得するのに問題があるようです。多くの場合、「hello world」などの文字列は、整理すると「helloworld」になります。私はここで何をしているのかを示したかったのですが、どんな指針も本当に感謝しています:
rawHtml
が入力 (実世界) HTML を含む文字列であると仮定します。これは私がやっていることです:
まず、上記のコードで何か根本的に間違っているように見えますか? 私はこれで奇妙な結果を得ているようです。
たとえば、次の入力について考えてみます。
<p class="MsoNormal" style="text-autospace:none;"><font color="black"><span style="color:black;">???</span></font><b><font color="#7f0055"><span style="color:#7f0055;font-weight:bold;">private</span></font></b><font color="black"><span style="color:black;"> String parseDescription</span></font><font>
出力は次のとおりです。
<p class="MsoNormal" style="text-autospace:none;"><font color=
"black"><span style="color:black;"> </span></font>
<b><font color="#7F0055"><span style=
"color:#7f0055;font-weight:bold;">private</span></font></b><font
color="black"><span style="color:black;">String
parseDescription</span></font></p>
そう、
「public String parseDescription」は「publicString parseDescription」になります
前もって感謝します!
xhtml - XHTML1.1がXHTML1.0より*前*に日付が付けられているのはなぜですか?今日推奨されるXHTMLは何ですか?
XHTMLのステータス(v1.0とv1.1)がわかりません。誰かがこの時点でどちらが好ましいか、そしてその理由を説明できますか?
W3Cの仕様によると、XHTML1.1はXHTML1.0よりも*前**です。これは非常に直感的ではありません。
http://www.w3.org/TR/xhtml11/-W3C勧告2001年5月31日
http://www.w3.org/TR/xhtml1/-W3C Recommentation、2002年8月1日更新
また、今日、私がXHTMLを要求すると、 htmltidyの最新バージョンがXHTML1.0を発行することを指摘しました。うーん....XHTML1.1仕様は9年前のものですが、それでも主流のツールではサポートされていません。これは、XHTML1.1が完全に不要または偽物であることを示唆しています。
今日ページを作成する場合、どちらを使用すればよいですか?ツールを構築している場合はどうなりますか?両方をサポートする必要がありますか?それとも1つだけ必要ですか?
ありがとう。
.net - HTML Tidyのような機能を備えたマネージド(.NET)ライブラリ?
HTMLを解析して(たとえば)XHTMLなどのよりマシンフレンドリーな形式に変換できる.NET用のHTMLクリーナーはありますか?
HTML Agility Packを試しましたが、かなり 単純な例でも正しく解析できません。
正しく解析する必要があるHTMLの例を示すには:
li
タグを閉じる必要はなく(仕様を参照)、タグも閉じる必要はありませP
ん。つまり、上記のサンプルは次のように解析する必要があります。
目的はさまざまなマシンでライブラリを使用することであるため、ネイティブコード( HTML Tidyのラッパーなど)にフォールバックする必要があることは大きな欠点です。これには、追加の展開の手間が必要であり、プラットフォームの独立性が犠牲になります。サンドボックス化されたシナリオ。
助言がありますか?要約すると、私は探しています:
- HTMLクリーナーalaHTMLTidy
- 少なくとも有効なHTML4を正しく読み取るために、XHTMLだけでなく、実際のHTMLを処理できる必要があります。
- より簡単に処理できるXML形式に変換できる必要があります
- 純粋に管理されたアプリケーションである必要があります。
c# - HTML文字列をN個の部分に分割します
(小さなmceエディターからの)html文字列を分割し、C#を使用してN個の部分に分割する例はありますか?
単語を分割せずに文字列を均等に分割する必要があります。
HTMLを分割し、HtmlAgilityPackを使用して壊れたタグを修正することを考えていました。分割点を見つける方法はわかりませんが、理想的には、htmlではなくテキストに基づいたものにする必要があります。
誰かがこれについてどうやって行くかについて何かアイデアを持っていますか?
アップデート
要求に応じて、ここに入力と目的の出力の例を示します。
入力:
出力(3列に分割した場合):
更新2:
Tidy HTMLを試してみたところ、壊れたタグを修正するのにうまくいくようです。分割されたパイントを見つける方法を見つけることができれば、これは良いオプションかもしれません。
更新3
.NET C#の単語全体でこの文字列を切り捨てるのと同様の方法を使用して、各部分を構成するプレーンテキストの単語のリストを取得することができました。つまり、Tidy HTMLを使用すると、htmlの有効なXML構造があり、この単語のリストが与えられた場合、それを分割するための最良の方法が何であるかについて誰かが考えました。
更新4
正規表現を使用してHTMLのインデックスを次のように検索する際の問題を誰かが確認できますか?
プレーンテキストの文字列"sitamet、consectetur"が与えられた場合、すべてのスペースを正規表現 "(\ s | <(。| \ n)+?>)*"に置き換え、理論的にはスペースやスペースの任意の組み合わせでその文字列を見つけます。タグ
次に、Tidy HTMLを使用して壊れたhtmlタグを修正できますか?
どうもありがとう
マット
c# - HTML Tidy - 終了タグを削除する代わりに、開始タグを追加しますか?
次の方法で HTML Tidy を構成することは可能ですか。
与えられたhtml:
生成させるには
終了タグを取り除く代わりに?
どうもありがとう
マット