問題タブ [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1080 参照

android - Html.fromHtml の代替案は?

それぞれに SpannableString を含む TextView 要素を持つリストビューを作成しようとしています。これらの TextViews のコンテンツは、Html マークアップの ArrayList からフェッチされ、Html.fromHtml を使用して SpannableStrings に変換されます。現在、Html.fromHtml には多くのパフォーマンス上の問題があります。だから私はHtml.fromHtmlの独自のバージョンを作成しようとしました

}

これは単純な sax ベースのパーサーです。CommonsWare による以前の回答に触発されてこれを行いましたHtml.fromHtml() よりも html 文字を文字列にデコードするより高速な方法はありますか? . 最小限の機能 (太字、斜体、下線、改行) しかありませんが、それでもパフォーマンスはそれほど向上していません。テキストビューをビットマップに合成してメモリにキャッシュし、リストビューのリサイクル時に再度レンダリングする必要がないなど、いくつかのアイデアがあります。誰でもアイデアを提案できますか? ..(NDKベースのソリューションは避けてください。コンパイルに成功したことがなく、不要な複雑さが追加されているためです)

0 投票する
1 に答える
152 参照

perl - 特定のタグ間のコンテンツを検索して置換する

classnameこれは両方の場所で置き換えられます。のコンテンツのみに置換を制限するにはどうすればよい<body>ですか? HTML::Parserorを使用して実行したいと思いHTML::TreeBuilderます。

0 投票する
2 に答える
474 参照

textarea - Simple HTML Dom で Textarea 値を取得する

私はsimple_html_dom.phpを使用しています

Web サイトで不適切なタグが使用されている場合に textarea 値を取得する方法。

</textarea>textarea タグは、 input タグのように既に閉じられています。

以下のようなテキストエリア HTML:

この関数を使用すると、何も得られません

simple_html_dom.php または他の代替手段を使用して「これは値です」を取得する方法は?

ありがとうございました

0 投票する
1 に答える
7064 参照

python - Python 3.4 の HTML パーサー

HTMLParser を使用する Python (2.7) で記述されたコードがあります。現在Python 3.4を使用しています。

HTMLParser ダウンロード モジュールが見つかりません。

存在する場合、誰でもリンクを共有できますか? そうでない場合は、どうすればよいですか?

0 投票する
1 に答える
65 参照

python - サブクラスの _init_ メソッドは無視されました - 実行は直接スーパークラスの _init_ にジャンプします

私は HTMLParser を使用して基本的な整形式の HTML を解析していますが、さまざまな理由で BeautifulSoup を使用したくありません。HTMLParser をサブクラス化したところ、実際のパーサーは正常に動作しました。ただし、サブクラスの init_ メソッドは呼び出されていません。代わりに、新しいサブクラス オブジェクトを作成すると、HTMLParser の init メソッドが直接呼び出され、サブクラスの init はまったく呼び出されません。これは、HTMLParser.HTMLParser と urllib.HTMLParser から継承したときに発生します。コードは次のとおりです。

0 投票する
3 に答える
2861 参照

python - python urllib unquote 破損

urllib が有効な % エンコードされた文字列のみを引用解除できるようにする方法は?

結果は

urllib は '%20' を ' ' に引用解除しますが、'%ed' を '�' に引用解除するのも間違っています

HTMLParser は「&」をエスケープできます '&' に変換できますが、'%20' を ' ' に変換できません

- - - - - - - 編集 - - -

私の質問をうまく説明できなかったことをお詫びします。実際、処理する文字列がたくさんあります。URL もそうでないものもあります。元の文字列は ですが、両方の状況を含むようにTime-@#*%ed文字列を にしました。Time-@#*%ed%20&amp;1 行のコードで両方の状況を処理するのは難しいことがわかりました。答えを読んだ後、私は自分の関数を書きます