問題タブ [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
328 参照

python - 不正な開始タグ、python 2.6.9 で例外がスローされるが、2.7.4 HTMLParser ではスローされない

Python で urllib2 を使用して URL コンテンツをフェッチしており、Python のネイティブ html パーサーを使用しています。コードは私の python 2.7.4 で素晴らしくうまく動作しますが、私の友人のマシンには python 2.6.9 があり、彼のマシンで直面している問題は次のとおりです。

Python 2.6.9 では例外としてスローされますが、2.7.4 ではスローされません。
ここでは、2.6.9 を 2.7.4 以降にアップグレードすることはオプションではありません。

0 投票する
1 に答える
1080 参照

android - Html.fromHtml の代替案は?

それぞれに SpannableString を含む TextView 要素を持つリストビューを作成しようとしています。これらの TextViews のコンテンツは、Html マークアップの ArrayList からフェッチされ、Html.fromHtml を使用して SpannableStrings に変換されます。現在、Html.fromHtml には多くのパフォーマンス上の問題があります。だから私はHtml.fromHtmlの独自のバージョンを作成しようとしました

}

これは単純な sax ベースのパーサーです。CommonsWare による以前の回答に触発されてこれを行いましたHtml.fromHtml() よりも html 文字を文字列にデコードするより高速な方法はありますか? . 最小限の機能 (太字、斜体、下線、改行) しかありませんが、それでもパフォーマンスはそれほど向上していません。テキストビューをビットマップに合成してメモリにキャッシュし、リストビューのリサイクル時に再度レンダリングする必要がないなど、いくつかのアイデアがあります。誰でもアイデアを提案できますか? ..(NDKベースのソリューションは避けてください。コンパイルに成功したことがなく、不要な複雑さが追加されているためです)

0 投票する
1 に答える
152 参照

perl - 特定のタグ間のコンテンツを検索して置換する

classnameこれは両方の場所で置き換えられます。のコンテンツのみに置換を制限するにはどうすればよい<body>ですか? HTML::Parserorを使用して実行したいと思いHTML::TreeBuilderます。

0 投票する
2 に答える
474 参照

textarea - Simple HTML Dom で Textarea 値を取得する

私はsimple_html_dom.phpを使用しています

Web サイトで不適切なタグが使用されている場合に textarea 値を取得する方法。

</textarea>textarea タグは、 input タグのように既に閉じられています。

以下のようなテキストエリア HTML:

この関数を使用すると、何も得られません

simple_html_dom.php または他の代替手段を使用して「これは値です」を取得する方法は?

ありがとうございました

0 投票する
1 に答える
7064 参照

python - Python 3.4 の HTML パーサー

HTMLParser を使用する Python (2.7) で記述されたコードがあります。現在Python 3.4を使用しています。

HTMLParser ダウンロード モジュールが見つかりません。

存在する場合、誰でもリンクを共有できますか? そうでない場合は、どうすればよいですか?

0 投票する
1 に答える
65 参照

python - サブクラスの _init_ メソッドは無視されました - 実行は直接スーパークラスの _init_ にジャンプします

私は HTMLParser を使用して基本的な整形式の HTML を解析していますが、さまざまな理由で BeautifulSoup を使用したくありません。HTMLParser をサブクラス化したところ、実際のパーサーは正常に動作しました。ただし、サブクラスの init_ メソッドは呼び出されていません。代わりに、新しいサブクラス オブジェクトを作成すると、HTMLParser の init メソッドが直接呼び出され、サブクラスの init はまったく呼び出されません。これは、HTMLParser.HTMLParser と urllib.HTMLParser から継承したときに発生します。コードは次のとおりです。

0 投票する
3 に答える
2861 参照

python - python urllib unquote 破損

urllib が有効な % エンコードされた文字列のみを引用解除できるようにする方法は?

結果は

urllib は '%20' を ' ' に引用解除しますが、'%ed' を '�' に引用解除するのも間違っています

HTMLParser は「&」をエスケープできます '&' に変換できますが、'%20' を ' ' に変換できません

- - - - - - - 編集 - - -

私の質問をうまく説明できなかったことをお詫びします。実際、処理する文字列がたくさんあります。URL もそうでないものもあります。元の文字列は ですが、両方の状況を含むようにTime-@#*%ed文字列を にしました。Time-@#*%ed%20&amp;1 行のコードで両方の状況を処理するのは難しいことがわかりました。答えを読んだ後、私は自分の関数を書きます

0 投票する
1 に答える
2282 参照

python - 'bytes' オブジェクトを暗黙的に str に変換できません HTML パーサー Python3 エラー

Macbook Air(OS X) の Python 3.4.2 で HTML パーサーを作成しようとしています:

平文.py:

しかし、次のエラーが表示されます。

Python のドキュメントを見たところ、Python 3 で HTML データを解析する方法は、Python 2 でそのようなことを行うのとは大きく異なるようです。Python 3 で動作するようにコードを変更する方法がわかりません。ありがとうございます。

0 投票する
2 に答える
1131 参照

php - PHP DOMDocumentのparentNode->replaceChildにより、foreachが次のアイテムをスキップする

$contentすべての iframe を画像に置き換えるために、変数の html を DOMDocument で解析しています。foreach は、ODD iframe のみを置き換えています。foreach 内のすべてのコードを削除したところ、これを引き起こしているコードが次のようになっていることがわかりました: '$iframe->parentNode->replaceChild($link, $iframe);'

foreach が奇数の iframe をすべてスキップするのはなぜですか?

コード:

これは問題のコード行です

0 投票する
3 に答える
575 参照

magento - e コマースの商品ページからメインの商品画像を抽出する

小売業者の Web サイトの製品ページからメイン画像を抽出するオプションを探しています。問題は、製品ページに複数の画像 (関連画像) があることです。1 つのアプローチは、すべての画像リンクを抽出することです。それらのそれぞれをダウンロードして、それらの各イメージのサイズを比較し、メインの製品イメージであるイメージとして、ストレージ バイトの点で最大のサイズを持つイメージを検討してください。

明らかに、それは非常に非効率的なアプローチです。ほとんどの小売業者は、magento や bigcommerce などの特定の e コマース プラットフォームを使用していることを知っています。主要な e コマース プラットフォームはほんの一握りです。e コマース プラットフォームを検出し、それぞれが提供するテンプレートを活用することは可能ですか。主な商品画像を正確に抽出するには?

私はアプローチが決して完璧ではないことを知っていますが、ほぼ80%程度の正確さであるアルゴリズムを探しています.それは実行可能ですか?