問題タブ [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
1674 参照

javascript - Titanium Mobile の HTML パーサー

HTMLコードを解析し(不要なタグを削除してコードをクリーンアップ)、コンテンツだけを吐き出すことができる、Appcelerator Titanium Mobile用の実装が簡単なモジュール(または関数)を探しています。

モバイル開発で webview を使用するオプションがあることは知っていますが、追加のオーバーヘッドが追加され、デバイス リソースが消費され、アプリケーションが遅くなります。したがって、それはオプションではありません。

また、公式の appcelerator フォーラムでこの投稿を見つけました : http://developer.appcelerator.com/question/60731/what-is-the-best-way-to-parse-htmlそれを機能させます。

理想的には、私が探しているソリューションは、Titanium Mobile (および nodejs) で使用されている commonjs プラクティスに準拠しています。

0 投票する
2 に答える
925 参照

javascript - javascript RegExp - すべての html タグの合計文字数を取得する

<tag>開始 ( ) と終了 ( </tag>) を含む、一致するすべての HTML 文字の数 (長さ) を取得しようとしています。attributes

次の HTML を検討してください。

HTML の文字数は40になります (カウントされるため<div><a href="#"></a><span></span></div>) 。

これは作業中の regExp です (gskinner.com で)

しかし、JavaScriptで使用するとエラーが発生しますjsfiddle
を参照してください

0 投票する
2 に答える
108 参照

java - htmlparser のような Java パッケージをどこに配置しますか?

HTMLParser のような Java パッケージを使い始めました。ダウンロードしたところ、多くのファイルとディレクトリが含まれていることがわかりました。

Linux システムのどこに配置すればよいのでしょうか。規約や標準はありますか?

0 投票する
1 に答える
376 参照

java - HTMLparser の HasAttributeFilter パラメータでワイルドカード (または正規表現) を使用する

org.htmlparser を使用しています。クラスマスクでノードリストを受け取るにはどうすればよいですか? 例:

クラスとして「通常」を持つすべてのタグを受け取りたいです。不運にも

new HasAttributeFilter("クラス", "ノーマル")

動作しない。HTMLparser は次のようなものを許可されていnew HasAttributeFilter("class", "\*normal*")ますか?

0 投票する
1 に答える
1023 参照

html - HTML 部分文字列を使用して CsQuery セレクターを高速化する

複雑で重い HTML ページを解析したいと考えています。私は最近 CsQuery について読み、 CsQuery Vs Html Agility Pack と Fizzlerのパフォーマンス比較を確認しました。これらのテストによると、CsQuery は DOM の作成時にインデックスの作成のために遅くなります。

重い html ページの特定の要素 (ID なし) を選択したいとしましょう。その先祖の ID を知っていて、それをコンテキスト要素として使用します。この重い html を DOM にロードすると、処理が遅くなるため、選択が遅くなります。ただし、HTMLをSOMEHOW FAST前処理し、コンテキスト要素(私が知っているID)を含むサブストリングを取得してDOMにロードできる場合は、より高速になります。その場合、インデクサーが作成されない不要な HTML を大量に削除したことになります。したがって、私の選択はより速くなります。

JQueryのようなものが欲しいので、CsQueryを使用しています。

私の質問は:

HTMLドキュメント文字列が与えられた場合:IDを指定してHTML要素のHTML部分文字列を取得する高速な方法(例:線形)はありますか?

0 投票する
1 に答える
2420 参照

java - JavaのIMGタグのsrc属性を置き換える

IMG タグのテキストと src 属性の両方を更新する必要がある HTML ドキュメントがあります。私はJavaで働いています。HTML の次の文字列を置き換えたい: DataName、DataText、および DataIcon。

文字列 DataName と DataText を置き換えることに成功しましたが、データベースに String として保存されている imageURL で DataIcon を置き換えることに成功していません。デバッグを確認すると、DataIcon 文字列の検索に失敗しただけです。私は HTMLparser を使用しており、問題を適用するために次のクラスを作成しました。

このような方法でクラスがアプリケーションコードに適用されました

誰でも私を助けることができますか?全体の問題は、IMG タグで DataIcon 文字列を検索できないことです。ご協力いただきありがとうございます。

0 投票する
1 に答える
148 参照

python - Beautifulsoup を使用して HTML ページを解析すると情報が失われる

Web サイトから情報を取得する Web スパイダーを作成しています。このページhttp://www.tripadvisor.com/Hotels-g294265-oa120-Singapore-Hotels.html#ACCOM_OVERVIEWを解析する と、一部の情報が失われていることがわかり、soup.prettify() を使用して html ドキュメントを印刷します。 HTML ドキュメントは、urllib2.openurl() を使用して取得したドキュメントと同じではありません。何かが失われています。コードは次のとおりです。

HtmlParser を使用して同じことをしようとすると、次のエラーが出力されます。

0 投票する
2 に答える
566 参照

php - html dom パーサーを使用して href リンクとラベルを削除する

まず、Web ページの html を取得してから、通常はページの左側または右側 (ページ本体ではなく) に表示される href リンクを削除しています。href リンクは削除されていますが、ラベルは削除されていません。

例:

リンクは削除されていますが、「ロンドン」などのラベルは削除されていません。HTMLソースの行全体を削除するにはどうすればよいですか? 私はそれに次のコードを使用しています: