問題タブ [html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - Titanium Mobile の HTML パーサー
HTMLコードを解析し(不要なタグを削除してコードをクリーンアップ)、コンテンツだけを吐き出すことができる、Appcelerator Titanium Mobile用の実装が簡単なモジュール(または関数)を探しています。
モバイル開発で webview を使用するオプションがあることは知っていますが、追加のオーバーヘッドが追加され、デバイス リソースが消費され、アプリケーションが遅くなります。したがって、それはオプションではありません。
また、公式の appcelerator フォーラムでこの投稿を見つけました : http://developer.appcelerator.com/question/60731/what-is-the-best-way-to-parse-htmlそれを機能させます。
理想的には、私が探しているソリューションは、Titanium Mobile (および nodejs) で使用されている commonjs プラクティスに準拠しています。
javascript - javascript RegExp - すべての html タグの合計文字数を取得する
<tag>
開始 ( ) と終了 ( </tag>
) を含む、一致するすべての HTML 文字の数 (長さ) を取得しようとしています。attributes
次の HTML を検討してください。
HTML の文字数は40になります
(カウントされるため<div><a href="#"></a><span></span></div>
) 。
これは作業中の regExp です (gskinner.com で)
しかし、JavaScriptで使用するとエラーが発生しますjsfiddle
を参照してください
java - htmlparser のような Java パッケージをどこに配置しますか?
HTMLParser のような Java パッケージを使い始めました。ダウンロードしたところ、多くのファイルとディレクトリが含まれていることがわかりました。
Linux システムのどこに配置すればよいのでしょうか。規約や標準はありますか?
java - HTMLparser の HasAttributeFilter パラメータでワイルドカード (または正規表現) を使用する
org.htmlparser を使用しています。クラスマスクでノードリストを受け取るにはどうすればよいですか? 例:
クラスとして「通常」を持つすべてのタグを受け取りたいです。不運にも
new HasAttributeFilter("クラス", "ノーマル")
動作しない。HTMLparser は次のようなものを許可されていnew HasAttributeFilter("class", "\*normal*")
ますか?
html - HTML 部分文字列を使用して CsQuery セレクターを高速化する
複雑で重い HTML ページを解析したいと考えています。私は最近 CsQuery について読み、 CsQuery Vs Html Agility Pack と Fizzlerのパフォーマンス比較を確認しました。これらのテストによると、CsQuery は DOM の作成時にインデックスの作成のために遅くなります。
重い html ページの特定の要素 (ID なし) を選択したいとしましょう。その先祖の ID を知っていて、それをコンテキスト要素として使用します。この重い html を DOM にロードすると、処理が遅くなるため、選択が遅くなります。ただし、HTMLをSOMEHOW FAST前処理し、コンテキスト要素(私が知っているID)を含むサブストリングを取得してDOMにロードできる場合は、より高速になります。その場合、インデクサーが作成されない不要な HTML を大量に削除したことになります。したがって、私の選択はより速くなります。
JQueryのようなものが欲しいので、CsQueryを使用しています。
私の質問は:
HTMLドキュメント文字列が与えられた場合:IDを指定してHTML要素のHTML部分文字列を取得する高速な方法(例:線形)はありますか?
java - JavaのIMGタグのsrc属性を置き換える
IMG タグのテキストと src 属性の両方を更新する必要がある HTML ドキュメントがあります。私はJavaで働いています。HTML の次の文字列を置き換えたい: DataName、DataText、および DataIcon。
文字列 DataName と DataText を置き換えることに成功しましたが、データベースに String として保存されている imageURL で DataIcon を置き換えることに成功していません。デバッグを確認すると、DataIcon 文字列の検索に失敗しただけです。私は HTMLparser を使用しており、問題を適用するために次のクラスを作成しました。
このような方法でクラスがアプリケーションコードに適用されました
誰でも私を助けることができますか?全体の問題は、IMG タグで DataIcon 文字列を検索できないことです。ご協力いただきありがとうございます。
python - Beautifulsoup を使用して HTML ページを解析すると情報が失われる
Web サイトから情報を取得する Web スパイダーを作成しています。このページhttp://www.tripadvisor.com/Hotels-g294265-oa120-Singapore-Hotels.html#ACCOM_OVERVIEWを解析する と、一部の情報が失われていることがわかり、soup.prettify() を使用して html ドキュメントを印刷します。 HTML ドキュメントは、urllib2.openurl() を使用して取得したドキュメントと同じではありません。何かが失われています。コードは次のとおりです。
HtmlParser を使用して同じことをしようとすると、次のエラーが出力されます。
php - html dom パーサーを使用して href リンクとラベルを削除する
まず、Web ページの html を取得してから、通常はページの左側または右側 (ページ本体ではなく) に表示される href リンクを削除しています。href リンクは削除されていますが、ラベルは削除されていません。
例:
リンクは削除されていますが、「ロンドン」などのラベルは削除されていません。HTMLソースの行全体を削除するにはどうすればよいですか? 私はそれに次のコードを使用しています: