問題タブ [htmlcleaner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - Androidhtml解析アプリケーションhtmlcleaner
こんにちは、ここでの最初の投稿です。これは、Googleがhtmlcleanerで知っているすべての例を調べたためです。プロジェクトを実行できません;(Androidアプリでフラッシュリッチウェブページからデータを取得して表示しようとしています。アイデアは、ユーザーが時間、お金の処理能力、スマートフォンでそれらのページを閲覧しようとする神経を無駄にしないように、最も重要なデータのみを取得することです...その国固有のWebページ...したがって国固有のアプリ。解析したいこの部分があります
上記はListItemですが、他にも同様のWebページがあります。ライブラリからのデータで埋める準備ができているJavaクラスがあります。1つのli要素に対して1つのclsssオブジェクト。説明、価格、素材、画像リンク、superClassからのもの、つまりaaa、bbb、ccc、dddなどを抽出する必要があります...大きな問題はそれをどのように行うかです。li要素で構成される配列を作成することから始めれば、必要なサブ要素をさらに検索できると思いました...しかし、機能しません;(
最初のli要素のみを指定し、コンソールでnullPointerExceptionsをスパムします。助けてください、Im hopeless;(;(;(
java - htmlファイルからリンクを取得
htmlcleaner を使用して HTML ファイルを解析します。これは html ファイルの例です。
Name
コードでこの構造を使用して単語を取得します
;
しかし、私の例でリンクを取得する方法がわかりません。http://exxample.comへのリンクを取得したいのですが、どうすればよいかわかりません。
私を助けてください。チュートリアルを読んで機能を使用しましたが、使用できません。
PS 下手な英語でごめんなさい
android - 2 つの子テキスト ノードを持つノードの Android での Xpath 式
サンプル XML (Android プラットフォーム) があり、テキスト ノードのノード値を取得するための最も簡単で効率的な方法を知りたいと思いました。
次のように XPath 2.0 で簡単に取得できます。
しかし、Androidでは...
しかし、不要なテキストなしでAndroidのXPathでこれを選択するにはどうすればよいですか?
javascript - Windows デスクトップ アプリから readablity.js を使用する
readability.js と webbrowser コントロールを使用して、Web ページの簡易バージョンをプログラムで取得する必要があります。
http://arc90labs-readability.googlecode.com/svn/trunk/js/readability.js
ストリップしたいWebページをwebbrowserコントロールにロードしてから、読みやすさのjavascript関数をHEADに挿入し、そこから何らかの方法で呼び出す必要がありますか(WebBrowser1.Document.parentWindow.execScriptを使用)、または簡単な方法がありますか? ?
正しい方向へのバンプを探しているだけです。
ありがとう!
java - HTMLcleaner で要素の値を取得する方法
要素「a」と「span」の値を取得しようとしています。HTMLCleaner の使用。
コードは次のとおりです。
最初に「div」要素を取り、次にその子要素「p」を取ることを理解していますが、「a」要素と「span」要素の値を比較すると、空のエラーが返されます。ありがとう
xpath - ネストされたノードの xPath 式
複雑な xPath 式を作成しようとしていますが、その方法がわかりません。次のような HTML があるとします。
<br>
2 番目以降の「something3」が存在しない場合があると想像してください。<br>
「something1」だけを解析することになるように、すべてのスパン ノードとそのコンテンツを最初に取得する xPath 式を作成したいと思います。これが可能かどうかはわかりませんが、すべての<span>
ノードを解析した後にそれを取得する方法を知っている人はいませんか?
私は、HTML を解析し、xPath 式をサポートする Java ライブラリである HtmlParser を使用していると言わざるを得ません。
ありがとう、
マシアール
whitespace -
JSoupで末尾のタグを削除するにはどうすればよいですか?
WYSIWIG htmlコンポーネントを使用して、顧客がhtmlコンテンツを入力できるようにし、JSoupを使用してサーバー側でクリーンアップします。場合によっては(ブラウザとユーザーによって異なります)、送信されるコンテンツに空のタグ(のような<p>
)または空白のタグ(のような)が含まれることがあります<br />
。すべての目的と目的で入力が空白であるため、これらは煩わしいですが、文字列の長さはゼロ以外です。
コンテンツを含まないすべての末尾のタグを切り落とすことができるJSoup設定があるかどうか誰かが知っていますか?
html - HTMLからテキストを抽出する-HTML::TreeBuilderを使用してPerl
<p>
.htmlファイルにアクセスして、タグ内のテキストを抽出しようとしています。論理的には、以下の私のコードは機能するはずです。HTML::TreeBuilderを使用する。HTMLを解析してから、<p>
find_by_attribute( "p")を使用してテキストを抽出します。しかし、私のスクリプトは空のディレクトリで出てきました。私は何かを省略しましたか?
私の.htmlファイルは.aspWebサイトからのプレーンテキストhtmlです(例:http: //www.singaporemedicine.com/vn/hcp/med_evac_mtas.asp)
私の.htmlファイルは次の場所に保存されます:
java - xPath 式: 存在しない場合でも要素を取得する
htmlCleaner に入れているこの xPath 式があります。
さて、私の問題はそれが変更され、 /a/img 要素が存在しない場合があることです。だから私はすべての要素を取得する式が欲しい
/a/img が存在する場合、および
/a/img が存在しない場合。
誰もこれを行う方法を知っていますか? 私はそれが私を助けるかもしれないと思われる何かを別の質問で見つけました
しかし、私はそれを理解していません。
java - javaでドキュメントからhtmlタグを削除する最速の方法は何ですか?
大量の Web ドキュメントがあり、そこから html タグを削除したいと考えています。正規表現からHtmlCleaner、Jsoupまで、Javaで行う方法に関するStackOverflowに関するいくつかの投稿を見ました。
私はそれを行うための最速の方法を見つけることに興味があります。何百万ものドキュメントがあるため、私の場合はパフォーマンスが重要です。パフォーマンスのために品質を少し交換することさえできます.
事前にご回答いただきありがとうございます。