問題タブ [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - BeautifulSoup - HTML フリーのコンテンツを簡単に入手する方法
このコードを使用して、ページ内のすべての興味深いリンクを見つけています。
そして、それはその仕事をかなりうまくやっています。残念ながら、そのタグ内には、 font、bなどのネストされたタグがたくさんあります...他のhtmlタグなしで、テキストコンテンツだけを取得したいと思います。
リンクの例:
もちろん、それは醜いです (そして、マークアップは常に同じであるとは限りません!) そして、私は取得したいと思います:
ドキュメントではtext=True
findAll メソッドで使用するように書かれていますが、私の正規表現は無視されます。なんで?どうすれば解決できますか?
html-parsing - JavaScript を含むレンダリングされた Web ページを解析する方法
レンダリングされた Web ページからデータを抽出するにはどうすればよいでしょうか? どの Java スクリプトで、時間とともにデータを更新しますか。Web ページの Java スクリプトから変数にアクセスできるユーザー スクリプトを作成することはできますか? これを達成するための可能な方法を提案してください。
c# - ログインベースのサイトをクロールする最良の方法は何ですか?
Web サイトからのファイル ダウンロード アクティビティを自動化する必要があります (たとえば、yahoomail.com に似ています)。このファイルのダウンロード リンクがあるページにアクセスするには、ログインし、ページからページへジャンプして日付などのパラメータを指定し、最後にダウンロード リンクをクリックします。
私は3つのアプローチを考えています:
WatIN を使用して、WatiN コードを定期的に実行してページを走査し、ファイルをダウンロードする Windows サービスを開発します。
AutoIT の使用 (よくわからない)
単純な HTML 解析手法を使用する (ログイン後にセッションを維持するにはどうすればよいか、ログイン後にログアウトするにはどうすればよいかなど、いくつかの質問があります)。
c# - C#正規表現-スウェーデン語の文字の文字列を解析する方法åäöÅÄÖ?
この形式の文字列のHTMLファイルを解析しようとしています。
「305157」、「MyUsername」、および「O22」の最初の文字(T、K、またはOのいずれか)の情報を取得したいと思います。
私はこの正規表現を使用しています。<a href="/userinfo/userinfo\.aspx\?ID=\d*" target="helgonmain">\w*</a> \w\d\d
「\w」がある場所にåäöÅÄÖがない限り、問題なく動作します。
私は何をすべきか?
html-parsing - Web ページの解析
HTML ページ、具体的にはフォーラムの解析について質問があります。特定の投稿基準を含むフォーラムまたはスレッドを解析したいのですが、以前は構造テキスト形式しか解析していないため、まだアルゴリズムを定義していません。ユースケースはコピー アンド ペーストである可能性があります。各スレッドを手動でプログラムに挿入するか、http://www.forums.com/forum/showthread.php?t=46875&page=3 のような URL を挿入して 、プログラムにページを解析させます。
このすべてを考えると、私は知りたいです:
- HTML ページのフォーラム スレッドを解析することは可能ですか?
- これを行うための最良/最速/最も簡単な言語は何ですか?
- Java を好む場合、これにはどのようなツール/ライブラリが必要ですか?
- 他に考慮すべきことはありますか?
c# - 構文解析とは何ですか?
構文解析は私が開発でよく遭遇するものですが、ジュニアとして、それは必要なときにいつかコツをつかむと私が思うものの1つです。私の現在のプロジェクトでは、特定の関数にHTMLパーサーを見つけて使用するように言われましたが、Web上でいくつか見つけました。
しかし、HTMLパーサーは実際に何をしますか?そして、オブジェクトを解析することはどういう意味ですか?
css - Webサイトで使用されているすべてのCSSスタイルを検索する
3,500行を超える単一のCSSファイルを持つDotNetNukeスキンがあります。YUI、Telerik、Cluetipのスタイルと、サイトの実際のカスタマイズが含まれています。古い開発者はスタイルを追加し続け、古い未使用のスタイルをクリーンアップすることはありませんでした。
ファイルをクリーンアップして、より管理しやすいサイズにしたい。私は最初にコードベースをスキャンすることを考えましたが、これは.aspx、.ascx、.csファイルに適用されたCSSの混合物と、生成されたコードから、場合によってはjsファイルからのjQuery適用スタイルを含む5,500ファイルです。一部のスタイルはクラスセレクターで適用され、他のスタイルはIDセレクターで適用されます。
Webサイトがすべてのページで実際に必要とするスタイルを簡単に確認できる方法はありますか?これを実行できるクローラーはありますか?
java - XPath式についてサポートが必要です。1つは機能し、もう1つは機能しません
COBRA HTMLParserを使用していますが、特定の1つのタグを解析できませんでした。ソースは次のとおりです。
次のXPathを使用して、適切な情報を取得できます。
最後の式は、私が試したどの組み合わせでも機能しません。私も次のことを試しましたが、役に立ちません、
助言がありますか?
編集:XMLが違法であるという提案がいくつかありますが(正直なところ、これまでほとんどどこでも見たので、なぜ違法なのかはわかりません)、XMLを制御することはできません。 (少なくとも月曜日まで、他の仲間が戻ってくるまで)。この情報を含むマッシュアップを作成する可能性を確認しようとしています。チェックなどを無効にする方法はありますか?
解析されたXMLは次のとおりです。
ドキュメントが正しく解析されていないと思います。
c# - html をクリーンアップする C# ライブラリ
HTMLドキュメントの閉じられていないタグをクリーンアップして削除するライブラリが.Netにあるかどうか疑問に思っていましたか?
python - カンマ区切りのリストをリンク付きで分割し、beautifulsoupを使用します
HTMLドキュメントのテーブルセルにコンマ区切りのリストがありますが、リスト内のいくつかの項目がリンクされています。
私は美しいスープを使用してhtmlを解析してきましたが、テーブルにアクセスできますが、それを分割してデータ構造を返すための最良の方法は次のようになります。