“html-parsing”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

5334 参照

python - BeautifulSoup - HTML フリーのコンテンツを簡単に入手する方法

このコードを使用して、ページ内のすべての興味深いリンクを見つけています。

そして、それはその仕事をかなりうまくやっています。残念ながら、そのタグ内には、 font、bなどのネストされたタグがたくさんあります...他のhtmlタグなしで、テキストコンテンツだけを取得したいと思います。

リンクの例:

もちろん、それは醜いです (そして、マークアップは常に同じであるとは限りません!) そして、私は取得したいと思います:

ドキュメントではtext=TruefindAll メソッドで使用するように書かれていますが、私の正規表現は無視されます。なんで？どうすれば解決できますか？

2009-11-17T23:38:20.223

0 投票する

2 に答える

1400 参照

html-parsing - JavaScript を含むレンダリングされた Web ページを解析する方法

レンダリングされた Web ページからデータを抽出するにはどうすればよいでしょうか? どの Java スクリプトで、時間とともにデータを更新しますか。Web ページの Java スクリプトから変数にアクセスできるユーザースクリプトを作成することはできますか? これを達成するための可能な方法を提案してください。

html-parsing userscripts information-extraction

2009-11-19T18:38:03.993

0 投票する

4 に答える

1907 参照

c# - ログインベースのサイトをクロールする最良の方法は何ですか?

Web サイトからのファイルダウンロードアクティビティを自動化する必要があります (たとえば、yahoomail.com に似ています)。このファイルのダウンロードリンクがあるページにアクセスするには、ログインし、ページからページへジャンプして日付などのパラメータを指定し、最後にダウンロードリンクをクリックします。

私は3つのアプローチを考えています：

WatIN を使用して、WatiN コードを定期的に実行してページを走査し、ファイルをダウンロードする Windows サービスを開発します。
AutoIT の使用 (よくわからない)
単純な HTML 解析手法を使用する (ログイン後にセッションを維持するにはどうすればよいか、ログイン後にログアウトするにはどうすればよいかなど、いくつかの質問があります)。

c#python watin web-crawler html-parsing

2009-11-20T04:38:13.550

0 投票する

3 に答える

3036 参照

c# - C＃正規表現-スウェーデン語の文字の文字列を解析する方法åäöÅÄÖ？

この形式の文字列のHTMLファイルを解析しようとしています。

「305157」、「MyUsername」、および「O22」の最初の文字（T、K、またはOのいずれか）の情報を取得したいと思います。

私はこの正規表現を使用しています。<a href="/userinfo/userinfo\.aspx\?ID=\d*" target="helgonmain">\w*</a> \w\d\d「\w」がある場所にåäöÅÄÖがない限り、問題なく動作します。

私は何をすべきか？

c#regex html-parsing

2009-11-23T21:35:37.847

0 投票する

3 に答える

5665 参照

html-parsing - Web ページの解析

HTML ページ、具体的にはフォーラムの解析について質問があります。特定の投稿基準を含むフォーラムまたはスレッドを解析したいのですが、以前は構造テキスト形式しか解析していないため、まだアルゴリズムを定義していません。ユースケースはコピーアンドペーストである可能性があります。各スレッドを手動でプログラムに挿入するか、http://www.forums.com/forum/showthread.php?t=46875&page=3 のような URL を挿入して、プログラムにページを解析させます。

このすべてを考えると、私は知りたいです：

HTML ページのフォーラムスレッドを解析することは可能ですか?
これを行うための最良/最速/最も簡単な言語は何ですか?
Java を好む場合、これにはどのようなツール/ライブラリが必要ですか?
他に考慮すべきことはありますか？

html-parsing

user207322

2009-11-23T23:05:28.877

0 投票する

8 に答える

90244 参照

c# - 構文解析とは何ですか？

構文解析は私が開発でよく遭遇するものですが、ジュニアとして、それは必要なときにいつかコツをつかむと私が思うものの1つです。私の現在のプロジェクトでは、特定の関数にHTMLパーサーを見つけて使用するように言われましたが、Web上でいくつか見つけました。

しかし、HTMLパーサーは実際に何をしますか？そして、オブジェクトを解析することはどういう意味ですか？

c#parsing html-parsing

2009-11-24T09:02:28.347

0 投票する

2 に答える

8168 参照

css - Webサイトで使用されているすべてのCSSスタイルを検索する

3,500行を超える単一のCSSファイルを持つDotNetNukeスキンがあります。YUI、Telerik、Cluetipのスタイルと、サイトの実際のカスタマイズが含まれています。古い開発者はスタイルを追加し続け、古い未使用のスタイルをクリーンアップすることはありませんでした。

ファイルをクリーンアップして、より管理しやすいサイズにしたい。私は最初にコードベースをスキャンすることを考えましたが、これは.aspx、.ascx、.csファイルに適用されたCSSの混合物と、生成されたコードから、場合によってはjsファイルからのjQuery適用スタイルを含む5,500ファイルです。一部のスタイルはクラスセレクターで適用され、他のスタイルはIDセレクターで適用されます。

Webサイトがすべてのページで実際に必要とするスタイルを簡単に確認できる方法はありますか？これを実行できるクローラーはありますか？

css dotnetnuke html-parsing

2009-11-25T09:33:31.843

0 投票する

4 に答える

1781 参照

java - XPath式についてサポートが必要です。1つは機能し、もう1つは機能しません

COBRA HTMLParserを使用していますが、特定の1つのタグを解析できませんでした。ソースは次のとおりです。

次のXPathを使用して、適切な情報を取得できます。

最後の式は、私が試したどの組み合わせでも機能しません。私も次のことを試しましたが、役に立ちません、

助言がありますか？

編集：XMLが違法であるという提案がいくつかありますが（正直なところ、これまでほとんどどこでも見たので、なぜ違法なのかはわかりません）、XMLを制御することはできません。（少なくとも月曜日まで、他の仲間が戻ってくるまで）。この情報を含むマッシュアップを作成する可能性を確認しようとしています。チェックなどを無効にする方法はありますか？

解析されたXMLは次のとおりです。

ドキュメントが正しく解析されていないと思います。

java html xpath html-parsing cobra

2009-11-26T22:26:06.873

0 投票する

2 に答える

5144 参照

c# - html をクリーンアップする C# ライブラリ

HTMLドキュメントの閉じられていないタグをクリーンアップして削除するライブラリが.Netにあるかどうか疑問に思っていましたか?

c#html-parsing

2009-12-02T02:27:56.600

0 投票する

1 に答える

2357 参照

python - カンマ区切りのリストをリンク付きで分割し、beautifulsoupを使用します

HTMLドキュメントのテーブルセルにコンマ区切りのリストがありますが、リスト内のいくつかの項目がリンクされています。

私は美しいスープを使用してhtmlを解析してきましたが、テーブルにアクセスできますが、それを分割してデータ構造を返すための最良の方法は次のようになります。

python beautifulsoup html-parsing

2009-12-02T18:12:02.507

問題タブ [html-parsing]

Reference