“html-content-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

9116 参照

c# - このサンプルで htmlagilitypack を使用して HTML からテキストを抽出する方法は?

HTML ソースからテキストを抽出したい。私はc#とhtmlagilitypack dllを試しています。

ソースは次のとおりです。

テーブルからテキスト Here 1 と Here 2 を取得するにはどうすればよいですか?

c#linq xpath html-agility-pack html-content-extraction

2011-05-03T13:56:07.820

0 投票する

1 に答える

60 参照

ajax - 遅れてウェブページの内容を読む

完全に読み込まれたWebページのコンテンツを読み取る方法はありますか？サイトから価格を読み取り、データベースに保存する必要があります。しかし、サイトの価格はajaxを介して読み込まれます。その結果、値の代わりに「読み込み中」が表示されます。ファイルが完全にロードされたら、コンテンツを抽出する方法はありますか？

返事を待っています...

ajax html-content-extraction

2011-06-02T20:55:27.180

0 投票する

2 に答える

1676 参照

html-content-extraction - 紹介チェックをバイパスするには

データが抽出されないようにするために、サイトによって適用される紹介チェックをバイパスする方法はありますか。このリンクをたどるといいね！

アクセス拒否エラーが発生します。ただし、このリンクをクリックすると、ホームページに移動し、ABAN などの引用符を入力すると、上記のリンクとまったく同じ GET 要求に従います。

誰かが私にいくつかの解決策を提案できますか??

html-content-extraction referrals

2011-06-02T21:17:28.693

0 投票する

1 に答える

675 参照

regex - 幅または高さが指定された値より高い HTML からすべての画像を抽出する - 正規表現

LinkedIn や Facebook などの Classic ASP で小さなリンク共有機能を作ろうとしています。

私がする必要があるのは、リモート URL の HTML を取得し、たとえば幅が 50px を超えるすべての画像を抽出することです。

クロールして HTML を取得できます。また、この正規表現で画像を見つけることもできます。

<img([^<>+]*)>

一致します。<img src="/images/icon.jpg" width="60" height="90" style="display:none"/>

その後、パスを抽出できますが<img src="/track.php" style="display:none" width="1" height="1"/>、実際の画像ではないパスが一致することがあります。

とにかくクラシックASPのせいで怒られそうな気がするけどうちの会社は…。

この問題について多くのトピックがあることは知っていますが、ほとんどの場合、正規表現を使用しないことを推奨していますが、従来の ASP でこれを行う方法を見つけることができませんでした。これにはコンポーネントか何かがありますか？

よろしく

regex asp-classic html-content-extraction

2011-06-13T22:58:56.513

0 投票する

1 に答える

1255 参照

php - php、間取り機能改善 - 配列サポート追加

2 つの文字列の間のコンテンツを抽出する関数があります。html タグ間の特定の情報を抽出するために使用します。ただし、現在は最初の一致のみを抽出するように機能しているため、すべての一致を抽出して配列で提供するように改善できるかどうかを知りたい.. preg_match_all 関数と同様.

php regex html-content-extraction

2011-06-20T12:14:05.603

0 投票する

2 に答える

1798 参照

html-content-extraction - HTTPBuilder - Web ページの HTML コンテンツを取得するにはどうすればよいですか?

groovy で HTTPuilder を使用している Web ページの HTML を抽出して、次のようにする必要があります。

取得した応答には、www.google.com/search の HTML ソースを調べたときに表示されるものと同じ HTML が含まれていません。実際、これは html ではなく、ページの html ソースで確認できる情報と同じものは含まれていません。さまざまなヘッダーを設定してみました (たとえば、headers.Accept = 'text/html,application/xhtml+xml,application/xml;q=0.9, / ;q=0.8', headers.Accept = 'text/html') 、ユーザーエージェントの設定など)、結果は同じです。http ビルダーを使用して www.google.com/search (または任意の Web ページ) の html を取得するにはどうすればよいですか?

html-content-extraction httpbuilder

2011-07-25T13:35:41.827

0 投票する

2 に答える

151 参照

rss - 特定のニュースソースのフィードまたは XML を見つける方法

特定のニュースソースの xml ファイルを取得したいのですが、html ニュースを xml に変換し、ページを解析し、日付、著者名、タイトル、コンテンツなどのさまざまな特徴を単一の xml または同様のものにトークン化するプロジェクトがある場合ファイルの種類。たとえば、次のリンクを参照してください。などはこちらのページから。または、この Web ページのフィードを見つけることができれば、簡単に行うことができます。しかし、どうすればそれを検索できますか。

rss html-content-extraction

2011-08-02T06:29:57.153

0 投票する

1 に答える

575 参照

c# - 非mshtml c# htmlとjavascriptの解析

javascript が埋め込まれた html ドキュメントを解析する方法を探しています。これは MSHTML とコード DOM で実行できることはわかっていますが、この場合はオプションではありません。プログラムを Mono でも実行できるようにする必要があります。助言がありますか？

c#javascript html parsing html-content-extraction

2011-08-17T10:52:16.143

0 投票する

2 に答える

3303 参照

java - java/jsp を使用して、Web フォームの特定のドロップダウンボックスから値のリストを抽出する方法

Web フォームの特定のドロップダウンリストボックスのすべての値を抽出したいと考えています。

この Web フォームのソースコードで、この特定のドロップダウンに関連するコードを以下に示します。

実際の値 (つまり option ... value="" ) と画面に表示される値 (つまり option label="" ) の両方を抽出したいのですが、これは JSP/Java で実行できますか? 理想的には、Google App Engine でサポートされているクラスのみを使用して実行できますか? (これを行う方法を提案できても、その方法が Google App Engine for Java でサポートされているかどうかわからない場合でも、その方法を親切に提案してください...)

java jsp servlets html-content-extraction

2011-08-19T09:28:25.077

0 投票する

3 に答える

2486 参照

regex - 正規表現はタグ間のテキストを変更します

次のレイアウトのコードがあります。textcrawlerを使用して検索と置換を行います

..。

ここで問題となるのは、2番目のコードブロックを削除するために使用する必要のある正規表現です。<a> and </a>

regex replace html-content-extraction

2011-09-30T15:10:33.597

問題タブ [html-content-extraction]

Reference