“html-parsing”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

5862 参照

php - ループスルー
PHPを使用する要素

基本的にdivのリストである文字列にhtmlのブロックがあります...各divには、個別に解析したいhtmlが含まれています。

最初のdivをループする方法を正確に理解するのに問題があります。

誰か助けてもらえますか？

htmlの例：

この例では、最終的なコードが4回ループし、各divの内容を提供することを期待しています。

php html-parsing

2010-01-18T21:13:13.597

0 投票する

4 に答える

885 参照

c# - xml タグを html 値に置き換える

私はc＃.Netで作業しています

質問があります、

で Xml ファイルを読み込んXDocument.xDoc.Load(file)でいますが、コンテンツに xml タグもあるために失敗します。

例：<root><abc><deg></abc></root>

私の問題は、関数が一致する " " なしで Xml タグとしてLoad扱うことです...<deg></deg>

私の質問は、「deg」の「<」と「>」を一致する「<" " >」に最も簡単な方法で置き換えるにはどうすればよいですか?

注意: 私のファイルは非常に大きく、タグがたくさんあります...

ありがとう！

c#xml html-parsing xmldocument linq-to-xml

2010-01-19T23:24:26.233

0 投票する

4 に答える

2613 参照

regex - Google 検索から URL を抽出するために使用できる正規表現は何ですか?

JCLRegEx で Delphi を使用しており、Google 検索からすべての結果 URL を取得したいと考えています。HackingSearch.com を見たところ、正しく見える RegEx の例がありますが、試してみると結果が得られません。

私はそれを次のように使用しています：

正規表現はhackingsearch.comで入手できます。

TPerlRegEx をインストールするたびに 2 つの競合が発生するため、Delphi Jedi バージョンを使用しています...

regex delphi html-parsing jvcl

2010-01-23T09:56:48.383

0 投票する

2 に答える

97 参照

whitespace - ウェブページのソースに空白を追加して読めるようにする

表示している Web ページに興味があります。
「view--page source」を使用して、html を含むウィンドウを取得します。
これを切り取ってメモ帳++に貼り付けます。
空白を追加して手動で解析し、読みやすくします。

最後のステップを実行するためのより良い方法はありますか? このプロセスを自動化し、ユーザーにソースファイルの読み取り可能なバージョンを提供する何かが書かれていることを願っています。

助けてくれてありがとう。

-明細書

whitespace html-parsing readability

2010-01-25T20:56:14.353

0 投票する

4 に答える

1900 参照

java - HTML分析用のJavaライブラリ

（私は同様の質問を見ましたが、それらのどれも私の特定のニーズに応えていないと思います、それ故に...）

実世界の（不完全な、形式の悪い）HTMLを分析するためのJavaライブラリーがあるかどうか知りたいのですが。分析とは、次のようなことを意味します。

HTMLチャンクで最も目立つ色を見つけ出す
その色を他の色に変更する（したがって、HTMLの変更もサポートする必要があります）
不要なタグの削除
HTMLを修正して、整形式のHTMLスニペットを作成します

最後の2つの部分は、JerichoやjTidyなどのライブラリによって実行されます。これらの上にある「プラグイン」は素晴らしいでしょう。

前もって感謝します！

java html html-parsing

2010-01-27T06:24:38.523

0 投票する

2 に答える

802 参照

html - PHP正規表現：HTMLタグのグループ間の情報を取得しますか？

私はワードアンスクランブラーをプログラミングしてきました。タグのグループと別のグループの間の情報を解析し、すべての一致を配列に入れる必要があります。開始タグは次のとおりです。

終了タグは次のとおりです。

私はいくつかの正規表現を知っていますが、PHPに慣れていません。

html regex parsing html-parsing

2010-01-28T01:49:37.100

0 投票する

1 に答える

220 参照

c++ - html のテキストコンテンツのインデックス作成

索引付けの目的で HTML ファイルからテキストを引き出し、できるだけ早くそれを行いたいと考えています。ゼロから作るのではなく、自分がどれだけできているかを知りたいです。

現在、動作する html2text の出力をパイプ処理しているだけですが、Python であることとテキストをきれいにしようとすることの間で、速度が改善される可能性があると確信しています。

では、Linux/unix が優先される場合、この種のタスクに最適な (c/c++) ライブラリはどれでしょうか?

c++linux indexing html-parsing

2010-01-28T06:41:24.573

0 投票する

2 に答える

2964 参照

python - GAE の HTML パーサー

通常、HTML 解析のニーズにlxmlを使用しますが、Google App Engine では利用できません。明らかな代替手段はBeautifulSoupですが、不正な形式の HTML では簡単に詰まることがわかりました。現在、 libxml2domをテストしており、より良い結果が得られています。

最高のパフォーマンスを発揮する純粋な Python HTML パーサーはどれですか? 私の優先事項は、速度よりも悪い HTML を処理できることです。

python google-app-engine html-parsing lxml

2010-01-29T11:29:20.487

0 投票する

3 に答える

195763 参照

java - JavaでHTMLを効率的に解析するにはどうすればよいですか?

私は自分の仕事で多くの HTML 解析を行っています。これまでは、解析とブラウザーの自動化に HtmlUnit ヘッドレスブラウザーを使用していました。

ここで、両方のタスクを分離したいと思います。

HtmlUnit では最初にページをロードし、次にソースを取得して解析するのに時間がかかるため、軽い HTML パーサーを使用したいと考えています。

どの HTML パーサーが HTML を効率的に解析できるか知りたいです。私は欲しい

スピード
「id」、「name」、または「tag type」によって HtmlElement を簡単に見つけることができます。

汚れた HTML コードをきれいにしなくても、私にとっては問題ありません。HTML ソースをきれいにする必要はありません。HtmlElements 間を移動し、そこからデータを収集する最も簡単な方法が必要なだけです。

java html parsing html-parsing web-scraping

2010-01-30T16:52:48.033

0 投票する

1 に答える

1788 参照

html-parsing - HtmlAgility Pack を使用して特定のフォームから入力を取得するにはどうすればよいですか? 言語: C#.net

コードは、この問題を私よりもはるかにうまく説明できます。これを行うために試みた別の方法も含めました。可能であれば、これらの他の方法も機能しなかった理由を説明してください。残念ながら、HtmlAgilityPack の例はあまりありません。私は現在、より多くのアイデアを探してドキュメントを調べています。

私が気づいたことの 1 つは .nextSibling プロパティで、次の兄弟またはフォームの終わりが見つからなくなるまで、while ループを使用してフォームを処理できると考えていました。

とにかく、ここにコードがあります：

html-parsing html-agility-pack

2010-02-01T06:35:29.737

問題タブ [html-parsing]

Reference