問題タブ [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
358 参照

python - HTML ページと Python: 本文の抽出とその中のテキストの分割

大きな話

EPUB ファイルを読み取る Python アプリケーションを改善したいと考えています。リーダーが最後に止まった場所を「記憶」するオプションを追加したいと思います。github のこのアプリケーションへのリンクは次のとおりです。


現時点では、ユーザーが停止した最後の単語を保存できます。これらの単語をテキスト内で見つけて、この場所から読者に示したいと思います。しかし、htmlファイルの本文から抽出したテキストを分割してフォーマッタに渡す方法がわかりません。

これがすべて発生する場所の抜粋を次に示します。

私はこの線に介入しなければならないと思う

皆さん、私が今できることについてアドバイスいただけますか?

よろしく

0 投票する
1 に答える
53 参照

python - ページをダウンロードした後に href が変更されるのはなぜですか

私は Web パーサーを作成していますが、いくつかの href が私を夢中にさせています

ダウンロードしたページでこれを見つけました:

ブラウザで同じ URL を取得するのを見ることができる同じアンカーの href は次のとおりです。

;jsessionid は、ボットが Cookie を管理しないために追加されますが、変更はそれだけではありません...なぜですか?

編集:特定の数のセッションが特定のアクションをトリガーするのでしょうか?

Web ページをダウンロードした場合、ダウンロードした href をクリックしても機能しませんが、ブラウザーのページ (view-source:link) に表示される href をクリックすると機能します。

0 投票する
1 に答える
1461 参照

python - HTMLParser を使用してデータを抽出する

Python HTMLParser モジュールを使用して、以下の HTML スニペットから Sam と John の値を抽出していますが、handle_data関数は Sam のみをキャプチャし、John はキャプチャしていません。

どうすればサムとジョンの両方を手に入れることができますか?

0 投票する
1 に答える
2304 参照

delphi - HtmlP を使用した Delphi HTML の解析

テーブルからデータを抽出できるように、html ファイルを解析しようとしています。
それで、私はいくつかのグーグルマジックを行い、ここで同様の質問が行われました。

その質問で、彼らは HTML の解析に HTMLP を使用することを提案しました。ユニットをダウンロードして試してみました。

それは機能しますが、何かが足りないと思います。要素から実際のテキストを取得する方法についてはまったくわかりません。

ソースを調べましたが、これについては何も見つかりません。だから私はここに誰かが答えを知っていることを望んでいました.

前もって感謝します。

編集

要求に応じて: 取得しようとしているデータはここ
にあります。このデータを取得し、各行をオブジェクトに変換して保存し、さまざまなプラクティス、資格、人種を比較できるようにします。

0 投票する
2 に答える
333 参照

python - HTMLParser は、href 内のエンティティを誤解します。それはバグですか?私はそれを報告する必要がありますか?

自分で解決したので、問題の解決方法を知りたくありません。それが本当にバグなのか、それを報告すべきかどうか、どのように報告すべきかを尋ねているだけです。以下のコードと出力を見つけることができます。

出力は次のとおりです。

"/home?ID=123>3=7"

0 投票する
1 に答える
328 参照

python - 不正な開始タグ、python 2.6.9 で例外がスローされるが、2.7.4 HTMLParser ではスローされない

Python で urllib2 を使用して URL コンテンツをフェッチしており、Python のネイティブ html パーサーを使用しています。コードは私の python 2.7.4 で素晴らしくうまく動作しますが、私の友人のマシンには python 2.6.9 があり、彼のマシンで直面している問題は次のとおりです。

Python 2.6.9 では例外としてスローされますが、2.7.4 ではスローされません。
ここでは、2.6.9 を 2.7.4 以降にアップグレードすることはオプションではありません。