問題タブ [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
2330 参照

c# - オンライン データを使用して独自の辞書アプリケーションを構築できますか?

私は英語を母国語としないので、辞書をよく使います。

現在、私は C# を学んでおり、自分のマシンで実行されるアプリケーションを構築できるかどうかを考えていましたが、それは google/babefish 翻訳サービス、またはその他の翻訳/辞書オンライン ツールを使用します。毎回ブラウザに行って単語の翻訳を探すのは時間がかかります。

合法である場合、このタイプのアプリケーションについてどう思いますか? この時点で、クエリの速度 bc の低下、ページの解析などの問題がいくつか見られます。

0 投票する
6 に答える
4292 参照

python - HTMLタグ/構造を維持しながらHTML内のテキストを検索/置換する方法

正規表現を使用してテキストを必要に応じて変換しますが、HTML タグを保持したいと考えています。たとえば、「スタック オーバーフロー」を「スタック アンダーフロー」に置き換えたい場合、これは期待どおりに機能するはずstack <sometag>overflow</sometag>ですstack <sometag>underflow</sometag>

0 投票する
7 に答える
38065 参照

python - PythonでHTMLを解析する-lxmlまたはBeautifulSoup?これらのどれがどのような目的に適していますか?

私が理解できることから、Pythonの2つの主要なHTML解析ライブラリはlxmlとBeautifulSoupです。私が取り組んでいるプロジェクトにBeautifulSoupを選択しましたが、構文を少し習得して理解しやすくする以外の特別な理由はありません。しかし、多くの人がlxmlを好むようで、lxmlの方が速いと聞いています。

だから私は一方が他方よりも優れているのだろうかと思っていますか?いつlxmlを使用したいのですか?また、BeautifulSoupを使用したほうがよいのはいつですか?検討する価値のある他のライブラリはありますか?

0 投票する
3 に答える
3552 参照

c# - XMLファイル内の位置でXMLからテキストを取得する方法は?

HTML (Tidy で変換された XML と見なすことができます) を解析し、すべてのテキスト ノード (表示される Body タグ内のノードを意味します) と XML ファイル内のそれらの場所を取得します。場所は、フラット XML ファイル内のテキストの位置を意味します。

0 投票する
2 に答える
1216 参照

c# - HTML アジリティ パックと jquery の比較

HtmlDocument オブジェクト (HAP によって作成された) を jQuery スタイル (XPath ではなく) でクエリできる HTML Agility Pack の拡張機能を知っていますか?

0 投票する
3 に答える
947 参照

sql - データベースのテキスト フィールド内からテキストを削除する

最近、古いブログ (SharePoint) から現在のブログ (WordPress) に多数のブログ投稿をインポートしようとしました。インポートが完了すると、多くの厄介な<div>タグやその他の HTML が投稿のコンテンツに取り込まれ、サイトのレンダリング方法が台無しになりました。

MySQL データベースで問題のある行を表示できます。問題を引き起こしている可能性のある HTML テキストを選択的に削除する方法があるかどうかを知りたいです。 おそらくテキストを解析することで C# でこれをハックできますが、可能であれば SQL を使用してこれを行う方法を理解したいと思います。

これらのファイルの 1 つがデータベースのテキスト フィールドにどのように表示されるかを示す全文サンプルをご覧になりたい場合は、完全なサンプル ファイルを私の Web サイト にアップロードしました

これが私がやりたいことです:

  • <![CDATA[<div><b>Body:</b>すべてのファイルの先頭から削除
  • 次のように、すべてのファイルの末尾にあるメタ情報を削除します。

    /li>
  • 次のようなクラス属性を持つ可能性のあるすべてのタグ<div>と終了タグを削除します。</div>

    注: ExternalClass の末尾の 16 進文字列は異なる場合があります

以前に MySQL で Update ステートメントを使用したことがなく、テキスト フィールド内のテキストを選択的に置換する場所をどこから始めればよいか途方に暮れています。SQL ステートメント内から正規表現を使用して支援しますか? リモート DB に対してステートメントを実行するにはどうすればよいですか?

0 投票する
2 に答える
825 参照

java - xpathを使用してhtmlアンカータグの値をフェッチできますか?

次のようなHTMLがある場合:

入手できますか???? xpathを使用した値?それはどのように見えるでしょうか?

0 投票する
6 に答える
68194 参照

php - PHPを介してWebサイトからデータを抽出する

私は何人かの友人のために簡単なアラートアプリを作成しようとしています。

基本的に、次の2つのようなWebページからデータ「価格」と「在庫状況」を抽出できるようにしたいと思います。

私は電子メールとSMSの部分でアラートを作成しましたが、利用可能な価格と数量を比較してアラートを送信できるように、Webページ(2つまたは他のページ)から数量と価格を取得できるようにしたいと思います。製品がいくつかのしきい値の間にある場合に注文するため。

私はいくつかの正規表現を試しましたが(いくつかのチュートリアルで見つかりましたが、私はこれにはあまりにもn00bです)、これを機能させることができませんでした、良いヒントや例はありますか?

0 投票する
4 に答える
58226 参照

c# - C# を使用して HTML を解析してコンテンツを取得する

Web ページのグループをクロールするアプリケーションを作成しています。ページのソース コード全体を取得するのではなく、すべてのコンテンツを取得して保存し、データベース内にプレーン テキストとしてページを保存できるようにしたいと考えています。コンテンツは他のアプリケーションで使用され、ユーザーが読むことはないため、人間が完全に判読できる必要はありません。

最初は、正規表現を使用することを考えていましたが、Web ページの有効性を制御することはできず、正規表現がコンテンツを提供しない可能性が非常に高くなります。

文字列内にソース コードがある場合、そのソース コードの文字列を C# の単なるコンテンツに変換するにはどうすればよいですか?

0 投票する
2 に答える
23149 参照

python - BeautifulSoup HTML テーブルの解析

このサイトから情報 (html テーブル) を解析しようとしています: http://www.511virginia.org/RoadConditions.aspx?j=All&r=1

現在、私は BeautifulSoup を使用しており、私が持っているコードは次のようになります

問題は、開始列と終了列にあります。それらは「なし」として印刷されます

出力:

それらが列リストに保存されることは知っていますが、余分なリンクタグが次のような元のhtmlでの解析を台無しにしているようです:

したがって、印刷する必要があるのは次のとおりです。

任意の提案やヘルプをいただければ幸いです。事前に感謝します。