“html-parsing”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

2330 参照

c# - オンラインデータを使用して独自の辞書アプリケーションを構築できますか?

私は英語を母国語としないので、辞書をよく使います。

現在、私は C# を学んでおり、自分のマシンで実行されるアプリケーションを構築できるかどうかを考えていましたが、それは google/babefish 翻訳サービス、またはその他の翻訳/辞書オンラインツールを使用します。毎回ブラウザに行って単語の翻訳を探すのは時間がかかります。

合法である場合、このタイプのアプリケーションについてどう思いますか? この時点で、クエリの速度 bc の低下、ページの解析などの問題がいくつか見られます。

c#html-parsing

2009-12-03T08:11:29.833

0 投票する

6 に答える

4292 参照

python - HTMLタグ/構造を維持しながらHTML内のテキストを検索/置換する方法

正規表現を使用してテキストを必要に応じて変換しますが、HTML タグを保持したいと考えています。たとえば、「スタックオーバーフロー」を「スタックアンダーフロー」に置き換えたい場合、これは期待どおりに機能するはずstack <sometag>overflow</sometag>ですstack <sometag>underflow</sometag>。

2009-12-06T17:44:58.777

0 投票する

7 に答える

38065 参照

python - PythonでHTMLを解析する-lxmlまたはBeautifulSoup？これらのどれがどのような目的に適していますか？

私が理解できることから、Pythonの2つの主要なHTML解析ライブラリはlxmlとBeautifulSoupです。私が取り組んでいるプロジェクトにBeautifulSoupを選択しましたが、構文を少し習得して理解しやすくする以外の特別な理由はありません。しかし、多くの人がlxmlを好むようで、lxmlの方が速いと聞いています。

だから私は一方が他方よりも優れているのだろうかと思っていますか？いつlxmlを使用したいのですか？また、BeautifulSoupを使用したほうがよいのはいつですか？検討する価値のある他のライブラリはありますか？

python beautifulsoup html-parsing lxml

2009-12-17T14:08:59.010

0 投票する

3 に答える

3552 参照

c# - XMLファイル内の位置でXMLからテキストを取得する方法は?

HTML (Tidy で変換された XML と見なすことができます) を解析し、すべてのテキストノード (表示される Body タグ内のノードを意味します) と XML ファイル内のそれらの場所を取得します。場所は、フラット XML ファイル内のテキストの位置を意味します。

c#xml html-parsing

2009-12-18T07:56:09.253

0 投票する

2 に答える

1216 参照

c# - HTML アジリティパックと jquery の比較

HtmlDocument オブジェクト (HAP によって作成された) を jQuery スタイル (XPath ではなく) でクエリできる HTML Agility Pack の拡張機能を知っていますか?

c#html-parsing

2009-12-27T14:00:25.030

0 投票する

3 に答える

947 参照

sql - データベースのテキストフィールド内からテキストを削除する

最近、古いブログ (SharePoint) から現在のブログ (WordPress) に多数のブログ投稿をインポートしようとしました。インポートが完了すると、多くの厄介な<div>タグやその他の HTML が投稿のコンテンツに取り込まれ、サイトのレンダリング方法が台無しになりました。

MySQL データベースで問題のある行を表示できます。問題を引き起こしている可能性のある HTML テキストを選択的に削除する方法があるかどうかを知りたいです。おそらくテキストを解析することで C# でこれをハックできますが、可能であれば SQL を使用してこれを行う方法を理解したいと思います。

これらのファイルの 1 つがデータベースのテキストフィールドにどのように表示されるかを示す全文サンプルをご覧になりたい場合は、完全なサンプルファイルを私の Web サイトにアップロードしました。

これが私がやりたいことです：

<![CDATA[<div><b>Body:</b>すべてのファイルの先頭から削除
次のように、すべてのファイルの末尾にあるメタ情報を削除します。
/li>
次のようなクラス属性を持つ可能性のあるすべてのタグ<div>と終了タグを削除します。</div>

注: ExternalClass の末尾の 16 進文字列は異なる場合があります

以前に MySQL で Update ステートメントを使用したことがなく、テキストフィールド内のテキストを選択的に置換する場所をどこから始めればよいか途方に暮れています。SQL ステートメント内から正規表現を使用して支援しますか? リモート DB に対してステートメントを実行するにはどうすればよいですか?

sql mysql regex parsing html-parsing

2010-01-06T22:23:43.757

0 投票する

2 に答える

825 参照

java - xpathを使用してhtmlアンカータグの値をフェッチできますか？

次のようなHTMLがある場合：

入手できますか???? xpathを使用した値？それはどのように見えるでしょうか？

java xpath html-parsing

2010-01-07T05:03:53.463

0 投票する

6 に答える

68194 参照

php - PHPを介してWebサイトからデータを抽出する

私は何人かの友人のために簡単なアラートアプリを作成しようとしています。

基本的に、次の2つのようなWebページからデータ「価格」と「在庫状況」を抽出できるようにしたいと思います。

私は電子メールとSMSの部分でアラートを作成しましたが、利用可能な価格と数量を比較してアラートを送信できるように、Webページ（2つまたは他のページ）から数量と価格を取得できるようにしたいと思います。製品がいくつかのしきい値の間にある場合に注文するため。

私はいくつかの正規表現を試しましたが（いくつかのチュートリアルで見つかりましたが、私はこれにはあまりにもn00bです）、これを機能させることができませんでした、良いヒントや例はありますか？

php regex curl html-parsing

2010-01-07T11:30:55.573

0 投票する

4 に答える

58226 参照

c# - C# を使用して HTML を解析してコンテンツを取得する

Web ページのグループをクロールするアプリケーションを作成しています。ページのソースコード全体を取得するのではなく、すべてのコンテンツを取得して保存し、データベース内にプレーンテキストとしてページを保存できるようにしたいと考えています。コンテンツは他のアプリケーションで使用され、ユーザーが読むことはないため、人間が完全に判読できる必要はありません。

最初は、正規表現を使用することを考えていましたが、Web ページの有効性を制御することはできず、正規表現がコンテンツを提供しない可能性が非常に高くなります。

文字列内にソースコードがある場合、そのソースコードの文字列を C# の単なるコンテンツに変換するにはどうすればよいですか?

c#string html-parsing

2010-01-10T18:49:34.127

0 投票する

2 に答える

23149 参照

python - BeautifulSoup HTML テーブルの解析

このサイトから情報 (html テーブル) を解析しようとしています: http://www.511virginia.org/RoadConditions.aspx?j=All&r=1

現在、私は BeautifulSoup を使用しており、私が持っているコードは次のようになります

問題は、開始列と終了列にあります。それらは「なし」として印刷されます

出力：

それらが列リストに保存されることは知っていますが、余分なリンクタグが次のような元のhtmlでの解析を台無しにしているようです:

したがって、印刷する必要があるのは次のとおりです。

任意の提案やヘルプをいただければ幸いです。事前に感謝します。

python beautifulsoup html-table html-parsing mechanize

2010-01-13T18:50:14.850

問題タブ [html-parsing]

Reference