問題タブ [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
514 参照

jquery - jQueryを使用して抽出された行の値を取得する方法

私はテーブルを持っており、これを行うことで各テーブル行を取得しています:

これにより、現在の行が次のようになります。

次に達成しようとしているのは、tdを削除し、その間の値を取得して配列に入れることですが、これを達成することはできませんでした。何か案は?

0 投票する
3 に答える
449 参照

php - phpはhtmlページから情報を抽出します

私はこのコードを持っています

情報を配列に抽出して、このようなものを作成するにはどうすればよいですか。

注:1ページに一度に3つ以上のアイテムがある場合もあれば、1つしかない場合もあります。

0 投票する
1 に答える
1202 参照

java - jspを使用してWebページからリンクを抽出するには?

私の要件は、Web ページからすべてのリンク (「a href」を使用) を動的に抽出することです。 私はJSPを使用しています。具体的には、JSP でメタ検索エンジンを構築しています。したがって、ユーザーがクエリ項目を入力すると、yahoo、ask、google、momma などの検索結果ページからリンクを抽出する必要があります。ページを文字列形式で取得するために、現在使用しているコードは次のとおりです。

今、私の要求は: String webPage からリンクを抽出する方法を提案できますか? または、これらのリンクを抽出する他の方法はありますか? 外部パッケージを使用せずに行うことをお勧めします。

0 投票する
2 に答える
1463 参照

php - HTML ページからテキストのブロックを抽出する方法は?

PHP を使用して、大きな HTML ページから 100 語を超えるテキストのブロックを抽出したいと考えています。テキストが含まれているかどうかは問題で<p>...</p>はありません。一貫したテキスト ブロックを構成する単語の数だけを気にするので、HTML パラグラフの外側のテキストも考慮する必要があります。

これはどのように行うことができますか?

0 投票する
4 に答える
888 参照

java - Javaでページの主要部分を抽出する

こんにちは、ウィキペディアにパーソナリティのページがあり、メイン部分からコード HTML を Java ソースで抽出したいと考えています。

あなたはなにか考えはありますか?

0 投票する
3 に答える
3170 参照

c# - ダウンロードするPDFリンクのスクリーンスクレイピング

私は小さなプログラムを作成してC#を学んでいますが、同様の投稿が見つかりませんでした(この回答が別の場所に投稿されている場合はお詫びします)。

PDFへのリンク(指定した場所にダウンロードできます)のWebサイトをスクリーンスクレイピングするにはどうすればよいですか?ページに実際のPDFリンクがある別のHTMLページへのリンクがある場合があるため、最初のページで実際のPDFが見つからない場合は、「PDF」が含まれるリンクを自動的に検索するようにします。リンクのテキストを入力し、その結果のHTMLページで実際のPDFリンクを検索します。

グーグルでファイルタイプを検索することでおそらく似たようなことを達成できることは知っていますが、それは私には「ごまかし」のようです:)コードでそれを行う方法を学びたいのですが、どこから始めればよいかわかりません。XElementなどを使用したXML解析には少し慣れていますが、HTMLページ(または他の形式)からリンクを取得する方法がわかりません。

誰かが私を正しい方向に向けることができますか?ありがとう!

0 投票する
3 に答える
18901 参照

regex - RegExを使用してHTMLから値を抽出するには?

次の HTML があるとします。

<span>要素内の値を取得したいと思います。要素のclass属性の値も取得したいと思います。<span>

<span>理想的には、関数を介して HTML を実行し、抽出されたエンティティの辞書を取得することができます (上記で定義した解析に基づく)。

上記のコードは、より大きなソース HTML ファイルからのスニペットであり、XML パーサーに対応していません。そこで、関心のある情報を抽出するのに役立つ可能性のある正規表現を探しています。

0 投票する
1 に答える
629 参照

javascript - 外部 Web ページから特定のテキストを抽出するにはどうすればよいですか?

何時間も検索して試してみましたが、あまり成功しませんでした...

外部 Web ページから特定のデータを抽出する方法を知りたいです。たとえば、次のようになります。

ページ -www.example.com/A/B/C ページ内:

classA と classB はそこにしか表示されず、次のデータが必要です: Text1 + Text2

これを (JavaScript で) 手伝っていただけると助かります。

0 投票する
2 に答える
1031 参照

parsing - Web ページからのデータの抽出

Web ページからデータを抽出する必要がある学校のプロジェクトを行っています。正確には、html/text データから人間が読めるコンテンツを抽出するためのライブラリまたはオープンソース プログラムが必要です。テキスト コンテンツをレンダリングする Web ブラウザのようなもの。

HTML を正規表現で解析することは、HTML からテキストを抽出するための最悪の方法であることはわかっています。

追加情報:

テキスト文書間の類似性を計算するために必要です。

どんな助けでも大歓迎です。ありがとう