問題タブ [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
17605 参照

php - PHP を使用して HTML からデータを抽出する

ここに私が探しているものがあります:

HTML形式でいくつかのデータを表示するリンクがあります:

http://www.118.com/people-search.mvc...0&pageNumber=1

データは以下の形式で提供されます:

バード・ジョン

56 Leathwaite Road
London
SW11 6RS 020 7228 5576

PHP ページで上記の URL を実行し、上記のタグに基づいて結果 HTML ページからデータを抽出/解析する必要があります。h2=Name address=Address telephoneNumber= Phone Number として

それらを表形式で表示します。

私はこれを手に入れましたが、HTMLページのTEXT形式のみを示していますが、ある程度機能します:

0 投票する
4 に答える
1554 参照

html - HTML から意味のあるテキストを抽出する方法

HTML ページを解析し、そこから意味のあるテキストを抽出したいと思います。これを行うための優れたアルゴリズムを知っている人はいますか?

私は Rails でアプリケーションを開発していますが、Ruby はこれで少し遅いと思います。そのため、c に適切なライブラリがあれば、それが適切だと思います。

ありがとう!!

PD: Java については何も推奨しないでください

更新: このリンク テキストを見つけました

悲しいことに、Pythonにあります

0 投票する
2 に答える
1444 参照

.net - HTTP Agility Pack - 兄弟へのアクセス?

HTML Agility Pack を使用すると、子孫やテーブル全体などを取得するのに最適ですが、以下の状況でどのように使用できますか?

この場合、マイルが 15 未満の場合、要素を使って何かを行うことができるとは思いませんが、すべての要素に正しいものを見つけてから、その値を確認するためだけに数を見つける必要がありますか? または、より良い方法でこれを達成するためにアジリティパックで正規表現を使用する方法はありますか...

0 投票する
2 に答える
3832 参照

html - HTML 記事コンテンツの抽出 - Alchemy API の代替

ほぼすべての HTML Web ページから記事のメイン コンテンツを取得するアプリケーションをコーディングする最良の方法を見つけるために、私は多くの調査を行ってきました。libxml2 を使用して XML を解析する C プログラムを持っていますが、Alchemy API に出くわしました。

ただし、オンライン API しかないため、外部呼び出しに依存せずにアプリケーションを社内に維持したいと考えていました。

誰にもヒントがありますか?私は、Alchemy API ができること (有料/無料) を行うオフラインの代替手段を望んでいました。

別の方法として、HTML を解析し、NLP (自然言語処理) 技術やその他の方法を使用して記事のメイン コンテンツを取得することもできます。使用される Web サイトの種類には、ニュース セクションやブログを含む Web サイトが含まれます。

0 投票する
1 に答える
1036 参照

java - Web ページからの一般的な記事の抽出

記事の抽出で私の仕事を始めるつもりです。

私が行うタスクは、さまざまな Web ページに投稿されているホテルのレビューを抽出することです (例: 1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html、2 http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html ) _

私はJavaでタスクを実行する必要があり、過去数か月だけJavaで作業しています..

そして、ここにこれらに関する私の質問があります。

  1. 一般的な方法で、さまざまな Web ページからレビューだけを抽出する可能性はありますか。

  2. Java でのタスクをサポートする API があれば教えてください。

  3. また、上記のタスクを達成するのに役立つあなたの考え/情報源を教えてください.

アップデート

関連する例がネットで入手できる場合は、非常に役立つ可能性があるため、同じものを投稿してください。

0 投票する
3 に答える
430 参照

iphone - iPhone: 取得した Web ページのディスク キャッシュからテキストを抽出する

私の iPhone アプリには、UIWebView を含む情報ページがあり、それを私のウェブサイトの情報ページに示しました。

ただし、ユーザーがアプリをロードするたびに、データが取得されるまで何年もの間、空白の画面が表示されます。これは良くない。

バックグラウンドで新しいバージョンを取得しようとしている間に、最後に読み込まれたページを表示する方がはるかに優れています。しかし、これをきれいに行う方法がわかりません。誰かが私を始めることができますか?

2 番目の質問: Web ページには 3 つのペインが含まれているため、iPhone の場合、この Web ページを UIWebView に表示することは実用的ではありません。全体が収まりません。私は本当にページからテキストを抽出したい。これを行うクリーンな方法はありますか?本体のみダウンロードしたいという指定はできますか?

ページ全体が単一の文字列として返されると推測しているので、テキストの周りに自家製のタグをいくつか付ければ、テキストを手動で抽出するのが簡単になるでしょう...

0 投票する
2 に答える
1038 参照

python - ウィキペディアの記事の紹介部分をpythonで抽出する

ウィキペディアの記事の紹介部分を抽出したいと思います(表、画像、その他の部分を含む他のすべてのものを無視します)。記事のhtmlソースを見てみましたが、この部分を囲んでいる特別なタグは見当たりません。

誰でもこれに対する迅速な解決策を教えてもらえますか? 私はpythonスクリプトを書いています。

ありがとう

0 投票する
1 に答える
1252 参照

python - テキストからリンクを抽出するためにPythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用する方法はありますか?

テキストからリンクを抽出するためにPythonで可読性(テキスト抽出アルゴリズム)とカスタムアルゴリズムを使用する方法はありますか?

テキストの本文にあるリンクを抽出する方法を見つけたいと思います。

1.) Python で可読性を使用しています https://github.com/gfxmonk/python-readability

2.) 記事の実際の本文にあるリンクを抽出するために、抽出したテキストを元の html テキストと何らかの方法で比較したいと考えています。

0 投票する
1 に答える
4842 参照

javascript - Web ページに埋め込まれたすべてのビデオからリンクを取得する方法は?

説明させてください。私がやろうとしているのは、特定の Web ページを指定して、埋め込まれたビデオとそのリンクの数を取得したいということです。

コード自体を求めているわけではありませんが、それを実現する方法に関するいくつかの情報を求めています。

0 投票する
4 に答える
7014 参照

php - PHPを使用してHTMLドキュメントの本文を抽出する

この目的にはDOMを使用する方がよいことはわかっていますが、次の方法でテキストを抽出してみましょう。

結果はここで見ることができます:http://ideone.com/vH2FZ

ご覧のとおり、予想よりも多くのテキストが表示されています。

substr($string, $start, $length)関数の正しい長さを取得するために、私が理解していないことがあります。

この式には何の問題もありません。

誰かが問題がどこにあるかを親切に提案できますか?

みなさん、ありがとうございました。

編集:

皆様、本当にありがとうございました。私の脳にはただのバグがあります。あなたの答えを読んだ後、私は今問題が何であるかを理解しました、それは次のいずれかでなければなりません:

または: