問題タブ [html-content-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - HTMLドキュメントを解析してDOMツリーを構築することが可能(java)
開発者がAPIを介してツリーをウォークスルーできるように、HTMLドキュメントを文字列として、またはファイルから解析し、DOMツリーを構築するためにどのようなツールを使用できるか。
例えば:
注:これはXHtmlではなくHTMLドキュメントです。
parsing - 情報検索/テキストマイニングアプリケーションまたはライブラリを探しています
フライト、レンタカー、ホテルなど、さまざまな情報をメールから抽出します。この方法は、メールの本文を抽出することです。通常はHTML形式ですが、テキストである場合や、PDF / Word/RTF添付ファイルの情報を使用する場合もあります。次に、表形式(フライトテーブル、ホテルテーブルなど)で提供される情報を取得するために、正規表現を(場合によってはいくつかのステップで)適用します。HTMLを解析しますが、これはWebスクレイピングではないことに注意してください。
現在、QL2のWebQLエンジンを使用していますが、ビジネス上の理由から置き換えることを検討しています。別のエンジンでお勧めできますか?Linuxで実行され、Javaからアクセスできる必要があります(Java APIが最適ですが、Webサービスも優れたソリューションです)。また、HTML構造に基づくだけでなく、テキスト抽出の正規表現をサポートする必要があります。
php - PHPを使用してHTMLファイルからすべてのテキストを抽出する方法は?
HTMLファイルからすべてのテキストを抽出する方法
alt 属性、 < p > タグなどのすべてのテキストを抽出したい.
ただし、スタイルタグとスクリプトタグの間のテキストを抽出したくありません
ありがとう
今、私は次のコードを持っています
これはうまく機能しますが、取得したくないスクリプトとスタイルタグを取得します。他の問題として、alt などの属性を取得するかどうかはわかりません。strip_tags 関数は属性を持つすべての HTML タグを削除する可能性があるためです。
ありがとう
python - 不正な HTML ページからテキストを抽出するための Python 戦略
任意の html ページからテキストを抽出しようとしています。一部のページ (私が制御できないもの) には、不正な形式の html またはスクリプトが含まれているため、これが困難になっています。また、私は共有ホスティング環境にいるので、任意の python lib をインストールできますが、必要なものをサーバーにインストールすることはできません。
pyparsing と html2text.py も、不正な形式の html ページでは機能しないようです。
URL の例はhttp://apnews.myway.com/article/20091015/D9BB7CGG1.htmlです。
私の現在の実装はおおよそ次のとおりです。
Beautifulsoup がまだ機能しない場合は、最初の文字、最後の文字 (コード行のように見えるかどうかを確認するため) を調べるヒューリスティックを使用することに頼ります # < ; そして行のサンプルを取得し、トークンが英単語または数字です. トークンのいくつかが単語または数字である場合, その行はコードであると思います.
機械学習を使用して各行を検査することもできますが、それは少しコストがかかるように思われ、おそらくそれを訓練する必要があり (教師なし学習機械についてはあまり知らないため)、もちろんそれも作成する必要があります。
アドバイス、ツール、戦略は大歓迎です。また、コードが含まれていると判断された行を取得した場合、その行に実際の英語のテキストが少量含まれていても、現在は行全体を破棄するため、後半はかなり厄介であることに気付きました。
html - ナビゲーションとクロムコンテンツを除外して、HTML ページから純粋なコンテンツ/テキストを抽出する
ニュース Web サイトをクロールしており、ニュースのタイトル、ニュースの要約 (最初の段落) などを抽出したい
Webkit パーサー コードにプラグインして、Web ページをツリーとして簡単にナビゲートしました。ナビゲーションやその他の非ニュース コンテンツを排除するために、記事のテキスト バージョンを使用します (html タグを除いて、webkit は同じ API を提供します)。次に、同じ Web サイトのさまざまな記事のテキストを比較する diff アルゴリズムを実行すると、同様のテキストが削除されます。これにより、一般的なナビゲーション コンテンツなどを除いたコンテンツが得られます。
上記のアプローチにもかかわらず、最終的なテキストにはまだかなりのジャンクが含まれています。これにより、誤ったニュース アブストラクトが抽出されます。エラー率は 10 件中 5 件、つまり 50% です。のようなエラー
あなたはできる
純粋なコンテンツを抽出するための代替戦略を提案し、
自然言語処理を学ぶことは、これらの記事から正しい要約を抽出するのに役立ちますか?
上記の問題にどのように取り組みますか?
これらは同じ研究論文ですか?
よろしく
アンクル・グプタ
perl - 保守可能な Web スクレイピング アプリを作成する最良の方法は何ですか?
少し前に、オンライン バンキングにログインして残高と明細書を毎日メールで送信する perl スクリプトを作成しました。家計管理にとても便利だと思いました。唯一の問題は、perl と curl だけを使用して記述したため、非常に複雑で保守が困難だったことです。私の銀行がウェブページを変更したいくつかの例の後、私はそれを最新の状態に保つためにそれをデバッグすることにうんざりしました。
では、そのようなプログラムを保守しやすい方法で作成する最良の方法は何でしょうか? 銀行が Web サイトをいじるのが避けられない場合に簡単に更新できるように、Perl または Java で適切に設計されたバージョンを作成したいと考えています。
caching - プログラムで Web ページを保存するにはどうすればよいですか?
プログラムで Web ページを保存したいと思います。
単に HTML を保存するという意味ではありません。また、関連するすべてのファイル (画像、CSS ファイル、埋め込み SWF など) を自動的に保存し、できればローカル ブラウジング用のリンクを書き換えたいと考えています。
意図された用途は、元のコピーが削除された場合に備えてリンク コンテンツがキャッシュされる、個人のブックマーク アプリケーションです。
python - BeautifulSoup - HTML フリーのコンテンツを簡単に入手する方法
このコードを使用して、ページ内のすべての興味深いリンクを見つけています。
そして、それはその仕事をかなりうまくやっています。残念ながら、そのタグ内には、 font、bなどのネストされたタグがたくさんあります...他のhtmlタグなしで、テキストコンテンツだけを取得したいと思います。
リンクの例:
もちろん、それは醜いです (そして、マークアップは常に同じであるとは限りません!) そして、私は取得したいと思います:
ドキュメントではtext=True
findAll メソッドで使用するように書かれていますが、私の正規表現は無視されます。なんで?どうすれば解決できますか?
python - PythonHTMLスクレイピング
それは実際にはスクレイピングではありません。クラスが特定の値を持つWebページでURLを見つけようとしているだけです。例えば:
href値を取得したい。これを行う方法についてのアイデアはありますか?多分正規表現?サンプルコードを投稿していただけますか?BeautifulSoupなどのhtmlスクレイピングライブラリは、これだけでは少しやり過ぎだと思います...
どうもありがとう!