問題タブ [text-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - ナビゲーションとクロムコンテンツを除外して、HTML ページから純粋なコンテンツ/テキストを抽出する
ニュース Web サイトをクロールしており、ニュースのタイトル、ニュースの要約 (最初の段落) などを抽出したい
Webkit パーサー コードにプラグインして、Web ページをツリーとして簡単にナビゲートしました。ナビゲーションやその他の非ニュース コンテンツを排除するために、記事のテキスト バージョンを使用します (html タグを除いて、webkit は同じ API を提供します)。次に、同じ Web サイトのさまざまな記事のテキストを比較する diff アルゴリズムを実行すると、同様のテキストが削除されます。これにより、一般的なナビゲーション コンテンツなどを除いたコンテンツが得られます。
上記のアプローチにもかかわらず、最終的なテキストにはまだかなりのジャンクが含まれています。これにより、誤ったニュース アブストラクトが抽出されます。エラー率は 10 件中 5 件、つまり 50% です。のようなエラー
あなたはできる
純粋なコンテンツを抽出するための代替戦略を提案し、
自然言語処理を学ぶことは、これらの記事から正しい要約を抽出するのに役立ちますか?
上記の問題にどのように取り組みますか?
これらは同じ研究論文ですか?
よろしく
アンクル・グプタ
java - Javaを使用してPostScript(.ps、.eps)ファイルからテキストを抽出する方法はありますか?
私はApacheTikaのPDF用のPDFBoxに似たソリューションを探していますが、PSファイル用です。
ありがとう。
html - Googleでキーワードに対して見つかった結果の数を取得する方法
「青い金属のやかん」のようなキーワード (引用符の有無にかかわらず) を指定して、この検索で見つかった結果の数だけを取得する必要があります。今引用符なしで検索すると、次のようになります。
ここで '1,040,000' は私が欲しい数です。これを行う API 関数はありますか、それとも HTML からこの番号を抽出する必要がありますか? これを行う最善の方法は何ですか?
python - Pythonを使用したPDF解析-フォーマットされたテキストとプレーンテキストの抽出
PDFドキュメントからテキストを抽出できるPDFライブラリを探しています。私はPyPDFを見てきましたが、これによりPDFドキュメントからテキストを非常にうまく抽出できます。これに伴う問題は、ドキュメントにテーブルがある場合、テーブル内のテキストがドキュメントテキストの残りの部分と一致して抽出されることです。これは、役に立たず、文字化けしているように見えるテキストのセクションを生成するため、問題になる可能性があります(たとえば、多数の数字がマッシュアップされます)。
表や特別なフォーマットを除いて、PDFドキュメントからテキストを抽出したいと思います。これを行うライブラリはありますか?
html - HTML コンテンツ抽出の最新技術とは?
Gupta & Kaiser (2005) Extracting Content from Accessible Web Pagesなど、HTMLコンテンツ抽出に関する多くの学術研究が行われています。後者の実践が前者の考えをどれほどうまく反映しているか。ベストプラクティスは何ですか?
優れた (特にオープン ソースの) 実装へのポインタと、実装に関する優れた学術調査は、私が探している種類のものです。
最初の追記: 正確に言うと、私が求めている調査の種類は、学術文献からの基準と多数の既存の実装の両方を議論し、実装がどれほど失敗したかを分析する論文 (公開、未公開、何でも) です。基準の観点から。そして、実際には、メーリング リストへの投稿も有効です。
2 番目の追記明確にするために、私が受け入れた Peter Rowell の回答の後、この質問が 2 つのサブ質問につながることがわかります。解決策、および (ii) 未解決の問題または粗悪品 (主にサイトに追加されたボイラープレートと販促資料) と肉 (ページが興味深いと思われる種類の人々が実際に関連性があると見なすコンテンツ) から分離すること。 、新しい答えは、肉からの粗悪品の問題に明示的に対処する必要があります。
c# - プログラムでブラウザーで選択したテキストを取得する
Windows アプリケーションから、「Internet Explorer」、Firefox、およびその他のブラウザーで選択したテキストを検出したいと考えています。
これを達成するためにどのコードを使用すればよいか知っていますか?
IEでテキストを検索するのではなく、IEで「選択したテキストをキャプチャする」という考え方です。ところで、IE だけでなく、フォーカスのある Windows アプリケーションであれば、ctrl+c をシミュレートして選択したテキストをコピーしてからクリップボードを読み取ることも考えられますが、この解決策も好きではありません。
Windows API を使用して選択したテキストを取得する方法があるはずだとほぼ確信しています。
unix - UNIXの行番号を使用してファイルから行を抽出するにはどうすればよいですか?
sedなどを使用して、ファイルから行をどのように抽出しますか?ファイルから1、5、1010、20503行が必要な場合、これらの4行を取得するにはどうすればよいですか?
抽出する必要のある行がかなり多い場合はどうなりますか?100行のファイルがあり、それぞれが別のファイルから抽出したい行番号を表している場合、どうすればよいですか?
php - 文字列からPHPの見出しタグを抽出する方法は?
<h1><h2>etc多くのHTMLを含む文字列から、タグからすべてのテキストを新しい変数に抽出するにはどうすればよいですか?
これらの要素からすべてのテキストをキャプチャし、コンマ区切りの値として新しい変数に格納したいと思います。
使用できpreg_match_all()ますか?
c# - 合理的に健全な HTML からテキストを抽出する方法は?
私の質問はこの質問のようなものですが、さらに制約があります:
- 私は文書がかなり正気であることを知っています
- それらは非常に規則的です(それらはすべて同じソースから来ました
- 表示されるテキストの約 99% が必要です
- 実行可能なものの約 99% はテキストです (それらは多かれ少なかれ HTML に変換された RTF です)。
- 書式設定や段落の区切りも気にしません。
これを行うために設定されたツールはありますか、それとも RegexBuddy と C# を分解したほうがよいでしょうか?
コマンド ラインやバッチ処理ツール、C/C#/D ライブラリにオープンです。
php - SGML を解析して PHP 配列に格納する
これを手伝うことができれば、あなたは天才です。
基本的に、次のようなテキストがあります。
したがって、全体として、次のような親子階層があります。
この情報をすべて解析して、表示される順序を維持しながらphp配列/オブジェクト/変数に保存する方法を考えていますか? たとえば、<parent wealthy>上に表示<parent poor>された場合は同じ順序に保ちたいのですが、<children male>前に表示された場合も同じです<children female>。
これはほぼ完全に有効な XML であり、SimpleXML を使用して解析できますが、問題は、子の名前がどのタグにも表示されず、クライアントが使いやすさのためにこの方法を維持したいということです。例えば:
ここで「jane」はタグの外側に<hobbies>表示され、いくつかのタグの間に表示されます。
これはどのように解析できますか?アドバイスをお願いします。正規表現の使用を提案する場合は、回答を受け入れるために使用できる正規表現を指定してください。私は正規表現を知りません。
ありがとう。
編集: 主な問題は、クライアントが通常のテキストとタグ内のテキストを混在させたいことです。例えば:
それはどのように解析できますか?