問題タブ [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
13 に答える
417454 参照

python - PDFをテキストに変換するためのPythonモジュール

PDFファイルをテキストに変換するPythonモジュールはありますか?Activestateで見つかったpypdfを使用するコードを1つ試しましたが、生成されたテキストの間にスペースがなく、役に立たなかった。

0 投票する
5 に答える
9491 参照

pdf - C# または従来の ASP (VBScript) を使用して PDF からテキストを抽出するための適切な方法は何ですか?

PDF からテキストを抽出するための適切なライブラリはありますか? 必要があれば喜んで支払います。

C# または従来の ASP (VBScript) で動作するものが理想的であり、PDF からページを分離できる必要もあります。

この質問には、特にpdftotextなどの興味深いものがいくつかありましたが、可能であれば、外部コマンドライン アプリの呼び出しを避けたいと思います。

0 投票する
11 に答える
54461 参照

html - HTMLからテキストを抽出するための正規表現

一般的なHTMLページから、すべてのテキスト(表示されているかどうかに関係なく)を抽出したいと思います。

削除したい

  • HTMLタグ
  • 任意のJavaScript
  • すべてのCSSスタイル

それを実現する正規表現(1つ以上)はありますか?

0 投票する
3 に答える
2020 参照

java - Web ページから HTML を取り除き、単語の頻度を計算しますか?

Groovy で、Web ページを取得して HTML タグなどを削除し、ドキュメントのテキストだけを残すにはどうすればよいですか? 単語頻度カウンターを作成できるように、結果をコレクションにダンプしたいと思います。

最後に、Groovy でこれを行いたいということをもう一度述べさせてください。

0 投票する
5 に答える
1921 参照

html - HTML ドキュメントから最大のテキスト ブロックをスクレイピングする

私は、HTML ファイルが与えられたときに、ページのコンテンツ テキストの大部分を含む可能性が最も高い親要素であると考えられるものを選択しようとするアルゴリズムに取り組んでいます。たとえば、次の HTML では div "content" が選択されます。

HTML ドキュメント ツリーを葉までたどり、テキストの長さを合計し、親が子よりも多くのコンテンツを提供する場合にのみ、親が持っている他のテキストを確認するなど、いくつかのアイデアを思いつきました。

誰かがこのようなことを試したことがありますか、または適用できるアルゴリズムを知っていますか? 堅実である必要はありませんが、ページ コンテンツ テキスト (記事やブログ投稿など) のほとんどを含むコンテナーを推測できる限り、それは素晴らしいことです。

0 投票する
2 に答える
2390 参照

php - いくつかの禁止文字のうちの 1 つより前にある文字を抽出する

いくつかの不要な文字のいずれかに遭遇するとすぐに、文字列内の残りのすべての文字を破棄したいと考えています。

ブラックリストに登録された文字が検出されるとすぐに、そのポイントの前の文字列が返されます。

たとえば、配列がある場合:

次の文字列をどのように通過しますか...

...そして最終的には:

0 投票する
2 に答える
7984 参照

exchange-server - 電子メール メッセージ (または数千の電子メール) からのデータの抽出 [Exchange ベース]

私のマーケティング部門は、人々がウェブページから参加する懸賞を行うことに決めました。それは素晴らしいことですが、情報はいかなる種類の DB にも保存されず、電子メールとして交換メール ボックスに送信されます。偉大な。

私の課題は、これらのメールからエントリ (およびマーケティング情報) を抽出し、フラット ファイルや CSV などのより便利な場所に保存することです。唯一の救いは、電子メールの形式が非常に一貫していることです。

すべての電子メールをファイルに保存し、アプリを作成してそれらすべてを処理することに時間を費やすことができると確信していますが、はるかに洗練されたソリューションを望んでいました. Exchange メールボックスにプログラムでアクセスし、すべての電子メールを読み、そのデータを保存できますか?

0 投票する
6 に答える
3624 参照

html - HTML のダウンロードとテキストの抽出

URL のリストをダウンロードし、テキスト コンテンツのみを抽出するのに適したツールまたはツール セットは何でしょうか? スパイダリングは必須ではありませんが、ダウンロード ファイル名の制御とスレッド化はおまけです。

プラットフォームは Linux です。

0 投票する
4 に答える
408 参照

php - スラッシュで区切られた文字列を解析/分割する

これは、PHP 固有の質問というよりも、一般的な正規表現に関する質問です。

次のようなさまざまな文字列が与えられます。

A/B/PA ID U/C/D

そして、次を使用して、スペース (「/PA ID U」) を含む中央のスラッシュのセグメントを抽出しようとしています。

preg_match('/(\/PA .+)(\/.+|$)/', $string, $matches);

しかし、期待していた「/PA ID U」ではなく、「/PA ID U/C/D」を取得していました。

最後のグループの「$」よりも「/.+」の一致を優先させるにはどうすればよいですか?


その他の注意事項:

文字列が大きく異なるため、最後のグループが別の「/somethingsomething」または「」のいずれかに一致する必要があります。「/.+」のみを照合すると、「A/B/PA ID U」のように「/PA ID U」が行末にあると取得できません。

基本的に、次のように特定のセグメントを抽出できる必要があります。

与えられた: "A/B/PA ID U/PA ID U/C/D"

エキス: (A), (B), (PA ID U), (PA ID U), (C), (D)


[アップデート]

split()orの使用を避けようとしてexplode()います。これは、「PA ID U」パターンを個別に一致させる必要があることを意味するためです。スラッシュで区切られたセグメントを抽出するだけでなく、部分文字列が特定のパターンと一致することを検証する必要があります。

0 投票する
4 に答える
143 参照

php - 書式設定されたテキストを解析して 2 つの値を抽出する

PHPで正規表現を使用して、この種の文字列からパーセンテージとファイルサイズを取得するにはどうすればよいですか?

print_r()問題は、次のような関数を使用してこの文字列を取得することです。

上記の出力は次のようになります。

次のようなものを使用する必要があるとpreg_match()確信していますが、配列に対してそれを行う方法と、文字列を参照する方法がわかりません。正規表現はループ内に配置する必要があります。