問題タブ [text-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
34230 参照

python - 単語全体を抽出する

スペルチェッカーに入力するために単語を引き出す必要のある実際のテキストのセットがたくさんあります。あまりノイズを出さずに、できるだけ多くの意味のある単語を抽出したいと思います。この辺りには正規表現の忍者がたくさんいることを知っているので、誰かが私を助けてくれることを願っています。

現在、すべてのアルファベット順を。で抽出してい'[a-z]+'ます。これは大丈夫な概算ですが、それでたくさんのゴミを引きずり出します。

理想的[/-_,.: ]には、自然な単語の区切り文字(など)で区切られたすべてのアルファベット順を抽出し、境界が不正なアルファベット順を無視する正規表現(きれいで効率的である必要はありません)が必要です。

ただし、数字に隣接していないすべてのアルファベット順のシーケンスを取得できることも嬉しいです。したがって、たとえば、を'pie21'抽出しません'pie'が、'http://foo.com'を抽出し['http', 'foo', 'com']ます。

lookaheadアサーションを試しlookbehindましたが、文字ごとに適用されました(たとえば、何も返さない場合re.findall('(?<!\d)[a-z]+(?!\d)', 'pie21')は返さ'pi'れます)。アルファ部分を用語()としてラップしようとしました(?:[a-z]+)が、役に立ちませんでした。

詳細:データは電子メールデータベースであるため、ほとんどが通常の数字の平易な英語ですが、ときどき、のようなゴミの文字列があり、完全に無視したいと思いますGIHQ4NWL0S5SCGBDD40ZXE5IDP13TYNEAAC7A21C0数字が含まれているアルファベット順はゴミだと思います。

0 投票する
5 に答える
4633 参照

algorithm - ウェブサイトからの本文テキストの抽出。たとえば、記事の見出しとテキストのみを抽出し、サイト内のすべてのテキストは抽出しません。

ウェブサイトからのテキスト抽出を可能にするアルゴリズムを探しています。私は「striphtml」、またはこれを可能にする何百ものライブラリのいずれかを意味するのではありません。

たとえば、ニュース記事の場合、見出しとすべてのテキストを識別したいのですが、コメントセクションなどは識別しません。

そのためのアルゴリズムはありますか?ありがとうございました!

0 投票する
2 に答える
2333 参照

java - ICEpdfを使用してPDFページの特定の領域のテキストを抽出する

ICEpdfを使用して特定の地域のテキストを抽出する方法はありますか?ページ全体を抽出することはできましたが、それは私がやりたいことではありません。

(PDFBoxは、ページの特定の長方形の領域のテキストをうまく抽出することを知っています。ただし、画像のレンダリングはICEpdfではるかにうまく機能するため、そのライブラリを使用したいと思います。)

0 投票する
4 に答える
4162 参照

pdf - PDFファイルのフォーマットを解析し、テキストと画像を抽出

この雑誌から、テキストと画像の両方を含む「記事」を抽出する必要があります。画像コンテンツは別々に配置し、テキストは (可能な限り) 抽出して別々に配置する必要があります。

これを行うにはどうすればよいですか?すでにこれを行う商用サービス/APIはありますか? プログラム/サービスへの入力は単なるファイルになります。

入力例: http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(実際のファイルは通常の pdf ファイルであり、保護されたものではありません)

0 投票する
1 に答える
167 参照

python - Pythonでテキストフィールドを抽出するためにデータベースをマイニングする

特定の情報を抽出しようとしているデータベースがあります。

論理構造は次のようになります。

GC; クエリ

フィート; 名前 (このフィールドが必要です)

fd; SEQUENCE (このフィールドが必要)

fd; 順序

... (さらに「fd;」フィールド)

フィート; 名前 (このフィールドが必要です)

fd; SEQUENCE (最初の fd のみが必要)

... (さらに fd; フィールド)

フィート; 名前 (このフィールドが必要です)

fd; SEQUENCE (最初の fd のみが必要)

GC; 別のクエリ

この構造は、QUERY ごとに 1 つずつ、何千回も繰り返されます。抽出する必要があるフィールドを括弧で囲みました。関数とスニペットの両方として次のコードを試しましたが、機能しません。変数のスコープが正しいことを確認しました。「ft」フィールドと同じ数のエントリを含む mylist が必要です。私のコードでは、mylist が作成されますが、空のリストです。私の論理が間違っているアイデアはありますか? 私はpython 2.6.5を使用しています

0 投票する
2 に答える
1266 参照

php - 区切り文字間のテキストの抽出 - PHP

これは私の最初の投稿です。複数のソースからの日誌エントリを含むテキスト (.txt) ファイルがあります。エントリを日付、著者、タイトルなどで整理したいと考えています。各エントリは「---」で区切られています。「|」の後に各日付を指定します。括弧内は各著者。タイトルは、エントリの先頭にある括弧の前に来ます。

したがって、典型的なエントリは次のようになります。

これまでの私のコードは次のとおりです。

これで、「---」区切り文字で区切られたエントリの配列ができました。次に、配列内の各文字列を著者、タイトルなどで分割したいと思います...

問題は、preg 関数は配列にのみ適用可能であり、各配列要素が文字列の場合は機能しないことです。

この問題にアプローチするにはいくつかの方法があることを知っていますが、私の場合に機能する方法が見つからないようです。

0 投票する
3 に答える
62471 参照

pdf - 指定された座標からの PDF テキストの抽出

Ghostscript を使用して PDF の一部 (座標を使用) からテキストを抽出したいと思います。

誰でも私を助けることができますか?

0 投票する
23 に答える
560462 参照

php - 文字列から単一の(符号なし)整数を抽出します

次のような数字と文字を含む文字列から数字を抽出したいと思います。

番号を抽出したい11

0 投票する
3 に答える
5137 参照

php - PHPのPDFテキスト抽出クラス

私はmysqlデータベースに保存できるように、pdfファイルからすべてのテキストを抽出するphpのクラスを利用できますか?私のpdfには、画像、表、プレーンテキスト、フォーム要素、グラフなどの多くの要素があります.

これまでのところ、過去2日間、テキストを抽出する多くのクラスを見ましたが、完全なテキスト抽出を容易にする人は誰もいません.pdfから完全なテキストを抽出していません.

テキストが表などにある場合でも、特定のpdfファイルからすべてのテキストを抽出したい.

これについて知っている人はいますか?:)

どうもありがとう。良い1日を :)

0 投票する
4 に答える
3943 参照

vim - Vimを使用して正規表現に一致するテキストを抽出するにはどうすればよいですか?

vimを使ってテキストからいくつかのデータを抽出したいと思います。データは次のようなものです。

抽出する必要のあるデータは、title = "(168,72)"に含まれています。
特に、これらの座標のみを抽出することに興味があります。

私はvimを使ってtitle="の前に最初にすべてを削除することについて考えていますが、私は実際には正規表現の第一人者ではありません..だから私はあなたに尋ねています:誰かヒントがあれば:教えてください:)