“text-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

1664 参照

php - PHPで文字列の一部を抽出する方法

文字列の置換に preg_replace() を使用しています。

これはうまく機能しており、次の結果が得られます

しかし、同じロジックを使用して次の文字列から抽出しています。

から文字列を抽出したい

に

私が現在持っている正規表現は次のとおりです。

$metadata は上記の文字列です。

$matches は何も返しません....何らかの理由で...どうすればいいですか? 前もって感謝します

rohini

2009-04-10T06:39:45.553

0 投票する

4 に答える

1883 参照

web-crawler - Web サイトのクロールとデータマイニングに最適なオープンソースライブラリまたはアプリケーション

Web サイトのクロールと分析に最適な eopen-source ライブラリは何か知りたいです。1 つの例として、多数のサイトから情報を取得し、それらを自分のサイトに集約したいクローラープロパティエージェンシーがあります。そのためには、サイトをクロールしてプロパティ広告を抽出する必要があります。

web-crawler data-mining extraction text-extraction

2009-04-17T07:26:03.633

0 投票する

3 に答える

10908 参照

api - PowerPoint (.ppt または .pptx) ファイルからテキストを抽出しますか?

私は現在、OpenOffice マクロと pdf2text プログラムの組み合わせを使用してテキストを抽出しており、PowerPoint ファイルからテキストを取得するより簡単で効率的な方法を見つけたいと考えています。

私はApache POIライブラリを使用してみましたが、あまり運がなく、見ているファイルを処理しようとするとライブラリ内で多数の例外が発生し、特にライブラリのソースコードをふるいにかけたくありません.

前述のライブラリを使用せずにこれを行う簡単な方法はありますか?

api powerpoint text-extraction

Thomp

2009-05-20T15:55:23.040

0 投票する

10 に答える

72300 参照

c# - C# で MS Office ドキュメントからテキストを抽出する方法

C# を使用して、MS Word (.doc、.docx)、Excel、および Powerpoint からテキスト (文字列) を抽出しようとしていました。MS Office ドキュメントを読むための無料でシンプルな .Net ライブラリはどこにありますか? NPOI を使用しようとしましたが、NPOI の使用方法に関するサンプルがありませんでした。

c#ms-office text-extraction

2009-06-18T07:20:14.430

0 投票する

4 に答える

452 参照

pdf - 議会討論の PDF の光学式文字認識

契約作業のために、ドイツ連邦議会からの古い、スキャンされたグラフィックのみの本会議の議定書 PDF を大量にデジタル化する必要があります。

問題は、これらのファイルのほとんどが 2 列形式になっていることです。

サンプルプロトコル http://sert.homedns.org/img/btp12001.png

次の質問に対するあなたの回答をぜひお読みください。

OCR に入力する前に、2 つの列を分割するにはどうすればよいですか?
どの商用オープンソース OCR ソフトウェアまたはフレームワークをお勧めしますか?またその理由は?

どのツール、プログラミング言語、フレームワークなどでも問題ないことに注意してください。難解な製品、ライブラリがジャブに適していると思われる場合は、躊躇しないでお勧めします ^__^ !!

更新:これらの文書は議会 o_O:サンプル(上の画像と同じ) によって既にスキャンされており、大量にあり、できるだけ早く契約書を提出したいので、同じ文書の印刷コピーを取りに行くことはできません。自分でスキャンします。それらの数が多すぎます。

宜しくお願いします、
Cetin Sert

pdf ocr text-extraction layout-extraction pdf-scraping

2009-07-09T14:59:44.620

0 投票する

5 に答える

6407 参照

php - mailto: アドレスを抽出するための正規表現

文字列のブロックを取り、フォーマットに一致する文字列を見つけることができる正規表現が欲しい：

そして、この形式に一致するすべての文字列について、. の後に見つかった電子メールアドレスを抽出しますmailto:。何かご意見は？

これは内部アプリに必要であり、スパマーの目的ではありません!

php regex string text-extraction

2009-09-03T21:48:42.750

0 投票する

8 に答える

49759 参照

java - HTMLJavaからのテキスト抽出

HTMLページをダウンロードし、情報の一部を選択して別のファイルに書き込むプログラムに取り組んでいます。

段落タグの間にある情報を抽出したいのですが、段落の1行しか取得できません。私のコードは次のとおりです。

</p>私は別のwhileループを追加しようとしていました。これは、行にタグが含まれるまでファイルへの書き込みを続けるようにプログラムに指示します。

しかし、これは機能しません。誰か助けてくれませんか。

java html screen-scraping html-content-extraction text-extraction

MajorMajor

2009-09-06T16:52:47.570

0 投票する

2 に答える

660 参照

ocr - OCRはもはや問題ではありませんか？

ウィキペディアによると、「ラテン文字のタイプライターで書かれたテキストの正確な認識は、印刷された文書のスキャンなど、鮮明な画像が利用できるアプリケーションでは、主に解決された問題と見なされています。」ただし、引用はありません。

私の質問は：これは本当ですか？現在の最先端技術は非常に優れているので、英語のテキストを適切にスキャンするために、大きな改善を行う必要はありませんか？

または、この質問の主観的でない形式は次のとおりです。高品質のスキャンのために英語のテキストを認識する際に、最新のOCRシステムはどの程度正確ですか。

ocr text-extraction layout-extraction

2009-10-19T09:38:05.747

0 投票する

4 に答える

913 参照

c# - C# を使用して PDF を実行可能なテキストに変換する

c#.net の pdf ファイルからテキストを抽出するクラスを持つライブラリはありますか? いくつか試してみましたが、ドキュメントがひどいので、うまくいきませんでした。また、プラスになる画像を抽出するクラスを提供する場合。助言がありますか？事前にthx。

また、既存のアプリケーションに実装できる必要があります。

c#pdf text-extraction image-extraction

2009-10-31T01:59:51.807

問題タブ [text-extraction]

Reference