問題タブ [text-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHPで文字列の一部を抽出する方法
文字列の置換に preg_replace() を使用しています。
これはうまく機能しており、次の結果が得られます
しかし、同じロジックを使用して次の文字列から抽出しています。
から文字列を抽出したい
に
私が現在持っている正規表現は次のとおりです。
$metadata は上記の文字列です。
$matches は何も返しません....何らかの理由で...どうすればいいですか? 前もって感謝します
web-crawler - Web サイトのクロールとデータ マイニングに最適なオープン ソース ライブラリまたはアプリケーション
Web サイトのクロールと分析に最適な eopen-source ライブラリは何か知りたいです。1 つの例として、多数のサイトから情報を取得し、それらを自分のサイトに集約したいクローラー プロパティ エージェンシーがあります。そのためには、サイトをクロールしてプロパティ広告を抽出する必要があります。
api - PowerPoint (.ppt または .pptx) ファイルからテキストを抽出しますか?
私は現在、OpenOffice マクロと pdf2text プログラムの組み合わせを使用してテキストを抽出しており、PowerPoint ファイルからテキストを取得するより簡単で効率的な方法を見つけたいと考えています。
私はApache POIライブラリを使用してみましたが、あまり運がなく、見ているファイルを処理しようとするとライブラリ内で多数の例外が発生し、特にライブラリのソースコードをふるいにかけたくありません.
前述のライブラリを使用せずにこれを行う簡単な方法はありますか?
c# - C# で MS Office ドキュメントからテキストを抽出する方法
C# を使用して、MS Word (.doc、.docx)、Excel、および Powerpoint からテキスト (文字列) を抽出しようとしていました。MS Office ドキュメントを読むための無料でシンプルな .Net ライブラリはどこにありますか? NPOI を使用しようとしましたが、NPOI の使用方法に関するサンプルがありませんでした。
pdf - 議会討論の PDF の光学式文字認識
契約作業のために、ドイツ連邦議会からの古い、スキャンされたグラフィックのみの本会議の議定書 PDF を大量にデジタル化する必要があります。
問題は、これらのファイルのほとんどが 2 列形式になっていることです。
サンプルプロトコル http://sert.homedns.org/img/btp12001.png
次の質問に対するあなたの回答をぜひお読みください。
- OCR に入力する前に、2 つの列を分割するにはどうすればよいですか?
- どの商用オープンソース OCR ソフトウェアまたはフレームワークをお勧めしますか?またその理由は?
どのツール、プログラミング言語、フレームワークなどでも問題ないことに注意してください。難解な製品、ライブラリがジャブに適していると思われる場合は、躊躇しないでお勧めします ^__^ !!
更新:これらの文書は議会 o_O:サンプル(上の画像と同じ) によって既にスキャンされており、大量にあり、できるだけ早く契約書を提出したいので、同じ文書の印刷コピーを取りに行くことはできません。自分でスキャンします。それらの数が多すぎます。
宜しくお願いします、
Cetin Sert
php - mailto: アドレスを抽出するための正規表現
文字列のブロックを取り、フォーマットに一致する文字列を見つけることができる正規表現が欲しい:
そして、この形式に一致するすべての文字列について、. の後に見つかった電子メール アドレスを抽出しますmailto:
。何かご意見は?
これは内部アプリに必要であり、スパマーの目的ではありません!
java - HTMLJavaからのテキスト抽出
HTMLページをダウンロードし、情報の一部を選択して別のファイルに書き込むプログラムに取り組んでいます。
段落タグの間にある情報を抽出したいのですが、段落の1行しか取得できません。私のコードは次のとおりです。
</p>
私は別のwhileループを追加しようとしていました。これは、行にタグが含まれるまでファイルへの書き込みを続けるようにプログラムに指示します。
しかし、これは機能しません。誰か助けてくれませんか。
ocr - OCRはもはや問題ではありませんか?
ウィキペディアによると、「ラテン文字のタイプライターで書かれたテキストの正確な認識は、印刷された文書のスキャンなど、鮮明な画像が利用できるアプリケーションでは、主に解決された問題と見なされています。」ただし、引用はありません。
私の質問は:これは本当ですか?現在の最先端技術は非常に優れているので、英語のテキストを適切にスキャンするために、大きな改善を行う必要はありませんか?
または、この質問の主観的でない形式は次のとおりです。高品質のスキャンのために英語のテキストを認識する際に、最新のOCRシステムはどの程度正確ですか。
c# - C# を使用して PDF を実行可能なテキストに変換する
c#.net の pdf ファイルからテキストを抽出するクラスを持つライブラリはありますか? いくつか試してみましたが、ドキュメントがひどいので、うまくいきませんでした。また、プラスになる画像を抽出するクラスを提供する場合。助言がありますか?事前にthx。
また、既存のアプリケーションに実装できる必要があります。