html - Tesseract-Job：画像から情報を取得するために画像を解析する方法

Question

おはようございます。

初めに。これは私が今まで見た中で最も印象的なコミュニティです！

さて数日私はの三つ折りの仕事について考えました

a。取得b。解析c。ページ数を保存します。

2日前、私はページを取得することが主要なタスクになるだろうと思いました。いいえ、そうではありません-パーサージョブは英雄的な仕事になると思います。解析対象の各ページはpng画像です。

したがって、問題は、すべてを取得した後です。それらを解析する方法！？これが問題のようです。そこにいくつかのperlモジュールがあると思います-これを行うのに役立ちます...

ええと、この仕事はいくつかのOCRが埋め込まれている場合にのみ実行できると思います！質問：このタスクをサポートするためにここで使用できるperlモジュールはありますか？

ところで：結果ページを参照してください。

画像を見る

ところで;：そして私が思ったように、私はId=0とId=100000の間の特定の範囲内で、790の結果ページすべてを見つけることができると思いました。

http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage3%Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html http：//www.foundationfinder。 ch / ShowDetails.php？Id = 949＆InterfaceLanguage = 1＆Type = Html http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id= 10579＆InterfaceLanguage = 1＆Type = Html

私はPerl-Wayに行くことができると思いましたが、よくわかりません。同じURL[以下を参照]で異なるクエリ引数を使用してLWP:: UserAgentを使用しようとしていたのですが、LWP::UserAgentがクエリ引数をループする方法はありますか？LWP::UserAgentにそれを行うためのメソッドがあるかどうかはわかりません。えーと、Mechanizeの方が使いやすいと時々聞いたことがあります。しかし、それは本当に簡単ですか！？

しかし-率直に言って; 最初のタスク「すべてのページを取得することはそれほど難しくありません-このタスクを解析と比較すると...これはどのように行うことができますか！？

任意のアイデア-提案-

あなたから聞くことを楽しみにしています...

零

score 1 · Accepted Answer

Perlモジュールは必要ありません。必要なのはsystem関数だけです。

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

Tesseractを支援するために、画像を前処理する必要がある場合があります。たとえば、ImageMagickを次のように使用します。

system qw[ convert.exe -resize 200%   image.jpg foo.png ];

html - Tesseract-Job：画像から情報を取得するために画像を解析する方法

1 に答える 1

Related

Reference