0

おはようございます。

初めに。これは私が今まで見た中で最も印象的なコミュニティです!

さて数日私はの三つ折りの仕事について考えました

a。取得b。解析c。ページ数を保存します。

2日前、私はページを取得することが主要なタスクになるだろうと思いました。いいえ、そうではありません-パーサージョブは英雄的な仕事になると思います。解析対象の各ページはpng画像です。

したがって、問題は、すべてを取得した後です。それらを解析する方法!?これが問題のようです。そこにいくつかのperlモジュールがあると思います-これを行うのに役立ちます...

ええと、この仕事はいくつかのOCRが埋​​め込まれている場合にのみ実行できると思います!質問:このタスクをサポートするためにここで使用できるperlモジュールはありますか?

ところで:結果ページを参照してください。

画像を見る

ところで;:そして私が思ったように、私はId=0とId=100000の間の特定の範囲内で、790の結果ページすべてを見つけることができると思いました。

http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage3%Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html http://www.foundationfinder。 ch / ShowDetails.php?Id = 949&InterfaceLanguage = 1&Type = Html http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id= 10579&InterfaceLanguage = 1&Type = Html

私はPerl-Wayに行くことができると思いましたが、よくわかりません。同じURL[以下を参照]で異なるクエリ引数を使用してLWP:: UserAgentを使用しようとしていたのですが、LWP::UserAgentがクエリ引数をループする方法はありますか?LWP::UserAgentにそれを行うためのメソッドがあるかどうかはわかりません。えーと、Mechanizeの方が使いやすいと時々聞いたことがあります。しかし、それは本当に簡単ですか!?

しかし-率直に言って; 最初のタスク「すべてのページを取得することはそれほど難しくありません-このタスクを解析と比較すると...これはどのように行うことができますか!?

任意のアイデア-提案-

あなたから聞くことを楽しみにしています...

4

1 に答える 1

1

Perlモジュールは必要ありません。必要なのはsystem関数だけです。

system qw[ tesseract.exe foo.png foo.txt ];
my $text = read_file('foo.txt');

Tesseractを支援するために、画像を前処理する必要がある場合があります。たとえば、ImageMagickを次のように使用します。

system qw[ convert.exe -resize 200%   image.jpg foo.png ];
于 2011-07-25T06:52:26.470 に答える