おはようございます。
初めに。これは私が今まで見た中で最も印象的なコミュニティです!
さて数日私はの三つ折りの仕事について考えました
a。取得b。解析c。ページ数を保存します。
2日前、私はページを取得することが主要なタスクになるだろうと思いました。いいえ、そうではありません-パーサージョブは英雄的な仕事になると思います。解析対象の各ページはpng画像です。
したがって、問題は、すべてを取得した後です。それらを解析する方法!?これが問題のようです。そこにいくつかのperlモジュールがあると思います-これを行うのに役立ちます...
ええと、この仕事はいくつかのOCRが埋め込まれている場合にのみ実行できると思います!質問:このタスクをサポートするためにここで使用できるperlモジュールはありますか?
ところで:結果ページを参照してください。
ところで;:そして私が思ったように、私はId=0とId=100000の間の特定の範囲内で、790の結果ページすべてを見つけることができると思いました。
http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage3%Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html http://www.foundationfinder。 ch / ShowDetails.php?Id = 949&InterfaceLanguage = 1&Type = Html http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id= 10579&InterfaceLanguage = 1&Type = Html
私はPerl-Wayに行くことができると思いましたが、よくわかりません。同じURL[以下を参照]で異なるクエリ引数を使用してLWP:: UserAgentを使用しようとしていたのですが、LWP::UserAgentがクエリ引数をループする方法はありますか?LWP::UserAgentにそれを行うためのメソッドがあるかどうかはわかりません。えーと、Mechanizeの方が使いやすいと時々聞いたことがあります。しかし、それは本当に簡単ですか!?
しかし-率直に言って; 最初のタスク「すべてのページを取得することはそれほど難しくありません-このタスクを解析と比較すると...これはどのように行うことができますか!?
任意のアイデア-提案-
あなたから聞くことを楽しみにしています...
零