2

私は現在、ヨーロッパの財団に関するデータを含むサイトを解析するアプローチに取り組んでいます。

http://www.foundationfinder.ch/には 790 の財団のデータセットがあります。すべてのデータは自由に使用でき、著作権の制限はありません。

目標は何ですか: データを解析してローカルに保存したい: より良い検索とより便利な使用方法のために: おそらく、それを Calc に保存することも、より良い MySQL-Database にすることもできます。

質問: Perl で HTML を解析する最も簡単な方法は何ですか? LWP と Mechanize のどちらを使用する必要がありますか?

何人かの友人が私に Python を試してみるように言った!? 美しいスープ。Perl LWP や Python Beautiful Soup を使ったアプローチを考えました。私が見ることができないようなサイトを解析するための他のアプローチ。さて、方法があります-PHPを使用します。はい、どうにかして PHP (および Curl) を使用できます。

どのアプローチが最適です。Perl と LWP または Mechanize? またはPythonのもの...?

言語の問題以外に、最初のステップで誰か助けてくれませんか? ・トラックに乗るのを手伝う!? ご連絡をお待ちしております

よろしくゼロ

4

3 に答える 3

1

すべてのデータは自由に使用でき、著作権の制限はありません。

私はそう確信していません。彼らは、「メーリングリストを作成するためにデータをテーブルに保存できない」ように、連絡先データを難読化しようとしています。基盤の詳細は HTML ではなく、画像です。さらに、検索結果を最大 100 に制限しています。ドイツ語を理解できる場合は、Informationen の「Daten Schutz」(データ保護) セクションを読む必要があります。

財団の名前をサイトで使用できる検索条件にリンクすることだけが必要な場合は、他の回答を参照してください. 詳細な情報を保存したい場合は、サイトの意図に違反することになり、弁護士の発言に法的メリットがあるかどうかについて弁護士に相談する必要があります。さらに、画像を使用可能なデータに戻すにはOCRが必要です。

于 2011-05-14T14:05:11.110 に答える
1

私の二セントは、あなたが最もよく知っている言語に従って選択しなければならないということです. 私だったら、多数のライブラリとツールを備えた Python を使用し、数時間の作業のようなものになるでしょう。

ただし、Perl または PHP に精通している場合は、これらの言語のいずれかを選択する必要があります。ほとんどのスクリプト言語には、タスクを実行できるライブラリがあります。

于 2011-05-14T13:33:05.577 に答える
1

あなたはどちらが得意ですか?PHPまたはPython?この種のことになると、確かに比較の議論以上のものがあるでしょうが、それには触れないようにしましょう. よく知っている方を選んでください。Perl や Python、PHP と言う人もいますが、それぞれに独自の利点があります。最終的にはあなたがコーディングすることになるので、あなたがよく知っている人を選んでください。

于 2011-05-14T13:38:56.823 に答える