3

これに飛び込みましょう。

わかりました、スクリプトを書く必要があります (どの言語かは気にしません。Python や Javascript などを好みますが、どのような機能でも学習に時間がかかります)。スクリプトは複数の URL にアクセスし、各サイトからテキストを抽出して PC のフォルダーに保存します。(そこから、やり方を知っている Python でデータを操作しています。)

編集:現在、私は python のNLTKモジュールを使用しています。これが私のコードの簡単なバージョンです:

url  = "<URL HERE>"
html = urlopen(url).read()
raw = nltk.clean_html(html)
print(raw)

このコードはhttphttpsの両方で正常に機能しますが、認証が必要なインスタンスでは機能しません。

安全な認証を扱う Python モジュールはありますか?

助けてくれてありがとう!そして、これを悪い質問と見なすモッズには、改善する方法を教えてください. Google ではなく、人からのアイデアが必要です。

4

1 に答える 1

1

Mechanize ( 2 ) は 1 つのオプションで、他は urllib2 だけです

于 2013-08-08T19:51:50.083 に答える