これに飛び込みましょう。
わかりました、スクリプトを書く必要があります (どの言語かは気にしません。Python や Javascript などを好みますが、どのような機能でも学習に時間がかかります)。スクリプトは複数の URL にアクセスし、各サイトからテキストを抽出して PC のフォルダーに保存します。(そこから、やり方を知っている Python でデータを操作しています。)
編集:現在、私は python のNLTK
モジュールを使用しています。これが私のコードの簡単なバージョンです:
url = "<URL HERE>"
html = urlopen(url).read()
raw = nltk.clean_html(html)
print(raw)
このコードはhttpとhttpsの両方で正常に機能しますが、認証が必要なインスタンスでは機能しません。
安全な認証を扱う Python モジュールはありますか?
助けてくれてありがとう!そして、これを悪い質問と見なすモッズには、改善する方法を教えてください. Google ではなく、人からのアイデアが必要です。