freebase - Google RefineでURLを取得するときに大きなデータセットを処理するには?

Question

だから、私はフリーベースから約190000タイトルの映画名を含むExcelシートを持っています.ウィキペディアからタイトルごとにURLを取得して情報を取得したいのですが、これには長い時間がかかります.コンピューターを8時間実行したままにしておきました. 2％に。時々インターネットが切れてしまい、最初からやり直さなければなりません。とにかく、一度にこの 100 レコードを実行し、ファイルの最後まで続行して、インターネットが切断された場合にプロセスを再開できるようにすることはできますか?

どうもありがとう。

score 1 · Accepted Answer

~200K のフェッチは、Freebase または Wikipedia の一括ダンプの使用を検討し始める必要があると思われます。デフォルトの Refine fetch rate 間隔は 5000 ミリ秒 (つまり 5 秒) で、ほとんどの Web サービスが必要とするよりもはるかに長いです。おそらく、それを 500 ミリ秒以下に下げることができます。

パソコンから何かを実行する必要はありません。Amazon の EC2 または別のサービスを永続的な接続と設計されたアップタイムで使用できます。

残念ながら、Refine の「URL を取得して列を追加する」操作は現在再開できないため、完了できることを確認する必要があります。稼働時間/接続性を保証できない場合、他の唯一の解決策は、a) より小さなチャンクで操作を行うか、b) 別のツールを使用することです。

freebase - Google RefineでURLを取得するときに大きなデータセットを処理するには?

1 に答える 1

Related

Reference