36k行のデータを含むgooglerefineプロジェクトがあります。freebaseurlからjsonデータをフェッチする別の列を追加したいと思います。小さなデータセットで動作させることができましたが、このプロジェクトで実行すると、処理に数時間かかり、ほとんどの結果が空白になりました。しかし、私はデータでいくつかの結果を得ました。データがフェッチされる行数を制限する方法、またはURLからデータを取得するためのより良い方法はありますか?
ありがとう!
36k行のデータを含むgooglerefineプロジェクトがあります。freebaseurlからjsonデータをフェッチする別の列を追加したいと思います。小さなデータセットで動作させることができましたが、このプロジェクトで実行すると、処理に数時間かかり、ほとんどの結果が空白になりました。しかし、私はデータでいくつかの結果を得ました。データがフェッチされる行数を制限する方法、またはURLからデータを取得するためのより良い方法はありますか?
ありがとう!
Freebase からデータを追加する場合は、「URL を取得して列を追加する」よりも「Freebase から列を追加する」を使用した方がよいでしょう。
ファセットは最も強力な Google Refine 機能の 1 つであり、あらゆる種類のものを制御するために使用できます。この場合、ファセットを使用してデータのサブセットを選択し、そのサブセットに対してのみフェッチを実行できます (その後、別のサブセットで繰り返します)。
Refine の次のバージョンには、このような問題のデバッグに役立つ URL フェッチの結果に関するより優れたエラー レポートが含まれますが、リクエストの総数、1 秒あたりのリクエスト、等