hadoop - IBM BigSheets の問題

Question

HDFS (豚のスクリプトの出力であるファイル) から直接ファイルを大きなシートにロードする際にエラーが発生し、ローカルのハードディスクにある生データもエラーになります。ファイルをロードし、行数を発行してすべてのデータがビッグシートにロードされているかどうかを確認すると、ロードされる行数が少なくなることがわかりました。ファイルに一貫性があり、適切な区切り記号 (/t またはカンマ区切りのフィールド) があることを確認しました。ファイルのサイズは約 2GB で、*.csv/ *.tsv のいずれかの形式を使用しています。

また、Windows os から直接ファイルをロードするのに疲れた場合、データの実際の行数と一致する行数でファイルが正常にロードされることもあれば、より少ない数の行数でファイルがロードされることもあります。

新鮮なファイルが初めて使用される場合でも、正しい結果が得られることがありますが、次回同じ操作を行うと、いくつかの行が欠落します。

データ全体がロードされていないなどの問題の解決策など、ビッグシートの経験を共有してください。よろしくお願いします

score 0 · Accepted Answer

最初に BigSheets にロードするデータはサブセットにすぎません。完全なデータセットでシートを取得するには、シートを実行する必要があります。

http://www-01.ibm.com/support/knowledgecenter/SSPT3X_3.0.0/com.ibm.swg.im.infosphere.biginsights.analyze.doc/doc/t0057547.html?lang=en

hadoop - IBM BigSheets の問題

1 に答える 1

Related

Reference