HDFS (豚のスクリプトの出力であるファイル) から直接ファイルを大きなシートにロードする際にエラーが発生し、ローカルのハード ディスクにある生データもエラーになります。ファイルをロードし、行数を発行してすべてのデータがビッグシートにロードされているかどうかを確認すると、ロードされる行数が少なくなることがわかりました。ファイルに一貫性があり、適切な区切り記号 (/t またはカンマ区切りのフィールド) があることを確認しました。ファイルのサイズは約 2GB で、*.csv/ *.tsv のいずれかの形式を使用しています。
また、Windows os から直接ファイルをロードするのに疲れた場合、データの実際の行数と一致する行数でファイルが正常にロードされることもあれば、より少ない数の行数でファイルがロードされることもあります。
新鮮なファイルが初めて使用される場合でも、正しい結果が得られることがありますが、次回同じ操作を行うと、いくつかの行が欠落します。
データ全体がロードされていないなどの問題の解決策など、ビッグシートの経験を共有してください。よろしくお願いします