linecache を使用して Pytorch で遅延データローダーを作成しました。これは、Pytorch の build_vocab でボキャブラリを構築するためにも使用する tsv ファイルから取得されるため、各列のタイトルのヘッダー行が必要です。
getitem を使用しているデータセットの場合:
def __getitem__(self, index):
"Generates one sample of data"
line = linecache.getline(self._filepath, index + 1)
ただし、linecache はファイル全体をメモリにロードしないため、tsv ファイルの最初の行/ヘッダーをスキップする明らかな方法はありません。「if index == 0: pass」を試しましたが、これは明らかに None を返し、別のエラーをスローしました。
私の現在の解決策は、ヘッダー付きとヘッダーなしの 2 つの tsv を持つことです。