でデータセットをエクスポートしました
df[['src', 'trg']].to_csv('dataset.csv', index=False, quoting=csv.QUOTE_ALL)
表のセルにコンマがまったくないことを確認しました。ただし、ファイルを読み込もうとすると
from torchtext.data import TabularDataset
dataset = TabularDataset(os.path.abspath('dataset.csv'), format='csv', fields=['src', 'trg'])
私は得る:
ValueError: アンパックする値が多すぎます (予想される 2)
データは次のようになります。
$ head dataset.csv
"src","trg"
"S( CC) /C(=N\ [H] ) N","[H] /N=C(/ N) S CC"
"[CH2:0] 1 [CH2:0] [N:0] ( [CH2:0] [CH:0] 2 [CH2:0] [N:0] ( [C:0] ( [O:0] [CH3:0] ) = [O:0] ) [CH2:0] [CH2:0] [N:0] 2 [C:0] ( [CH2:0] [c:0] 2 [cH:0] [c:0] ( [Cl:0] ) [c:0] ( [Cl:0] ) [cH:0] [cH:0] 2) = [O:0] ) [CH2:0] [CH2:0] 1","[CH3:0] [O:0] [C:0] ( = [O:0] ) [N:0] 1 [CH2:0] [CH2:0] [N:0] ( [C:0] ( = [O:0] ) [CH2:0] [c:0] 2 [cH:0] [cH:0] [c:0] ( [Cl:0] ) [c:0] ( [Cl:0] ) [cH:0] 2) [CH:0] ( [CH2:0] [N:0] 2 [CH2:0] [CH2:0] [CH2:0] [CH2:0] 2) [CH2:0] 1"
特に、セルには が含まれています\
。