data-formats - テキストデータベースファイルのファイルタイプを判別するのが難しい

Question

したがって、USDAには食品に関する一般的な栄養成分の奇妙なデータベースがあり、当然のことながら、アプリで使用するためにそれを盗むつもりです。しかし、とにかく行の形式は次のようになります。

~01001~^~0100~^~Butter, salted~^~BUTTER,WITH SALT~^~~^~~^~Y~^~~^0^~~^6.38^4.27^8.79^3.87
~01002~^~0100~^~Butter, whipped, with salt~^~BUTTER,WHIPPED,WITH SALT~^~~^~~^~Y~^~~^0^~~^6.38^4.27^8.79^3.87
~01003~^~0100~^~Butter oil, anhydrous~^~BUTTER OIL,ANHYDROUS~^~~^~~^~Y~^~~^0^~~^6.38^4.27^8.79^3.87
~01004~^~0100~^~Cheese, blue~^~CHEESE,BLUE~^~~^~~^~Y~^~~^0^~~^6.38^4.27^8.79^3.87

それらの奇妙で値~を^分離しているので、ヘッダー行もありませんが、それは大丈夫です、私は彼らのサイトの他のものからそれを理解することができます：http ://www.ars.usda.gov/Services/docs.htm?docid = 8964

どんな助けでも素晴らしいでしょう！重要な場合は、このデータをクエリするためにRubyを使用してオープン/無料のAPIを作成しています。

さらに、私はこの質問を提起するのに苦労しているので、私はそれをコミュニティwikiにして、私たち全員が参加できるようにしました！

score 3 · Accepted Answer

,これは、フィールド区切り文字がからに変更され^、引用文字がから"に変更されたことを除いて、非常に標準的なCSV（カンマ区切り値）ファイルのように見えます。~

残念ながら、私はどのライブラリを使用するかを推奨するRubyに精通していませんが、Perlには標準のCPANモジュールがたくさんあり、その中で最も優れたものを使用すると、CSVリーダーのフィールド区切り文字と引用文字の両方を構成できます... Rubyにも似たようなものがあるはずです-もしそうなら、あなたは幸運です！

score 1 · Accepted Answer

^フィールド区切り文字と文字列区切り文字のように見えます~。通常、私は,それらの役割で「」を見ることを期待しますが、非常に珍しい文字の選択は、次のような文字列を意味します

Cheese, Bleu

文字列パーサーですべてがトリッピーになるわけではありません。

data-formats - テキストデータベースファイルのファイルタイプを判別するのが難しい

2 に答える 2

Related

Reference