2

Talendで解析したい珍しい区切り文字を含むCSVファイルがあります。通常、「キャリッジ リターン」文字を行区切りとして使用する CSV がある場合は、「\n」を使用します。TAB区切りファイルの場合は「\t」などを使います。しかし今、私はいくつかの変わった文字を含むファイルを持っています. ウィキペディアは、それがいわゆる「制御文字」であることを教えてくれました。私の質問は、Talend の tFileDelimitedInput-component でこれらの文字をどのように言及できるかということです (スクリーンショット 2 を参照)。改行文字 (\n) の代わりに STX 制御文字を使用する必要がありますが、これがどの文字であるかを Talend に伝えるにはどうすればよいですか? そもそも「\n」って何の表記?

ファイルの例:

https://dl.dropbox.com/u/1757832/talendSeparators1.jpg

行区切り文字とフィールド区切り文字を入力する必要があるTalendのtFileDelimitedInputコンポーネント。

https://dl.dropbox.com/u/1757832/talendSeparators2.jpg

4

1 に答える 1

3

tFileDelimitedInputそのファイルのメタデータを作成しようとしましたか?

そうすることで、より多くのオプションがあります(添付の写真を参照)。

ここに画像の説明を入力

編集 :

UTF-8対応する制御文字コードのリストは次のとおりです。

SOH : 見出しの開始 : http://www.fileformat.info/info/unicode/char/0001/index.htm STX : テキストの開始 : http://www.fileformat.info/info/unicode/char/0002 /index.htm

これらの utf-8 コードも使用してみましたか?

EDIT 2ソリューション付き:

STXフィールドセパレーターを含むファイルは次のとおりです

ファイルの内容

tFileInputDelimited2 つの列 (キーと値は両方とも文字列) を持つ単純なスキーマを定義しました。

次に、設定しました:

  1. 行セパレータとして"\n"
  2. フィールドセパレータとしてnew String("\u0002")

次に、私は正しい動作をしています:

.----+------.
| tLogRow_1 |
|=---+-----=|
|key |value |
|=---+-----=|
|key1|value1|
|key2|value2|
'----+------'
于 2013-01-09T14:16:06.893 に答える