2

Pentaho Data Integration で変換を行います。最初に行うことは、「CSV 入力」を使用してフラット ファイルをマッピングすることです。

Windowsで問題が発生したことはありませんが、現在、スプーンが実行されるサーバーをLinuxサーバーに変更しており、特殊文字に問題があります。

最初に気付いたのは、システムが名前をデータベースにあるものとは異なる文字列として認識していたため、テーブルが更新されていることでした。

問題を確認したところ、[CSV 入力] -> [プレビュー] に移動すると、上記の問題のあるデータのプレビューが表示されることにも気付きました。

特殊文字は表示されません

あるべき場所:

Diretoria de Suporte à Decisão e Aplicação

コマンドを使用してファイルの charset/codification を確認したところ、次のように表示されました。

$ file -bi foo.csv
text/plain; charset=iso-8859-1

vi で foo.csv を開くと、特殊文字が理解されます。

何が問題なのか、何を試すべきなのかについて何か考えはありますか?

4

1 に答える 1

2

私はこのエンコーディングのデータ ファイルを持っていないので、実験を行う必要がありますが、これらの問題に対処するための手順がいくつかあります。

まず、CSV Inputステップには、ソース ファイルのエンコーディングを選択できるフィールドがあります。このText File Inputステップには、「コンテンツ」タブの下に「フォーマット」(行ターミネーターを意味する) と「エンコード」セレクターの両方があります。

Transforms ではChange file encoding、Utility タブの下にステップがあります。この手順は、エンコーディングを変更しながら多くのファイルをコピーするように設計されています。それがトランスフォームにある理由です。

ジョブでConvert file between Windows and Unixは、[ファイル管理] タブの下にステップがありますが、これは行末記号のみを処理するように見えます。

いずれにしても、CSV/テキスト ファイルの入力手順がニーズに合わない場合は、ファイルを読み込む前に新しいエンコーディングにコピーする必要があります。おそらく、ファイルの入力手順で処理してみるのが最も簡単でしょう。最初。

于 2015-05-28T23:25:25.160 に答える