私はETL
テキストファイル出力を与えるものを持っています、そして私はそれらのテキストコンテンツがerror or bad
pentahoを使って単語を持っていることをチェックしなければなりません。
それを見つける簡単な方法はありますか?
これらのファイルを自分で作成している場合は、その内容を既に知っていますか? そのため、すでにメモリ内にフィールドがある時点でフィールドをスキャンします。
Pentaho がファイルにエラーを書き込んだかどうかを確認しようとしている場合は、アウトプット ステップでエラー処理を使用する必要があります。
最後に、PDI はテキスト検索ツールではありません。本当にこれを行う必要がある場合、おそらく最善の策は古き良きgrep..
多数のファイルを処理しようとしている場合は、Get Filenames ステップを使用してすべてのファイル名を取得できます。次に、テキスト ファイルが小さい場合は、Get File Content ステップを使用してファイル全体を 1 つの行として取得し、Java フィルターまたはその他の一致ステップ (RegEx など) を使用して単語を検索できます。テキスト ファイルが大きすぎて、行ベースまたは固定形式である場合 (テキスト ファイル出力ステップを使用した場合にそうなる可能性が高い)、テキスト ファイル入力ステップを使用して行を取得してから、マッチャー ステップ (上記を参照) をクリックして、行内の単語を検索します。次に、Filter Rows ステップを使用して単語を含む行のみを選択し、次に Select Values を使用してファイル名のみを選択し、次にファイル名での Sort Rows、次に Unique Rows ステップを使用できます。結果は、検索語を含むファイル名のリストになります。これは多くのステップのように見えるかもしれませんが、しかし、Pentaho Data Integration または PDI (別名 Kettle) は、明確な (そして非常に再利用可能な) 機能を備えたステップの流れになるように設計されています。小さいが「PDI」の少ない方法は、ユーザー定義の Java クラス (または他のスクリプト) ステップを記述してすべての作業を行うことです。このソリューションはステップ数が少ないですが、設定や再利用があまりできません。