pentaho - ペンタホでテキストファイルの内容を探す方法は？

Question

私はETLテキストファイル出力を与えるものを持っています、そして私はそれらのテキストコンテンツがerror or badpentahoを使って単語を持っていることをチェックしなければなりません。

それを見つける簡単な方法はありますか？

score 1 · Accepted Answer

これらのファイルを自分で作成している場合は、その内容を既に知っていますか? そのため、すでにメモリ内にフィールドがある時点でフィールドをスキャンします。

Pentaho がファイルにエラーを書き込んだかどうかを確認しようとしている場合は、アウトプットステップでエラー処理を使用する必要があります。

最後に、PDI はテキスト検索ツールではありません。本当にこれを行う必要がある場合、おそらく最善の策は古き良きgrep..

score 1 · Accepted Answer

多数のファイルを処理しようとしている場合は、Get Filenames ステップを使用してすべてのファイル名を取得できます。次に、テキストファイルが小さい場合は、Get File Content ステップを使用してファイル全体を 1 つの行として取得し、Java フィルターまたはその他の一致ステップ (RegEx など) を使用して単語を検索できます。テキストファイルが大きすぎて、行ベースまたは固定形式である場合 (テキストファイル出力ステップを使用した場合にそうなる可能性が高い)、テキストファイル入力ステップを使用して行を取得してから、マッチャーステップ (上記を参照) をクリックして、行内の単語を検索します。次に、Filter Rows ステップを使用して単語を含む行のみを選択し、次に Select Values を使用してファイル名のみを選択し、次にファイル名での Sort Rows、次に Unique Rows ステップを使用できます。結果は、検索語を含むファイル名のリストになります。これは多くのステップのように見えるかもしれませんが、しかし、Pentaho Data Integration または PDI (別名 Kettle) は、明確な (そして非常に再利用可能な) 機能を備えたステップの流れになるように設計されています。小さいが「PDI」の少ない方法は、ユーザー定義の Java クラス (または他のスクリプト) ステップを記述してすべての作業を行うことです。このソリューションはステップ数が少ないですが、設定や再利用があまりできません。

pentaho - ペンタホでテキストファイルの内容を探す方法は？

2 に答える 2

Related

Reference