java - PDI スプーンステップでの HTML スクレイピング (ユーザー定義の Java クラス)

Question

こんにちは、HTTP Clientステップを使用して Web サイトのソースコードを取得しています。1 行の特定の部分をかき出す必要があります。

例の行:<a href="....." ......>TEXT I WANT</a>

そのため、PDI で UDJC を使用し、最初にテキストブロックを行に分割してString[] lines = code.split("\n+");から、配列をループし、if 条件 (正規表現チェック) を使用して、正しい行があるかどうかを確認します。

for(String line : lines){
        if line.matches(".*a href.*"){
            String outputString = code;
            break;
        }
    }

（私はこれをPDIなしの純粋なJavaとしてIDEでも試しています）しかし、ヒットすることはありません。これを修正する方法はありますか？または、必要なチャンクを取得するためのより速くて簡単な方法はありますか?

score 1 · Accepted Answer

同様のケースでフィルターステップを使用して、あなたがしたいことをします

変換手順:

フィールド「dom」、タイプ文字列で行を生成します重要: 制限は 1 にする必要があります // pentaho には https-step のフィールドが必要ですが、次の手順では必要ありません
http-step、html-dump を取得し、フィールド名「html」またはそのようなものを設定します (ステータスコードフィールドが適している場合があります) // データが存在するかどうかをプレビューで確認します
filter-step: http includes "<a href" // 出力を確認
正規表現* を使用した JavaScript-Step で、必要な出力を含む新しいフィールドを定義します

java - PDI スプーン ステップでの HTML スクレイピング (ユーザー定義の Java クラス)