私が働いている会社は、数か月以内にサイトの再設計を行う予定です。必要なものの 1 つは、サイトのすべてのページのすべての URL を含むテーブルです。次に、事前定義された一連の JavaScript 変数 (この場合は Omniture 変数) の値を含む列が最適であり、各ページがサイト階層内の場所で適切にタグ付けされていることを確認できます)。
特定のページの HTML に含まれる内容の例を次に示します。
<script type="text/javascript">
metrics_level2 = "biz";
metrics_level3 = "products";
metrics_level4 = "my_awesome_product";
metrics_pagename = "biz|products|my_awesome_product";
</script>
RapidMiner を使用してサイトをクロールし、データの準備が整いましたが、私の問題は、これらの変数を分離し、"metrics_level2"、"metrics_level3" などを独自の列に配置する最善の方法です。XPathはそれを行うための最良の方法ですか? 正規表現?私の XPath での試みは、タグ間のコンテンツ全体を取り込んでいるように見えます。これには、事後に多くのクリーンアップが必要です。