私は次のようなデータセットを持っています - 私は正規表現に非常に慣れておらず、いくつかの貧弱な試みにもかかわらず、「ツリーを歩く」という知識がありません - Excel の列へのテキストは、さまざまな用語クラス/タグの無意味な組織のために役に立ちませんEFFECT_DATA フィールドと手動で調整することによって導入されたエラーで。
サンプルデータ
ROW_ID|NAME | UNORDERED_CSV_CONCATD_TAG_DATA_STRING
123456|Prod123|"Minoxidistuff [MoA], Direct [PE], Agonists [EPC]"
123457|Prod124|"Minoxion [Chem], InterferonA [EPC], Delayed [PE]"
123458|Prod125|"Anotherion [EPC], Direct [MoA], Agonists [EPC]"
123459|Prod126|"Competitor [PE], Progestin [EPC], Agonists [EPC]"
123460|Prod127|"Minoxidistuff [Chem]"
必要なデータ出力のサンプル:
PRODUCT|EPC |
Prod125|Antherion|
Prod125|Agonists |
PRODUCT|CMPD |
Prod127|Minoxidistuff|
Prod124|Minoxion |
product[i]tag[j] のすべてのタグについて、それが理にかなっていれば、基本的に ea. CSVD_TAG_DATA フィールドの順序が正しくなく、複数のタグが含まれています (目的の用語の末尾に.
私は多次元ハッシュアプローチを開始しています。つまり、私の肉屋の正規表現擬似コードを許してください。
どうもありがとう。