バックグラウンド
JasperServer でのドメイン作成の自動化を検討しています。ドメインは、アドホック レポートを作成するためのデータの「ビュー」です。列の名前は、人間が読める形式でユーザーに提示する必要があります。
問題
理論的には、組織がレポートに含めたい可能性のあるデータは 2,000 を超えます。データは、次のような人間にわかりやすい名前から提供されています。
支払い期間一致コード労働分配コーデッド従属関係アクションエンドオプションアクションエンドオプションデスアドレス型住所型記述履歴タイプ ps アドレス型ロール名銀行口座ステータス銀行口座ステータス記述銀行口座タイプ銀行口座タイプ記述受益者金額受益者クラス受益者パーセンテージ利益サブクラス受益者クラス受益者クラス記述利益アクションコード利益アクションコード化された利益年齢管理利益年齢管理説明年齢制限年齢管理通知期間
質問
そのような名前を次のように自動的に変更するにはどうすればよいでしょうか。
- 支払期間マッチコード
- 労働分配コードの説明
- 扶養関係
アイデア
Google のDid you meanエンジンを使用しますが、TOS に違反していると思います。
lynx -dump «url» | grep "Did you mean" | awk ...
言語
どの言語でも問題ありませんが、Perl などのテキスト パーサーが適していると思われます。(列名は英語のみです。)
不必要な予防
目標は、単語を分解する際の 100% の完璧さではありません。次の結果は許容されます。
- registrationeffectivedate -> 登録発効日
- registrationenddate -> 男性の登録日
- registrationrequirementset -> 登録要件セット
いずれにせよ、人間は結果を再確認し、多くを修正する必要があります。2,000 の結果セットを 600 の編集に絞り込めば、劇的な時間の節約になります。複数の可能性を持ついくつかのケース (例えば、セラピスト名)に固執することは、要点を完全に見逃すことです。