0

データベース フィールドに、構造化されていない一般的に汚れたデータがあります。データに一貫性のある共通の構造があります

すなわち:

field:

name:value 

fieldset: 

nombre <FieldSet>
field,
  .
  .
  .
field(n)

table

nombre <table>
head(1)... head(n)
val(1)...  val(n)
      .
      .
      .

これらのデータ構造を抽出して学習/理解し、ファイルを解析し、検証チェックを実行できるマップまたはオブジェクトに変換できるツール (できれば Java) があるかどうか疑問に思っていました。

私は Antlr を認識していますが、これはツリー構造を対象としており、独立したデータ ビットではないことを理解しています (これは間違っていますか?)

全体として問題について何か提案はありますか?

4

3 に答える 3

2

私はタレントをお勧めします。非常に用途の広いオープンソースのデータ統合ツールです。それはジャバに基づいています。組み込みツール/コンポーネントを使用して、非構造化データ ソースからデータを抽出できます。複雑なカスタム Java コードを記述して、必要なことを行うこともできます。

私はTalendを私のいくつかの科学的概念実証プロジェクトで使用しました。それは私のために働いた。良いところは、無料です!

于 2011-04-06T12:57:42.227 に答える
0

We ended up using antlr for this, it required us to make multiple lexers where one lexer would manipulated the input for the next lexer.

Another project is pads - wrote in C

于 2011-04-12T22:36:46.483 に答える