parsing - 汚れたデータからデータ構造を抽出するツール

Question

データベースフィールドに、構造化されていない一般的に汚れたデータがあります。データに一貫性のある共通の構造があります

すなわち：

field:

name:value 

fieldset: 

nombre <FieldSet>
field,
  .
  .
  .
field(n)

table

nombre <table>
head(1)... head(n)
val(1)...  val(n)
      .
      .
      .

これらのデータ構造を抽出して学習/理解し、ファイルを解析し、検証チェックを実行できるマップまたはオブジェクトに変換できるツール (できれば Java) があるかどうか疑問に思っていました。

私は Antlr を認識していますが、これはツリー構造を対象としており、独立したデータビットではないことを理解しています (これは間違っていますか?)

全体として問題について何か提案はありますか?

score 2 · Accepted Answer

私はタレントをお勧めします。非常に用途の広いオープンソースのデータ統合ツールです。それはジャバに基づいています。組み込みツール/コンポーネントを使用して、非構造化データソースからデータを抽出できます。複雑なカスタム Java コードを記述して、必要なことを行うこともできます。

私はTalendを私のいくつかの科学的概念実証プロジェクトで使用しました。それは私のために働いた。良いところは、無料です！

score 0 · Accepted Answer

We ended up using antlr for this, it required us to make multiple lexers where one lexer would manipulated the input for the next lexer.

Another project is pads - wrote in C

parsing - 汚れたデータからデータ構造を抽出するツール

3 に答える 3

Related

Reference