parsing - ずさんな/風変わりな/「ほぼ構造化された」データを解析するための背景資料?

Question

テキストの「ほぼ構造化された」形式で存在するデータを解析する必要があるプログラムを維持しています。つまり、それを生成するさまざまなプログラムはわずかに異なる形式を使用し、印刷されてエラーが発生して OCR が返された可能性があります (ええ、私は知っています)。モードなど。私は物事が適切に動作する場合の解析の理論と実践にある程度精通しており、優れた解析フレームワークなどがあるため、イライラしますが、データの信頼性が低いため、非常にいくつかのことを書くようになりましたずさんなアドホックコード。現時点では問題ありませんが、より多くのバリエーションとより複雑なデータを処理するために拡張するにつれて、物事が手に負えなくなるのではないかと心配しています. だから私の質問は：

関連することを実行する既存の商用製品がかなりの数あるため (Web ブラウザーの「癖モード」、コンパイラーのエラー解釈、さらには自然言語処理やデータマイニングなど)、賢い人たちが考えを巡らせていることは確かです。これ、および理論を開発しようとしたので、可能な限り原則に基づいた方法で非原則的なデータを解析することに関する背景を読むための最良の情報源は何ですか?

私はこれがいくらかオープンエンドであることを理解していますが、私の問題は、尋ねるべき正しい質問が何であるかを知るために、より多くの背景が必要だと思うことです.

score 1 · Accepted Answer

あなたが提案したものと、生の牛肉風味のマーマレードで覆われ、両手を背中の後ろで縛られている間に空腹のワニと戦うことの間の選択を考えると、私は...

もっと深刻なことに、「正気の」構造に従わないデータがある場合は、データを調べてその中の癖の頻度を見つけ、特定のコンテキストのデータを相関させる必要があります（つまり、生成されました）

データを取得するためにOCRに印刷すると、ほとんどの場合、失恋につながります。私が働いている会社は、そのようなドキュメントを手動で読み、既知の問題のあるOCRシナリオのデータ、または元のOCRが失敗したことを顧客が検出したドキュメントを「コード化」（つまり手作業で入力）する真の軍隊を採用しています。

「構文解析フレームワーク」を活用することに関しては、これらは常にあなたがレイアウトした文法規則に従うデータを期待する傾向があります。あなたが説明したデータには、そのような保証はありません。そのルートに行く場合は、予期しない（必ずしも明白ではありませんが）障害に備えてください。

元のデータファイルを取得する方法があれば、ぜひそうしてください。または、データを提供する人がデータを単一の明確に定義された形式で提供するように要求できる場合は、さらに優れています。（「あなたの」フォーマットではないかもしれませんが、少なくともそれはあなたが変換できる通常の予測可能なフォーマットです）

parsing - ずさんな/風変わりな/「ほぼ構造化された」データを解析するための背景資料?

1 に答える 1

Related

Reference