テキストの「ほぼ構造化された」形式で存在するデータを解析する必要があるプログラムを維持しています。つまり、それを生成するさまざまなプログラムはわずかに異なる形式を使用し、印刷されてエラーが発生して OCR が返された可能性があります (ええ、私は知っています)。モードなど。私は物事が適切に動作する場合の解析の理論と実践にある程度精通しており、優れた解析フレームワークなどがあるため、イライラしますが、データの信頼性が低いため、非常にいくつかのことを書くようになりましたずさんなアドホック コード。現時点では問題ありませんが、より多くのバリエーションとより複雑なデータを処理するために拡張するにつれて、物事が手に負えなくなるのではないかと心配しています. だから私の質問は:
関連することを実行する既存の商用製品がかなりの数あるため (Web ブラウザーの「癖モード」、コンパイラーのエラー解釈、さらには自然言語処理やデータ マイニングなど)、賢い人たちが考えを巡らせていることは確かです。これ、および理論を開発しようとしたので、可能な限り原則に基づいた方法で非原則的なデータを解析することに関する背景を読むための最良の情報源は何ですか?
私はこれがいくらかオープンエンドであることを理解していますが、私の問題は、尋ねるべき正しい質問が何であるかを知るために、より多くの背景が必要だと思うことです.