pdf から抽出したさまざまなデータ構造を含む何百万もの単純な txt ドキュメントがあり、テキストは行ごとに印刷されるため、すべての書式設定が失われます (書式を維持するためのツールを試したところ、めちゃくちゃになってしまったためです)。このテキスト ドキュメントからフィールドとそこの値を抽出する必要がありますが、これらのファイルの構造にはいくつかのバリエーションがあります (あちこちに新しい行があり、一部のシートにノイズがあるためスペルが正しくありません)。
キーワードと値の座標 (行、単語/単語番号) に関する情報を使用してある種のテンプレート構造を作成し、この情報を使用して、さまざまなアルゴリズムを使用してそのようなキーワード値を見つけて収集し、一貫性のない書式設定を補うと考えていました。
これを行う標準的な方法、役立つリンクはありますか? 他のアイデアはありますか?