次のことができるwinformsアプリケーションを構築しようとしています:
- PDFファイルを取り込む
- データの抽出 (ある種のテンプレートまたは構成ファイルに基づく)
- データ テーブルの作成
- データ テーブルをシリアル化して Web サービスにアップロードする
現在、PDFファイルをテキスト文字列に変換していますが、テンプレートのフォーマットを考え出すのに苦労しています。最初に、独自の XML カスタム構成ファイルを作成しようとしました。これはプロジェクトの要件を満たしますが、必要な指示を十分に一般的な方法で表現することは非常に困難です。最初に、テキストを 1 行ずつ処理し、さまざまな命令に一連のフラグを使用してみました。この概念はうまくいくように思えましたが、データ テーブルが複数のページにまたがり、その間に無関係なテキストが含まれていることがよくあることに気付きました。私の最初の処理の試みは次のようになりました:
- 最初の命令を読み込む (開始フラグ、終了フラグ、アクション (テーブルの作成など)、およびテーブル構造)
- エンドフラグに達したら次の命令をロード
残念ながら、これはループを考慮していないか、これがすべて機能する方法を十分に制御していません。場合によっては、データのすべての行に追加される情報を取得する必要があります。キューに入れられた命令を使用してこれを行う方法を考え出し、テーブルの残りの部分が構築されたときに戻ってそれらを再度処理しました。ただし、各テーブルは命令に基づいて名前が付けられているため、ループの問題は依然として残っています。
現在、私は VTL を調べており、Vici のようなプロジェクトが役立つかどうかを確認しようとしています。必要なことを達成するためだけに疑似スクリプト言語を作成するところまで来ていますが、それは非常に困難になっています。
TLDR バージョン: ある種のテンプレートまたは構成ファイルを使用して、プレーン テキストからデータ テーブルを作成するのに役立つライブラリまたはプロジェクトはありますか?