主にテキストで構成されるスキャンされたページを分類する方法を探しています。
これが私の問題の詳細です。スキャンされたドキュメントの膨大なコレクションがあり、これらのドキュメント内の特定の種類のページの存在を検出する必要があります。ドキュメントを構成ページ (それぞれが個別の画像) に「バースト」し、これらの各画像を「A」または「B」に分類する予定です。しかし、これを行う最善の方法がわかりません。
詳細:
- 「A」と「B」の画像(ページ)の例がたくさんあるので、教師あり学習を行うことができます。
- トレーニングのためにこれらの画像から特徴を最適に抽出する方法は私にはわかりません。たとえば、それらの機能は何ですか?
- ページはときどきわずかに回転するため、分類が回転や (程度は低いが) スケーリングの影響を受けないようにするとよいでしょう。
- 理想的には、純粋な python または共通ライブラリを使用したクロスプラットフォーム ソリューションが必要です。
- 私は OpenCV の使用を考えましたが、これは「重い」ソリューションのようです。
編集:
- 「A」ページと「B」ページの違いは、「B」ページには、バーコードの存在を含め、同じ一般的な構造を持つフォームがあることです。「A」ページはフリーテキストです。