PDF ドキュメントの言語を見つけて分類しようとしています。私が直面している主な問題は、ドキュメントがスキャンされた PDF ドキュメントであることです。フォントや Unicode の手がかりはありません。
したがって、Apache Tikkaはここではあまり役に立ちません。
tesseract を使用してドキュメントを PDF からテキストに変換し、抽出したテキストを Google サービスに渡してみましたが、正常に動作します。しかし、次の 3 つの問題があります。
Tesseractは高品質の画像のみを変換できます。
スペイン語、フランス語などの英語に似た言語を実行できますが、日本語、中国語などでは失敗します.
ドキュメントのテキストは機密であり、すべての操作は内部で行う必要があります。
現在、スキャンした PDF ドキュメント全体で機能するスタンドアロンの言語検出コンポーネントを探しています。