pdf - スキャンした PDF ドキュメントからの言語検出

翻译自：https://stackoverflow.com/questions/15636361 2013-03-26T11:48:53.953

1070 次

PDF ドキュメントの言語を見つけて分類しようとしています。私が直面している主な問題は、ドキュメントがスキャンされた PDF ドキュメントであることです。フォントや Unicode の手がかりはありません。

したがって、Apache Tikkaはここではあまり役に立ちません。

tesseract を使用してドキュメントを PDF からテキストに変換し、抽出したテキストを Google サービスに渡してみましたが、正常に動作します。しかし、次の 3 つの問題があります。

Tesseractは高品質の画像のみを変換できます。
スペイン語、フランス語などの英語に似た言語を実行できますが、日本語、中国語などでは失敗します.
ドキュメントのテキストは機密であり、すべての操作は内部で行う必要があります。

現在、スキャンした PDF ドキュメント全体で機能するスタンドアロンの言語検出コンポーネントを探しています。

0 に答える 0