Tess-two を OCR ドキュメントに使用しています。Tesseract のチームは素晴らしい仕事をしたようで、結果は非常に良好です!!
しかし今は、user_data ファイルの単語だけを使用したいと考えています。
ここでhttps://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-dataが非常に良い例です。Android プロジェクトで、Tesseract のリンクが示唆するすべてのファイルを見つけましたが、プログラムに user_data ファイルの単語を使用させることはできません。configs フォルダーに .bazaar ファイルが見つかりましたが、コードでこれを設定するにはどうすればよいですか??
私が見逃しているものはありますか?
以下は、tessbaseApi を初期化し、コマンドを設定するコードの一部です。
TessBaseAPI baseApi = new TessBaseAPI();
baseApi.setDebug(true);
baseApi.init(Environment.getExternalStorageDirectory() + "/EMB/dataBase/", "eng");
baseApi.setPageSegMode(TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_AUTO_OSD);
baseApi.setPageSegMode(TessBaseAPI.PageSegMode.PSM_SINGLE_LINE);
baseApi.ReadConfigFile("/path/to/configs/bazaar");
baseApi.setImage(myBitmap);
//variable for recognizing
String recognizedText = baseApi.getUTF8Text();
/*recognizedText = recognizedText.replaceAll(blackList, "");//remove space*/
String resultTxt = recognizedText;
//
baseApi.end();
ocrreadytext.setText(resultTxt);
前もって感謝します!