问题 使用Tesseract OCR进行汉字识别


我一直在使用Tesseract 3.0.2 OCR SDK进行图像文本提取。但是,如果我使用中文文本图像并通过OCR,那么Tesseract不会提供中文字符而不是我获得数字和英文字符。但是我需要在我正在使用的图像中显示中文字符。

我怎样才能做到这一点?有什么方法可以获得汉字而不是任何其他字符吗?


10504
2018-05-16 07:41


起源



答案:


您需要下载中文训练数据(它将是一个像 chi_sim.traineddata)并将其添加到您的 tessdata 夹。

要下载该文件 https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

并使用这样的

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

如果您有任何问题,可以从我的tessaract(中文支持)下载我的实验 https://github.com/aryansbtloe/ExperimentWithTesseract.git

我测试过这个......希望你会发现这个很有用。


11
2018-05-16 08:43



谢谢它的工作原理:-) - Nishant Tyagi
Alok,我尝试了你的样本,它在我试过的大约一半简体中文字符上运行良好。对于其余部分,它可以将复合字符识别为几个不同的字符,每个字符代表复合字符中的一个组件,或完全错误。您知道提高识别准确度的任何方法吗? - CodeBrew
新的训练有素的数据链接 github.com/tesseract-ocr/tessdata/raw/master/... - Régis B.


答案:


您需要下载中文训练数据(它将是一个像 chi_sim.traineddata)并将其添加到您的 tessdata 夹。

要下载该文件 https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

并使用这样的

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

如果您有任何问题,可以从我的tessaract(中文支持)下载我的实验 https://github.com/aryansbtloe/ExperimentWithTesseract.git

我测试过这个......希望你会发现这个很有用。


11
2018-05-16 08:43



谢谢它的工作原理:-) - Nishant Tyagi
Alok,我尝试了你的样本,它在我试过的大约一半简体中文字符上运行良好。对于其余部分,它可以将复合字符识别为几个不同的字符,每个字符代表复合字符中的一个组件,或完全错误。您知道提高识别准确度的任何方法吗? - CodeBrew
新的训练有素的数据链接 github.com/tesseract-ocr/tessdata/raw/master/... - Régis B.