我正在使用 Tesseract 来阅读日语文本。我从 OCR 收到以下文本。
日付 請求書
C++代码
extern "C" _declspec(dllexport) char* _cdecl Test(char* imagePath)
{
char *outText;
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
// Initialize tesseract-ocr with English, without specifying tessdata path
if (api->Init("D:\\tessdata", "jpn", tesseract::OcrEngineMode::OEM_TESSERACT_ONLY))
{
fprintf(stderr, "Could not initialize tesseract.\n");
}
api->SetPageSegMode(tesseract::PageSegMode::PSM_AUTO);
outText = api->GetUTF8Text();
return outText;
}
C#
[DllImport(DllName, CallingConvention = CallingConvention.Cdecl)]
public static extern string Test(string imagePath);
void Tessrect()
{
string result = Test("D:\\japan4.png");
byte[] bytes = System.Text.Encoding.Default.GetBytes(result);
MessageBox.Show(System.Text.Encoding.UTF8.GetString(bytes));
}
输入文件:、
上面的代码在窗口英语中工作正常。但它在窗口日语中不起作用。它在 windows 的 Japanes 操作系统中给出了错误的输出。
任何人都可以指导我如何正确使用 Japanes Window 吗?
万千封印
皈依舞
相关分类