如何在日语窗口操作系统中编码日语文本？

首页课程实战体系课手记专栏慕课教程

如何在日语窗口操作系统中编码日语文本？

我正在使用 Tesseract 来阅读日语文本。我从 OCR 收到以下文本。

æ—¥ä»˜ è«‹æ±‚æ›¸

C++代码

extern "C" _declspec(dllexport) char* _cdecl Test(char* imagePath)

{

char *outText;

tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();

// Initialize tesseract-ocr with English, without specifying tessdata path

if (api->Init("D:\\tessdata", "jpn", tesseract::OcrEngineMode::OEM_TESSERACT_ONLY))

{

fprintf(stderr, "Could not initialize tesseract.\n");

}

api->SetPageSegMode(tesseract::PageSegMode::PSM_AUTO);

outText = api->GetUTF8Text();

return outText;

}

C＃

[DllImport(DllName, CallingConvention = CallingConvention.Cdecl)]

public static extern string Test(string imagePath);

void Tessrect()

{

string result = Test("D:\\japan4.png");

byte[] bytes = System.Text.Encoding.Default.GetBytes(result);

MessageBox.Show(System.Text.Encoding.UTF8.GetString(bytes));

}

输入文件：、

上面的代码在窗口英语中工作正常。但它在窗口日语中不起作用。它在 windows 的 Japanes 操作系统中给出了错误的输出。

任何人都可以指导我如何正确使用 Japanes Window 吗？

冉冉说

浏览 217回答 3

3回答

万千封印

您必须首先从 imagePath 制作一个图像对象。就我而言，这是通过使用著名的 opencv 来完成的。然后，使用 SetImage 功能。void detectJpn(cv::Mat& img){    char *outText;    // Create Tesseract object    tesseract::TessBaseAPI *ocr = new tesseract::TessBaseAPI();    ocr->Init(NULL, "jpn", tesseract::OEM_TESSERACT_ONLY);    // Set Page segmentation mode to PSM_AUTO (3)    ocr->SetPageSegMode(tesseract::PSM_AUTO);    ocr->SetImage((uchar*)img.data, img.size().width, img.size().height, img.channels(), img.step1());    // Run Tesseract OCR on image    outText = ocr->GetUTF8Text();    // print recognized text    std::cout << outText << std::endl; // Destroy used object and release memory ocr->End();    //ocr->Clear();    //ocr->End();    delete ocr;    ocr = nullptr;}int main(int argc, char *argv[]){    cv::Mat img = imread(argv[1], cv::IMREAD_UNCHANGED);    detectJpn(img);         return 0;}

0 0

皈依舞

您正在向非 UTF-8 的窗口发送 UTF-8 文本。您需要在显示之前进行转换这是可能导致问题的代码（因为它尝试使用您无法控制的默认系统编码）；byte[] bytes = System.Text.Encoding.Default.GetBytes(result);您是否尝试在那里使用 Encoding.UTF8 ？如果单独这样做不起作用，请尝试在下面的行中将 Encoding.UTF8 更改为 Encoding.Default。

0 0

随时随地看视频慕课网APP