前言
问卷调查收集是最常见的社会调查的一种方法, 通常应于市场调查,信息收集等方面。但是庞大的问卷调查收集完了之后面对如此大量的数据该怎么录入,并将内容转换为电子文档呢?今天就为大家介绍通过集成华为HMS ML Kit表格识别服务来轻松实现表格录入功能。
应用场景
华为HMS ML Kit表格识别服务是利用AI技术从输入的图片中识别并返回表格结构信息(包括单元格的行列信息和坐标信息)和表格中的文本信息(包括单元格内的文本内容),支持识别中英文文本信息及标点符号。表格识别服务在日常工作场景中有广泛应用。例如,收集到大量纸质表格问卷后,可以通过该服务将识别到的问卷内容转换为电子文档,减少人工录入成本,大幅提高工作效率。
注意事项
- 支持识别具有表格特征的表单、问卷等。
- 暂时不支持图片中含有多张表格的识别,不支持获取表头及表尾信息。
- 满足以下条件可达到最佳识别效果(如下示图):
拍摄角度 | 平面倾斜角度小于5度 |
---|---|
表格完整度 | 无缺角、无弯曲表格线、表格线连续未间断 |
表格内容 | 表格中的文字为横向,表格中的背景色(底色)和表格线颜色要求有明显的对比度,仅支持为纯印刷体文本,暂不支持识别表格内的图片、公式、手写字、印章、水印等 |
图片规格 | 图片的长边和短边的比例需小于3:1(含),分辨率需大于960*960px,图片中表格的方向必须正向,表格占图片面积60%以上,并在图片的中间位置 |
开发步骤
1. 开发准备
详细的准备步骤可以参考华为开发者联盟:
developer.huawei.com/consumer/cn/doc/development/HMSCore-Guides-V5/dev-process-0000001050038076-V5?ha_source=hms1
这里列举关键的开发步骤。
1.1 项目级gradle里配置Maven仓地址
buildscript {
repositories {
google()
jcenter()
maven {url 'https://developer.huawei.com/repo/'}
}
dependencies {
...
classpath 'com.huawei.agconnect:agcp:1.4.1.300'
}
}
allprojects {
repositories {
google()
jcenter()
maven {url 'https://developer.huawei.com/repo/'}
}
}
1.2 文件头增加配置
集成SDK后,在文件头添加配置
apply plugin: 'com.android.application'
apply plugin: 'com.huawei.agconnect'
1.3 应用级gradle里配置SDK依赖
dependencies{
// 引入基础SDK
implementation 'com.huawei.hms:ml-computer-vision-formrecognition:2.0.4.300'
// 引入表格识别模型包
implementation 'com.huawei.hms:ml-computer-vision-formrecognition-model:2.0.4.300'
}
1.4 将以下语句添加到AndroidManifest.xml文件中,用于自动更新机器学习模型
<meta-data
android:name="com.huawei.hms.ml.DEPENDENCY"
android:value= "fr"/>
1.5 申请摄像头权限
<uses-permission android:name="android.permission.CAMERA" />
<uses-feature android:name="android.hardware.camera" />
2. 代码开发
2.1创建表格识别分析器。
MLFormRecognitionAnalyzerSetting setting = new MLFormRecognitionAnalyzerSetting.Factory().create();
MLFormRecognitionAnalyzer analyzer = MLFormRecognitionAnalyzerFactory.getInstance().getFormRecognitionAnalyzer(setting);
2.2通过android.graphics.Bitmap创建MLFrame对象用于分析器识别表格,支持的图片格式包括:jpg/jpeg/png,建议图片尺寸不小于960960像素,不大于19201920像素。
MLFrame mlFrame = MLFrame.fromBitmap(bitmap);
2.3调用asyncAnalyseFrame异步方法或analyseFrame同步方法进行表格识别(JsonObject对象的数据结构定义请参见JsonObject)。
// asyncAnalyseFrame异步调用。
Task<JsonObject> recognizeTask = analyzer.asyncAnalyseFrame(mlFrame);
recognizeTask.addOnSuccessListener(new OnSuccessListener<JsonObject>() {
@Override
public void onSuccess(JsonObject recognizeResult) {
// 识别成功。
}
}).addOnFailureListener(new OnFailureListener() {
@Override
public void onFailure(Exception e) {
// 识别失败。
}
});
// analyseFrame同步调用。
SparseArray<JsonObject> recognizeResult = analyzer.analyseFrame(mlFrame);
if (recognizeResult != null && recognizeResult.get(0).get("retCode").getAsInt() == MLFormRecognitionConstant.SUCCESS) {
// 识别成功。
} else {
// 识别失败。
}
2.4检测完成,停止分析器,释放检测资源。
if (analyzer != null) {
analyzer.stop();
}
总结
华为机器学习表格识别服务为开发者提供识别图片中表格的服务,可广泛应用于问卷调查数据收集等应用场景中,代替人工录入,减少成本。
原作者:timer