图像 OCR 文本审核
1. 任务简介
1.1 任务 ID
5e1d634d2809c24f6d909bd3
提示
任务 ID 全局固定且不变,建议客户将其定义为代码常量。
1.2 能力介绍
OCR 技术智能提取图片中的文字信息,同步识别文字信息中的暴恐、色情、涉政、敏感、广告、谩骂等违规内容。
支持语种: 中文和英文
2. 请求参数
图片接口公共请求参数详见:图片同步识别接口,图片异步识别接口
视频接口公共请求参数详见:视频同步识别接口,视频文件异步识别接口,视频流异步识别接口
3. 返回结果
3.1 公共返回结果
图片接口公共返回结果详见:图片同步识别接口,图片异步识别接口
视频接口公共返回结果详见:视频同步识别接口,视频文件异步识别接口,视频流异步识别接口
3.2 任务返回结果 🎯
- 图片接口
- 视频文件接口(v3.1)
- 视频流接口(v3.1)
- 文档接口(v3.1)
任务结果
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
fileList | Array<FileResult> | 是 | 每张图片的识别结果,详见 FileResult 参数说明 |
FileResult 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 识别分类,详见 任务返回标签说明 |
rate | Float | 是 | 分类得分,范围 [0.0, 1.0], 值越高机器对判定结果越有把握 |
review | Boolean | 是 | 是否需要复审,true :需要,false :不需要 |
name | String | 是 | 如果上传的 image 参数是 url,则该值是图片 url;如果是以图片文件上传,则该值为文件名 |
objects | Array<Object> | 是 | 检测出来的所有文字框,详见 Object 参数说明 |
Object 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
text | String | 是 | 识别到的文本信息 |
scores | Float | 是 | 文本检测得分,分数越高,识别出来的结果越准确,介于 0-1 的浮点数 |
textAnalysis | Object | 是 | 文本审核结果,详见 TextAnalysis 参数说明 |
location | Array | 否 | 物体方框坐标 [左上角坐标 ,右上角坐标 ,右下角坐标 ,左下角坐标 ], 坐标值是相对于图片大小的百分比形式。小语种 OCR 文本审核该项不返回 |
degree | Float | 否 | 文字的旋转角度,取值范围是 [-180, 180],正表示顺时针,负表示逆时针。小语种 OCR 文本审核该项不返回 |
TextAnalysis 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 识别标签,详见 任务返回标签说明 |
review | Boolean | 是 | 是否需要复审,true :需要,false :不需要 |
rate | Float | 是 | 文本审核得分,分数越高,识别出来的结果越准确, 介于 0-1 的浮点数 |
details | Array | 是 | 文本违规信息,详见 Detail 参数说明 |
Detail 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
mainLabel | Int | 是 | 命中的标签,详见 任务返回标签说明 |
subLabel | String | 否 | 命中的二级标签 |
keyword | String | 否 | 命中的关键词。 1. 若命中算法模型,值为空字符串; 2. 若命中单个关键词,值为关键词字符串,例如: 习近平 ;3. 若同时命中多个关键词(组合规则),值为通过 + 拼接且被括号包裹的字符串,例如:(加+微信) 。其中 (A+B) 表示关键词 A 与 B 之间未按顺序匹配,{A+B} 表示关键词 A 与 B 之间按照顺序匹配 |
hint | String | 否 | 检测文本中的违规内容片段,例如原文为 那我先加您微信,发您一下 ,值为:加您微信 |
任务结果
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
fileList | Array<FileResult> | 否 | 每张图片的识别结果,在数组为空时该字段省略。详见 FileResult 参数说明 |
label | Int | 是 | 图片汇总后的任务标签识别分类,详见 任务返回标签说明 |
review | Boolean | 是 | 图片汇总后的结果是否需要复审 |
maximums | Array | 是 | 图片汇总后,一级标签识别分类及对应的最大得分,详见 Maximum 参数说明 |
statistics | Array | 是 | 图片汇总后,一级标签识别分类及对应的图片数量,详见 Statistic 参数说明 |
FileResult 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 识别分类,详见 任务返回标签说明 |
rate | Float | 是 | 分类得分,范围 [0.0, 1.0], 值越高机器对判定结果越有把握 |
review | Boolean | 是 | 是否需要复审,true :需要,false :不需要 |
name | String | 是 | 视频截图文件名称 |
url | String | 是 | 视频截图文件链接,有效期 7 天 |
second | Float | 是 | 视频截图时间点,表示在第 N 秒截取了该图片。 1. 对于视频流,值为开始截图后的相对时间点 |
objects | Array<Object> | 否 | 检测出来的所有文字框,在数组为空时该字段省略。详见 Object 参数说明 |
Maximum 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 任务一级标签识别分类 |
max | Float | 是 | 对应标签识别分类的最大得分 |
Statistic 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 任务一级标签识别分类 |
count | Int | 是 | 对应标签识别分类的图片数量 |
Object 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
text | String | 是 | 识别到的文本信息 |
scores | Float | 是 | 文本检测得分,分数越高,识别出来的结果越准确,介于 0-1 的浮点数 |
textAnalysis | Object | 是 | 文本审核结果,详见 TextAnalysis 参数说明 |
location | Array | 否 | 物体方框坐标 [左上角坐标 ,右上角坐标 ,右下角坐标 ,左下角坐标 ], 坐标值是相对于图片大小的百分比形式。小语种 OCR 文本审核该项不返回 |
degree | Float | 否 | 文字的旋转角度,取值范围是 [-180, 180],正表示顺时针,负表示逆时针。小语种 OCR 文本审核该项不返回 |
TextAnalysis 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 识别标签,详见 任务返回标签说明 |
review | Boolean | 是 | 是否需要复审,true :需要,false :不需要 |
rate | Float | 是 | 文本审核得分,分数越高,识别出来的结果越准确, 介于 0-1 的浮点数 |
details | Array | 是 | 文本违规信息,详见 Detail 参数说明 |
Detail 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
mainLabel | Int | 是 | 命中的标签,详见 任务返回标签说明 |
subLabel | String | 否 | 命中的二级标签 |
keyword | String | 否 | 命中的关键词。 1. 若命中算法模型,值为空字符串; 2. 若命中单个关键词,值为关键词字符串,例如: 习近平 ;3. 若同时命中多个关键词(组合规则),值为通过 + 拼接且被括号包裹的字符串,例如:(加+微信) 。其中 (A+B) 表示关键词 A 与 B 之间未按顺序匹配,{A+B} 表示关键词 A 与 B 之间按照顺序匹配 |
hint | String | 否 | 检测文本中的违规内容片段,例如原文为 那我先加您微信,发您一下 ,值为:加您微信 |
任务结果
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
fileList | Array<FileResult> | 否 | 每张图片的识别结果,在数组为空时该字段省略。详见 FileResult 参数说明 |
FileResult 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 识别分类,详见 任务返回标签说明 |
rate | Float | 是 | 分类得分,范围 [0.0, 1.0], 值越高机器对判定结果越有把握 |
review | Boolean | 是 | 是否需要复审,true :需要,false :不需要 |
name | String | 是 | 视频截图文件名称 |
url | String | 是 | 视频截图文件链接,有效期 7 天 |
second | Float | 是 | 视频截图时间点,表示在第 N 秒截取了该图片。 1. 对于视频流,值为开始截图后的相对时间点 |
objects | Array<Object> | 否 | 检测出来的所有文字框,在数组为空时该字段省略。详见 Object 参数说明 |
Object 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
text | String | 是 | 识别到的文本信息 |
scores | Float | 是 | 文本检测得分,分数越高,识别出来的结果越准确,介于 0-1 的浮点数 |
textAnalysis | Object | 是 | 文本审核结果,详见 TextAnalysis 参数说明 |
location | Array | 否 | 物体方框坐标 [左上角坐标 ,右上角坐标 ,右下角坐标 ,左下角坐标 ], 坐标值是相对于图片大小的百分比形式。小语种 OCR 文本审核该项不返回 |
degree | Float | 否 | 文字的旋转角度,取值范围是 [-180, 180],正表示顺时针,负表示逆时针。小语种 OCR 文本审核该项不返回 |
TextAnalysis 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 识别标签,详见 任务返回标签说明 |
review | Boolean | 是 | 是否需要复审,true :需要,false :不需要 |
rate | Float | 是 | 文本审核得分,分数越高,识别出来的结果越准确, 介于 0-1 的浮点数 |
details | Array | 是 | 文本违规信息,详见 Detail 参数说明 |
Detail 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
mainLabel | Int | 是 | 命中的标签,详见 任务返回标签说明 |
subLabel | String | 否 | 命中的二级标签 |
keyword | String | 否 | 命中的关键词。 1. 若命中算法模型,值为空字符串; 2. 若命中单个关键词,值为关键词字符串,例如: 习近平 ;3. 若同时命中多个关键词(组合规则),值为通过 + 拼接且被括号包裹的字符串,例如:(加+微信) 。其中 (A+B) 表示关键词 A 与 B 之间未按顺序匹配,{A+B} 表示关键词 A 与 B 之间按照顺序匹配 |
hint | String | 否 | 检测文本中的违规内容片段,例如原文为 那我先加您微信,发您一下 ,值为:加您微信 |
任务结果
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
fileList | Array<FileResult> | 否 | 每张图片的识别结果,在数组为空时该字段省略。详见 FileResult 参数说明 |
FileResult 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 识别分类,详见 任务返回标签说明 |
rate | Float | 是 | 分类得分,范围 [0.0, 1.0], 值越高机器对判定结果越有把握 |
review | Boolean | 是 | 是否需要复审,true :需要,false :不需要 |
name | String | 是 | 图片名称,根据所在页及图片索引生成,用以唯一标识文档中的图片 |
objects | Array<Object> | 否 | 检测出来的所有文字框,在数组为空时该字段省略。详见 Object 参数说明 |
Object 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
text | String | 是 | 识别到的文本信息 |
scores | Float | 是 | 文本检测得分,分数越高,识别出来的结果越准确,介于 0-1 的浮点数 |
textAnalysis | Object | 是 | 文本审核结果,详见 TextAnalysis 参数说明 |
location | Array | 否 | 物体方框坐标 [左上角坐标 ,右上角坐标 ,右下角坐标 ,左下角坐标 ], 坐标值是相对于图片大小的百分比形式。小语种 OCR 文本审核该项不返回 |
degree | Float | 否 | 文字的旋转角度,取值范围是 [-180, 180],正表示顺时针,负表示逆时针。小语种 OCR 文本审核该项不返回 |
TextAnalysis 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
label | Int | 是 | 识别标签,详见 任务返回标签说明 |
review | Boolean | 是 | 是否需要复审,true :需要,false :不需要 |
rate | Float | 是 | 文本审核得分,分数越高,识别出来的结果越准确, 介于 0-1 的浮点数 |
details | Array | 是 | 文本违规信息,详见 Detail 参数说明 |
Detail 参数说明
参数名称 | 类型 | 是否必有 | 说明 |
---|---|---|---|
mainLabel | Int | 是 | 命中的标签,详见 任务返回标签说明 |
subLabel | String | 否 | 命中的二级标签 |
keyword | String | 否 | 命中的关键词。 1. 若命中算法模型,值为空字符串; 2. 若命中单个关键词,值为关键词字符串,例如: 习近平 ;3. 若同时命中多个关键词(组合规则),值为通过 + 拼接且被括号包裹的字符串,例如:(加+微信) 。其中 (A+B) 表示关键词 A 与 B 之间未按顺序匹配,{A+B} 表示关键词 A 与 B 之间按照顺序匹配 |
hint | String | 否 | 检测文本中的违规内容片段,例如原文为 那我先加您微信,发您一下 ,值为:加您微信 |
3.3 任务返回标签说明 🎯🎯
label 值 | 说明 |
---|---|
0 | 正常 |
1 | 暴恐 |
2 | 色情 |
3 | 涉政 |
4 | 敏感 |
5 | 广告 |
6 | 谩骂 |
8 | 自定义 |
9 | 未成年 |
3.4 任务结果示例
- 图片接口
- 视频文件接口(v3.1)
- 视频流接口(v3.1)
- 文档接口(v3.1)
{
"5e1d634d2809c24f6d909bd3": {
"fileList": [
{
"label": 3,
"rate": 1,
"review": false,
"name": "<name>",
"objects": [
{
"text": "毛泽东",
"scores": 0.9951668977737427,
"degree": 0,
"location": [
[
0.4256518406293357,
0.5753968315895163
],
[
0.5806905895660593,
0.5753968315895163
],
[
0.5806905895660593,
0.65079364460096
],
[
0.4256518406293357,
0.65079364460096
]
],
"textAnalysis": {
"label": 3,
"review": false,
"rate": 1,
"details": [
{
"keyword": "毛泽东",
"hint": "毛泽东",
"mainLabel": 3
}
]
}
}
],
"tag": "<tag>"
}
]
}
}
{
"5e1d634d2809c24f6d909bd3": {
"fileList": [
{
"label": 3,
"rate": 1,
"review": false,
"name": "a4914d5c44bd43fa848992eb4565f962-2",
"url": "https://static.tuputech.com/api/image/original/cloud-api/storage-233/2023-12-08/17-7/a4914d5c44bd43fa848992eb4565f962/1702027152.148573161266095444.jpeg",
"offset": 5,
"second": 2.9999999105930355,
"objects": [
{
"location": [
[
0,
0
],
[
0.5,
0
],
[
0.5,
1
],
[
0,
1
]
],
"scores": 1,
"text": "毛泽东(1893~1976)伟大的马克思主义者,无产阶级革命家、战略家和理论家, 中国共产党、中国人民解放军和中华人民共和国的主要缔造者和领导人。",
"degree": 0,
"textAnalysis": {
"label": 3,
"review": false,
"rate": 1,
"details": [
{
"keyword": "毛泽东",
"hint": "毛泽东",
"mainLabel": 3,
"subLabel": "Political_Negative_events"
}
]
}
}
]
}
],
"label": 3,
"review": false,
"maximums": [
{
"label": 6,
"max": 1
},
{
"label": 3,
"max": 1
}
],
"statistics": [
{
"label": 6,
"count": 1
},
{
"label": 3,
"count": 2
}
]
}
}
{
"5e1d634d2809c24f6d909bd3": {
"fileList": [
{
"label": 3,
"rate": 1,
"review": false,
"name": "a4914d5c44bd43fa848992eb4565f962-2",
"url": "https://static.tuputech.com/api/image/original/cloud-api/storage-233/2023-12-08/17-7/a4914d5c44bd43fa848992eb4565f962/1702027152.148573161266095444.jpeg",
"offset": 5,
"second": 2.9999999105930355,
"objects": [
{
"location": [
[
0,
0
],
[
0.5,
0
],
[
0.5,
1
],
[
0,
1
]
],
"scores": 1,
"text": "毛泽东(1893~1976)伟大的马克思主义者,无产阶级革命家、战略家和理论家, 中国共产党、中国人民解放军和中华人民共和国的主要缔造者和领导人。",
"degree": 0,
"textAnalysis": {
"label": 3,
"review": false,
"rate": 1,
"details": [
{
"keyword": "毛泽东",
"hint": "毛泽东",
"mainLabel": 3,
"subLabel": "Political_Negative_events"
}
]
}
}
]
}
]
}
}
{
"5e1d634d2809c24f6d909bd3": {
"fileList": [
{
"label": 3,
"rate": 1,
"review": false,
"name": "a4914d5c44bd43fa848992eb4565f962-1-1",
"objects": [
{
"location": [
[
0,
0
],
[
0.5,
0
],
[
0.5,
1
],
[
0,
1
]
],
"scores": 1,
"text": "毛泽东(1893~1976)伟大的马克思主义者,无产阶级革命家、战略家和理论家, 中国共产党、中国人民解放军和中华人民共和国的主要缔造者和领导人。",
"degree": 0,
"textAnalysis": {
"label": 3,
"review": false,
"rate": 1,
"details": [
{
"keyword": "毛泽东",
"hint": "毛泽东",
"mainLabel": 3,
"subLabel": "Political_Negative_events"
}
]
}
}
]
}
]
}
}