跳到主要内容

语音转译审核(多语种)

1. 任务简介

1.1 任务 ID

5caee6b2a76925c55a09a6d2

提示

任务 ID 全局固定且不变,建议客户将其定义为代码常量。

1.2 能力介绍

通过语音识别、文本 NLP 反垃圾等技术,一站式识别海外视频、直播、 UGC、用户原创内容等多业务场景中出现的色情、涉政、暴恐、谩骂等违规音频内容,同时支持自定义词库配置,从而使审核结果更贴近实际场景需求。

  • 支持语种

    英语、印尼语、印地语、阿拉伯语等。

2. 请求参数

2.1 公共请求参数

语音文件异步接口公共请求参数详见:语音文件异步识别

2.2 该任务特定请求参数

参数名称类型是否必需说明
languageString需要识别的语言代码。需要进行多语种语音转译审核或者多语种转译时必传。多语种语音转译类产品需联系图普进行配置使用。对应语言代码详见底部 语言代码列表。默认为 zh-CN

3. 同步响应 & 回调数据

3.1 公共返回结果 & 回调数据

语音文件异步接口公共返回结果详见:语音文件异步识别

3.2 任务回调请求参数

任务结果

参数名称类型是否必有说明
textString全部语音片段的转译内容
actionString是否违规,block:违规,pass:通过,review:复审。

1. review 仅在开启文本 NLP 审核时生效
labelInt命中的标签,详见 任务返回标签说明
reviewBool是否需要复审,true:是,false:否
segmentsArray<Segment>语音片段结果数组(默认每隔 10 秒切片),详见 Segment 数据结构

1. 该字段存在时,数组长度始终大于 0;
2. 若语音文件全部片段识别结果正常,且未指定回调所有片段的识别结果(详见 请求参数说明),该字段省略

Segment 数据结构

参数名称类型是否必有说明
labelInt命中的标签,详见 任务返回标签说明
reviewBool是否需要复审,true:是,false:否
contentString语音片段转译文本,可能为空
hasVoiceBool片段是否有声音
startTimeFloat语音片段在语音文件内的开始时间(取值范围为 [0, 语音时长],单位秒)
endTimeFloat语音片段在语音文件内的结束时间(取值范围为 [0, 语音时长],单位秒)
speechUrlString语音片段链接
detailsArray<Detail>转译文本命中的关键词详细信息,在未命中关键词或由 NLP 判为违规时,可能为空数组,详见 Detail 数据结构

Detail 数据结构

参数名称类型是否必有说明
mainLabelInt命中的标签,详见 任务返回标签说明
subLabelString命中的二级标签
keywordString命中的关键词。

1. 若命中算法模型,值为空字符串;
2. 若命中单个关键词,值为关键词字符串,例如:习近平
3. 若同时命中多个关键词(组合规则),值为通过 + 拼接且被括号包裹的字符串,例如:(加+微信)。其中 (A+B) 表示关键词 A 与 B 之间未按顺序匹配,{A+B} 表示关键词 A 与 B 之间按照顺序匹配
hintString检测文本中的违规内容片段,例如原文为 那我先加您微信,发您一下,值为:加您微信

任务返回标签说明

labelmainLabel说明
0正常
1暴恐
2色情
3涉政
4敏感
5广告
6谩骂
7灌水
8自定义
9未成年

3.3 任务回调请求示例

{
"5caee6b2a76925c55a09a6d2": {
"segments": [
{
"label": 3,
"rate": 0.9526356520517817,
"review": false,
"content": "昨天下午举行传达学习,贯彻胡锦涛总书记,在上海考察时的重要讲话,精神,中共中央政治局委员上海市委书记俞正声强调要成。",
"hasVoice": true,
"speechUrl": "https://static.tuputech.com/api/image/original/cloud-api/storage-0831/2023-12-05/11-7/b739e26bb4314a14b5fa41cfd3ee1464/1701748403.6034576862396884247.wav",
"startTime": 20,
"endTime": 30,
"details": [
{
"keyword": "胡锦涛",
"hint": "胡锦涛",
"mainLabel": 3,
"subLabel": "Political_Negative_events"
},
{
"keyword": "总书记",
"hint": "总书记",
"mainLabel": 3,
"subLabel": "Political_Negative_events"
},
{
"keyword": "(中央+书记)",
"hint": "中央政治局委员上海市委书记",
"mainLabel": 3,
"subLabel": "Political_Negative_events"
},
{
"keyword": "(中央+委员)",
"hint": "中央政治局委员",
"mainLabel": 3,
"subLabel": "Political_Negative_events"
},
{
"keyword": "俞正声",
"hint": "俞正声",
"mainLabel": 3,
"subLabel": "Political_Negative_events"
},
{
"keyword": "中共中央政治局",
"hint": "中共中央政治局",
"mainLabel": 3,
"subLabel": "Political_Negative_events"
}
]
},
{
"label": 2,
"rate": 0.8609680831432343,
"review": false,
"content": "来讲一个啊,你喜欢看女孩子穿哪个颜色的内衣生。",
"hasVoice": true,
"speechUrl": "https://static.tuputech.com/api/image/original/cloud-api/storage-0831/2023-12-05/11-7/b739e26bb4314a14b5fa41cfd3ee1464/1701748404.4671610853862129650.wav",
"startTime": 120,
"endTime": 130,
"details": [
{
"keyword": "(内衣+喜欢)",
"hint": "喜欢看女孩子穿哪个颜色的内衣",
"mainLabel": 2,
"subLabel": "Sexuality"
},
{
"keyword": "(内衣+看)",
"hint": "看女孩子穿哪个颜色的内衣",
"mainLabel": 2,
"subLabel": "Sexuality"
},
{
"keyword": "(内衣+颜色)",
"hint": "颜色的内衣",
"mainLabel": 2,
"subLabel": "Sexuality"
}
]
}
],
"label": 3,
"review": false,
"rate": 0.9538463808241344,
"text": "今天是二零一零年一月十九号星期二欢迎收看东方新闻,我是小蕾我是原名我们在上海的直播室向各位问号今天。于中国二零一一年上海世博会开幕,还有一百零二天,在快速浏览了今天的主要新闻,之后,我们来看,详细报道上海市党政负责干部会议。昨天下午举行传达学习,贯彻胡锦涛总书记,在上海考察时的重要讲话,精神,中共中央政治局委员上海市委书记俞正声强调要成。承担起中央交给上海的重任,不辜负党中央和胡锦涛总书记的殷切,期望努力,把上海世博会扮成一届成功精彩难忘的社会。努力开创上海改革开放和社会主义现代化建设的新局面,当好推动科学发展,促进社会和谐的排头兵。嗯。嗯。啊爸爸哈爸爸来哎呀!好死了好死了太乖要飞班没用呢?打出北骗你干嘛不行,我,再把微信发到发到群里面,谁加,我把明天退到群里面,我不抢不好意思骗人到头。那个幺八二幺八三三二零七七你搜索一下我看那个一号八星这样子。他普通话都不会说啊,那新疆的新疆的普通话,不会说那个人不会说实话,他找派出所帮他他找他说。我说,我操你妈呀那个操,因为啥我觉得一会儿老我和谐,我就打了个操人操骂手,打了个对。来讲一个啊,你喜欢看女孩子穿哪个颜色的内衣生。在一起啪啪啪的时候,你喜欢女生在上面,还是在下面啊,你不是说过了吗你什么时候说的呀,这个问题都没人问的。同好做科举行备谈,七月二十六号,李克强在北京会见第一总左科七月二十六号李克强不能说。不要提什么事叫涉宠什么国家领导人,对国家政治人物都一个都不能说哦我问他要不要上来,他,上来,我就下去,在我在我给我一个儿子我一天。夜假更早万米流传到今天感谢辛劳的背后都是哈。"
}
}

4. 附表

语言代码列表

语言地区码语言(地区)
ar-EGArabic (Egypt)
ar-SAArabic (Saudi Arabia)
ar-AEArabic (UAE)
ar-KWArabic (Kuwait)
ar-QAArabic (Qatar)
en-AUEnglish (Australia)
en-CAEnglish (Canada)
en-GBEnglish (United Kingdom)
en-INEnglish (India)
en-NZEnglish (New Zealand)
en-USEnglish (United States)
id-IDIndonesian (Indonesia)