文本异步识别

1. 接口介绍

该接口对长文本中的色情、涉政、暴恐、敏感、广告、谩骂等违法低质内容进行识别及过滤，并将识别结果通过回调形式通知客户。业务流程如下：

提示

字数限制：异步文本识别接口最大支持 20,000 个字符识别；
支持语种：文本审核默认识别中英文，如需识别其他语种（例如，日语、韩语、泰语、越南语、马来语、印尼语、印地语、菲律宾语、阿拉伯语、土耳其语、俄语、德语、法语、意大利语、西班牙语、葡萄牙语等）中的风险内容，请联系我们进行相应配置，以保证识别效果。

提示

图普采用 任务并发数 对异步接口进行并发控制，即任一时刻最多允许 N 个任务同时处理。在测试期间，任务并发数为 30（允许同时处理 30 个任务），正式使用或需要增加时请联系客户经理调整。当超出任务并发数后继续提交任务时，根据接口类型略有不同：
- 异步文件接口：可以正常提交任务，提交的任务排队等待处理；
- 异步流接口：提交任务时返回超出并发状态码（由于流的实时性要求，无法排队等待处理，因此无法继续提交）。
异步文件接口中，视频/语音文件建议小于 10GB，而文档文件须小于 500MB；异步流接口对流的时长没有限制，建议客户在流关闭时主动调用任务关闭接口。

1.1 接入指南

联系客户经理开通账号
同客户经理沟通详细需求与审核标准。根据您的需求，客户经理将为您开通对应的应用（SID）
访问控制台 - 数字证书获取用于接口鉴权的 API Key
查阅下方的接口参数文档，了解如何构建请求以及如何解析响应数据
使用示例资源调用接口，进行调试和测试
查阅审核场景汇总结果说明，了解如何通过汇总结果判断内容是否违规，以及如何解析汇总结果
添加异常处理逻辑，以处理可能出现的错误和异常情况，增强代码的健壮性和稳定性

如果在接入过程中遇到任何技术问题，请联系客户经理以获取帮助。

2. 请求

2.1 请求地址

v3.1（推荐）
v3

区域	请求地址
国内	`https://api.text.tuputech.com/v3.1/recognition/text/async/<secretId>`
国外	`https://api-oversea.text.tuputech.com/v3.1/recognition/text/async/<secretId>`

区域	请求地址
国内	`https://api.text.tuputech.com/v3/recognition/text/async/<secretId>`
国外	`https://api-oversea.text.tuputech.com/v3/recognition/text/async/<secretId>`

提示

<secretId> 需替换为您的应用 SID，请联系客户经理为您开通及配置。关于 SID 详见常见问题（FAQ）。

2.2 请求方法

POST

2.3 请求头

请求头名称	取值	是否必需	示例	说明
`Content-Type`	`application/json`	是	`Content-Type: application/json`	请求数据类型为 JSON
`X-API-Key`	`<API Key>`	是	`X-API-Key: <API Key>`	API Key 用于接口鉴权。请访问控制台 - 数字证书获取 API Key

2.4 超时时间及异常处理

建议配置超时时间 1 秒，在 HTTP 响应状态码非 200 或业务状态码不为 0 时进行重试。

2.5 请求参数说明 🔥

v3.1（推荐）
v3

参数名称	类型	是否必填	说明
`text`	Text	是	文本内容, 详见 Text 参数说明
`customInfo`	Object<String, Any>	否	自定义信息，为识别任务添加业务信息（如房间 ID、文件 ID 等）或其他扩展参数，详见自定义信息参数说明
`timestamp`	Int	否	当前服务器的 Unix 时间戳。当前已废弃，仅保持兼容（采用该鉴权方式的调用不受影响）。新接入请使用 API Key 接口鉴权
`nonce`	Float	否	随机数（建议使用 Unix 时间戳或若干位随机整数）。当前已废弃，仅保持兼容（采用该鉴权方式的调用不受影响）。新接入请使用 API Key 接口鉴权
`signature`	String	否	`RSA-SHA256` 算法签名。当前已废弃，仅保持兼容（采用该鉴权方式的调用不受影响）。新接入请使用 API Key 接口鉴权。签名步骤：将参与签名的参数（`secretId`，`timestamp`，`nonce`）用英文半角逗号 `,` 拼接，得到 `SignString`；使用您的私钥以 `RSA-SHA256` 算法对 `SignString` 签名，然后进行 `Base64` 编码，得到 `signature` 字符串。点击数字证书下载私钥。私钥有 rsa 和 pkcs8 两种格式，通常 Golang，Python 使用 rsa 格式私钥，Java 使用 pkcs8 格式私钥点击签名及验证示例查看签名方式及示例

Text 参数说明

参数名称	类型	是否必填	说明
`content`	String	是	待检测的文本内容，可以为词语或句子, 最大支持 20,000 字符
`callback`	String	是	回调地址
`language`	String	否	语言种类代码（预览），在进行多语种文本审核时填写。支持的语言种类及代码列表详见：语言代码列表

自定义信息参数说明

参数名称	类型	是否必需	说明
`contentId`	String	否（建议填入）	自定义文本 ID（指定时可在控制台根据此字段搜索识别结果）
`userId`	String	否	用户 ID（指定时可在控制台根据此字段搜索识别结果）
`forumId`	String	否	板块 ID（指定时可在控制台根据此字段搜索识别结果）

参数名称	类型	是否必填	说明
`content`	String	是	待检测的文本内容，可以为词语或句子, 最大支持 20,000 字符
`callbackUrl`	String	是	回调地址
`contentId`	String	否（建议填入）	自定义文本 ID（指定时可在控制台根据此字段搜索识别结果）
`userId`	String	否	用户 ID（指定时可在控制台根据此字段搜索识别结果）
`forumId`	String	否	板块 ID（指定时可在控制台根据此字段搜索识别结果）
`language`	String	否	语言种类代码（预览），在进行多语种文本审核时填写。支持的语言种类及代码列表详见：语言代码列表
`timestamp`	Int	否	当前服务器的 Unix 时间戳。当前已废弃，仅保持兼容（采用该鉴权方式的调用不受影响）。新接入请使用 API Key 接口鉴权
`nonce`	Float	否	随机数（建议使用 Unix 时间戳或若干位随机整数）。当前已废弃，仅保持兼容（采用该鉴权方式的调用不受影响）。新接入请使用 API Key 接口鉴权
`signature`	String	否	`RSA-SHA256` 算法签名。当前已废弃，仅保持兼容（采用该鉴权方式的调用不受影响）。新接入请使用 API Key 接口鉴权。签名步骤：将参与签名的参数（`secretId`，`timestamp`，`nonce`）用英文半角逗号 `,` 拼接，得到 `SignString`；使用您的私钥以 `RSA-SHA256` 算法对 `SignString` 签名，然后进行 `Base64` 编码，得到 `signature` 字符串。点击数字证书下载私钥。私钥有 rsa 和 pkcs8 两种格式，通常 Golang，Python 使用 rsa 格式私钥，Java 使用 pkcs8 格式私钥点击签名及验证示例查看签名方式及示例

2.6 请求示例

v3.1（推荐）
v3

{
  "text": {
    "content": "<文本内容>",
    "callback": "<url>",
    "language": "<language>"
  },
  "customInfo": {
    "contentId": "<文本 ID>",
    "userId": "<用户 ID>",
    "forumId": "<板块 ID>"
  },
  "nonce": 1685000000,
  "timestamp": 1685000000,
  "signature": "<signature>"
}

{
  "content": "<文本内容>",
  "callbackUrl": "<url>",
  "contentId": "<文本 ID>",
  "userId": "<用户 ID>",
  "forumId": "<板块 ID>",
  "nonce": 1685000000,
  "timestamp": 1685000000,
  "signature": "<signature>"
}

3. 同步响应

3.1 响应参数说明 🔥🔥

参数名称类型说明

参数名称	类型	说明
`signature`	String	同步响应或回调请求签名，由图普使用私钥签名，在需要时，您可以通过图普公钥进行验签以确保此响应内容来自图普（与您调用接口时使用的公私钥不同）。验签步骤：取 `json` 字段内容为 `SignString`；将 `signature` 字段内容进行 `Base64` 解码，得到 `RawSignature`；使用图普公钥以 `SHA256` 算法验证 `RawSignature` 及 `SignString`
`json`	String	同步响应或回调请求经过 JSON 转义后的字符串，需进一步解析得到业务数据。字段内容示例：`{\"code\":0, \"message\":\"success\"}`；字段详见下述 JSON 参数说明；为方便展示，同步响应及回调请求的示例中，均为解析后的 JSON

signature

String

同步响应或回调请求签名，由图普使用私钥签名，在需要时，您可以通过图普公钥进行验签以确保此响应内容来自图普（与您调用接口时使用的公私钥不同）。验签步骤：

取 json 字段内容为 SignString；
将 signature 字段内容进行 Base64 解码，得到 RawSignature；
使用图普公钥以 SHA256 算法验证 RawSignature 及 SignString

json

String

同步响应或回调请求经过 JSON 转义后的字符串，需进一步解析得到业务数据。

字段内容示例：{\"code\":0, \"message\":\"success\"}；
字段详见下述 JSON 参数说明；
为方便展示，同步响应及回调请求的示例中，均为解析后的 JSON

JSON 参数说明

v3.1（推荐）
v3

参数名称	类型	是否必有	说明
`code`	Int	是	状态码，详见业务状态码
`message`	String	是	状态信息
`result`	Result	否	任务提交结果，详见 Result 参数说明
`nonce`	Float	是	随机数（建议使用 Unix 时间戳或若干位随机整数）
`timestamp`	Int	是	当前服务器的 Unix 时间戳

Result 参数说明

参数名称	类型	是否必有	说明
`requestId`	String	是	任务唯一 ID，回调中携带该任务 ID。字符串长度 24~128
`callback`	String	否	提交的识别结果回调接口地址

参数名称	类型	是否必有	说明
`code`	Int	是	状态码，详见业务状态码
`message`	String	是	状态信息
`requestId`	String	是	任务唯一 ID，回调中携带该任务 ID。字符串长度 24~128

3.2 响应示例

v3.1（推荐）
v3

{
  "code": 0,
  "message": "success",
  "result": {
    "requestId": "<requestId>",
    "callback": "<callback>"
  },
  "nonce": 1685000000,
  "timestamp": 1685000000
}

{
  "code": 0,
  "message": "success",
  "requestId": "<requestId>",
  "nonce": 1685000000,
  "timestamp": 1685000000
}

4. 回调请求

4.1 请求地址

callback 参数指定的地址。

4.2 请求方法

POST

4.3 请求头

Content-Type: application/json

4.4 超时时间及异常处理

回调超时时间 5 秒，在 HTTP 响应状态码非 200 时进行重试，最多重试 3 次。

建议客户在处理回调时进行异步处理，响应回调时可以返回字符串或 JSON，示例如下：

// JSON
{
  "message": "ok"
}

// 字符串
success

4.5 请求参数说明 🔥🔥🔥

参数名称类型说明

参数名称	类型	说明
`signature`	String	同步响应或回调请求签名，由图普使用私钥签名，在需要时，您可以通过图普公钥进行验签以确保此响应内容来自图普（与您调用接口时使用的公私钥不同）。验签步骤：取 `json` 字段内容为 `SignString`；将 `signature` 字段内容进行 `Base64` 解码，得到 `RawSignature`；使用图普公钥以 `SHA256` 算法验证 `RawSignature` 及 `SignString`
`json`	String	同步响应或回调请求经过 JSON 转义后的字符串，需进一步解析得到业务数据。字段内容示例：`{\"code\":0, \"message\":\"success\"}`；字段详见下述 JSON 参数说明；为方便展示，同步响应及回调请求的示例中，均为解析后的 JSON

signature

String

取 json 字段内容为 SignString；
将 signature 字段内容进行 Base64 解码，得到 RawSignature；
使用图普公钥以 SHA256 算法验证 RawSignature 及 SignString

json

String

同步响应或回调请求经过 JSON 转义后的字符串，需进一步解析得到业务数据。

字段内容示例：{\"code\":0, \"message\":\"success\"}；
字段详见下述 JSON 参数说明；
为方便展示，同步响应及回调请求的示例中，均为解析后的 JSON

JSON 参数说明

v3.1（推荐）
v3

参数名称	类型	是否必有	说明
`code`	Int	是	状态码，详见业务状态码
`requestId`	String	是	任务唯一 ID
`suggestion`	Int	否	当前文本汇总结果，整体的通过/拒绝情况，参考审核场景汇总结果说明
`riskType`	Int	否	当前文本汇总结果，整体的风险类型，参考审核场景汇总结果说明
`customInfo`	Object<String, Any>	否	透传的自定义信息，请求参数中的 `customInfo`
`<任务 ID>`	Object	是	识别任务的结果，每个识别任务会有全局固定不变的 `taskId` 和对应数据结构，详见下述链接： 1. 图片类任务结果 2. 文本类任务结果 3. 语音类任务结果

参数名称	类型	是否必有	说明
`code`	Int	是	状态码，详见业务状态码
`requestId`	String	是	任务唯一 ID
`<任务 ID>`	Object	是	识别任务的结果，每个识别任务会有全局固定不变的 `taskId` 和对应数据结构，详见下述链接： 1. 图片类任务结果 2. 文本类任务结果 3. 语音类任务结果

4.6 请求示例

v3.1（推荐）
v3

{
  "code": 0,
  "message": "success",
  "requestId": "<requestId>",
  "suggestion": 1,
  "riskType": 1,
  "customInfo": {
    "contentId": "<contentId>"
  },
  "57c4036c557603652aeeb222": {
    "texts": [
      {
        "label": 3,
        "review": false,
        "rate": 1,
        "content": "<文本内容>",
        "details": [
          {
            "mainLabel": 3,
            "subLabel": "Political_Negative_events",
            "keyword": "<关键词>",
            "hint": "<违规内容片段>",
            "startPos": 0,
            "endPos": 3
          }
        ]
      }
    ]
  },
  "nonce": 1685000000,
  "timestamp": 1685000000,
  "signature": "<signature>"
}

{
  "code": 0,
  "message": "success",
  "requestId": "<requestId>",
  "57c4036c557603652aeeb222": {
    "action": "block",
    "label": "Politics",
    "review": false,
    "rate": 1,
    "content": "<文本内容>",
    "details": [
      {
        "mainLabel": "Politics",
        "subLabel": "Political_Negative_events",
        "keyword": "<关键词>",
        "hint": "<违规内容片段>",
        "startPos": 0,
        "endPos": 3
      }
    ]
  },
  "nonce": 1685000000,
  "timestamp": 1685000000,
  "signature": "<signature>"
}

5. 常见问题

Q：违规片段所在的文本区间是指什么？什么是文本区间位置？
A：文本区间指的是违规片段所在的句子。返回的文本区间位置是指，违规片段所在句子在检测文本中的大致位置，用于定位违规片段。
Q: 文本区间划分的依据是什么？
A: 按句子进行区间划分。一般是以句号、问号、感叹号、分号作为句子结束标志，中英文字符均适用。若原句过短则可能呈现的是多个句子合并后的区间。
Q: 为什么只能返回文本区间位置，不能返回违规片段在文本中的精确位置?
A: 检测文本可能含有违规拼音或者谐音字等，nlp 识别会先对文本内容进行预处理，导致无法匹配到原文，所以只返回违规片段所在句子区间的大致位置。

6. 更新日志

日期	说明
2025-06-17	新增 API Key 接口鉴权方式，简化接口鉴权。废弃签名鉴权方式，仅保持兼容（采用签名鉴权方式的调用不受影响）
2025-02-06	增加 `v3.1（推荐）` 版本
2025-01-03	新增接入指南

文本异步识别

1. 接口介绍​

1.1 接入指南​

2. 请求​

2.1 请求地址​

2.2 请求方法​

2.3 请求头​

2.4 超时时间及异常处理​

2.5 请求参数说明 🔥​

Text 参数说明​

自定义信息参数说明​

2.6 请求示例​

3. 同步响应​

3.1 响应参数说明 🔥🔥​

JSON 参数说明​

Result 参数说明​

3.2 响应示例​

4. 回调请求​

4.1 请求地址​

4.2 请求方法​

4.3 请求头​

4.4 超时时间及异常处理​

4.5 请求参数说明 🔥🔥🔥​

JSON 参数说明​

4.6 请求示例​

5. 常见问题​

6. 更新日志​

1. 接口介绍

1.1 接入指南

2. 请求

2.1 请求地址

2.2 请求方法

2.3 请求头

2.4 超时时间及异常处理

2.5 请求参数说明 🔥

Text 参数说明

自定义信息参数说明

2.6 请求示例

3. 同步响应

3.1 响应参数说明 🔥🔥

JSON 参数说明

Result 参数说明

3.2 响应示例

4. 回调请求

4.1 请求地址

4.2 请求方法

4.3 请求头

4.4 超时时间及异常处理

4.5 请求参数说明 🔥🔥🔥

JSON 参数说明

4.6 请求示例

5. 常见问题

6. 更新日志