语音转译审核(多语种)
任务简介
适用的识别任务
语音转译审核(taskId: 5caee6b2a76925c55a09a6d2)
使用场景
通过语音识别、文本NLP反垃圾等技术,一站式识别海外视频、直播、 UGC、用户原创内容等多业务场景中出现的色情、涉政、暴恐、谩骂等违规音频内容,同时支持自定义词库配置,从而使审核结果更贴近实际场景需求。
支持语种
普通话、英语、日语、韩语、泰语、越南语、马来语、印尼语、印地语、菲律宾语、阿拉伯语、土耳其语、俄语、德语、法语、意大利语、西班牙语、葡萄牙语、瑞典语、波兰语、希腊语、挪威语、荷兰语等。
参数规范
特定请求参数
以下为该识别任务特定请求参数,其他公共调用参数详见:语音文件异步接口
参数名称 | 类型 | 是否必需 | 说明 |
---|---|---|---|
language | String | 否 | 需要识别的语言代码。需要进行多语种语音转译审核或者多语种转译时必传。多语种语音转译类产品需联系图普进行配置使用。 对应语言代码详见底部“附表:语言代码列表”。默认为 zh-CN 。若需对语种进行自动检测识别,取值 AUTO |
任务 id 的数据结构
参数名 | 类型 | 是否必有 | 说明 |
---|---|---|---|
violations | Array | 是 | 详见以下 violations 数据结构 |
text | String | 是 | 整个语音的译文 |
action | String | 是 | 是否违规,block:违规,pass:通过,review:复审 |
label | String | 是 | 违规标签 |
language | String | 是 | 多语种审核语种语言代码 |
review | Bool | 是 | 是否复审,true:是 false:否 |
violations 数据结构
注:只包含 action 为违规和复审的信息
参数名 | 类型 | 是否必有 | 说明 |
---|---|---|---|
startTime | Number | 是 | 开始时间 |
endTime | Number | 是 | 结束时间 |
content | String | 是 | 文本内容,可能为空 |
action | String | 是 | 是否违规,block:违规,pass:通过,review:复审 |
label | String | 是 | 违规标签, 具体参考识别分类值 |
review | Bool | 是 | 是否复审,true:是 false:否 |
details | Array | 是 | 命中的关键词详细信息,如果 actions 为 pass,则 details 为空数组(nlp 判为违规,但未命中某个关键词也为空数组),详见以下 details 数据结构 |
speechUrl | String | 否 | 语音片段地址。默认不返还,需要返回请联系我们 |
details 数据结构
参数名 | 类型 | 是否必有 | 说明 |
---|---|---|---|
keyword | String | 否 | 命中的关键词。 1. 若命中算法模型,值为空字符串; 2. 若命中单个关键词,值为关键词字符串,例如: 习近平 ;2. 若同时命中多个关键词(组合规则),值为通过 + 拼接,且被括号包裹的字符串,例如:(加+微信) ;(A+B) 表示关键词 A 与 B 之间无顺序要求,{A+B} 表示关键词 A 与 B 之间按照出现顺序匹配 |
hint | String | 否 | 检测文本中的违规内容片段,例如原文为 那我先加您微信,发您一下 ,值为:加您微信 |
mainLabel | String | 是 | 命中的风险主标签, 具体参考识别分类值 |
subLabel | String | 否 | 关键词的次标签 |
回调数据的 json 字段示例(语音转译与文本审核):
{
"code": 0,
"message": "success",
"nonce": "0.01627771095362096",
"timestamp": 1552391372490,
"requestId": "tupu_request_id",
"roomId": "your_room_id",
"userId": "your_user_id",
"forumId": "your_forum_id",
"customInfo": {
"hello": true,
"other": "your customInfo"
},
"5caee6b2a76925c55a09a6d2": {
"label": "Abuse",
"review": false,
"rate": 0.996484,
"action": "block",
"text": "Fuck you",
"violations": [
{
"startTime": 12,
"endTime": 15,
"content": "Fuck",
"action": "block",
"label": "Abuse",
"review": false,
"rate": 0.996484,
"speechUrl": "http:://123.mp3",
"details": [
{
"keyword": "Fuck",
"hint": "Fuck",
"mainLabel": "Abuse",
"subLabel": "Abuse"
}
]
}
]
}
}
附表
语言代码列表
若需对语种进行自动检测识别,取值 AUTO
语言地区码 | 语言(地区) |
---|---|
ar-EG | Arabic (Egypt) |
ar-SA | Arabic (Saudi Arabia) |
ar-AE | Arabic (UAE) |
ar-KW | Arabic (Kuwait) |
ar-QA | Arabic (Qatar) |
de-DE | German (Germany) |
el-GR | Greek (Greece) |
en-AU | English (Australia) |
en-CA | English (Canada) |
en-GB | English (United Kingdom) |
en-IN | English (India) |
en-NZ | English (New Zealand) |
en-US | English (United States) |
es-ES | Spanish (Spain) |
es-AR | Spanish (Argentina) |
fil-PH | Filipino (Pilipinas) |
fr-CA | French (Canada) |
fr-FR | French (France) |
id-ID | Indonesian (Indonesia) |
it-IT | Italian (Italy) |
ja-JP | Japanese (Japan) |
ko-KR | Korean (Korea) |
ms-MY | Malay (Malaysia) |
nb-NO | Norwegian (Norway) |
nl-NL | Dutch (Netherlands) |
pl-PL | Polish (Poland) |
pt-BR | Portuguese (Brazil) |
pt-PT | Portuguese (Portugal) |
ru-RU | Russian (Russia) |
sv-SE | Swedish (Sweden) |
zh-CN | Chinese (Mandarin, China Mainland) |
zh-HK | Chinese (Cantonese, HongKong) |
zh-TW | Chinese (Mandarin, Taiwan) |
th-TH | Thai (Thailand) |
tr-TR | Turkish (Turkey) |
vi-VN | Vietnamese (Vietnam) |