京东云

语音识别

立即体验购买资源包 API文档

立即体验购买资源包

产品特性

多领域精通

依托于京东零售、金融、客服等领域大数据支持，结合行业前沿算法，做到领域内专家级语音识别，可广泛适用于客服质检、外呼中心、会议转写、语音输入法、教育等多个行业。

技术先进

具备领先业界的识别能力、支持7大语系、20多个地域方言等、具备定制方言的能力支持声音和文本层面的自适应能力和语言混合识别能力，识别字准率均能满足广泛的商用场景。

即说即显

采用流式识别技术，能做到“边说边出文字”，具备业界领先的智能断句，标点预测，识别结果顺滑等能力，具备体验良好的静音检测、智能打断、语气词过滤功能。

易接入

支持通过云控制台可视化进行配置及自学习，并提供API和多种SDK，接入成本极低。

产品功能

ASR语音基础能力

短语音识别

对时长较短（一分钟以内）的语音进行识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息等，可集成在各类App、智能客服、智能助手等产品中。

实时语音识别

对不限时长的音频流做实时识别，达到“边说边出文字”的效果，内置智能断句，可提供每句话开始结束时间。可用于智能语音助手、视频实时直播字幕、实时会议记录、实时法庭庭审记录等场景。

录音文件转写

对上传/存储的录音文件进行识别，完成识别并返回识别文本。可用于呼叫中心语音质检、数据库录入、会议转写等场景。

离线语音识别

基于深度学习技术，在离线设备上将音频数据转换成文本数据，为信息处理和数据挖掘提供基础，助力企业降本提效。依靠京东强大的语音识别技术，离线识别准确率高、效果好、应用便捷。

ASR语音识别扩展能力

声纹识别

依托京东自研的声纹识别技术，实现声纹注册和声纹1:1对比验证服务，对说话人的声波特征进行提取和验证辨识，作为生物识别的一种，被广泛应用于金融安全、智能家居、智慧建筑等领域

语音唤醒

京东语音唤醒技术通过在设备或软件中预置唤醒词，当用户发出该语音指令时，设备便从休眠状态中被唤醒，并作出指定响应，大大提升了人机交互的效率

语音情绪识别

通过深度学习语音的韵律特征（基频、语速、能量）等，准确识别用户语音中的情绪变化，为电话服务、车载驾驶、安检等场景提供更多能力支撑

噪音识别

通过对不同场所、环境下正常说话声与噪音声音信号波形差异的深度学习，准确区分音频片段的噪音概率，为各类语音识别任务下的抗噪鲁棒性提升提供能力基础

短语音识别应用场景

语音短消息-社交/游戏

语音搜索

语音指令（智能硬件）

更多

语音短消息-社交/游戏

语音搜索

语音指令（智能硬件）

语音短消息-社交/游戏

语音短消息-社交/游戏

通过语音发送或者接收短消息。在不方便打字的情况下实现快速便捷的短消息操作，比如音频短信转文字。

场景介绍: 通过语音发送或者接收短消息。在不方便打字的情况下实现快速便捷的短消息操作，比如音频短信转文字。

语音搜索

语音搜索

支持各种场景下的语音搜索，比如地图导航、浏览器搜索等。可以集成到任何形式的手机应用中，最大限度的解放双手。

场景介绍: 支持各种场景下的语音搜索，比如地图导航、浏览器搜索等。可以集成到任何形式的手机应用中，最大限度的解放双手。

语音指令（智能硬件）

语音指令（智能硬件）

通过语音命令控制智能设备，实现快捷便利的操作。比如控制空调的开关、电视的换台等。可以集成到智能家居等设备中

场景介绍: 通过语音命令控制智能设备，实现快捷便利的操作。比如控制空调的开关、电视的换台等。可以集成到智能家居等设备中

实时语音识别应用场景

视频实时直播字幕

实时会议记录

实时法庭庭审记录

实时客服记录

更多

视频实时直播字幕

实时会议记录

实时法庭庭审记录

实时客服记录

视频实时直播字幕

视频实时直播字幕

现场演讲场景、直播场景下，将视频中的音频实时转写成字幕。还可以进一步对内容进行监控

场景介绍: 现场演讲场景、直播场景下，将视频中的音频实时转写成字幕。还可以进一步对内容进行监控

实时会议记录

实时会议记录

将会议中的音频实时转换成文字，特别适用于电视会议等远距离场景

场景介绍: 将会议中的音频实时转换成文字，特别适用于电视会议等远距离场景

实时法庭庭审记录

实时法庭庭审记录

将庭审各方在庭审过程中的语音转变为文字，供各方在庭审页面上查看，减少书记员的工作

场景介绍: 将庭审各方在庭审过程中的语音转变为文字，供各方在庭审页面上查看，减少书记员的工作

实时客服记录

实时客服记录

将呼叫中心的语音实时的转写到文字，可以实现实时的质检、监控等

场景介绍: 将呼叫中心的语音实时的转写到文字，可以实现实时的质检、监控等

录音文件转写应用场景

呼叫中心语音质检

庭审数据库录入

医院病历录入

会议记录总结

小说播放识别

更多

呼叫中心语音质检

庭审数据库录入

医院病历录入

会议记录总结

小说播放识别

呼叫中心语音质检

呼叫中心语音质检

上传呼叫中心的录音文件，通过录音文件识别得到文本，进一步通过文本检索，检查有无违规话术、敏感词等信息

场景介绍: 上传呼叫中心的录音文件，通过录音文件识别得到文本，进一步通过文本检索，检查有无违规话术、敏感词等信息

庭审数据库录入

庭审数据库录入

上传庭审记录的录音文件，进行识别之后，将识别文本录入数据库。

场景介绍: 上传庭审记录的录音文件，进行识别之后，将识别文本录入数据库。

医院病历录入

医院病历录入

手术时通过音频记录医生的操作，通过录音文件识别得到文本，提高病例录入的效率

场景介绍: 手术时通过音频记录医生的操作，通过录音文件识别得到文本，提高病例录入的效率

会议记录总结

会议记录总结

对会议记录的音频文件进行识别，然后通过人工或者自动的方法，对会议记录作出总结

场景介绍: 对会议记录的音频文件进行识别，然后通过人工或者自动的方法，对会议记录作出总结

小说播放识别

小说播放识别

对小说长时间播放内容进行识别，并与原文本进行对比

场景介绍: 对小说长时间播放内容进行识别，并与原文本进行对比

离线语音识别应用场景

车载语音交互离线识别

家用电器语音命令控制

智能硬件语音指令识别

更多

车载语音交互离线识别

家用电器语音命令控制

智能硬件语音指令识别

车载语音交互离线识别

车载语音交互离线识别

通过识别驾驶员语音指令，完成对汽车辅助功能的操控。提升用户体验，增强驾驶安全性。

场景介绍: 通过识别驾驶员语音指令，完成对汽车辅助功能的操控。提升用户体验，增强驾驶安全性。

家用电器语音命令控制

家用电器语音命令控制

通过语音控制家用电器，达到家用电器控制的简洁化、智能化，提高电器使用方便性，简化电器使用过程，提高家居舒适度

场景介绍: 通过语音控制家用电器，达到家用电器控制的简洁化、智能化，提高电器使用方便性，简化电器使用过程，提高家居舒适度

智能硬件语音指令识别

智能硬件语音指令识别

改造传统设备，通过语音指令控制其智能化功能，为用户带来全新高质量智能体验，增加安全性和便利性

场景介绍: 改造传统设备，通过语音指令控制其智能化功能，为用户带来全新高质量智能体验，增加安全性和便利性

语音识别

产品特性

产品功能

ASR语音基础能力

ASR语音识别扩展能力

短语音识别应用场景

实时语音识别应用场景

录音文件转写应用场景

离线语音识别应用场景

开始与售前顾问沟通

可直接拨打电话 400-098-8505转1