推荐专题：

300字范文 > 科大讯飞语音识别技术实（yuan）战（ma）小结

科大讯飞语音识别技术实（yuan）战（ma）小结

时间：2019-02-18 22:20:18

相关推荐

科大讯飞语音识别技术实（yuan）战（ma）小结

1.准备工作

1.1 开通讯飞开放平台账号

/

可以领取免费套餐：/free

1.2 下载语音处理类库TarsosDSP

https://0110.be/releases/TarsosDSP/TarsosDSP-2.4/TarsosDSP-2.4.jar

建议发布到maven仓库，便于集成。参考命令（本地安装）：

POM文件添加依赖：

1.3 下载媒体处理软件ffmpeg

科大讯飞的接口不支持AMR等格式的音频文件，需要转换为PCM格式，因此需要使用功能强大的ffmpeg进行转码。为简化ffmpeg的使用，我们将利用TarsosDSP类库。TarsosDSP类库会在指定位置启动ffmpeg命令，我们预先下载好，可以避免TarsosDSP类库动态下载ffmpeg导致的长时间等待。

ffmpeg下载地址：

https://0110.be/releases/TarsosDSP/TarsosDSP-static-ffmpeg/linux_64_bits_ffmpeg

https://0110.be/releases/TarsosDSP/TarsosDSP-static-ffmpeg/windows_64_bits_ffmpeg.exe

win7下的存储路径：

C:\Users\<你的用户名>\AppData\Local\Temp\windows_64_bits_ffmpeg.exe

linux下的存储路径：

/tmp/linux_64_bits_ffmpeg

-------------------------------------------------------- 华丽的分割线 ------------------------------------------------------------

下面都是干（yuan）货（ma）。

2. 定义一个音频转换处理工具类

我们首先定义一个音频转换处理的工具类，用于将任意格式的音频文件转换为科大讯飞接口支持的PCM格式。

工具类主体代码：

文件输出工具类代码：

我们可以用以下代码试听一下处理后的文件内容：

3. 定义一个语音识别工具类

POM加入netty依赖，用于与科大讯飞平台建立WebSocket通信。

主体代码：

URL拼接方法：

自定义的WebSocket客户端处理器：

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

科大讯飞刘聪：如何持续保持语音识别技术的领先

2022-01-10

科大讯飞发布四川话语音识别技术号称识别准确率超过85%

2024-02-10

科大讯飞和 Nuance 在语音识别技术上各有长项和短处？

2022-08-12

科大讯飞语音功能小结

2019-05-26

扩展阅读

: 第二篇：语音识别&语音合成技术的概念应用场景及原理解析

: 如何使用语音识别技术将录音转换为文字文档

: 语音识别技术发展史与行业最佳实践全解析

: 语音识别技术发展史与行业最佳实践全解析

: 语音识别技术发展史与行业最佳实践全解析

: 运用语音识别技术会说话的智能手表上市

最近发布

小小导游手把手教你游览景点 - 小学生景点导游词作文300字

2024-08-06

走我们去春游作文300字

2024-08-06

钓鱼作文300字(大全19篇)

2024-08-05

金鱼四年级作文300字-关于金鱼的作文

2024-08-05

【一件小事作文300字】一件小事给我的启示或者一句名言给我的启示作文300字左右

2024-08-05

笨狼的学校生活读后感300字

2024-08-05

推荐专题

晒晒我们班的牛人作文300字樱桃花作文300字我眼中的宋江300字 300字作文我的家乡人民公园作文300字美德少年事迹300字细节描写300字片段玩的作文300字狗猫鼠梗概300字景物描写300字自动自发读后感300字我能行300字作文日记作文300字青春派观后感300字比赛跑步作文300字