腾讯云直播——老数据公开课 - 深蓝学院 - 专注于前沿科技的教育平台

收藏

邀
请
朋
友
一
起
学

腾讯云直播——老数据公开课

主讲人：王玲666 | 产品测试账号

开课时间

2018.08.04 19:55
课程时长

60分钟
学习人数

1012人次学习

立即报名

立即报名

腾讯云直播——老数据公开课

多说话人分割聚类是指从存在多个说话人的音频流中找出“谁在何时说话了”的任务，对一段对话、一场会议或一个广播节目进行自动转录或理解时，该任务是必不可少的。一个典型的多说话人分割聚类系统至少包括语音活跃性检测（VAD）、说话人变更点检测（CPD）和说话人聚类三个部分，还可以包括一个额外的重分割部分来优化结果。传统方法中，上述各个部分分别使用具有多个阈值的不同类型模型来实现，这使得最终的系统通常过于复杂且不够鲁棒，不容易部署到声学条件不匹配的实际应用中。多说话人分割聚类是指从存在多个说话人的音频流中找出“谁在何时说话了”的任务，对一段对话、一场会议或一个广播节目进行自动转录或理解时，该任务是必不可少的。一个典型的多说话人分割聚类系统至少包括语音活跃性检测（VAD）、说话人变更点检测（CPD）和说话人聚类三个部分，还可以包括一个额外的重分割部分来优化结果。传统方法中，上述各个部分分别使用具有多个阈值的不同类型模型来实现，这使得最终的系统通常过于复杂且不够鲁棒，不容易部署到声学条件不匹配的实际应用中。

课程介绍
精华文稿
课件领取
相关课程

多说话人分割聚类是指从存在多个说话人的音频流中找出“谁在何时说话了”的任务，对一段对话、一场会议或一个广播节目进行自动转录或理解时，该任务是必不可少的。一个典型的多说话人分割聚类系统至少包括语音活跃性检测（VAD）、说话人变更点检测（CPD）和说话人聚类三个部分，还可以包括一个额外的重分割部分来优化结果。传统方法中，上述各个部分分别使用具有多个阈值的不同类型模型来实现，这使得最终的系统通常过于复杂且不够鲁棒，不容易部署到声学条件不匹配的实际应用中。

直播精华文稿暂未上传

直播课件暂未上传

关于我们版权声明联系电话：13223238150

服务协议反馈建议联系邮箱：tongshuai@saikr.com

友情链接：

在线咨询

返回顶部