-
开课时间
2018.08.04 19:55
-
课程时长
60分钟
-
学习人数
969人次学习
- 课程介绍
- 精华文稿
- 课件领取
- 相关课程
多说话人分割聚类是指从存在多个说话人的音频流中找出“谁在何时说话了”的任务,对一段对话、一场会议或一个广播节目进行自动转录或理解时,该任务是必不可少的。一个典型的多说话人分割聚类系统至少包括语音活跃性检测(VAD)、说话人变更点检测(CPD)和说话人聚类三个部分,还可以包括一个额外的重分割部分来优化结果。传统方法中,上述各个部分分别使用具有多个阈值的不同类型模型来实现,这使得最终的系统通常过于复杂且不够鲁棒,不容易部署到声学条件不匹配的实际应用中。