腾讯云直播——老数据公开课

主讲人:王玲666 | 产品测试账号

  • 开课时间

    2018.08.04 19:55

  • 课程时长

    60分钟

  • 学习人数

    969人次学习

立即报名

立即报名

腾讯云直播——老数据公开课

多说话人分割聚类是指从存在多个说话人的音频流中找出“谁在何时说话了”的任务,对一段对话、一场会议或一个广播节目进行自动转录或理解时,该任务是必不可少的。一个典型的多说话人分割聚类系统至少包括语音活跃性检测(VAD)、说话人变更点检测(CPD)和说话人聚类三个部分,还可以包括一个额外的重分割部分来优化结果。传统方法中,上述各个部分分别使用具有多个阈值的不同类型模型来实现,这使得最终的系统通常过于复杂且不够鲁棒,不容易部署到声学条件不匹配的实际应用中。多说话人分割聚类是指从存在多个说话人的音频流中找出“谁在何时说话了”的任务,对一段对话、一场会议或一个广播节目进行自动转录或理解时,该任务是必不可少的。一个典型的多说话人分割聚类系统至少包括语音活跃性检测(VAD)、说话人变更点检测(CPD)和说话人聚类三个部分,还可以包括一个额外的重分割部分来优化结果。传统方法中,上述各个部分分别使用具有多个阈值的不同类型模型来实现,这使得最终的系统通常过于复杂且不够鲁棒,不容易部署到声学条件不匹配的实际应用中。

多说话人分割聚类是指从存在多个说话人的音频流中找出“谁在何时说话了”的任务,对一段对话、一场会议或一个广播节目进行自动转录或理解时,该任务是必不可少的。一个典型的多说话人分割聚类系统至少包括语音活跃性检测(VAD)、说话人变更点检测(CPD)和说话人聚类三个部分,还可以包括一个额外的重分割部分来优化结果。传统方法中,上述各个部分分别使用具有多个阈值的不同类型模型来实现,这使得最终的系统通常过于复杂且不够鲁棒,不容易部署到声学条件不匹配的实际应用中。

直播精华文稿暂未上传
直播课件暂未上传
暂无相关课程