业务领域建模

时间:2019-11-25 19:55:11   收藏:0   阅读:78

领域建模

  1. Collect application domain information
    • focus on the functional requirements – also consider other requirements and documents
  2. Brainstorming
    • listing important application domain concepts – listing their properties/attributes – listing their relationships to each other
  3. Classifying the domain concepts into:
    • classes – attributes / attribute values – relationships
    • association, inheritance, aggregation
  4. Document result using UML class diagram

1 Collect application domain information

我的工程实践题目是《多人对话场景中音频分离》,题目要求的任务即说话人区分(Speaker Diarization)任务。说话人区分是声纹识别领域中的一个任务,具体是指根据说话者身份将输入的音频划分为同类片段的过程。说话人区分是说话人细分和说话人聚类的组合,第一个目标是找到音频中的说话人更改点, 第二个目标是根据说话者的特征将语音片段分组在一起。说话人区分常常作为语音识别功能的预处理,它将音频中说话人的身份信息提供给语音识别系统,从而改善语音识别的准确率。

语音是人和人之间进行交流的最自然、最方便、最有效的方式,也是人类获取信息的重要来源之一。随着计算机处理能力的不断增强以及音频处理技术的不断提升,研究如何从海量的数据,如电视新闻广播录音及会议录音中,获取感兴趣的声音,已成为很多大学和研究机构的一个热点。另一方面,如何对获取到的各类音频进行合理有效的文档管理,也是目前存在的一大挑战。然而,当前无论是从机器中或是从网络上采集到的原始录音数据仅仅是一种非结构化的二进制数据流,它们缺乏通用结构化的内容组织形式,这就使得单独的一项语音相关技术并不足以满足人们的需求。例如,对会议录音进行语音转写,只能得到连续的文字串,而不能获得会议过程中每个人说的具体内容及含义,因此需要多种语音技术相互结合,才能满足在会议场景下的需求,而说话人分离就是为了配合完成其它语音技术而衍生出来的一种技术。借助说话人分离人们可实现对音频数据流的一种结构化管理,进而为在更高语义层次上实现结构化音频内容提供基础,这样在会议场景下的多说话人音频文档整理时,便可以达到文档归类的目的。说话人分离技术具有很多实际应用价值。

一般而言,当前基于统计模式识别技术的语音处理技术大部分都是针对单人的,典型的如语音识别、说话人识别、关键词检索,都只能在一段只包含一个人的语音文件才能取得令人满意的结果;当语音中含有多个说话人时,这些算法的性能会急剧下降,无法满足实际应用的需求。说话人分割聚类技术作为一项重要的前端处理技术,它可以获得语音中说话人变动的信息,以及哪些语音段是由同一个人发出的,在完成这些处理后,可以更方便地实现后续的信息处理,如前述的语音识别以及进一步的撰写摘要、语法分析,机器翻译等。

2 Brainstorming

2.1 核心概念

非交错模式

首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。

3 Classifying the domain concepts

类名 属性 方法
音频文件 格式 长度 信噪比 采样频率 采样位数 比特率 通道数 帧长 周期 交错模式 播放 暂停播放 加窗 特征提取 降噪 滤波 说话人区分
说话人标签 说话人身份 开始时间 结束时间 添加标签 删除标签

4 Document result using UML class diagram

技术分享图片

原文:https://www.cnblogs.com/litosty/p/11929930.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!