CN107211058B - 基于会话动态的会议分段 - Google Patents
基于会话动态的会议分段 Download PDFInfo
- Publication number
- CN107211058B CN107211058B CN201680008614.1A CN201680008614A CN107211058B CN 107211058 B CN107211058 B CN 107211058B CN 201680008614 A CN201680008614 A CN 201680008614A CN 107211058 B CN107211058 B CN 107211058B
- Authority
- CN
- China
- Prior art keywords
- conference
- segment
- speech
- meeting
- implementations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42221—Conversation recording systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/30—Aspects of automatic or semi-automatic exchanges related to audio recordings in general
- H04M2203/303—Marking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
各种公开的实现涉及对涉及多个会议参与者的会议的记录的处理和/或回放。本文公开的一些实现涉及分析会议记录的会话动态。一些示例可包括搜索会议记录以确定段分类的实例。段分类可至少部分地基于会话动态数据。一些实现可包括将会议记录分成多个段,每个段对应于时间间隔和至少一个段分类。一些实现允许听众根据感兴趣的段、词语、主题和/或讲话者而快速浏览会议记录。
Description
相关申请的交叉引用
本申请要求2015年2月3日提交的申请号为PCT/CN2015/072168 的国际专利申请;以及2015年6月3日提交的美国临时专利申请第 62/170236号的优先权,它们的内容通过引用并入本文。
技术领域
本公开涉及音频信号的处理。特别地,本公开涉及处理与会议相 关的音频信号,包括但不限于处理用于电话会议或视频会议的音频信 号。
背景技术
在电话会议领域,通常提供设施以允许记录电话会议以供在电话 会议结束之后进行回放。这可以使得那些无法参加会议的人听到会议 中发生了什么。它还可以让那些在场的人刷新他们对电话会议期间所 发生的事情的记忆。记录设施有时用于确保某些行业(如银行业)的 法规遵从。
典型的电话会议记录是包含所有各方到记录介质上的混合的单个 单声道流。这通常通过将“虚拟”客户端或电话连接到电话会议桥或 如下服务器来实现,该服务器对于桥看上去像普通客户端或电话,但 实际上这可以是简单地记录其下行链路的机器。在这种系统中,聆听 录音的回放的体验与原始电话会议期间在电话或客户端上被动地进行 聆听的体验相同或基本相同。
发明内容
根据本文公开的一些实现方式,一种方法可以涉及处理音频数据。 一些这样的方法可以涉及接收对应于涉及多个会议参与者的会议的记 录的音频数据。在一些例子中,会议可能是电话会议。然而,在一些 例子中,会议可能是面对面会议(in-personconference)。
根据一些示例,音频数据可以包括来自多个端点的音频数据。多 个端点中的每一个的音频数据可能已被单独记录。作为替代地或者附 加地,音频数据中的至少一些可以来自对应于多个会议参与者的单个 端点。音频数据可以包括多个会议参与者中的每个会议参与者的空间 信息。
在一些实现中,该方法可以涉及分析音频数据以确定会话动态数 据。在一些示例中,会话动态数据可以包括指示会议参与者语音的频 率和持续时间的数据、指示至少两个会议参与者在其期间同时发言的 会议参与者双讲话(doubletalk)的实例的数据、和/或指示会议参与 者会话的实例的数据。
一些公开的方法可以涉及将会话动态数据应用作为如下向量的空 间优化成本函数的一个或多个变量,该向量描述了虚拟声学空间中的 每个会议参与者的虚拟会议参与者位置。一些这样的方法可以涉及将 优化技术应用于空间优化成本函数以确定局部最优解,并至少部分地 基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置。
在一些实现中,虚拟声学空间可以相对于虚拟听众的头部在虚拟 声学空间中的位置来确定。根据一些这样的实施方式,空间优化成本 函数可以应用对于将参与会议参与者双讲话的会议参与者布置于如下 虚拟会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚 拟听众头部的位置被定义的“混淆锥(cone of confusion)”上或者与 该“混淆锥”相距在预定的角距离内。通过混淆锥的圆锥切片可能具 有相同的耳间时间差异。在一些示例中,空间优化成本函数可以应用 对于将参与会议参与者相互会话的会议参与者布置于位于混淆锥上或 者与混淆锥相距在预定的角距离内的虚拟会议参与者位置处的惩罚。
根据一些示例,分析音频数据可以涉及确定哪些会议参与者(如 果有的话)具有感知相似的语音。在一些这样的示例中,空间优化成 本函数可以应用对于将具有感知相似的语音的会议参与者布置于位于 混淆锥上或者与混淆锥相距在预定的角距离内的虚拟会议参与者位置 处的惩罚。
在一些示例中,空间优化成本函数可以应用对于将频繁发言的会 议参与者布置于在虚拟听众的头部位置旁边、后面、上方或下方的虚 拟会议参与者位置处的惩罚。在某些实例中,空间优化成本函数可以 应用对于将频繁发言的会议参与者布置于与较不频繁发言的会议参与 者的虚拟会议参与者位置相比距虚拟听众头部的位置更远的虚拟会议参与者位置处的惩罚。在一些实现中,空间优化成本函数可以应用对 于将很少发言的会议参与者布置于不在虚拟听众的头部位置旁边、后 面、上方或下方的虚拟会议参与者位置处的惩罚。
根据一些示例,优化技术可能涉及梯度下降技术、共轭梯度技术、 牛顿法、Broyden-Fletcher-Goldfarb-Shanno算法、遗传算法、模拟 退火算法、蚁群优化方法和/或蒙特卡罗方法。在一些示例中,分配虚 拟会议参与者位置可以包括从一组预定的虚拟会议参与者位置中选择 虚拟会议参与者位置。
在一些实例中,音频数据可包括语音活动检测处理的输出。根据 一些示例,分析音频数据可涉及识别对应于个体会议参与者的语音。
在一些示例中,音频数据可对应于完整或基本上完整的会议的记 录。一些示例可能涉及接收和处理来自多个会议的音频数据。
一些公开的方法可涉及在电话会议期间接收(例如,经由接口系 统)电话会议音频数据。在一些示例中,电话会议音频数据可以包括 多个单独的上行链路数据分组流。每个上行链路数据分组流可以对应 于一个或多个电话会议参与者使用的电话端点。该方法可以涉及(例 如,经由接口系统)将电话会议音频数据作为单独的上行链路数据分 组流发送到存储系统。
一些方法可涉及确定不完整的上行链路数据分组流的迟到(late) 数据分组已经在迟到分组时间阈值之后被从电话端点接收到。迟到分 组时间阈值可以大于或等于电话会议的口到耳延迟时间阈值。在一些 示例中,口到耳延迟时间阈值可以大于或等于100毫秒(ms)。在一 些实例中,口到耳延迟时间阈值可以是150ms或更短。在一些示例中, 迟到分组时间阈值可以是200ms,400ms,500ms或更大。在某些实 现中,迟到分组时间阈值可以大于或等于1秒。一些这样的方法可涉 及将迟到数据分组添加到不完整的上行链路数据分组流。
一些方法可以涉及确定在大于迟到分组时间阈值的丢失分组时间 阈值内没有从电话端点接收到不完整上行链路数据分组流的丢失数据 分组。一些这样的方法可以涉及向电话端点(例如,经由接口系统) 发送关于重新发送丢失的数据分组的请求。如果电话端点重新发送丢 失的数据分组,这样的方法可能涉及接收丢失的数据分组,并且将丢 失的数据分组添加到不完整的上行数据分组流中。
在一些示例中,单独的上行链路数据分组流可以是单独的编码的 上行链路数据分组流。上行链路数据分组流中的至少一个可以包括在 电话会议的口到耳延迟时间阈值之后接收到、因此在电话会议期间不 用于再现音频数据的至少一个数据分组。在一些实例中,至少一个上 行链路数据分组流可以对应于多个电话会议参与者,并且可以包括关 于多个参与者中的每一个的空间信息。
一些公开的方法可以涉及接收(例如,经由接口系统)所记录的 电话会议的音频数据。记录的音频数据可以包括对应于由一个或多个 电话会议参与者使用的电话端点的单独的上行链路数据分组流。一些 这样的方法可以涉及分析单独的上行链路数据分组流中的数据分组的 序列号数据。分析过程可以包括确定单独的上行链路数据分组流是否 包括至少一个无序数据分组。如果上行链路数据分组流包括至少一个 无序数据分组,则这样的方法可以包括根据序列号数据对单独的上行 链路数据分组流重新排序。在一些实例中,单独的上行链路数据分组 流的至少一个数据分组可能已经在电话会议的口到耳延迟时间阈值之 后接收到。
一些这样的方法可以包括接收(例如,经由接口系统)电话会议 元数据并且至少部分地基于电话会议元数据来对单独的上行链路数据 分组流进行索引。在一些实例中,记录的音频数据可以包括多个单独 的编码的上行链路数据分组流。每个单独的编码的上行链路数据分组 流可以对应于由一个或多个电话会议参与者使用的电话端点。这样的 方法可以包括解码多个单独的编码的上行链路数据分组流,并分析该 多个单独的上行链路数据分组流。
一些方法可能涉及在一个或多个单独的解码的上行链路数据分组 流中识别语音,并且产生语音识别结果数据。一些这样的方法可能涉 及标识语音识别结果数据中的关键词并且对关键词位置进行索引。
一些公开的方法可以涉及在单独的解码的上行链路数据分组流中 识别多个电话会议参与者中的每一个的语音。一些这样的方法可能涉 及生成发言者日志,该发言者日志指示多个电话会议参与者中的每一 个发言时的时间。
根据一些示例,分析多个单独的上行链路数据分组流可以涉及确 定会话动态数据。会话动态数据可以包括指示会议参与者语音的频率 和持续时间的数据、指示至少两个会议参与者在其期间同时发言的会 议参与者双讲话的实例的数据、和/或指示会议参与者会话的实例的数 据。
一些方法可能涉及接收对应于涉及多个会议参与者的会议的记录 的音频数据。在一些例子中,会议可能是电话会议。然而,在一些例 子中,会议可能是面对面会议。
根据一些示例,音频数据可以包括来自多个端点的音频数据。多 个端点中的每一个的音频数据可能已被单独记录。作为替代地或者附 加地,音频数据中的至少一些可以来自对应于多个会议参与者的单个 端点。音频数据可以包括多个会议参与者的每个会议参与者的空间信 息。
一些这样的方法可以涉及在虚拟声学空间中渲染会议参与者语音 数据,使得各会议参与者具有各自不同的虚拟会议参与者位置。这样 的方法可以包括调度会议参与者语音回放,使得在会议参与者语音的 至少两个输出讲话突发(talkspurt)之间的回放重叠量不同于(例如, 大于)会议记录的两个对应的输入讲话突发(talkspurt)之间的原始 重叠量。原始重叠量可以为零或非零。
在一些示例中,调度可以至少部分地根据感知激发(motivated) 规则的集合来执行。本文公开了各种感知激发规则。在一些实现中, 感知激发规则集合可以包括指示单个会议参与者的两个输出讲话突发 不应该在时间上重叠的规则。感知激发规则集合可以包括如下规则, 该规则指示如果两个输出讲话突发对应于单个端点,则两个输出讲话 突发在时间上不应该重叠。
根据一些实现,给定两个连续的输入讲话突发A和B,A已经在 B之前发生,该感知激发规则集合可以包括如下规则,该规则允许对 应于B的输出讲话突发的回放在对应于A的输出讲话突发的回放完成 之前开始,但是不会在对应于A的输出讲话突发的回放开始之前开始。 感知激发规则集合可以包括如下规则,该规则允许对应于B的输出讲 话突发的回放不早于在对应于A的输出讲话突发的回放完成之前的时 间T开始。在一些这样的示例中,T可以大于零。
根据一些实现,感知激发规则集合可以包括允许来自不同会议参 与者的全部陈述(presentation)的并发回放的规则。在一些实现中, 陈述可以对应于会议参与者语音的时间间隔,在该时间间隔期间,语 音密度度量大于或等于静默阈值,双讲话比率小于或等于讨论阈值, 并且主导度量大于陈述阈值。双讲话比率可以指示在该时间间隔中的 在其期间至少两个会议参与者同时发言的语音时间的占比。语音密度 度量可以指示在该时间间隔中的存在任何会议参与者语音的占比。主 导度量可以指示在该时间间隔期间的由主导会议参与者发出的总语音 的占比。主导会议参与者可以是在时间间隔内发言最多的会议参与者。
在一些示例中,会议参与者语音中的至少一些可被调度为以比记 录会议参与者语音的速率更快的速率来回放。根据一些这样的示例, 可以通过使用WSOLA(基于波形相似性的重叠相加)技术来实现调 度更快速率的语音回放。
一些公开的方法可以涉及分析音频数据以确定会话动态数据。会 话动态数据可以包括指示会议参与者语音的频率和持续时间的数据, 指示在其期间至少两个会议参与者同时发言的会议参与者双讲话的实 例的数据、和/或指示会议参与者会话的实例的数据。一些这样的方法 可以涉及应用会话动态数据作为描述虚拟声学空间中的每个会议参与 者的虚拟会议参与者位置的向量的空间优化成本函数的一个或多个变 量。这样的方法可以包括将优化技术应用于空间优化成本函数以确定 局部最优解,并至少部分地基于局部最优解来在虚拟声学空间中分配 虚拟会议参与者位置。
在一些示例中,音频数据可以包括语音活动检测处理的输出。一 些实现可以涉及识别对应于各个会议参与者的语音。在一些实现中, 音频数据对应于至少一个完整或基本上完整的会议的记录。
一些方法可以涉及接收(例如,通过会话动态分析模块)对应于 涉及多个会议参与者的会议的记录的音频数据。在一些例子中,会议 可能是电话会议。然而,在一些例子中,会议可能是面对面会议。
根据一些示例,音频数据可以包括来自多个端点的音频数据。多 个端点中的每一个的音频数据可能已被单独记录。作为替代地或者附 加地,音频数据中的至少一些可以来自对应于多个会议参与者的单个 端点。音频数据可以包括用于标识多个会议参与者中的每个会议参与 者的会议参与者语音的信息。
一些这样的方法可能涉及分析会议记录的会话动态以确定会话动 态数据。一些方法可能涉及搜索会议记录以确定多个段分类中的每一 个的实例。每个段分类可以至少部分地基于会话动态数据。一些实现 可以涉及将会议记录分成多个段。每个段可以对应于时间间隔和至少 一个段分类。
在一些示例中,分析、搜索和分段过程可以由会话动态分析模块 执行。在一些实现中,搜索和分段过程可以是递归过程。在一些实现 中,搜索和分段过程可以在不同的时间尺度上多次执行。
根据一些实施方式,搜索和分段过程可以至少部分地基于段分类 的层级结构。在一些示例中,段分类的层级结构可以基于特定段分类 的段可被标识的置信水平、段的开始时间可被确定的置信水平、段的 结束时间可被确定的置信水平和/或特定段分类包括对应于会议主题 的会议参与者语音的可能性。
在一些实现中,段分类的实例可以根据一组规则来确定。规则可 以例如基于一个或多个会话动态数据类型,例如指示在时间间隔中的 在其期间至少两个会议参与者同时发言的语音时间的占比的双讲话比 率、指示在该时间间隔中的存在任何会议参与者语音的占比的语音密 度度量、和/或指示在该时间间隔期间的由主导会议参与者发出的总语音的占比的主导度量。主导会议参与者可以是在时间间隔期间发言最 多的会议参与者。
在一些示例中,该组规则可以包括如果语音密度度量小于相互静 默阈值则将段分类为相互静默段的规则。根据一些示例,该组规则可 以包括如下规则,即如果语音密度度量大于或等于相互静默阈值并且 双讲话比率大于混串音阈值,则将段分类为混串音(Babble)段。在 一些实现中,该组规则可以包括如下规则,即如果语音密度度量大于 或等于静默阈值,并且如果双讲话比率小于或等于混串音阈值但是大 于讨论阈值,则将段分类为讨论段。
根据一些实现,该组规则可以包括如下规则,即如果语音密度度 量大于或等于静默阈值,如果双讲话比率小于或等于讨论阈值,以及 如果主导度量大于陈述阈值,则将段分类为陈述段。在一些示例中, 该组规则可以包括如下规则,即如果语音密度度量大于或等于静默阈 值,如果双讲话比率小于或等于讨论阈值,以及如果主导度量小于或 等于陈述阈值但大于问答阈值,则将段分类为问答段。
如上所述,在一些实现中,搜索和分段过程至少部分地基于段分 类的层级结构。根据一些这样的实现,搜索过程的第一层级可以涉及 搜索会议记录以确定混串音段的实例。在一些示例中,搜索过程的第 二层级可以涉及搜索会议记录以确定陈述段的实例。
根据一些示例,搜索过程的第三层级可以涉及搜索会议记录以确 定问答段的实例。根据一些实施方式,搜索过程的第四层级可以包括 搜索会议记录以确定讨论段的实例。
然而,在一些替代实现中,段分类的实例可以根据机器学习分类 器来确定。在一些示例中,机器学习分类器可以是自适应增强技术、 支持向量机技术、贝叶斯网络模型技术、神经网络技术、隐式马尔可 夫模型技术、或条件随机场技术。
一些公开的方法可以包括接收(例如,通过主题分析模块)关于 涉及多个会议参与者的会议的记录的至少一部分的语音识别结果数 据。语音识别结果数据可以包括多个语音识别格、以及语音识别格的 多个假设词中的每一个的词语识别置信度分数。词语识别置信度分数 可以对应于假设词与在会议期间由会议参与者说出的实际词正确对应 的可能性。在一些示例中,接收语音识别结果数据可以涉及从两个或 更多个自动语音识别过程接收语音识别结果数据。
一些这样的方法可以涉及对于语音识别格中的多个假设词中的每 一个确定主词候选(primary word candidate)和一个或多个替代词假 设(alternative wordhypotheses)。与一个或多个替代词假设中的任 一个的词语识别置信度分数相比,主词候选的词语识别置信度分数指 示更高的与在会议期间由会议参与者说出的实际词正确对应的可能 性。
一些方法可能包括计算主词候选和替代词假设的术语(term)频 率度量。术语频率度量可以至少部分地基于语音识别格中的假设词的 出现次数以及词语识别置信度分数。根据一些实现,计算术语频率度 量可以至少部分地基于多个词含义。一些这样的方法可以包括根据术 语频率度量来对主词候选和替代词假设,包括替代假设列表中的替代 词假设,进行排序,并且根据替代假设列表对语音识别格的至少一些 假设词进行重新评分。
一些实现可以涉及形成词列表。词列表可以包括主词候选和每个 主词候选词的术语频率度量。在一些示例中,术语频率度量可以与文 档频率度量成反比。文档频率度量可以对应于主要候选词将在会议中 出现的预期频率。根据一些示例,预期频率可以对应于主词候选在两 个或更多个先前会议中出现的频率、或主词候选在语言模型中出现的 频率。
根据一些示例,词列表还可以包括关于每个主词候选的一个或多 个替代词假设。在某些实例中,可以根据多种语言模型生成替代词假 设。
一些方法可以包括至少部分地基于词列表来生成会话主题的主题 列表。在一些示例中,生成主题列表可以涉及确定词列表中的至少一 个词的上位词。根据一些这样的示例,生成主题列表可以涉及确定主 题分数。在一些示例中,主题分数可以包括上位词分数。根据一些这 样的示例,包括过程可以涉及至少部分地基于主题分数将替代词假设 包含在替代假设列表中。
在一些实现中,可以执行至少确定、计算、排序、包括和重新评 分过程的两次或多次迭代。根据一些示例,迭代可以涉及生成主题列 表并确定主题分数。在一些示例中,替代假设列表可以在每次迭代之 后被保留。
一些实现可以涉及将语音识别格的至少一些假设词缩减到规范的 基本形式。例如,缩减可以包括将语音识别格的名词缩减到规范的基 本形式。规范的基本形式可以是名词的单数形式。作为替代地或者附 加地,缩减可以包括将语音识别格的动词缩减到规范的基本形式。规 范的基本形式可能是动词的不定式形式。
根据一些示例,会议记录可以包括被分别记录的来自多个端点的 会议参与者语音数据。作为替代地或者附加地,会议记录可以包括来 自对应于多个会议参与者的单个端点的会议参与者语音数据,其可以 包括用于标识多个会议参与者的每个会议参与者的会议参与者语音的 信息。
一些公开的方法可以涉及接收对应于涉及多个会议参与者的至少 一个会议的记录的音频数据。音频数据可以包括被分别记录的来自多 个端点的会议参与者语音数据、和/或来自对应于多个会议参与者的单 个端点的会议参与者语音数据,其可以包括多个会议参与者的每个会 议参与者的空间信息。
这样的方法可以涉及基于对音频数据的搜索来确定搜索结果。搜 索可以是或可能已经基于一个或多个搜索参数。搜索结果可以对应于 音频数据中的会议参与者语音的至少两个实例。会议参与者语音的实 例可以包括讲话突发和/或讲话突发的部分。会议参与者语音的实例可 以包括由第一会议参与者发出的第一语音实例和由第二会议参与者发出的第二语音实例。
一些这样的方法可以包括将会议参与者语音的实例渲染到虚拟声 学空间的至少两个不同的虚拟会议参与者位置,使得第一语音实例被 渲染到第一虚拟会议参与者位置,并且第二语音实例被渲染到第二虚 拟会议参与者位置。这样的方法可以包括调度会议参与者语音的实例 的至少一部分进行同时回放,以产生回放音频数据。
根据一些实现方式,确定搜索结果可能涉及接收搜索结果。例如, 确定搜索结果可能涉及接收从通过另一装置(例如通过服务器)执行 的搜索得到的搜索结果。
然而,在一些实现中,确定搜索结果可能涉及执行搜索。根据一 些示例,确定搜索结果可以包括执行音频数据的关于多个特征的并发 搜索。根据一些实施方式,多个特征可以包括从一组特征中选择的两 个或更多个特征。该组特征可以包括词语、会议段、时间、会议参与 者情绪、端点位置和/或端点类型。在一些实现中,确定搜索结果可以 涉及执行对应于多个会议的记录的音频数据的搜索。在一些示例中, 调度过程可以包括至少部分地基于搜索相关性度量来调度会议参与者 语音的实例进行回放。
一些实现可以涉及修改会议参与者语音的至少一个实例的开始时 间或结束时间。在一些示例中,修改过程可以涉及扩展对应于会议参 与者语音的实例的时间间隔。根据一些示例,修改过程可以涉及合并 对应于单个会议端点的、扩展后在时间上重叠的会议参与者语音的两 个或更多个实例。
在一些示例中,调度过程可以包括调度先前在时间上不重叠的会 议参与者语音的实例以在时间上重叠地回放。作为替代地或者附加地, 一些方法可以涉及调度先前在时间上重叠的会议参与者语音的实例以 在时间上进一步重叠地回放。
根据一些实施方式,调度可以根据感知激发规则的集合来执行。 在一些实现中,感知激发规则的集合可以包括指示单个会议参与者的 两个输出讲话突发不应该在时间上重叠的规则。感知激发规则的集合 可以包括如下规则,该规则指示如果两个输出讲话突发对应于单个端 点,则这两个输出讲话突发在时间上不应该重叠。
根据一些实现,给定两个连续的输入讲话突发A和B,A已经在 B之前发生,该感知激发规则的集合可以包括如下规则,该规则允许 对应于B的输出讲话突发的回放在对应于A的输出讲话突发的回放完 成之前开始,但是不会在对应于A的输出讲话突发的回放开始之前。 感知激发规则的集合可以包括如下规则,该规则允许对应于B的输出 讲话突发的回放不早于在对应于A的输出讲话突发的回放完成之前的 时间T开始。在一些这样的示例中,T可以大于零。
一些公开的方法可以涉及分析音频数据以确定会话动态数据。会 话动态数据可以包括指示会议参与者语音的频率和持续时间的数据、 指示至少两个会议参与者在其期间同时发言的会议参与者双讲话的实 例的数据、和/或指示会议参与者会话的实例的数据。一些这样的方法 可以涉及将会话动态数据应用作为如下向量的空间优化成本函数的一 个或多个变量,该向量描述了虚拟声学空间中的每个会议参与者的虚 拟会议参与者位置。这样的方法可以涉及将优化技术应用于空间优化 成本函数以确定局部最优解,并至少部分地基于局部最优解来在虚拟 声学空间中分配虚拟会议参与者位置。
一些实现可以涉及提供用于控制显示器以提供图形用户界面的指 令。根据一些实现,用于控制显示器的指令可以包括用于进行会议参 与者的展示的指令。用于执行搜索的一个或多个特征可以例如包括会 议参与者的指示。
在一些示例中,用于控制显示器的指令可以包括用于进行会议段 的展示的指令。用于执行搜索的一个或多个特征可以例如包括会议段 的指示。
在一些实例中,用于控制显示器的指令可以包括用于进行用于搜 索特征的显示区域的展示的指令。用于执行搜索的一个或多个特征可 以例如包括词语、时间、会议参与者情绪、端点位置和/或端点类型。
一些这样的实现可以涉及接收对应于用户与图形用户界面的交互 的输入,并且至少部分地基于该输入来处理音频数据。在一些示例中, 输入可以对应于用于执行音频数据的搜索的一个或多个特征。一些这 样的方法可以包括将回放音频数据提供给扬声器系统。
根据一些实现方式,确定搜索结果可能涉及搜索关键词检索索引。 在一些示例中,关键词检索索引可以具有包括指向上下文信息的指针 的数据结构。根据一些这样的示例,指针可以是或可以包括矢量量化 索引。
在一些示例中,确定搜索结果可以涉及例如根据一个或多个时间 参数确定用于搜索的一个或多个会议的第一阶段。一些这样的方法可 以涉及根据其他搜索参数来检索搜索结果的第二阶段。
一些公开的方法可以涉及接收对应于会议记录的音频数据。音频 数据可以包括对应于多个会议参与者中的每一个的会议参与者语音的 数据。这样的方法可以包括仅将会议参与者语音的一部分选择为回放 音频数据。
根据一些实现,选择过程可以涉及根据所估计的会议参与者语音 与一个或多个会议主题的相关性来选择用于回放的会议参与者语音的 主题选择过程。在一些实现中,选择过程可以涉及根据所估计的会议 参与者语音与会议段的一个或多个主题的相关性来选择用于回放的会 议参与者语音的主题选择过程。
在一些实例中,选择过程可以涉及去除具有低于阈值输入讲话突 发持续时间的输入讲话突发持续时间的输入讲话突发。根据一些示例, 选择过程可以包括讲话突发过滤过程,其去除具有等于或高于阈值输 入讲话突发持续时间的输入讲话突发持续时间的输入讲话突发的一部 分。
作为替代地或者附加地,选择过程可以包括根据至少一个声学特 征来选择用于回放的会议参与者语音的声学特征选择过程。在一些示 例中,选择可以涉及迭代过程。一些这样的实现可以涉及将回放音频 数据提供给扬声器系统以供回放。
一些方法可以涉及接收目标回放持续时间的指示。根据一些这样 的示例,选择过程可以包括使回放音频数据的持续时间在目标回放持 续时间的阈值时间百分比和/或阈值时间差之内。在一些示例中,回放 音频数据的持续时间可以至少部分地通过将会议参与者语音的至少一 个选定部分的持续时间乘以加速系数来确定。
根据一些示例,会议记录可以包括被分别记录的来自多个端点的 会议参与者语音数据,或者来自对应于多个会议参与者的单个端点的 会议参与者语音数据,其可以包括多个会议参与者的每个会议参与者 的空间信息。一些这样的方法可以涉及在虚拟声学空间中渲染回放音 频数据,使得其语音被包括在回放音频数据中的各会议参与者具有各 自不同的虚拟会议参与者位置。
根据一些实现,选择过程可以涉及主题选择过程。根据一些这样 的示例,主题选择过程可以涉及接收会议主题的主题列表并且确定所 选择的会议主题的列表。所选择的会议主题的列表可能是会议主题的 子集。
一些方法可以涉及接收主题排名(ranking)数据,其可以指示主 题列表上的每个会议主题的估计的相关性。确定所选择的会议主题的 列表可以至少部分地基于主题排名数据。
根据一些实现,选择过程可以涉及讲话突发过滤过程。讲话突发 过滤过程例如可以涉及去除输入讲话突发的初始部分。初始部分可以 是从输入讲话突发开始时间到输出讲话突发开始时间的时间间隔。一 些方法可以包括至少部分地基于输入讲话突发持续时间来计算输出讲 话突发持续时间。
一些这样的方法可以涉及确定输出讲话突发持续时间是否超过输 出讲话突发时间阈值。如果确定输出讲话突发持续时间超过输出讲话 突发时间阈值,讲话突发过滤过程可能涉及对于单个输入讲话突发生 成会议参与者语音的多个实例。根据一些这样的示例,会议参与者语 音的多个实例中的至少一个可以具有与输入讲话突发结束时间相对应 的结束时间。
根据一些实现,选择过程可以涉及声学特征选择过程。在一些示 例中,声学特征选择过程可以涉及确定至少一个声学特征,例如音调 变化、语速和/或响度。
一些实现可以涉及修改会议参与者语音的至少一个实例的开始时 间或结束时间。在一些示例中,修改过程可以涉及扩展对应于会议参 与者语音的实例的时间间隔。根据一些示例,修改过程可以涉及将扩 展后在时间上重叠的与单个会议端点对应的会议参与者语音的两个或 更多个实例合并。
在一些示例中,调度过程可以包括调度先前在时间上不重叠的会 议参与者语音的实例以在时间上重叠地回放。作为替代地或者附加地, 一些方法可以涉及调度先前在时间上重叠的会议参与者语音的实例以 在时间上进一步重叠地回放。
根据一些实施方式,调度可以根据感知激发规则的集合来执行。 在一些实现中,感知激发规则的集合可以包括指示单个会议参与者的 两个输出讲话突发不应该在时间上重叠的规则。感知激发规则的集合 可以包括如下规则,该规则指示如果两个输出讲话突发对应于单个端 点,则这两个输出讲话突发在时间上不应该重叠。
根据一些实现,给定两个连续的输入讲话突发A和B,A已经在 B之前发生,该感知激发规则的集合可以包括如下规则,该规则允许 对应于B的输出讲话突发的回放在对应于A的输出讲话突发的回放完 成之前开始,但是不会在对应于A的输出讲话突发的回放开始之前。 感知激发规则的集合可以包括如下规则,该规则允许对应于B的输出 讲话突发的回放不早于在对应于A的输出讲话突发的回放完成之前的 时间T开始。在一些这样的示例中,T可以大于零。一些实现可以涉 及至少部分地基于搜索相关性度量来调度会议参与者语音的实例以供 回放。
一些公开的方法可以涉及分析音频数据以确定会话动态数据。会 话动态数据可以包括指示会议参与者语音的频率和持续时间的数据、 指示至少两个会议参与者在其期间同时发言的会议参与者双讲话的实 例的数据、和/或指示会议参与者会话的实例的数据。一些这样的方法 可以涉及将会话动态数据应用作为如下向量的空间优化成本函数的一 个或多个变量,该向量描述了虚拟声学空间中的每个会议参与者的虚 拟会议参与者位置。这样的方法可以涉及将优化技术应用于空间优化 成本函数以确定局部最优解,并至少部分地基于局部最优解来在虚拟 声学空间中分配虚拟会议参与者位置。
一些实现可以涉及提供用于控制显示器以提供图形用户界面的指 令。根据一些实现,用于控制显示器的指令可以包括用于进行会议参 与者的展示的指令。在一些示例中,用于控制显示器的指令可以包括 用于进行会议段的展示的指令。
一些这样的实现可以涉及接收对应于用户与图形用户界面的交互 的输入,并且至少部分地基于该输入来处理音频数据。在一些示例中, 输入可以对应于目标回放持续时间的指示。一些这样的方法可以包括 将回放音频数据提供给扬声器系统。
本公开的至少一些方面可以经由装置来实现。例如,一个或多个 设备可能能够至少部分地执行本文公开的方法。在一些实现中,装置 可以包括接口系统和控制系统。接口系统可以包括网络接口、控制系 统和存储系统之间的接口、控制系统与另一设备之间的接口和/或外部 设备接口。控制系统可以包括通用单芯片或多芯片处理器、数字信号 处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA) 或其他可编程逻辑器件、离散门或晶体管逻辑、或离散硬件组件中的 至少一个。
该控制系统可能能够至少部分地执行本文公开的方法。在一些实 现中,控制系统可能够经由接口系统在电话会议期间接收电话会议音 频数据。电话会议音频数据可以包括多个单独的上行链路数据分组流。 每个上行链路数据分组流可以对应于一个或多个电话会议参与者使用 的电话端点。在一些实现中,控制系统可能够经由接口系统将电话会议音频数据作为单独的上行链路数据分组流发送到存储系统。
根据一些示例,控制系统可能够确定不完整的上行链路数据分组 流的迟到数据分组已经在迟到分组时间阈值之后被从电话端点接收 到。迟到分组时间阈值可以大于或等于电话会议的口到耳延迟时间阈 值。控制系统可能够将迟到数据分组添加到不完整的上行链路数据分 组流。
在一些示例中,控制系统可能够确定在丢失分组时间阈值内没有 从电话端点接收到不完整上行链路数据分组流的丢失数据分组。在一 些示例中,该丢失分组时间阈值可大于迟到分组时间阈值。控制系统 可能够经由接口系统向电话端点发送关于重新发送丢失的数据分组的 请求,接收丢失的数据分组,并且将丢失的数据分组添加到不完整的 上行数据分组流中。
在一些实现中,单独的上行链路数据分组流可以是单独的编码的 上行链路数据分组流。一些这样的实现可以涉及将电话会议音频数据 作为单独的编码的上行链路数据分组流发送到存储系统。
接口系统可以包括控制系统和存储系统的至少一部分之间的接 口。根据一些实现,存储系统的至少一部分可以被包括在一个或多个 或其他设备中,例如本地或远程存储设备。在一些实现中,接口系统 可以包括网络接口,并且控制系统可以能够经由网络接口将电话会议 音频数据发送到存储系统。然而,根据一些示例,该装置可以包括存 储系统的至少一部分。
在一些示例中,上行链路数据分组流中的至少一个可包括已经在 电话会议的口到耳延迟时间阈值之后接收到、因此不用于在电话会议 期间再现音频数据的至少一个数据分组。根据一些示例,上行链路数 据分组流中的至少一个可以对应于多个电话会议参与者,并且可以包 括关于多个参与者中的每一个的空间信息。根据一些实施方式,控制 系统可能能够提供电话会议服务器功能。
在一些替代实现中,装置还可以包括诸如上述那些的接口系统。 该装置还可以包括诸如上述那些的控制系统。根据一些这样的实现, 控制系统可以能够经由接口系统接收电话会议的记录的音频数据。记 录的音频数据可以包括对应于由一个或多个电话会议参与者使用的电 话端点的单独的上行链路数据分组流。
根据一些示例,控制系统可以能够分析单独的上行链路数据分组 流中的数据分组的序列号数据。根据一些这样的示例,分析过程可以 包括确定单独的上行链路数据分组流是否包括至少一个无序数据分 组。如果上行链路数据分组流包括至少一个无序数据分组,则控制系 统可以能够根据序列号数据重新排序单独的上行链路数据分组流。
在一些实例中,控制系统可确定单独的上行链路数据分组流的至 少一个数据分组已经在电话会议的口到耳延迟时间阈值之后接收到。 根据一些这样的示例,控制系统可以能够接收(例如,经由接口系统) 电话会议元数据并且至少部分地基于电话会议元数据来对单独的上行 链路数据分组流进行索引。
在一些示例中,记录的音频数据可以包括多个单独的编码的上行 链路数据分组流。每个单独的编码的上行链路数据分组流可以对应于 由一个或多个电话会议参与者使用的电话端点。根据一些实现,控制 系统可以包括能够分析多个单独的上行链路数据分组流的联合分析模 块。根据一些这样的示例,控制系统可以能够解码多个单独的编码的 上行链路数据分组流,并且向联合分析模块提供多个单独的解码的上 行链路数据分组流。
在一些实现中,控制系统可以包括能够识别语音的语音识别模块。 语音识别模块能够产生语音识别结果数据。根据一些示例,控制系统 可以能够向语音识别模块提供一个或多个单独的解码的上行链路数据 分组流。根据一些这样的示例,语音识别模块可以能够将语音识别结 果数据提供给联合分析模块。
根据一些实现,联合分析模块可以能够识别语音识别结果数据中 的关键词。在一些示例中,联合分析模块可能能够对关键词位置进行 索引。
根据一些示例,控制系统可以包括发言者日志模块。在一些实例 中,控制系统可能能够向发言者日志模块提供单独的解码的上行链路 数据分组流。发言者日志模块可以例如能够识别单独的解码的上行链 路数据分组流中的多个电话会议参与者中的每一个的语音。在一些示 例中,发言者日志模块可以能够产生发言者日志,其指示多个电话会 议参与者中的每一个讲话时的时间。发言者日志模块可以能够将发言 者日志提供给联合分析模块。
在一些实现中,联合分析模块可以能够确定会话动态数据。例如, 会话动态数据可以包括指示会议参与者语音的频率和持续时间的数 据、指示在其期间至少两个会议参与者同时发言的会议参与者双讲话 的实例的数据、和/或指示会议参与者会话的实例的数据。
在一些替代实现中,装置还可以包括诸如上述那些的接口系统。 该装置还可以包括诸如上述那些的控制系统。根据一些这样的实现, 控制系统可以能够经由接口系统接收对应于涉及多个会议参与者的会 议的记录的音频数据。音频数据可以包括来自多个端点的音频数据。 多个端点中的每一个的音频数据可能已被单独记录。作为替代地或者 附加地,音频数据可以包括来自对应于多个会议参与者的单个端点的 音频数据。音频数据可以包括多个会议参与者的每个会议参与者的空 间信息。
在一些实现中,控制系统可以能够分析音频数据以确定会话动态 数据。在一些示例中,会话动态数据可以包括指示会议参与者语音的 频率和持续时间的数据、指示在其期间至少两个会议参与者同时发言 的会议参与者双讲话的实例的数据、和/或指示会议参与者会话的实例 的数据。
根据一些示例,控制系统可以能够将会话动态数据应用作为如下 向量的空间优化成本函数的一个或多个变量,该向量描述了虚拟声学 空间中的每个会议参与者的虚拟会议参与者位置。例如,控制系统可 以能够将优化技术应用于空间优化成本函数以确定局部最优解。控制 系统可以能够至少部分地基于局部最优解来在虚拟声学空间中分配虚 拟会议参与者位置。
根据一些实现,虚拟声学空间可以相对于虚拟听众的头部在虚拟 声学空间中的位置来确定。在一些这样的实现中,空间优化成本函数 可以应用对于将参与会议参与者双讲话的会议参与者布置在如下虚拟 会议参与者位置处的惩罚,该虚拟会议参与者位置位于混淆锥上或者 与该混淆锥相距在预定的角距离内。该混淆锥相对于虚拟听众头部的 位置被定义。通过混淆锥的圆锥切片可能具有相同的耳间时间差异。
在一些示例中,空间优化成本函数可以应用对于将参与会议参与 者相互会话的会议参与者布置于位于混淆锥上或者与混淆锥相距在预 定的角距离内的虚拟会议参与者位置处的惩罚。根据一些示例,空间 优化成本函数可以应用对于将频繁发言的会议参与者布置于在虚拟听 众的头部位置旁边、后面、上方或下方的虚拟会议参与者位置处的惩 罚。在某些实例中,空间优化成本函数可以应用对于将频繁发言的会 议参与者布置于与较不频繁发言的会议参与者的虚拟会议参与者位置 相比距虚拟听众头部的位置更远的虚拟会议参与者位置处的惩罚。然 而,根据一些实现,分配虚拟会议参与者位置可涉及从一组预定的虚 拟会议参与者位置中选择虚拟会议参与者位置。
在一些替代实现中,装置还可以包括诸如上述那些的接口系统。 该装置还可以包括诸如上述那些的控制系统。根据一些这样的实现, 控制系统可以能够经由接口系统接收对应于涉及多个会议参与者的会 议的记录的音频数据。音频数据可以包括来自多个端点的音频数据。 多个端点中的每一个的音频数据可能已被单独记录。作为替代地或者 附加地,音频数据可以包括来自对应于多个会议参与者的单个端点的 音频数据。音频数据可以包括多个会议参与者的每个会议参与者的空 间信息。
根据一些实施方式,控制系统可以能够将每个会议参与者的会议 参与者语音数据渲染到虚拟声学空间中的单独的虚拟会议参与者位 置。在一些实现中,控制系统可以能够调度会议参与者语音回放,使 得在会议参与者语音的至少两个输出讲话突发之间的回放重叠量大于 会议记录的两个对应的输入讲话突发之间的原始重叠量。
在一些示例中,调度可以至少部分地根据感知激发规则的集合来 执行。在一些实现中,感知激发规则的集合可以包括指示单个会议参 与者的两个输出讲话突发不应该在时间上重叠的规则。感知激发规则 的集合可以包括如下规则,该规则指示如果两个输出讲话突发对应于 单个端点,则两个输出讲话突发在时间上不应该重叠。
根据一些实现,给定两个连续的输入讲话突发A和B,A已经在 B之前发生,该感知激发规则的集合可以包括如下规则,该规则允许 对应于B的输出讲话突发的回放在对应于A的输出讲话突发的回放完 成之前开始,但是不会在对应于A的输出讲话突发的回放开始之前。 感知激发规则的集合可以包括如下规则,该规则允许对应于B的输出 讲话突发的回放不早于在对应于A的输出讲话突发的回放完成之前的 时间T开始。在一些这样的示例中,T可以大于零。
根据一些示例,控制系统可能能够分析音频数据以确定会话动态 数据。会话动态数据可以包括指示会议参与者语音的频率和持续时间 的数据、指示在其期间至少两个会议参与者同时发言的会议参与者双 讲话的实例的数据、和/或指示会议参与者会话的实例的数据。
在一些示例中,控制系统可以能够将会话动态数据应用作为如下 向量的空间优化成本函数的一个或多个变量,该向量描述了虚拟声学 空间中的每个会议参与者的虚拟会议参与者位置。在一些实现中,控 制系统可以能够将优化技术应用于空间优化成本函数以确定局部最优 解。根据一些实现,控制系统可以能够至少部分地基于局部最优解来 在虚拟声学空间中分配虚拟会议参与者位置。
在一些替代实现中,装置还可以包括诸如上述那些的接口系统。 该装置还可以包括诸如上述那些的控制系统。根据一些这样的实现, 控制系统可以能够经由接口系统接收对应于涉及多个会议参与者的会 议的记录的音频数据。音频数据可以包括来自多个端点的音频数据。 多个端点中的每一个的音频数据可能已被单独记录。作为替代地或者 附加地,音频数据可以包括来自对应于多个会议参与者的单个端点的 音频数据。音频数据可以包括用于识别多个会议参与者中的每个会议 参与者的会议参与者语音的信息。
根据一些实现,控制系统可以能够分析会议记录的会话动态以确 定会话动态数据。在一些示例中,控制系统可以能够搜索会议记录来 确定多个段分类中的每一个的实例。每个段分类可以至少部分地基于 会话动态数据。
根据一些这样的示例,控制系统可以能够将会议记录分成多个段。 每个段可以对应于时间间隔和至少一个段分类。在一些示例中,控制 系统可以能够在不同的时间尺度上多次执行搜索和分段处理。
在一些实现中,搜索和分段过程可以至少部分地基于段分类的层 级结构。根据一些这样的实现,段分类的层级结构可以基于一个或多 个准则,例如特定段分类的段可被标识的置信水平、段的开始时间可 被确定的置信水平、段的结束时间可被确定的置信水平、和/或特定分 段分类包括对应于会议主题的会议参与者语音的可能性。
在一些示例中,控制系统可能能够根据一组规则来确定段分类的 实例。根据一些这样的示例,规则可以基于一个或多个会话动态数据 类型,例如指示在时间间隔中的在其期间至少两个会议参与者同时发 言的语音时间的占比的双讲话比率、指示在该时间间隔中的存在任何 会议参与者语音的占比的语音密度度量、和/或指示在该时间间隔期间 的由主导会议参与者发出的总语音的占比的主导度量。主导会议参与 者可以是在时间间隔期间发言最多的会议参与者。
在一些替代实现中,装置还可以包括诸如上述那些的接口系统。 该装置还可以包括诸如上述那些的控制系统。根据一些这样的实现, 控制系统可以能够接收(例如,经由接口系统)关于涉及多个会议参 与者的会议的记录的至少一部分的语音识别结果数据。在一些示例中, 语音识别结果数据可以包括多个语音识别格、以及语音识别格的多个 假设词中的每一个的词语识别置信度分数。词语识别置信度分数可以 对应于假设词与在会议期间由会议参与者说出的实际词正确对应的可 能性。
在一些实现中,控制系统可以能够对于语音识别格中的多个假设 词中的每一个确定主词候选和一个或多个替代词假设。与一个或多个 替代词假设中的任一个的词语识别置信度分数相比,主词候选的词语 识别置信度分数指示更高的与在会议期间由会议参与者说出的实际词 正确对应的可能性。
根据一些示例,控制系统可以能够计算主词候选和替代词假设的 术语频率度量。在一些实例中,术语频率度量可以至少部分地基于语 音识别格中假设词的出现次数。作为替代地或者附加地,术语频率度 量可以至少部分地基于词语识别置信度分数。
根据一些实现,控制系统可能能够根据术语频率度量来对主词候 选和替代词假设进行排序。根据一些示例,控制系统可能能够在替代 假设列表中包括替代词假设。根据一些这样的示例,控制系统可能能 够根据替代假设列表对语音识别格中的至少一些假设词重新评分。
在一些示例中,控制系统可能能够形成词列表。词列表可以包括 主词候选和每个主词候选词的术语频率度量。根据一些示例,控制系 统可以能够至少部分地基于词列表来生成会话主题的主题列表。在一 些实现中,生成主题列表可以涉及确定词列表中的至少一个词的上位 词。生成主题列表可以涉及确定包括上位词分数的主题分数。
在一些替代实现中,装置还可以包括诸如上述那些的接口系统。 该装置还可以包括诸如上述那些的控制系统。根据一些这样的实现, 控制系统可能能够接收(例如,经由接口系统)与对应于涉及多个会 议参与者的至少一个会议的记录相对应的音频数据。音频数据可以包 括分别记录的来自多个端点的会议参与者语音数据,和/或来自对应于 多个会议参与者的单个端点的会议参与者语音数据,其可以包括多个 会议参与者中的每个会议参与者的空间信息。
根据一些实现,控制系统可以能够确定与基于一个或多个搜索参 数对音频数据的搜索相对应的搜索结果。搜索结果可以对应于音频数 据中的会议参与者语音的至少两个实例。会议参与者语音的至少两个 实例可以包括由第一会议参与者发出的至少第一语音实例和由第二会 议参与者发出的至少第二语音实例。
在一些示例中,控制系统可以能够将会议参与者语音的实例渲染 到虚拟声学空间的至少两个不同的虚拟会议参与者位置,使得第一语 音实例被渲染到第一虚拟会议参与者位置,并且第二语音实例被渲染 给第二虚拟会议参与者位置。根据一些这样的示例,控制系统可以能 够调度会议参与者语音的实例的至少一部分同时回放,以产生回放音 频数据。
在一些替代实现中,装置还可以包括诸如上述那些的接口系统。 该装置还可以包括诸如上述那些的控制系统。根据一些这样的实现, 控制系统可以能够接收(例如,经由接口系统)与会议记录对应的音 频数据。音频数据可以包括对应于多个会议参与者中的每一个的会议 参与者语音的数据。
根据一些示例,控制系统可以能够仅选择会议参与者语音的一部 分作为回放音频数据。根据一些这样的示例,控制系统可以能够(例 如,经由接口系统)将回放音频数据提供给用于回放的扬声器系统。
根据一些实现,选择过程可以涉及根据所估计的会议参与者语音 与一个或多个会议主题的相关性来选择用于回放的会议参与者语音的 主题选择过程。在一些实现中,选择过程可以涉及根据所估计的会议 参与者语音与会议段的一个或多个主题的相关性来选择用于回放的会 议参与者语音的主题选择过程。
在一些实例中,选择过程可以涉及去除具有低于阈值输入讲话突 发持续时间的输入讲话突发持续时间的输入讲话突发。根据一些示例, 选择过程可以包括讲话突发过滤过程,其去除具有等于或高于阈值输 入讲话突发持续时间的输入讲话突发持续时间的输入讲话突发的一部 分。
作为替代地或者附加地,选择过程可以包括根据至少一个声学特 征来选择用于回放的会议参与者语音的声学特征选择过程。在一些示 例中,选择可以涉及迭代过程。
根据一些示例,控制系统可以能够(例如,经由接口系统)接收 目标回放持续时间的指示。根据一些这样的示例,选择过程可以包括 使回放音频数据的持续时间在目标回放持续时间的阈值时间百分比和 /或阈值时间差之内。在一些示例中,回放音频数据的持续时间可以至 少部分地通过将会议参与者语音的至少一个选定部分的持续时间乘以 加速系数来确定。
本文所描述的方法中的一些或全部可以由一个或多个设备根据存 储在非暂态介质上的指令(例如软件)执行。这种非暂态介质可以包 括诸如本文所描述的那些的存储设备,包括但不限于随机存取存储器 (RAM)设备,只读存储器(ROM)设备等。因此,本公开中描述 的主旨的各种创新方面可以在存储有软件的非暂态介质中实现。该软 件可以例如包括用于控制至少一个设备来处理音频数据的指令。例如, 该软件可由诸如本文公开的那些的控制系统的一个或多个组件执行。
根据一些示例,软件可以包括用于在电话会议期间接收电话会议 音频数据的指令。电话会议音频数据可以包括多个单独的上行链路数 据分组流。每个上行链路数据分组流可以对应于一个或多个电话会议 参与者使用的电话端点。在一些实现中,软件可以包括用于将电话会 议音频数据作为单独的上行链路数据分组流发送到存储系统的指令。
在一些示例中,单独的上行链路数据分组流可以是单独的编码的 上行链路数据分组流。根据一些示例,上行链路数据分组流中的至少 一个可包括已经在电话会议的口到耳延迟时间阈值之后接收到、因此 不用于在电话会议期间再现音频数据的至少一个数据分组。根据一些 示例,上行链路数据分组流中的至少一个可以对应于多个电话会议参 与者,并且可以包括关于多个参与者中的每一个的空间信息。
在一些实现中,软件可以包括用于接收对应于涉及多个会议参与 者的会议的记录的音频数据的指令。根据一些示例,音频数据可以包 括来自多个端点的音频数据。多个端点中的每一个的音频数据可能已 被单独记录。作为替代地或者附加地,音频数据可以包括来自对应于 多个会议参与者的单个端点的音频数据,并且可以包括多个会议参与 者的每个会议参与者的空间信息。
根据一些实现,软件可以包括用于分析音频数据以确定会话动态 数据的指令。会话动态数据可以包括指示会议参与者语音的频率和持 续时间的数据、指示至少两个会议参与者在其期间同时发言的会议参 与者双讲话的实例的数据、和/或指示会议参与者会话的实例的数据。
在一些实例中,软件可以包括用于将会话动态数据应用作为如下 向量的空间优化成本函数的一个或多个变量的指令,该向量描述了虚 拟声学空间中的每个会议参与者的虚拟会议参与者位置。根据一些示 例,软件可包括用于将优化技术应用于空间优化成本函数以确定局部 最优解的指令。根据一些示例,软件可包括用于至少部分地基于局部 最优解来在虚拟声学空间中分配虚拟会议参与者位置的指令。
在一些实现中,虚拟声学空间可以相对于虚拟听众的头部在虚拟 声学空间中的位置来确定。根据一些这样的实现,空间优化成本函数 可以应用对于将参与会议参与者双讲话的会议参与者布置在如下虚拟 会议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听 众头部的位置被定义的混淆锥上或者与该混淆锥相距在预定的角距离内。通过混淆锥的圆锥切片可能具有相同的耳间时间差异。在一些示 例中,空间优化成本函数可以应用对于将参与会议参与者相互会话的 会议参与者布置于位于混淆锥上或者与混淆锥相距在预定的角距离内 的虚拟会议参与者位置处的惩罚。
根据一些示例,分析音频数据可以涉及确定哪些会议参与者(如 果有的话)具有感知相似的语音。在一些这样的示例中,空间优化成 本函数可以应用对于将具有感知相似的语音的会议参与者布置于位于 混淆锥上或者与混淆锥相距在预定的角距离内的虚拟会议参与者位置 处的惩罚。
在一些示例中,空间优化成本函数可以应用对于将频繁发言的会 议参与者布置于在虚拟听众的头部位置旁边、后面、上方或下方的虚 拟会议参与者位置处的惩罚。在某些实例中,空间优化成本函数可以 应用对于将频繁发言的会议参与者布置于与较不频繁发言的会议参与 者的虚拟会议参与者位置相比距虚拟听众头部的位置更远的虚拟会议参与者位置处的惩罚。在一些实现中,空间优化成本函数可以应用对 于将很少发言的会议参与者布置于不在虚拟听众的头部位置旁边、后 面、上方或下方的虚拟会议参与者位置处的惩罚。
根据一些示例,优化技术可能涉及梯度下降技术、共轭梯度技术、 牛顿法、Broyden-Fletcher-Goldfarb-Shanno算法、遗传算法、模拟 退火算法、蚁群优化方法和/或蒙特卡罗方法。在一些示例中,分配虚 拟会议参与者位置可以包括从一组预定的虚拟会议参与者位置中选择 虚拟会议参与者位置。
在一些实现中,软件可以包括用于接收对应于涉及多个会议参与 者的会议的记录的音频数据的指令。根据一些示例,音频数据可以包 括来自多个端点的音频数据。多个端点中的每一个的音频数据可能已 被单独记录。作为替代地或者附加地,音频数据可以包括来自对应于 多个会议参与者的单个端点的音频数据,并且可以包括多个会议参与 者的每个会议参与者的空间信息。
根据一些实现,软件可以包括用于在虚拟声学空间中渲染会议参 与者语音数据以使得各会议参与者具有各自不同的虚拟会议参与者位 置的指令。在一些示例中,软件可以包括如下指令,该指令用于调度 会议参与者语音回放,使得在会议参与者语音的至少两个输出讲话突 发之间的回放重叠量不同于(例如,大于)会议记录的两个对应的输 入讲话突发之间的原始重叠量。
根据一些示例,软件可以包括用于至少部分地根据感知激发规则 的集合执行调度过程的指令。在一些实现中,感知激发规则的集合可 以包括指示单个会议参与者的两个输出讲话突发不应该在时间上重叠 的规则。感知激发规则集合可以包括如下规则,该规则指示如果两个 输出讲话突发对应于单个端点,则两个输出讲话突发在时间上不应该 重叠。
根据一些实现,给定两个连续的输入讲话突发A和B,A已经在 B之前发生,该感知激发规则集合可以包括如下规则,该规则允许对 应于B的输出讲话突发的回放在对应于A的输出讲话突发的回放完成 之前开始,但是不会在对应于A的输出讲话突发的回放开始之前。感 知激发规则集合可以包括如下规则,该规则允许对应于B的输出讲话 突发的回放不早于在对应于A的输出讲话突发的回放完成之前的时间 T开始。在一些这样的示例中,T可以大于零。
根据一些实现,感知激发规则集合可以包括允许来自不同会议参 与者的全部陈述的并发回放的规则。在一些实现中,陈述可以对应于 会议参与者语音的时间间隔,在该时间间隔期间,语音密度度量大于 或等于静默阈值,双讲话比率小于或等于讨论阈值,并且主导度量大 于陈述阈值。双讲话比率可以指示在该时间间隔中的在其期间至少两 个会议参与者同时发言的语音时间的占比。语音密度度量可以指示在 该时间间隔中的存在任何会议参与者语音的占比。主导度量可以指示 在该时间间隔期间的由主导会议参与者发出的总语音的占比。主导会 议参与者可以是在时间间隔内发言最多的会议参与者。
在一些示例中,会议参与者语音中的至少一些可被调度为以比记 录会议参与者语音的速率更快的速率来回放。根据一些这样的示例, 可以通过使用WSOLA(基于波形相似性的重叠相加)技术来实现调 度更快速率的语音回放。
根据一些实现,软件可以包括用于分析音频数据以确定会话动态 数据的指令。会话动态数据可以包括指示会议参与者语音的频率和持 续时间的数据、指示在其期间至少两个会议参与者同时发言的会议参 与者双讲话的实例的数据、和/或指示会议参与者会话的实例的数据。 在一些示例中,软件可以包括用于应用会话动态数据作为描述虚拟声 学空间中的每个会议参与者的虚拟会议参与者位置的向量的空间优化 成本函数的一个或多个变量的指令。在一些实现中,软件可以包括如 下指令,该指令用于将优化技术应用于空间优化成本函数以确定局部 最优解,并至少部分地基于局部最优解来在虚拟声学空间中分配虚拟 会议参与者位置。
在一些实现中,软件可以包括用于接收对应于涉及多个会议参与 者的会议的记录的音频数据的指令。根据一些示例,音频数据可以包 括来自多个端点的音频数据。多个端点中的每一个的音频数据可能已 被单独记录。作为替代地或者附加地,音频数据可以包括来自对应于 多个会议参与者的单个端点的音频数据,并且可以包括用于识别多个 会议参与者中的每个会议参与者的会议参与者语音的信息。
根据一些示例,软件可以包括用于分析会议记录的会话动态以确 定会话动态数据的指令。在一些示例中,软件可以包括用于搜索会议 记录以确定多个段分类中的每一个的实例的指令。每个段分类可以至 少部分地基于会话动态数据。根据一些这样的示例,软件可以包括用 于将会议记录分成多个段的指令。每个段可以对应于时间间隔和至少 一个段分类。根据一些实现,软件可以包括用于在不同时间尺度上多 次执行搜索和分段过程的指令。
在一些示例中,搜索和分段过程可以至少部分地基于段分类的层 级结构。根据一些这样的示例,段分类的层级结构可以至少部分地基 于特定段分类的段可被标识的置信水平、段的开始时间可被确定的置 信水平、段的结束时间可被确定的置信水平和/或特定段分类包括对应 于会议主题的会议参与者语音的可能性。
根据一些实现,软件可以包括根据一组规则来确定段分类的实例 的指令。在一些这样的实现中,规则可以例如基于一个或多个会话动 态数据类型,例如指示在时间间隔中的在其期间至少两个会议参与者 同时发言的语音时间的占比的双讲话比率、指示在该时间间隔中的存 在任何会议参与者语音的占比的语音密度度量、和/或指示在该时间间 隔期间的由主导会议参与者发出的总语音的占比的主导度量。主导会 议参与者可以是在时间间隔期间发言最多的会议参与者。
在一些实现中,软件可以包括用于接收涉及多个会议参与者的会 议的会议记录的至少一部分的语音识别结果数据的指令。在一些示例 中,语音识别结果数据可以包括多个语音识别格。语音识别结果数据 可以包括语音识别格的多个假设词中的每一个的词语识别置信度分 数。根据一些这样的示例,词语识别置信度分数可以对应于假设词与 在会议期间由会议参与者说出的实际词正确对应的可能性。
根据一些示例,软件可以包括用于对于语音识别格中的多个假设 词中的每一个确定主词候选和一个或多个替代词假设的指令。与一个 或多个替代词假设中的任一个的词语识别置信度分数相比,主词候选 的词语识别置信度分数指示更高的与在会议期间由会议参与者说出的 实际词正确对应的可能性。
根据一些实施方式,软件可以包括用于计算主词候选和替代词假 设的术语频率度量的指令。在一些这样的实现中,术语频率度量可以 至少部分地基于语音识别格中的假设词的出现次数和词语识别置信度 分数。
在一些示例中,软件可以包括根据术语频率度量将主词候选和替 代词假设排序的指令。根据一些这样的示例,软件可以包括用于将替 代词假设包括在替代假设列表中的指令。在一些这样的实现中,软件 可以包括用于根据替代假设列表对语音识别格的至少一些假设词重新 评分的指令。
根据一些示例,软件可以包括用于形成词语列表的指令。词语列 表可以例如包括主词候选和每个主词候选词的术语频率度量。根据一 些这样的示例,软件可以包括用于至少部分地基于词语列表来生成会 议主题的主题列表的指令。
在一些实现中,生成主题列表可以涉及确定词语列表中的至少一 个词语的上位词。根据一些这样的实现,生成主题列表可以涉及确定 包括上位词分数的主题分数。
在一些实现中,软件可以包括用于接收对应于涉及多个会议参与 者的至少一个会议的记录的音频数据的指令。音频数据可以包括分别 记录的来自多个端点的会议参与者语音数据、和/或来自对应于多个会 议参与者的单个端点的会议参与者语音数据,其可以包括多个会议参 与者的每个会议参与者的空间信息。
根据一些示例,软件可以包括用于基于音频数据的搜索来确定搜 索结果的指令。搜索可以是或可能已经基于一个或多个搜索参数。搜 索结果可以对应于音频数据中的会议参与者语音的至少两个实例。会 议参与者语音的实例可以例如包括讲话突发和/或讲话突发的部分。会 议参与者语音的实例可以包括由第一会议参与者发出的第一语音实例 和由第二会议参与者发出的第二语音实例。
在一些示例中,软件可以包括如下指令,该指令用于将会议参与 者语音的实例渲染到虚拟声学空间的至少两个不同的虚拟会议参与者 位置,使得第一语音实例被渲染到第一虚拟会议参与者位置,并且第 二语音实例被渲染到第二虚拟会议参与者位置。根据一些示例,软件 可以包括用于调度会议参与者语音的实例的至少一部分进行同时回放 以产生回放音频数据的指令。
根据一些实现方式,确定搜索结果可能涉及接收搜索结果。例如, 确定搜索结果可能涉及接收通过另一设备(例如,通过服务器)执行 的搜索而得到的搜索结果。
然而,在一些实现中,确定搜索结果可能涉及执行搜索。根据一 些示例,确定搜索结果可以包括执行音频数据的关于多个特征的并发 搜索。根据一些实施方式,多个特征可以包括从一组特征中选择的两 个或更多个特征。该组特征可以包括词语、会议段、时间、会议参与 者情绪、端点位置和/或端点类型。在一些实现中,确定搜索结果可以 涉及执行对应于多个会议的记录的音频数据的搜索。在一些示例中, 调度过程可以包括至少部分地基于搜索相关性度量来调度会议参与者 语音的实例进行回放。
根据一些示例,软件可以包括用于修改会议参与者语音的至少一 个实例的开始时间或结束时间的指令。在一些示例中,修改过程可以 涉及扩展对应于会议参与者语音的实例的时间间隔。根据一些示例, 修改过程可以涉及合并对应于单个会议端点的、扩展后在时间上重叠 的会议参与者语音的两个或更多个实例。
在一些示例中,软件可以包括用于调度先前在时间上不重叠的会 议参与者语音的实例以在时间上重叠地回放。作为替代地或者附加地, 软件可以包括用于调度先前在时间上重叠的会议参与者语音的实例以 在时间上进一步重叠地回放的指令。
根据一些实施方式,调度可以根据感知激发规则的集合来执行。 在一些实现中,感知激发规则的集合可以包括指示单个会议参与者的 两个输出讲话突发不应该在时间上重叠的规则。感知激发规则的集合 可以包括如下规则,该规则指示如果两个输出讲话突发对应于单个端 点,则这两个输出讲话突发在时间上不应该重叠。。
根据一些实现,给定两个连续的输入讲话突发A和B,A已经在 B之前发生,该感知激发规则的集合可以包括如下规则,该规则允许 对应于B的输出讲话突发的回放在对应于A的输出讲话突发的回放完 成之前开始,但是不会在对应于A的输出讲话突发的回放开始之前。 感知激发规则的集合可以包括如下规则,该规则允许对应于B的输出 讲话突发的回放不早于在对应于A的输出讲话突发的回放完成之前的 时间T开始。在一些这样的示例中,T可以大于零。
在一些实现中,软件可以包括用于接收对应于会议记录的音频数 据的指令。音频数据可以包括对应于多个会议参与者中的每一个的会 议参与者语音的数据。在一些示例中,软件可以包括用于仅选择会议 参与者语音的一部分作为回放音频数据的指令。
根据一些实现,选择过程可以涉及根据所估计的会议参与者语音 与一个或多个会议主题的相关性来选择用于回放的会议参与者语音的 主题选择过程。在一些实现中,选择过程可以涉及根据所估计的会议 参与者语音与会议段的一个或多个主题的相关性来选择用于回放的会 议参与者语音的主题选择过程。
在一些实例中,选择过程可以涉及去除具有低于阈值输入讲话突 发持续时间的输入讲话突发持续时间的输入讲话突发。根据一些示例, 选择过程可以包括讲话突发过滤过程,其去除具有等于或高于阈值输 入讲话突发持续时间的输入讲话突发持续时间的输入讲话突发的一部 分。
作为替代地或者附加地,选择过程可以包括根据至少一个声学特 征来选择用于回放的会议参与者语音的声学特征选择过程。在一些示 例中,选择可以涉及迭代过程。一些这样的实现可涉及将回放音频数 据提供给扬声器系统以供回放。
根据一些实现,软件可以包括用于接收目标回放持续时间的指示 的指令。根据一些这样的示例,选择过程可以包括使回放音频数据的 持续时间在目标回放持续时间的阈值时间百分比和/或阈值时间差之 内。在一些示例中,回放音频数据的持续时间可以至少部分地通过将 会议参与者语音的至少一个选定部分的持续时间乘以加速系数来确 定。
根据一些示例,会议记录可以包括被分别记录的来自多个端点的 会议参与者语音数据,或者来自对应于多个会议参与者的单个端点的 会议参与者语音数据,其可以包括多个会议参与者的每个会议参与者 的空间信息。根据一些这样的示例,软件可以包括如下指令,该指令 用于在虚拟声学空间中渲染回放音频数据,使得其语音被包括在回放 音频数据中的各会议参与者具有各自不同的虚拟会议参与者位置。
根据一些实现,选择过程可以涉及主题选择过程。根据一些这样 的示例,主题选择过程可以涉及接收会议主题的主题列表并且确定所 选择的会议主题的列表。所选择的会议主题的列表可能是会议主题的 子集。
在一些示例中,软件可以包括用于接收主题排名数据的指令,该 主题排名数据可以指示主题列表上的每个会议主题的估计的相关性。 确定所选择的会议主题的列表可以至少部分地基于主题排名数据。
根据一些实现,选择过程可以涉及讲话突发过滤过程。讲话突发 过滤过程例如可以涉及去除输入讲话突发的初始部分。初始部分可以 是从输入讲话突发开始时间到输出讲话突发开始时间的时间间隔。在 一些实例中,软件可以包括用于至少部分地基于输入讲话突发持续时 间来计算输出讲话突发持续时间的指令。
根据一些这样的示例,软件可以包括用于确定输出讲话突发持续 时间是否超过输出讲话突发时间阈值的指令。如果确定输出讲话突发 持续时间超过输出讲话突发时间阈值,讲话突发过滤过程可能涉及对 于单个输入讲话突发生成会议参与者语音的多个实例。根据一些这样 的示例,会议参与者语音的多个实例中的至少一个可以具有与输入讲话突发结束时间相对应的结束时间。
根据一些实现,选择过程可以涉及声学特征选择过程。在一些示 例中,声学特征选择过程可以涉及确定至少一个声学特征,例如音调 变化、语速和/或响度。
在一些实现中,软件可以包括用于修改会议参与者语音的至少一 个实例的开始时间或结束时间的指令。在一些示例中,修改过程可以 涉及扩展对应于会议参与者语音的实例的时间间隔。根据一些示例, 修改过程可以涉及合并对应于单个会议端点的、扩展后在时间上重叠 的会议参与者语音的两个或更多个实例。
在一些示例中,软件可以包括用于调度先前在时间上不重叠的会 议参与者语音的实例以在时间上重叠地回放的指令。作为替代地或者 附加地,软件可以包括用于调度先前在时间上重叠的会议参与者语音 的实例以在时间上进一步重叠地回放的指令。
根据一些示例,调度可以根据感知激发规则的集合来执行。在一 些实现中,感知激发规则的集合可以包括指示单个会议参与者的两个 输出讲话突发不应该在时间上重叠的规则。感知激发规则的集合可以 包括如下规则,该规则指示如果两个输出讲话突发对应于单个端点, 则这两个输出讲话突发在时间上不应该重叠。
根据一些实现,给定两个连续的输入讲话突发A和B,A已经在 B之前发生,该感知激发规则的集合可以包括如下规则,该规则允许 对应于B的输出讲话突发的回放在对应于A的输出讲话突发的回放完 成之前开始,但是不会在对应于A的输出讲话突发的回放开始之前。 感知激发规则的集合可以包括如下规则,该规则允许对应于B的输出 讲话突发的回放不早于在对应于A的输出讲话突发的回放完成之前的 时间T开始。在一些这样的示例中,T可以大于零。一些实现可以涉 及至少部分地基于搜索相关性度量来调度会议参与者语音的实例以供 回放。
根据一些实现,软件可以包括用于分析音频数据以确定会话动态 数据的指令。会话动态数据可以例如包括指示会议参与者语音的频率 和持续时间的数据、指示至少两个会议参与者在其期间同时发言的会 议参与者双讲话的实例的数据、和/或指示会议参与者会话的实例的数 据。
在一些实例中,软件可以包括用于将会话动态数据应用作为如下 向量的空间优化成本函数的一个或多个变量的指令,该向量描述了虚 拟声学空间中的每个会议参与者的虚拟会议参与者位置。根据一些示 例,软件可以包括用于将优化技术应用于空间优化成本函数以确定局 部最优解的指令。根据一些这样的示例,软件可以包括用于至少部分 地基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置的指 令。
在一些实现中,软件可包括用于控制显示器以提供图形用户界面 的指令。根据一些实现,用于控制显示器的指令可以包括用于进行会 议参与者的展示的指令。在一些示例中,用于控制显示器的指令可以 包括用于进行会议段的展示的指令。
在一些示例中,软件可包括如下指令,该指令用于接收对应于用 户与图形用户界面的交互的输入,并且至少部分地基于该输入来处理 音频数据。在一些示例中,输入可以对应于目标回放持续时间的指示。 根据一些实现,软件可以包括用于将回放音频数据提供给扬声器系统 的指令。
本说明书中描述的主旨的一个或多个实现的细节在附图和下面的 描述中被阐述。其他特征、方面和优点将从描述、附图和权利要求中 变得显而易见。请注意,以下图形的相对尺寸可能未按比例绘制。
附图说明
图1A示出了电话会议系统的组件的示例。
图1B是示出能够实现本公开的各个方面的装置的组件的示例的 框图。
图1C是简述可由图1B的装置执行的方法的一个示例的流程图。
图2A示出了电话会议系统的组件的附加示例。
图2B示出了分组跟踪文件和会议元数据的示例。
图3A是示出能够实现本公开的各个方面的装置的组件的示例的 框图。
图3B是简述可以由图3A的装置执行的方法的一个示例的流程 图。
图3C显示了电话会议系统的组件的附加示例。
图4示出了上行链路分析模块的组件的示例。
图5示出了联合分析模块的组件的示例。
图6示出了回放系统和相关设备的组件的示例。
图7示出了面对面会议实现的示例。
图8是简述根据本公开的一些实现的方法的一个示例的流程图。
图9示出了虚拟听众的头部和虚拟声学空间中的混淆锥的示例。
图10示出了虚拟声学空间中的初始虚拟会议参与者位置的示例。
图11示出了虚拟声学空间中的最终虚拟会议参与者位置的示例。
图12是简述根据本公开的一些实施方式的方法的一个示例的流 程图。
图13是示出调度会议记录在小于输入时间间隔的输出时间间隔 期间回放的示例的框图。
图14示出了维持重叠的输入讲话突发和重叠的输出talkspur之 间的类似的时间关系的示例。
图15示出了确定不重叠的输入讲话突发的重叠量的示例。
图16是示出应用感知激发规则以避免来自同一端点的输出讲话 突发重叠的示例的框图。
图17是示出能够调度来自不同会议参与者的全部陈述的并发回 放的系统的示例的框图。
图18A是简述会议分段方法的一个示例的流程图。
图18B示出了用于至少部分地执行本文所述的会议分段方法和相 关方法中的一些的系统的示例。
图19简述了根据本文公开的一些实现的分段过程的初始阶段。
图20简述了根据本文公开的一些实现的分段过程的后续阶段。
图21简述了根据本文公开的一些实现的分段过程的后续阶段。
图22简述了根据本文公开的一些实现的可由段分类器执行的操 作。
图23示出了根据本文公开的一些实现的最长段搜索处理的示例。
图24是简述本文公开的某些主题分析方法的块的流程图。
图25示出了主题分析模块元件的示例。
图26示出了输入语音识别格的示例。
包括图27A和27B的图27示出了修剪后的小语音识别格的一部 分的示例。
包括图28A和28B的图28示出了包括用于整个会议记录的词语 云的用户界面的示例。
包括图29A和29B的图29示出了包括用于多个会议段中的每一 个的词语云的用户界面的示例。
图30是简述本文公开的一些回放控制方法的块的流程图。
图31示出了从词语云选择主题的示例。
图32示出了从词语云选择主题和从会议参与者的列表中选择会 议参与者两者的示例。
图33是简述本文公开的某些主题分析方法的块的流程图。
图34是示出搜索系统元件的示例的框图。
图35示出了示例回放调度单元,合并单元和回放调度单元功能。
图36示出了可以用于实现本公开的一些方面的图形用户界面的 示例。
图37示出了用于多维会议搜索的图形用户界面的示例。
图38A示出了上下文增强语音识别格的示例部分。
图38B和38C示出了可以通过使用如图38A所示的上下文增强 语音识别格作为输入来生成的关键词检索索引数据结构的示例。
图39显示了聚集的上下文特征的示例。
图40是示出基于时间的分层索引的示例的框图。
图41是示出上下文关键词搜索的示例的框图。
图42示出了自上而下的基于时间戳的散列搜索的示例。
图43是简述仅选择一部分会议参与者语音以供回放的一些方法 的块的框图。
图44示出了选择性摘要模块的示例。
图45示出了选择性摘要模块的元件的示例。
图46示出了用于将选择性摘要方法应用于分段会议的系统的示 例。
图47示出了根据一些实现的选择器模块的块的示例。
图48A和48B示出了根据一些替代实现的选择器模块的块的示 例。
图49示出了根据其他替代实现的选择器模块的块的示例。
各种附图中相同的附图标记和标号表示相同的元件。
具体实施方式
以下描述针对出于描述本公开的一些创新方面的目的的某些实 现、以及这些创新方面可以在其中实现的上下文的示例。然而,这里 的教导可被以各种不同的方式应用。例如,虽然依照电话会议上下文 中的音频数据处理的具体示例描述了各种实现,但是本文的教导可广 泛地应用于其他已知的音频数据处理上下文,例如处理对应于面对面 会议的音频数据。例如,这样的会议可以包括学术和/或专业会议、股 票经纪人通话、医生/客户访问、个人日志(例如通过便携式记录设备, 例如可穿戴式记录设备)等。
此外,所描述的实施例可以在各种硬件,软件,固件等中实现。 例如,本申请的各方面可至少部分地体现于装置(电话会议桥和/或服 务器,分析系统,回放系统,诸如台式机,膝上型计算机或平板电脑 计算机的个人计算机,诸如台式电话,智能电话或其他蜂窝电话的电 话,电视机顶盒,数字媒体播放器等)、方法、计算机程序产品、包 括多于一个的装置的系统(包括但不限于电话会议系统)等中。因此, 本申请的各方面可以采取硬件实施例、软件实施例(包括固件,驻留 软件,微代码等)和/或组合软件和硬件方面的实施例的形式。这样的 实施例在本文中可以被称为“电路”、“模块”或“引擎”。本申请 的一些方面可以采用体现在一个或多个非暂态介质中的计算机程序产 品的形式,在该非暂态介质上包含有计算机可读程序代码。这种非暂 态介质可以例如包括硬盘,随机存取存储器(RAM),只读存储器 (ROM),可擦除可编程只读存储器(EPROM或闪存),便携式光 盘只读存储器(CD-ROM),光存储设备,磁存储设备或上述的任何 合适的组合。因此,本公开的教导并不预期被局限于图中所示的和/ 或在此描述的实施方式,而是具有广泛的适用性。
本公开的一些方面涉及对应于诸如电话会议的会议的音频数据的 记录、处理和回放。在一些电话会议实现中,当会议的记录被回放时 听到的音频体验可能与原始电话会议期间各会议参与者的音频体验显 着不同。在一些实现中,所记录的音频数据可包括在电话会议期间不 可用的至少一些音频数据。在一些示例中,回放的音频数据的空间和/ 或时间特性可以与电话会议的参与者听到的音频的空间和/或时间特 性不同。
图1A示出了电话会议系统的组件的示例。电话会议系统100的 组件可以经由硬件、经由存储在非暂态介质上的软件、经由固件和/ 或通过他们的组合来实现。图1A中所示的组件的类型和数量仅作为 示例示出。替代实现可以包括更多、更少和/或不同的组件。
在该示例中,电话会议系统100包括电话会议装置200,其能够 根据基于分组的协议提供电话会议服务器的功能,该协议在本实现中 为VoIP(因特网协议语音)。电话端点1中的至少一些可以包括如下 特征,该特征允许会议参与者使用在台式或膝上型计算机、智能电话, 专用VoIP电话设备或另一个此类设备上运行的软件应用,以充当通 过互联网连接到电话会议服务器的电话客户端。
然而,一些电话端点1可以不包括这样的特征。因此,电话会议 系统100可以经由PSTN(公共交换电话网络)提供接入,例如以将 传统电话流从PSTN转换成VoIP数据分组流的桥的形式。
在一些实施方式中,在电话会议期间,电话会议装置200接收来 自多个电话端点1的多个单独的上行链路数据分组流7,以及发送去 往多个电话端点1的多个单独的下行链路数据分组流8。电话端点1 可以包括电话,个人计算机,移动电子设备(例如,蜂窝电话,智能 电话,平板电脑等)或其他合适的设备。一些电话端点1可以包括耳 机,例如立体声耳机。其他电话端点1可以包括传统的电话耳机。其 他电话端点1可以包括可能由多个会议参与者使用的电话会议扬声器 电话。因此,从一些这样的电话端点1接收的单独的上行链路数据分 组流7可以包括来自多个会议参与者的电话会议音频数据。
在该示例中,电话端点之一包括电话会议记录模块2。因此,电 话会议记录模块2接收下行链路数据分组流8,但不发送上行链路数 据分组流7。尽管在图1A中示出为单独的装置,电话会议记录模块2 可以被实现为硬件,软件和/或固件。在一些示例中,电话会议记录模 块2可以经由电话会议服务器的硬件,软件和/或固件来实现。然而, 电话会议记录模块2仅仅是可选的。电话会议系统100的其他实现不 包括电话会议记录模块2。
分组网络上的语音传输受到通常称为抖动(jitter)的延时变化的 影响。抖动可以例如依照到达时间间隔(IAT)变化或分组延时变化 (PDV)来测量。IAT变化可以根据相邻分组的接收时间差来测量。 PDV可以例如通过参考相对于数据或“锚”分组接收时间的时间间隔 来测量。在基于互联网协议(IP)的网络中,固定延时可归因于由于 材料和/或距离而导致的传播延时、处理延时和算法延时,而可变延时 可能由IP网络流量的波动、互联网上不同的传输路径等导致的。
电话会议服务器通常依赖于“抖动缓冲”来抵消抖动的负面影响。 通过引入在接收到音频数据分组的时间与再现分组的时间之间的额外 的延时,抖动缓冲器可以将到达分组的不均匀流动转换成分组的更规 则流动,使得延时变化不会对于最终用户造成感知音质劣化。然而, 语音通信是高度延时敏感的。根据ITU建议G.114,例如,对于正常 会话,单向延时(有时在文中被称为“口到耳延迟时间阈值”)对于 正常会话应保持在150毫秒(ms)以下,高于400毫秒被认为是不可 接受的。电话会议的典型延迟目标低于150ms,例如100ms或更低。
低延迟要求可以对于在不打搅会议参与者的情况下电话会议装置 200可以等待预期的上行链路数据分组到达的时间设置上限。对于在 电话会议期间再现而言太晚到达的上行链路数据分组将不会被提供给 电话端点1或电话会议记录模块2。相反,相应的下行链路数据分组 流8将被提供给电话端点1和电话会议记录模块2,其中丢失或迟到 的数据分组被丢弃。在本公开的上下文中,“迟到”数据分组是在电 话会议期间到达太晚而不被提供给电话端点1或电话会议记录模块2 的数据分组。
然而,在本文公开的各种实现中,电话会议装置200可以能够记 录更完整的上行链路数据分组流7。在一些实现中,电话会议装置200 可能能够将迟到数据分组包含在所记录的上行链路数据分组流7中, 该迟到数据分组在电话会议的口到耳延迟时间阈值之后被接收到,因 此不用于在电话会议期间将音频数据再现给会议参与者。在一些这样 的实现中,电话会议装置200能够确定不完整的上行数据分组流的迟 到数据分组在迟到分组时间阈值内没有从电话端点接收到。迟到分组 时间阈值可以大于或等于电话会议的口到耳延迟时间阈值。例如,在 一些实现中,迟到分组时间阈值可以大于或等于200ms,400ms,500ms,1秒或更长。
在一些示例中,远程会议装置200可能能够确定不完整上行链路 数据分组流的数据分组在丢失分组时间阈值内没有从电话端点接收 到,该丢失分组时间阈值大于迟到分组时间阈值。在一些这样的示例 中,电话会议装置200可以能够向电话端点发送关于重新发送丢失的 数据分组的请求。像迟到数据分组那样,丢失的数据分组也不会被电 话会议记录模块2记录。在一些实现中,丢失分组时间阈值可以是数 百毫秒甚至几秒,例如5秒,10秒,20秒,30秒等。在一些实现中, 丢失分组时间阈值可以是1分钟或更长,例如2分钟,3分钟,4分钟, 5分钟等。
在该示例中,电话会议装置200能够记录各个上行链路数据分组 流7,并将其作为各个上行链路数据分组流提供给会议记录数据库3。 会议记录数据库3可以存储在一个或多个存储系统中,取决于特定的 实现,该一个或多个存储系统可以与或可以不与电话会议装置200处 于相同的位置。因此,在一些实现中,由电话会议装置200记录并存 储在会议记录数据库3中的各个上行链路数据分组流可以比在电话会 议期间可用的数据分组流更完整。
在图1A所示的实现中,分析引擎307能够分析和处理所记录的 上行链路数据分组流,以为回放进行准备。在该示例中,来自分析引 擎307的分析结果存储在分析结果数据库5中,准备好由回放系统609 进行回放。在一些示例中,回放系统609可以包括能够通过网络12(例 如,因特网)流送分析结果的回放服务器。在图1A中,回放系统609 被示出为将分析结果流送给多个收听站11(每个收听站11可以包括 在本地设备上运行的一个或多个回放软件应用程序,例如计算机)。 这里,其中一个收听台11包括头戴式受话器607,另一个收听台11 包括扬声器阵列608。
如上所述,由于延迟问题,回放系统609可以具有比在电话会议 期间可用的数据分组更完整的可用于再现的数据分组。在一些实施方 式中,在回放系统609再现的电话会议音频数据和可用于电话会议期 间再现的电话会议音频数据之间可能存在其他差别和/或额外的差别。 例如,电话会议系统通常将上行链路和下行链路数据分组的数据速率 限制为可被网络可靠维护的速率。此外,往往有经济动机来保持数据 速率降低,这是因为如果系统的组合数据速率太高,则电话会议服务 提供商可能需要提供更昂贵的网络资源。
除了数据速率限制之外,还可能对于每秒可由网络组件(例如交 换机和路由器)处理的以及还可由软件组件(诸如电话会议服务器的 主机操作系统的内核中的TCP/IP栈)可靠地处理的IP分组的数量 存在实际约束。这样的约束可能具有对于如何将对应于电话会议音频 数据的数据分组流编码并分成IP分组的暗示。
电话会议服务器需要足够快速地处理数据分组并执行混合操作等 以避免会议参与者的感知质量劣化,并且这通常必须在计算资源的上 限下进行。服务于单个会议参与者所需的计算开销越小,则单个服务 器设备可以实时处理的会议参与者的数量越大。因此,保持计算开销 相对较小为电话会议服务提供商提供了经济利益。
大多数电话会议系统是所谓的“无预约”系统。这意味着电话会 议服务器不提前“知道”预计会有多少个电话会议同时主持,或者有 多少个会议参与者将连接到任何给定的电话会议。在电话会议期间的 任何时间,服务器既没有指示有多少额外的会议参与者可能随后加入 电话会议,也没有指示当前的会议参与者有多少可能提前离开电话会 议。
此外,电话会议服务器将通常在电话会议之前不会有会议动态信 息,其是关于在电话会议期间预计会发生什么样的人际交互的。例如, 将预先不知道一个或多个会议参与者是否会主导会话,以及如果是的 话,哪个会议参与者将主导会话。在任何时刻,电话会议服务器必须 仅基于在电话会议中直至该时刻为止发生的事情来决定在每个下行链 路数据分组流中提供什么音频。
然而,当分析引擎307处理存储在会议记录数据库3中的各个上 行链路数据分组流时,上述约束通常将不适用。类似地,当回放系统 609正在处理和再现已从分析引擎307输出的、来自分析结果数据库5 的数据时,上述约束通常将不适用。
例如,假设在电话会议完成之后进行分析和回放,则回放系统609 和/或分析引擎307可以使用来自整个电话会议记录的信息,以便确定 如何最好地处理,混合和/或渲染电话会议的任何时刻以供回放期间进 行再现。即使电话会议记录仅对应于电话会议的一部分,对应于该整 个部分的数据将可用于确定如何最佳地混合、渲染和以其他方式处理 所记录的电话会议音频数据(以及可能的其他数据,例如电话会议元 数据)以用于回放期间再现。
在许多实现中,回放系统609可以向不试图与电话会议中的那些 人进行交互的听众提供音频数据等。因此,回放系统609和/或分析引 擎307可以具有在其中分析和/或处理记录的电话会议音频数据并使得 电话会议可用于回放的数秒、数分、数小时、数天或甚至更长的时间 段。这意味着分析引擎307和/或回放系统609可以使用计算量大且/ 或数据大的算法,该算法在可用硬件上仅可能执行得比实时慢。由于 这些轻松的时间约束,一些实施可能涉及将用于分析的电话会议记录 进行排队,以便在资源允许时对它们进行分析(例如,当先前记录的 电话会议的分析完成时,或在电力或云计算资源更便宜或更容易获得的“非高峰”时段)。
假设在电话会议完成之后进行分析和回放,分析引擎307和回放 系统609可以访问一组完整的电话会议参与信息,例如关于哪些会议 参与者参与电话会议以及每个会议参加者加入和离开电话会议的时间 的信息。类似地,假设在电话会议完成之后进行分析和回放,分析引 擎307和回放系统609可以访问一组完整的电话会议音频数据和任何 相关联的元数据,从该元数据确定(或至少估计)每个参加者何时发 言。这个任务在这里可以被称为“发言者日志”。基于发言者日志信 息,分析引擎307可以确定会话动态数据,诸如哪个(哪些)会议参 与者发言最多,谁与谁交谈、谁打断谁、在电话会议期间发生多少双 讲话(在其期间至少两个会议参与者同时发言的时间),以及分析引 擎307和/或回放系统609可以用于确定如何最佳地在回放期间混合和 渲染会议的潜在的其他有用信息。即使电话会议记录仅对应于电话会 议的一部分,对应于该整个部分的数据将仍可用于确定电话会议参与 信息、会话动态数据等。
本公开包括如下方法和设备,其用于记录,分析和回放电话会议 音频数据,使得在回放期间渲染的电话会议音频数据可能与在原始电 话会议期间会议参与者听到的和/或在原始电话会议期间由记录设备 (诸如图1A所示的电话会议记录设备2)记录的明显不同。本文公开 的各种实现利用了实时电话会议和回放使用情况之间的上述约束差异 中的一个或多个,以便在回放期间产生更好的用户体验。在不丧失一 般性的情况下,现在讨论用于记录、分析和回放电话会议音频数据以 使得回放可以有利地与原始电话会议体验不同的数个具体实现和特定 方法。
图1B是示出能够实现本公开的各个方面的装置的组件的示例的 框图。图1B中所示的组件的类型和数量仅仅是作为示例被示出的。 替代性实现可以包括更多、更少和/或不同的组件。装置10可以例如 是电话会议装置200的实例。在一些示例中,设备10可以是另一设备 的组件。例如,在一些实现中,装置10可以是电话会议装置200的组 件,例如线卡。
在该示例中,装置10包括接口系统105和控制系统110。接口系 统105可以包括一个或多个网络接口,控制系统110和存储系统之间 的一个或多个接口、和/或一个或多个外部设备接口(诸如,一个或多 个通用串行总线(USB)接口))。控制系统110可以例如包括通用 单芯片或多芯片处理器,数字信号处理器(DSP),专用集成电路 (ASIC),现场可编程门阵列(FPGA)或其他可编程逻辑器件,离 散门或晶体管逻辑,和/或离散硬件组件。在一些实现中,控制系统110 可能能够提供电话会议服务器功能。
图1C是简述可由图1B的装置执行的方法的一个示例的流程图。 如本文所述的其他方法那样,方法150的块不一定按照所示的顺序执 行。此外,这样的方法可以包括比所示和/或描述的块更多或更少的块。
在该实现中,块155涉及经由接口系统接收电话会议期间的电话 会议音频数据。例如,在块155中,电话会议音频数据可以经由接口 系统105被控制系统110接收。在该示例中,电话会议音频数据包括 多个单独的上行链路数据分组流,诸如图1A所示的上行链路数据分 组流7。因此,每个上行链路数据分组流对应于由一个或多个会议参 与者使用的电话端点。
在该示例中,块160涉及经由接口系统将电话会议音频数据作为 单独的上行链路数据分组流发送到存储系统。因此,不是被记录为作 为如图1A所示的下行链路数据分组流8之一被接收的混合音频数据, 诸如由电话会议记录设备2记录的下行链路数据分组流8,经由每个 上行链路数据分组流7接收的分组被记录和存储为单独的上行链路数 据分组流。
然而,在一些示例中,上行链路数据分组流中的至少一个可以对 应于多个会议参与者。例如,块155可以涉及从由多个会议参与者使 用的空间扬声器电话接收这样的上行链路数据分组流。因此,在某些 实例中,对应的上行链路数据分组流可以包括关于多个参与者中的每 一个的空间信息。
在一些实现中,在块155中接收的单独的上行链路数据分组流可 以是单独的编码的上行链路数据分组流。在这样的实现中,块160可 以包括将电话会议音频数据作为单独的编码的上行链路数据分组流发 送到存储系统。
如上所述,在一些示例中,接口系统105可以包括网络接口。在 一些这样的示例中,块160可以包括经由网络接口将电话会议音频数 据发送到另一设备的存储系统。然而,在一些实现中,装置10可以包 括存储系统的至少一部分。接口系统105可以包括存储系统的至少一 部分与控制系统之间的接口。在一些这样的实现中,块160可以涉及 将电话会议音频数据发送到装置10的存储系统。
至少部分地由于上述的电话会议延迟问题,上行链路数据分组流 中的至少一个可以包括在电话会议的口到耳延迟时间阈值之后被接收 到、因此不被用于在电话会议期间再现音频数据的至少一个数据分组。 口到耳延迟时间阈值可能因实现而不同,但是在许多实现中,口到耳 延迟时间阈值可以是150ms或更短。在一些示例中,口到耳延迟时间 阈值可以大于或等于100ms。
在一些实现中,控制系统110可以能够确定不完整的上行链路数 据分组流的迟到数据分组在迟到分组时间阈值内没有从电话端点接收 到。在一些实现中,迟到分组时间阈值可以大于或等于电话会议的口 到耳延迟时间阈值。例如,在一些实现中,迟到分组时间阈值可以大 于或等于200ms,400ms,500ms,1秒或更长。在一些示例中,控制 系统110可能能够确定不完整上行链路数据分组流的数据分组在大于 迟到分组时间阈值的丢失分组时间阈值内没有从电话端点接收到。在 一些实现中,控制系统110可以能够经由接口系统105向电话端点发 送请求以请求重新发送丢失的数据分组。控制系统110可以能够接收 丢失的数据分组,并且将丢失的数据分组添加到不完整的上行链路数 据分组流。
图2示出了电话会议系统的组件的附加示例。图2所示的组件的 类型和数量仅仅是作为示例被示出的。替代性实现可以包括更多、更 少和/或不同的组件。在该示例中,电话会议装置200包括VoIP电话 会议桥。在该示例中,会议参与者正在使用五个电话端点,包括两个 耳机端点206,空间扬声器电话端点207和两个PSTN端点208。空间 扬声器端点207可能能够提供对应于多个会议参与者中的每一个的位 置的空间信息。这里,PSTN桥209在IP网络和PSTN端点208之间 形成网关,将PSTN信号转换成IP数据分组流,反之亦然。
图2A示出了电话会议系统的组件的附加示例。图2A所示的组件 的类型和数量仅仅是作为示例被示出的。替代性实现可以包括更多、 更少和/或不同的组件。在该示例中,电话会议装置200包括VoIP电 话会议桥。在该示例中,会议参与者正在使用五个电话端点,包括两 个耳机端点206,空间扬声器电话端点207和两个PSTN端点208。空 间扬声器端点207可能能够提供对应于多个会议参与者中的每一个的 位置的空间信息。这里,PSTN桥209在IP网络和PSTN端点208之 间形成网关,将PSTN信号转换成IP数据分组流,反之亦然。
在图2A中,电话会议装置200正在接收各对应于五个电话端点 之一的上行链路数据分组流201A-205A。在一些实例中,可能有多个 会议参与者通过空间扬声器终端207参与电话会议。如果是这样的话, 则上行链路数据分组流203A可以包括多个会议参与者中的每一个的 音频数据和空间信息。
在一些实现中,上行链路数据分组流201A-205A中的每一个可以 包括每个数据分组的序列号、以及数据分组有效载荷。在一些示例中, 上行链路数据分组流201A-205A中的每一个可以包括与包括在上行链 路数据分组流中的每个讲话突发相对应的讲话突发数。例如,每个电 话终端(或与电话端点相关联的设备,诸如PSTN桥209)可以包括 能够检测语音和非语音的实例的语音活动性检测器。电话端点或相关 联设备可以将讲话突发数包含在与这种语音实例相对应的上行链路数 据分组流的一个或多个数据分组中,并且每当语音活动检测器确定语 音已经在非语音时段之后重新开始时,可增加讲话突发数。在一些实现中,讲话突发数可以是在每个讲话突发开始时在1和0之间切换的 单个比特。
在该示例中,电话会议装置200为每个接收到的上行链路数据分 组分配“接收”时间戳。这里,电话会议装置200向会议记录数据库 3发送分组跟踪文件201B-205B,分组跟踪文件201B-205B之一与上 行数据分组流201A-205A之一对应。在此实现中,分组跟踪文件201B-205B包括针对每个接收到的上行链路数据分组的接收时间戳, 以及所接收的序列号,讲话突发数和数据分组有效载荷。
在该示例中,电话会议装置200还向会议记录数据库3发送会议 元数据210。会议元数据210可以例如包括关于各个会议参与者的数 据,例如会议参与者姓名,会议参与者位置等。会议元数据210可以 指示各个会议参与者与分组跟踪文件201B-205B之一之间的关联。在 一些实现中,分组跟踪文件201B-205B和会议元数据210可以共同在 会议记录数据库3中形成电话会议记录。
图2B示出了分组跟踪文件和会议元数据的示例。在该示例中, 会议元数据210和分组跟踪文件201B-204B具有被表示为包括四列 (这里也被称为字段)的表的数据结构。图2B中所示的特定数据结 构仅仅是作为示例;其他示例可以包括更多或更少的字段。如本文其他 地方所描述的,在一些实现中,会议元数据210可以包括在图2B中 未示出的其他类型的信息。
在该示例中,会议元数据210数据结构包括会议参与者姓名字段 212、连接时间字段214(指示相应的会议参与者何时加入会议)、断 开时间字段216(指示相应的会议参与者何时离开会议)、和分组跟 踪文件字段218。在该示例中可以看出,在会议元数据210数据结构 中可以多次列出同一会议参与者,每次他或她加入或重新加入会议就 列出一次。分组跟踪文件字段218包括用于识别对应的分组跟踪文件 的信息。
因此,会议元数据210提供了会议的一些事件的总结,包括谁参 与、多长时间等等。在一些实施方式中,会议元数据210可以包括诸 如端点类型(例如耳机,移动设备,扬声器电话等)的其他信息。
在该示例中,分组跟踪文件201B-204B中的每一个还包括四个字 段,每个字段对应于不同类型的信息。这里,分组跟踪文件201B-204B 中的每一个包括接收时间字段222,序列号字段224,讲话突发标识字 段226和有效载荷数据字段228。可以包括在分组有效载荷中的序列 号和讲话突发数使得能够以正确的顺序排列有效载荷。在该示例中, 由有效载荷数据字段228指示的有效载荷数据的每个实例对应于已经 去除了序列号和讲话突发数之后的分组的有效载荷的剩余部分,包括 对应于相应的会议参与者的音频数据。例如,分组跟踪文件201B-204B 中的每一个可以包含源自诸如图2A所示的那些的端点的分组的有效 载荷数据。一个分组跟踪文件可以包括来自大量分组的有效载荷数据。
尽管图2B中未示出,会议元数据210对应于特定的会议。因此, 用于会议的元数据和分组跟踪文件201B-204B(包括有效载荷数据) 可以被存储,以用于根据例如会议代码进行的后续检索。
随着更多信息的添加,分组跟踪文件201B-204B和会议元数据210 可以在会议的持续时间内改变。根据一些实现,这种改变可能在本地 发生,并且最终的分组跟踪文件和会议元数据210在会议结束之后被 发送到会议记录数据库3。作为替代地或者附加地,分组跟踪文件 201B-204B和/或会议元数据210可以在会议记录数据库3上被创建然 后被更新。
图3A是示出能够实现本公开的各个方面的装置的组件的示例的 框图。图3A中所示的组件的类型和数量仅仅是作为示例被示出的。 替代性实现可以包括更多、更少和/或不同的组件。装置300可以例如 是分析引擎307的实例。在一些示例中,装置300可以是另一设备的 组件。例如,在一些实现中,装置300可以是分析引擎307的组件, 例如本文别处描述的上行链路分析模块。
在该示例中,装置300包括接口系统325和控制系统330。接口 系统325可以包括一个或多个网络接口,控制系统330和存储系统之 间的一个或多个接口、和/或一个或多个外部设备接口(诸如,一个或 多个通用串行总线(USB)接口))。控制系统330可以例如包括通用单芯片或多芯片处理器,数字信号处理器(DSP),专用集成电路 (ASIC),现场可编程门阵列(FPGA)或其他可编程逻辑器件,离 散门或晶体管逻辑,和/或离散硬件组件。
图3B是简述可以由图3A的装置执行的方法的一个示例的流程 图。如本文所述的其它方法那样,方法350的块不一定按照所示的顺 序执行。此外,这样的方法可以包括比所示的和/或描述的块更多或更 少的块。
在该实现中,块355涉及经由接口系统接收电话会议的先前存储 的音频数据(这里也称为记录的音频数据)。例如,在块355中,记 录的音频数据可以由控制系统330经由接口系统325接收。在该示例 中,记录的音频数据包括与由一个或多个会议参与者使用的电话端点 对应的至少一个单独的上行链路数据分组流。
这里,所接收的单独的上行链路数据分组流包括对应于该单独的 上行数据分组流的数据分组的时间戳数据。如上所述,在一些实现中, 电话会议装置200可以向每个接收的上行链路数据分组分配接收时间 戳。电话会议装置200可以以电话会议服务器200接收的顺序存储被 加时间戳的数据分组,或者使得数据分组被这样存储。因此,在一些 实现中,块355可以涉及从会议记录数据库3(诸如上述图1A所示的) 接收记录的音频数据,包括包含时间戳数据的单独的上行链路数据分 组流。
在该示例中,块360涉及分析单独的上行链路数据分组流中的数 据分组的时间戳数据。这里,块360的分析处理涉及确定该单独的上 行链路数据分组流是否包括至少一个无序数据分组。在该实现中,如 果该单独的上行链路数据分组流包括至少一个无序数据分组,则在块 365中将根据时间戳数据将该单独的上行链路数据分组流重新排序。
在一些实现中,单独的上行链路数据分组流的至少一个数据分组 可能在电话会议的口到耳延迟时间阈值之后被接收到。如果是这样, 则单独的上行链路数据分组流包括不可用于包含在用于再现给会议参 与者或用于在电话端点处记录的下行链路数据分组流中的数据分组。 根据具体情况,口到耳延迟时间阈值之后接收到的数据分组可能被无 序地接收或可能不被无序地接收。
图3A的控制系统330可以具有各种其他功能。例如,控制系统 330可能能够经由接口系统325接收电话会议元数据,并至少部分地 基于电话会议元数据来索引单独的上行链路数据分组流。
由控制系统330接收的记录的音频数据可以包括多个单独的编码 的上行链路数据分组流,每个单独的编码的上行链路数据分组流对应 于由一个或多个会议参与者使用的电话端点。在一些实现中,如下面 更详细描述的,控制系统330可以包括能够分析多个单独的上行链路 数据分组流的联合分析模块。联合分析模块可以能够确定会话动态数 据,诸如指示会议参与者语音的频率和持续时间的数据、指示在其期 间至少两个会议参与者同时发言的会议参与者双讲话的实例的数据、 和/或指示会议参与者会话的实例的数据。
控制系统330可以能够解码多个单独的编码的上行链路数据分组 流中的每一个。在一些实现中,控制系统330可以能够向语音识别模 块提供一个或多个解码的上行链路数据分组流,该语音识别模块能够 识别语音并产生语音识别结果数据。语音识别模块可以能够将语音识 别结果数据提供给联合分析模块。在一些实现中,联合分析模块可以 能够标识语音识别结果数据中的关键词并且对关键词位置进行索引。
在一些实现中,控制系统330可以能够向发言者日志模块提供一 个或多个解码的上行链路数据分组流。发言者日志模块可以能够标识 单独的解码的上行链路数据分组流中的多个会议参与者中的每一个的 语音。发言者日志模块可以能够生成指示多个会议参与者中的每一个 正在发言的时间的发言者日志,并且向联合分析模块提供发言者日志。在一些实现中,控制系统330可以能够向联合分析模块提供多个单独 的解码的上行链路数据分组流。
图3C显示了电话会议系统的组件的附加示例。图3C所示的组件 的类型和数量仅仅是示例性的。替代实现可以包括更多,更少和/或不 同的组件。在该实现中,分析引擎307接收来自会议记录数据库3的 各种文件以及来自会议数据库308的信息。分析引擎307及其组件可 以经由硬件、经由存储在非暂态介质上的软件、经由固件和/或它们的 组合来实现。来自会议数据库308的信息可以例如包括关于哪些会议 记录存在的信息、关于谁有权听取和/或修改每个会议记录的信息、关 于哪些会议被调度的信息、和/或关于谁被各会议邀请的信息等等。
在该示例中,分析引擎307接收来自会议记录数据库3的分组跟 踪文件201B-205B,它们中的每一个对应于先前已被电话会议装置200 接收的上行链路数据分组流201A-205A之一。分组跟踪文件 201B-205B可以例如包括用于每个接收到的上行链路数据分组的接收 时间戳、以及接收的序列号,讲话突发数和数据分组有效载荷。在该 示例中,将分组跟踪文件201B-205B中的每一个提供给上行链路分析 模块301-305中的单独一个以供处理。在一些实现中,上行链路分析 模块301-305可以能够将分组跟踪文件的数据分组进行重新排序,例 如,如上文参考图3B所述。下面参考图4描述上行链路分析模块功 能的一些附加示例。
在该示例中,上行链路分析模块301-305中的每一个输出各上行 链路分析结果301C-305C中的相应一个。在一些实现中,各上行链路 分析结果301C-305C可被回放系统609用于回放和可视化。下面参考 图6描述一些示例。
这里,上行链路分析模块301-305中的每个还向联合分析模块306 提供输出。联合分析模块306可以能够分析与多个单独的上行链路数 据分组流相对应的数据。
在一些示例中,联合分析模块306可以能够分析会话动态,并确 定会话动态数据。以下参考图5更详细地描述联合分析模块功能的这 些和其它示例。
在该示例中,联合分析模块306输出会议概述信息311,其可以 包括会议的时间,参与者的姓名等。在一些实现中,会议概述信息311 可以包括会话动态数据。这里,联合分析模块306还输出分段和词语 云数据309和搜索索引310,这两者都在下文参照图5被描述。
这里,分析引擎307也接收会议元数据210.如本文其他地方所 述,会议元数据210可以包括关于各会议参与者的数据,例如会议参 与者姓名和/或会议参与者位置、各会议参与者和分组跟踪文件 201B-205B之一之间的关联等。在该示例中,会议元数据210被提供给联合分析模块306。
图4示出了上行链路分析模块的组件的示例。上行链路分析模块 301及其组件可以经由硬件、经由存储在非暂态介质上的软件、经由 固件和/或它们的组合来实现。图4中所示的组件的类型和数量仅仅是 通过示例的方式示出的。替代实现可以包括更多、更少和/或不同的组 件。
在该实现中,上行链路分析模块301被示出为接收分组跟踪文件 201B。这里,对应于单独的上行数据分组流的分组跟踪文件201B被 分组流归一化模块402接收和处理。在该示例中,分组流归一化模块 402能够分析分组跟踪文件201B中的数据分组的序列号数据,并且确 定该单独的上行链路数据分组流是否包括至少一个无序数据分组。如 果分组流归一化模块402确定单独的上行链路数据分组流包括至少一 个无序数据分组,则在该示例中,分组流归一化模块402将根据序列 号将该单独的上行链路数据分组进行重新排序。
在该实现中,分组流归一化模块402输出有序回放流40B作为由 上行链路分析模块301输出的上行链路分析结果301C的一个分量。 在一些实现中,分组流归一化模块402可以包括对应于有序回放流 401B的每个数据分组的回放时间戳和数据分组有效载荷。这里,有序 回放流40B包括编码数据,但是在替换实现中,有序回放流40B可以 包括解码数据或代码转换数据。在该示例中,分组流索引模块403输 出的回放流索引401A是上行分析结果301C的另一分量。回放流索引 401A可以有助于回放系统609的随机访问回放。
例如,分组流索引模块403可以确定会议参与者的讲话突发的实 例(例如,根据输入上行链路分组跟踪的讲话突发数),并且在回放 流索引401A中包括相应的索引信息,以便于有助于回放系统609对 会议参与者讲话突发的随机访问回放。在一些实现中,分组流索引模 块403可能能够根据时间进行索引。例如,在一些示例中,分组流索 引模块403可能能够形成分组流索引,该分组流索引指示对于对应回 放时间的编码音频的回放流内的字节偏移量。在一些这样的实现中, 在回放期间,回放系统609可以查找分组流索引中的特定时间(例如, 根据时间粒度,例如10秒粒度),并且分组流索引可以指示对于该回 放时间的编码音频的回放流内的字节偏移量。这可能是有用的,因为 编码音频可能具有可变的比特率,或者因为当静默时可能不存在分组 (所谓的“DTX”或“不连续传输”)。在任一情况中,分组流索引 可以有助于回放过程期间的快速寻找,至少部分是因为在时间与回放 流内的字节偏移量之间常常可能存在非线性关系。
在图4所示的示例中,解码模块404还从分组流归一化模块402 接收有序回放流40B1。在该实现中,解码模块404对编码的有序回放 流401B进行解码,并且将解码的回放流提供给自动语音识别模块405, 可视化分析模块406和发言者日志模块407。在一些示例中,解码的 回放流可以是脉冲编码调制(PCM)流。
根据一些实现,解码模块404和/或回放系统609可以应用与在原 始电话会议期间使用的解码过程不同的解码过程。由于时间,计算和/ 或带宽约束,相同的音频分组可能在电话会议期间以具有最小计算需 求的低保真度解码,而由解码模块404以具有更高计算需求的更高保 真度解码。解码模块404的更高保真度的解码例如可能涉及解码到较 高采样率,开启谱带宽复制(SBR)以获得更好的感知结果,运行迭 代解码过程的更多迭代等。
在图4所示的示例中,自动语音识别模块405分析由解码模块404 提供的解码回放流中的音频数据,以确定与解码回放流对应的电话会 议部分中说出的词语。自动语音识别模块405将语音识别结果401F 输出到联合分析模块306。
在该示例中,可视化分析模块406分析解码回放流中的音频数据, 以确定讲话突发的发生,讲话突发的幅度和/或讲话突发的频率内容 等,并输出可视化数据401D。例如,可视化数据401D可以提供关于 当电话会议被回放时回放系统609可以显示的波形的信息。
在该实现中,发言者日志模块407根据单个会议参与者还是多个 会议参与者正使用与输入上行链路分组跟踪201B对应的同一电话端 点,分析解码回放流中的音频数据,以标识并记录来自一个或多个会 议参与者的语音的出现。发言者日志模块407输出发言者日志401E, 其与可视化数据401D一起被包括作为由分析引擎307输出的上行链 路分析结果301C(参见图3C)的一部分。实质上,发言者日志401E 指示哪个(哪些)会议参与者发言,会议参与者何时讲话。
上行链路分析结果301C以及语音识别结果401F一起被包括在提 供给联合分析模块306的可用于联合分析的上行链路分析结果401中。 多个上行链路分析模块中的每一个可以将可用于联合分析的上行链路 分析结果的实例输出到联合分析模块306。
图5示出了联合分析模块的组件的示例。联合分析模块306及其 组件可以经由硬件、经由存储在非暂态介质上的软件、经由固件和/ 或它们的组合来实现。图5所示的组件的类型和数量仅仅是作为示例 被示出的。替代性实现可以包括更多,更少和/或不同的组件。
在该示例中,图3C所示的上行链路分析模块301-305中的每一个 输出可用于联合分析的上行链路分析结果401-405中的相应一个,所 有这些在图5中被示出为由联合分析模块306接收到。在该实现中, 其中语音识别结果401F-405F被提供给关键词检索和索引模块505以 及主题分析模块525,语音识别结果401F-405F分别来自可用于联合 分析的上行链路分析结果401-405中的每一个。在该示例中,语音识 别结果401F-405F对应于特定电话会议的所有会议参与者。语音识别 结果401F-405F可以例如是文本文件。
在该示例中,关键词检索和索引模块505能够分析语音识别结果 401F-405F,标识在电话会议期间由所有会议参与者说出的频繁出现的 词语,以及并且对频繁出现的词语的出现建立索引。在一些实现中, 关键词检索和索引模块505可以确定并记录每个关键词的实例的数 量。在该示例中,关键词检索和索引模块505输出搜索索引310。
在图5所示的示例中,会话动态分析模块510接收发言者日志 401E-405E,发言者日志401E-405E分别来自可用于联合分析的上行 链路分析结果401-405中的每一个。会话动态分析模块510可以能够 确定会话动态数据,诸如指示会议参与者语音的频率和持续时间的数 据、指示在其期间至少两个会议参与者同时发言的会议参与者“双讲 话”的实例的数据、指示会议参与者会话的实例的数据、和/或指示一 个会议参与者打断一个或多个其他会议参与者的实例的数据等。
在该示例中,会话动态分析模块510输出会话动态数据文件 515a-515d,每个会话动态数据文件对应于不同的时间尺度。例如,会 话动态数据文件515a可以对应于会议段(陈述,讨论等)为大约1 分钟长的时间尺度,会话动态数据文件515b可以对应于会议段为大约 3分钟长的时间尺度,会话动态数据文件515c可以对应于会议段为大 约5分钟长的时间尺度,以及会话动态数据文件515d可以对应于会议 段为大约7分钟长或者更长时间的时间尺度。在其他实现中,会话动 态分析模块510可以输出更多或更少的会话动态数据文件515。在该 示例中,会话动态数据文件515a-515d仅输出到主题分析模块525, 但是在其他实现中,会话动态数据文件515a-515d可以被输出到一个 或多个其他模块,和/或从整个分析引擎307输出。因此,在一些实施 方式中,会话动态数据文件515a-515d可供回放系统609使用。
在一些实现中,主题分析模块525可以能够分析语音识别结果 401F-405F并且标识可能的会议主题。在一些示例中,如这里,主题 分析模块525可以接收和处理会议元数据210。下面详细描述主题分 析模块525的各种实施方式。在该示例中,主题分析模块525输出段 和词语云数据309,其可以包括用于多个会话段中的每一个的主题信 息和/或用于多个时间间隔中的每一个的主题信息。
在图5所示的示例中,联合分析模块包括概述(overview)模块 520。在该实现中,概述模块520接收会议元数据210以及来自会议数 据库308的数据。会议元数据210可以包括关于各会议参与者的数据, 例如会议参与者姓名和会议参与者位置,指示会议的时间和日期的数 据等。会议元数据210可以指示各会议参与者和电话端点之间的关联。 例如,会议元数据210可以指示各会议参与者和由分析引擎输出的分 析结果301C-305C之一(参见图3C)之间的关联。会议数据库308 可以向概述模块520提供关于哪些会议被调度的数据,关于会议主题 的数据和/或谁被邀请参加每个会议的数据等。在该示例中,概述模块 520输出会议概述信息311,其可以包括会议元数据210的总结和来自 会议数据库308的数据的总结。
在一些实现中,分析引擎307和/或电话会议系统100的其他组件 可以能够具有其他功能。例如,在一些实现中,分析引擎307,回放 系统609或电话会议系统100的另一组件可能能够至少部分地基于会 话动态数据来在虚拟声学空间中分配虚拟会议参与者位置。在一些示 例中,会话动态数据可以基于整个会议。
图6示出了回放系统的组件和相关设备的示例。回放系统609及 其组件可以经由硬件、经由存储在非暂态介质上的软件、经由固件和/ 或它们的组合来实现。图6中所示的组件的类型和数量仅仅作为示例 被示出。替代性实现可以包括更多,更少和/或不同的组件。
在该示例中,回放系统609正在接收与包括三个电话端点的电话 会议相对应的数据,而不是如上所述包括五个电话端点的电话会议。 因此,回放系统609被示出为接收分析结果301C-303C、以及段和词 语云数据309、搜索索引310和会议概述信息311。
在该实现中,回放系统609包括多个解码单元601A-603A。这里, 解码单元601A-603A接收分别来自分析结果301C-303C中的每一个的 有序回放流401B-403B。在一些示例中,回放系统609可以每个回放 流调用一个解码单元,因此解码单元的数量可以根据所接收的回放流 的数量而改变。
根据一些实现,解码单元601A-603A可以应用与在原始电话会议 期间使用的解码过程不同的解码过程。如本文其他地方所述,在原始 电话会议期间,由于时间,计算和/或带宽约束,音频数据可能以具有 最小计算需求的低保真度解码。但是,有序回放流401B-430B可由解 码模块601A-603A以具有更高计算需求的更高保真度解码。解码模块 601A-603A的更高保真度的解码例如可能涉及解码到较高采样率,开 启谱带宽复制(SBR)以获得更好的感知结果,运行迭代解码过程的 更多迭代等。
在该示例中,解码单元601A-603A中的每一个将解码的回放流提 供给后处理模块601B-603B中的相应的一个。如下面更详细地讨论的, 在一些实现中,后处理模块601B-603B可以能够进行一种或多种类型 的处理,以加速有序回放流401B-403B的回放。在一些这样的示例中, 后处理模块601B-603B可能能够从有序回放流401B-403B去除静默部 分,使有序回放流401B-403B的先前未重叠的部分重叠,改变有序回 放流401B-403B的先前重叠部分的重叠量,和/或用于加速有序回放流 401B-403B的回放的其他处理。
在该实现中,混合和渲染模块604接收来自后处理模块601B-603B 的输出。这里,混合和渲染模块604能够混合从后处理模块601B-603B 接收到的各个回放流,并且渲染所得到的回放音频数据以供通过诸如 耳机607和/或扬声器阵列608的扬声器系统再现。在一些示例中,混 合和渲染模块604可将回放音频数据直接提供给扬声器系统,而在其 它实施方式中,混合和渲染模块604可以将回放音频数据提供给可能 能够与扬声器系统通信的另一设备(诸如显示设备610)。在一些实 现中,混合和渲染模块604可以根据由分析引擎307确定的空间信息 来渲染混合音频数据。例如,混合和渲染模块604可以能够基于这样 的空间信息将每个会议参与者的混合音频数据渲染至虚拟声学空间中 被分配的虚拟会议参与者位置。在一些替代实现中,混合和渲染模块 604还可能能够确定这样的空间信息。在一些实例中,混合和渲染模 块604可以根据与在原始电话会议期间渲染所使用的空间参数不同的 空间参数来渲染电话会议音频数据。
在一些实现中,回放系统609的一些功能可以至少部分地根据“基 于云的”系统来提供。例如,在一些实现中,回放系统609可能能够 经由网络与一个或多个其他设备(诸如一个或多个服务器)进行通信。 在图6所示的示例中,回放系统609被示出为经由一个或多个网络接 口(未示出)与可选的回放控制服务器650和可选的再现服务器660 进行通信。根据一些这样的实现,在其他实现中可以由混合和渲染模 块604执行的功能中的至少一些可以由渲染服务器660执行。类似地, 在一些实现中,在其他实现中可由回放控制模块605执行的功能中的 至少一些可以由回放控制服务器650执行。在一些实现中,解码单元 601A-603A和/或后处理模块601B-603B的功能可以由一个或多个服 务器执行。根据一些示例,整个回放系统609的功能可以由一个或多 个服务器来实现。结果可以被提供给诸如显示设备610的客户端设备 以用于回放。
在该示例中,回放控制模块605接收分别来自分析结果 301C-303C中的每一个的回放流索引401A-403A。尽管在图6中未示 出,但是回放控制模块605还可以接收来自分析结果301C-303C的其 他信息,以及段和词语云数据309,搜索索引310和会议概述信息311。至少部分地,回放控制模块605可以至少部分地基于用户输入(在本 例中可以经由显示设备610被接收)、基于分析结果301C-303C、基 于段和词语云数据309、搜索索引310和/或基于会议概述信息311, 控制回放过程(包括来自混合和渲染模块604的音频数据的再现)。
在该示例中,显示设备610被示出为提供图形用户界面606,其 可以用于与回放控制模块605进行交互以控制音频数据的回放。显示 设备610可以例如是膝上型计算机,平板计算机,智能电话或其他类 型的设备。在一些实现中,用户可能能够经由显示设备610的用户界 面系统与图形用户界面606交互,例如通过触摸覆盖触摸屏,经由通 过相关联的键盘和/或鼠标进行交互,通过经由麦克风和显示设备610 的相关软件的语音命令等。
在图6所示的示例中,图形用户界面606的每一行615对应于特 定的会议参与者。在该实现中,图形用户界面606指示会议参与者信 息620,其可以包括会议参与者姓名,会议参与者位置,会议参与者 照片等。在该示例中,对应于每个会议参与者的语音的实例的波形625 也被在图形用户界面606示出。显示设备610可以例如根据来自回放 控制模块605的指令来显示波形625。这样的指令可以例如基于包括 在分析结果301C-303C中的可视化数据410D-403D。在一些示例中, 用户可能能够根据要展示的会议的期望时间间隔来改变图形用户界面 606的比例。例如,用户可能能够“放大”或扩大图形用户界面606 的至少一部分以显示较小的时间间隔,或者“缩小”图形用户界面606 的至少一部分以显示较大的时间间隔。根据一些这样的示例,回放控 制模块605可以访问对应于改变的时间间隔的会话动态数据文件515 的不同实例。
在一些实现中,用户可能不仅能够根据诸如暂停,播放等的典型 命令来控制音频数据的再现,而且还可以根据基于更丰富的关联数据 和元数据集合的附加能力来控制音频数据的再现。例如,在一些实现 中,用户可能能够选择仅回放所选会议参与者的语音。在一些示例中, 用户可以选择仅回放会议的正在讨论特定关键词和/或特定主题的那 些部分。
在一些实现中,图形用户界面606可以至少部分地基于段和词语 云数据309来显示一个或多个词语云(word cloud)。在一些实现中, 所显示的词云可以至少部分地基于用户输入和/或基于在特定时间正 在回放的会议的特定部分。本文公开了各种示例。
虽然以上主要在电话会议上下文中描述了音频数据处理的各种示 例,但是本公开可更广泛地应用于其他已知的音频数据处理上下文, 例如处理对应于面对面会议的音频数据。这样的面对面会议可以例如 包括学术和/或专业会议、医生/客户访问、个人日志(例如通过便携 式记录设备,例如可穿戴式记录设备)等。
图7示出了面对面会议实现的示例。图7所示的组件的类型和数 量仅作为示例示出。替代性实现可以包括更多,更少和/或不同的组件。 在该示例中,会议地点700包括会议参与者桌子705和听众座位区域 710。在该实现中,麦克风715a-715d位于会议参与者桌子705上。因 此,会议参与者桌子705被设置为使得四个会议参与者中的每一个将 具有他或她的单独的麦克风。
在该实现中,线缆712a-712d中的每一个将单独的音频数据流从 麦克风715a-715d中的相应的一个传送到在此实例中位于会议参与者 桌子705下方的记录设备720。在替代示例中,麦克风715a-715d可 以经由无线接口与记录设备720通信,使得不需要线缆712a-712d。 会议地点700的一些实现可以包括用于听众座位区域710和/或用于在 听众座位区域710和会议参与者桌子705之间的区域的额外的麦克风 715,麦克风715可以是也可以不是无线麦克风。
在该示例中,记录设备720不混合各个音频数据流,而是分别记 录每个单独的音频数据流。在一些实现中,麦克风715a-715d中的每 一个或记录设备720可以包括模数转换器,使得来自麦克风715a-715d 的音频数据流可以由记录设备720记录为单独的数字音频数据流。
麦克风715a-715d有时可能被称为“端点”的示例,因为它们类 似于上文在电话会议上下文中讨论的电话端点。因此,图7所示的实 现提供了另一个示例,其中在本示例中由麦克风715a-715d表示的多 个端点中的每个端点的音频数据将被单独记录。
在替代实现中,会议参与者桌子705可以包括诸如声场麦克风的 麦克风阵列。声场麦克风可以例如能够产生A格式或B格式的高保真 环绕声信号(例如Core SoundTetraMicTM),Zoom H4nTM,MH Acoustics EigenmikeTM,或诸如杜比会议电话(DolbyConference PhoneTM)的空间扬声器。麦克风阵列在本文中可以被称为单个端点。 然而,来自这样的单个端点的音频数据可以对应于多个会议参与者。 在一些实现中,麦克风阵列可能能够检测每个会议参与者的空间信息, 并且将每个会议参与者的空间信息包含在提供给记录设备720的音频 数据中。
鉴于上述内容,本公开涵盖了可以记录涉及多个会议参与者的会 议的音频数据的各种实施方式。在一些实现中,会议可以是电话会议, 而在其他实现中,会议可以是面对面会议。在各种示例中,可以分别 记录多个端点中的每一个的音频数据。作为替代地或附加地,来自单 个端点的记录的音频数据可以对应于多个会议参与者,并且可以包括 每个会议参与者的空间信息。
各种公开的实现涉及按前述方式之一或两者记录的数据的处理和 /或回放。一些这样的实现涉及确定虚拟声学空间中的每个会议参与者 的虚拟会议参与者位置。虚拟声学空间内的位置可以相对于虚拟收听 者的头部来确定。在一些示例中,在给定会议的会话动态的情况下, 虚拟会议参与者位置可以至少部分地根据人类声音定位的心理物理 学,根据影响语音可懂度的空间参数,和/或根据揭示听众已经发现什 么样的讲话者位置会相对或多或少地令人反感的经验数据。
在一些实现中,对应于整个会议或至少电话会议的显著部分的音 频数据可用于确定虚拟会议参与者位置。因此,可以确定会议的完整 或基本上完整的会话动态数据的集合。在一些示例中,虚拟会议参与 者位置可以至少部分地根据会议的完整或基本上完整的会话动态数据 的集合被确定。
例如,会话动态数据可以包括指示会议参与者语音的频率和持续 时间的数据。在听力练习中已经发现,许多人反对在会议中的主导发 言者被渲染至在听众后面或旁边的虚拟位置。当听一个讲话者的长篇 演讲(例如在商务演讲中)时,很多听众都报告说,他们希望与该讲 话者对应的音源被定位在听众面前,就好像听众在讲座或研讨会中那 样。对于一个讲话者的长篇演讲,定位在后面或旁边常常会引起这似 乎不自然的评论,或者在某些情况下听众的个人空间受到侵犯的评论。 因此,会议参与者语音的频率和持续时间可以是针对相关联的会议记 录的回放来分配和/或渲染虚拟会议参与者位置的过程的有用输入。
在一些实现中,会话动态数据可以包括指示会议参与者会话的实 例的数据。已经发现,将参加会话的会议参与者渲染到大不相同的虚 拟会议参与者位置可以提高听众在任何给定时间辨别哪个会议参与者 正在讲话的能力,并且可以提高听众理解每个会议参与者正在说什么 的能力。
会话动态数据可以包括所谓的“双讲话”的实例,在该“双讲话” 期间至少有两名会议参与者同时发言。已经发现,与将参加双讲话的 参与者渲染到相同虚拟位置相比,将进行双讲话的参与者渲染到大不 相同的虚拟会议参与者位置有利于听众。这种差异化的定位为听众提 供了关于选择性地倾听参加双讲话的会议参与者之一和/或了解每个 会议参与者在说什么的更好的线索。
在一些实现中,会话动态数据可以被应用为空间优化成本函数的 一个或多个变量。成本函数可以是描述虚拟声学空间中的多个会议参 与者中的每一个的虚拟会议参与者位置的向量的函数。
图8是简述根据本公开的一些实现的方法的一个示例的流程图。 在一些示例中,方法800可以由诸如图3A的装置的装置执行。与本 文所述的其它方法一样,方法800的块不一定按照所示的顺序执行。 此外,这样的方法可以包括比所示和/或描述的块更多或更少的块。
在此实现中,块805涉及接收对应于涉及多个会议参与者的会议 的记录的音频数据。根据一些示例,音频数据可以对应于完整的或基 本上完整的会议的记录。在一些实现中,在块805中,诸如图3A的 控制系统330的控制系统可经由接口系统325接收音频数据。
在一些实现中,会议可以是电话会议,而在其他实现中,会议可 以是面对面会议。在该示例中,音频数据可以包括被分别记录的来自 多个端点的音频数据。作为替代地或者附加地,音频数据可以包括来 自对应于多个会议参与者的单个端点的、并且包括多个会议参与者的 每个会议参与者的空间信息的音频数据。例如,单个端点可以是空间 扬声器电话端点。
在一些实现中,在块805中接收的音频数据可以包括语音活动检 测过程的输出。在一些替代实现中,方法800可以包括语音活动检测 过程。例如,方法800可以包括标识对应于各个会议参与者的语音。
在该示例中,块810涉及分析音频数据以确定会话动态数据。在 这种实例中,会话动态数据包括以下中的一个或多个:指示会议参与 者语音的频率和持续时间的数据;指示在其期间至少两个会议参与者 同时发言的会议参与者双讲话的实例的数据;以及指示会议参与者会 话的实例的数据。
在此实现中,块815涉及将会话动态数据应用作为空间优化成本 函数的一个或多个变量。这里,空间优化成本函数是描述虚拟声学空 间中每个会议参与者的虚拟会议参与者位置的向量的函数。虚拟声学 空间内的位置可以相对于虚拟听众头部的位置来定义。下面描述合适 的成本函数的一些示例。在回放期间,虚拟听众头部的位置可以与实 际听众头部的位置相对应,在实际听众佩戴耳机的情况下尤其如此。 在下面的讨论中,术语“虚拟听众的头部”和“听众的头部”有时可 以互换使用。同样地,术语“虚拟听众”和“听众”有时可以互换使 用。
在该示例中,块820涉及将优化技术应用于空间优化成本函数以 求解。在这种实现中,该解是局部最优解。块820可以例如包括应用 梯度下降技术、共轭梯度技术、牛顿法、Broyden-Fletcher-Goldfarb-Shanno算法、遗传算法、模拟退火算法、 蚁群优化方法和/或蒙特卡罗方法。在该实现中,块825包括至少部分 地基于局部最优解来在虚拟声学空间中分配虚拟会议参与者位置。
例如,成本函数的变量可以至少部分地基于指示会议参与者语音 的频率和持续时间的会话动态数据。如上所述,当收听一个会话参与 者的长篇讲话(例如,在商业演讲中)时,许多听众已经表示他们喜 欢将会话参与者定位在他们前面,就好像他们在讲座或研讨会中那样。 因此,在一些实现中,空间优化成本函数可以包括倾向于将频繁发言 的会话参与者布置在听众前面的加权因子,惩罚函数,成本或另一个 这样的术语(它们中的任一个或者全部在本文中可以被称为“惩罚”)。 例如,空间优化成本函数可以应用对于将频繁发言的会议参与者布置 于在虚拟听众的头部位置旁边、后面、上方或下方的虚拟会议参与者 位置处的惩罚。
作为替代地或者附加地,成本函数的变量可以至少部分地基于指 示参与会议参与者双讲话的会议参与者的会话动态数据。之前已经注 意到,与将参与双讲话的会议参与者渲染到相同的虚拟位置相比,将 参加双讲话的会议参与者渲染到大不相同的虚拟会议参与者位置可以 为听众带来便利。
为了量化这种差异化定位,空间优化成本函数的一些实现可能涉 及应用对于将参与会议参与者双讲话的会议参与者布置在如下虚拟会 议参与者位置处的惩罚,该虚拟会议参与者位置位于相对于虚拟听众 头部被定义的所谓“混淆锥”上或者接近于位于该混淆锥上。
图9示出了虚拟声学空间中的虚拟听众的头部和混淆锥的示例。 在该示例中,在虚拟声学空间900中,坐标系905相对于虚拟听众头 部910的位置来定义。在该示例中,坐标系905的y轴与在虚拟听众 头部910的耳朵915之间通过的耳间轴线重合。这里,z轴是穿过虚 拟听众头部910的中心的垂直轴线,并且x轴在虚拟听众头部910所 面向的方向上是正的。在这个例子中,原点是在耳朵915之间的中点。
图9还示出了在该示例中相对于耳间轴和声源925被定义的混淆 锥920的示例。这里,声源925被定位在与耳间轴相距半径R处,并 且被示出为发射声波930。在该示例中,半径R平行于x轴和z轴, 并且限定圆锥切片935。因此,沿圆锥切片935的所有点与虚拟听众头部910的每个耳朵915等距。因此,来自位于圆锥切片935或者通 过混淆锥920的任何其他圆锥切片上的任何地方的声源的声音将产生 相同的耳间时间差。这种声音也将产生非常相似(尽管不一定相同) 的耳间水平差异。
由于相同的耳间时间差,听众区辨别在混淆锥上或附近的声源的 位置会非常有挑战性。虚拟声学空间中的声源位置对应于会议参与者 的语音将被渲染到的位置。因此,由于虚拟声学空间中的源位置对应 于虚拟会议参与者位置,所以术语“源”和“虚拟会议参与者位置” 在文中可以互换使用。如果将两个不同的会议参与者的声音渲染到位 于混淆锥上或接近混淆锥的虚拟会议参与者位置,则虚拟会议参与者 位置可能似乎是相同或基本相同的。
为了充分区分至少一些会议参与者(例如参与双讲话的参与者) 的虚拟会议参与者位置,可能有利地是定义相对于混淆锥的预定角距 离,例如如图9中所示的相对于混淆锥920的角度α。角度α可以定 义与混淆锥920具有相同的轴线(这里,y轴))的、在混淆锥920的内部和/或外部的锥环。因此,空间优化成本函数的一些实现可以涉 及应用对于将参与会议参与者双讲话的会议参与者布置于位于混淆锥 上或者与混淆锥相距在预定的角距离内的虚拟会议参与者位置处的惩 罚,该混淆锥相对于虚拟听众头部被定义。在一些实现中,惩罚可能 与源A和B位于其上的混淆锥之间的角距离成反比。换句话说,在某 些这样的实现中,两个源越接近于位于共同的混淆锥,惩罚越大。为 了避免突然变化和/或不连续性,惩罚可能会平滑地变化。
作为替代地或者附加地,成本函数的变量可至少部分地基于指示 会议参与者会话的实例的会话动态数据。如上所述,将进行会话的会 议参与者渲染至大不相同的虚拟会议参与者位置可以提高听众在任何 给定时间辨别哪个会议参与者正在讲话的能力,并且可以提高听众理 解每个会议参与者正在说什么的能力。因此,空间优化成本函数的一 些实现可以涉及应用对于将参与会议参与者相互会话的会议参与者布 置于位于混淆锥上或者与混淆锥相距在预定的角距离内的虚拟会议参 与者位置处的惩罚,该混淆锥相对于虚拟听众头部被定义。例如,随 着虚拟会议参与者位置越接近共同的混乱锥,惩罚可以平滑地增加。
对于在会议期间仅短暂插话(short interjection)(或主要是短暂 插话)的会议参与者,将相应的虚拟会议参与者位置渲染至听众后面 或旁边是可以接受的,甚至是希望的。置于听众旁边或后面使得就好 像观众同伴提问或评论。
因此,在一些实施方式中,空间优化成本函数可以包括一个或多 个项,其倾向于避免将与在会议期间仅短暂插话(或主要是短暂插话) 的会议参与者对应的虚拟会议参与者位置渲染至听众前面的位置。根 据一些这样的实现,空间优化成本函数可以应用对于将很少发言的会 议参与者布置于不在虚拟听众的头部位置旁边、后面、上方或下方的 虚拟会议参与者位置处的惩罚。
在群组情况中进行交谈时,听众可能倾向于更靠近他或她想要收 听的讲话者,而不是保持距离。这种行为可能有社会原因以及声学原 因。本文中公开的一些实现方式可以通过将较频繁讲话的会议参与者 的虚拟会议参与者位置渲染为与较不频繁讲话的会议参与者相比更接 近虚拟听众来模拟这种行为。例如,在一些这样的实现中,空间优化 成本函数可以应用对于将频繁发言的会议参与者布置于与较不频繁发 言的会议参与者的虚拟会议参与者位置相比距虚拟听众头部更远的虚 拟会议参与者位置处的惩罚。
根据一些实现,成本函数可以表达如下:
F(a)=Fconv(a)+Fdt(a)+Ffront(a)+Fdist(a)+Fint(a) (式1)
在式1中,Fconv表示违反如下准则的感知成本,即参与会话的会 话参与者不应在位于混淆锥上或附近的虚拟会议参与者位置处被渲 染。在式1中,Fdt表示违反如下准则的感知成本,即参与双讲话的会 话参与者不应在位于混淆锥上或附近的虚拟会议参与者位置处被渲 染。在式1中,Ffront表示违反如下准则的感知成本,即频繁发言的会 话参与者应该在处于听众前面的虚拟会议参与者位置处被渲染。在式 1中,Fdist表示违反如下准则的感知成本,即频繁发言的会议参与者应 该在与较不频繁发言的会议参与者相比更接近听众的虚拟会议参与者 位置处被渲染。在式1中,Fint表示违反如下准则的感知成本,即仅短暂插话和/或很少发言的会话参与者不应在处于听众前面的虚拟会议 参与者位置处被渲染。
在替代实现中,成本函数可以包括更多、更少和/或不同的项。一 些替代实现可以省略式1的Fint变量和/或一个或多个其他项。
在式1中,a表示描述N个会议参与者中的每一个的在虚拟声学 空间中的D维虚拟会议参与者位置的向量。例如,如果渲染器具有每 个位置三个自由度(使得D=3),并且这些是给定源i的方位角(θi)、 仰角(φi)和距离(di)(其中1<i<N)的极坐标(欧拉角坐标),则向量a可以定义如下:
然而,在许多情况中,可以通过改为在笛卡尔坐标中工作来获得 更简单和更数值稳定的解。例如,可以定义一个(x,y,z)坐标系, 如图9所示。在一个这样的例子中,可以将xi定义为源i(诸如图9 的声源925)到虚拟听众头部的中心的沿着在听众前面从听众的鼻子 向外延伸的轴线的距离。可以将yi定义为源i到听众头部的中心的沿 着垂直于第一轴线延伸到听众左侧的轴线的距离。最后,可以将zi定 义为源i到听众头部的中心的沿着垂直于其它两个轴线向上延伸的轴 线的距离。使用的距离单位可以是任意的。然而,在下面的描述中, 将假设距离被归一化以适合于渲染系统,使得在距离收听者一个单位 的虚拟距离处,收听者定位源的能力将被最大化。
如果使用刚刚描述的笛卡尔坐标系,则矢量a可以定义如下:
上述段落提供了感知成本函数F(a)的示例,其根据各种类型的 会话动态数据描述虚拟会议参与者位置的特定向量a的适应度(适合 度)。现在可以找到导致最小感知成本(换句话说,最大适应度)的 源位置aopt的向量。鉴于上述新颖的成本函数,一些实现可能涉及应 用已知的数值优化技术来求解,例如梯度下降技术、共轭梯度技术、 牛顿法、Broyden-Fletcher-Goldfarb-Shanno算法、遗传算法、模拟 退火算法、蚁群优化方法和/或蒙特卡罗方法。在一些实现中,解可以 是局部最优解,已知上述示例技术是非常适合于该局部最优解。
在一些实施例中,空间优化成本函数的输入可以是VAD(语音活 动检测器)输出的矩阵V。例如,矩阵对于会议的每个离散时间分析 帧可以具有一行,并且可以具有N列,每个会议参与者一列。在一个 这样的示例中,分析帧大小可能是20ms,这意味着V包含VAD的对于每个源的每个20ms分析帧包含语音的概率的估计。在其他实现中, 分析帧可以对应于不同的时间间隔。为了简单起见,进一步假设在下 面描述的示例中,每个VAD输出可以是0或1。也就是说,VAD输 出指示每个源在每个分析帧内包含或不包含语音。
为了进一步简化讨论,可以假设在会议记录完成之后进行虚拟会 议参与者位置的优化布置,使得该过程可以随机访问会议的所有分析 帧。然而,在替代示例中,可以为会议的任何部分(诸如会议的不完 整记录)生成解,这考虑了为该会议的该部分生成的VAD信息。
在该示例中,该过程可以涉及使得矩阵V通过聚合过程,以便生 成会议的聚合特征。根据一些这样的实现,聚合特征可以对应于在会 议期间的双讲话和话轮转换(turn-taking)的实例。根据一个这样的 示例,聚合特征对应于双讲话矩阵Cdt和话轮转换矩阵Cturn。
例如,Cdt可以是对称N×N矩阵,在行i,j中描述了会议期间的 会议参与者i和j同时包含语音的分析帧的数量。因此,Cdt的对角线 元素描述了每个会议参与者的语音帧数,矩阵的其他元素描述了在会 议期间参与双讲话的特定会议参与者对的帧数。
在一些实现中,计算Cdt的算法可如下进行。首先,Cdt可被初始 化,使得所有元素都为零。然后,可以依次考虑V的每行v(换句话 说,每个分析帧)。对于每个帧,可以向Cdt的每个元素cij加1,其 中v的列i和j都为零。作为替代地,Cdt可以通过矩阵乘法来计算, 例如如下:
Cdt=VTV (式4)
在式4中,VT表示应用于矩阵V的常规矩阵转置操作。
然后,可以通过将Cdt除以会议中的讲话的总量(换句话说,矩 阵Cdt的迹(trace))创建归一化的双讲话矩阵Ndt,例如如下:
在式5中,tr(Cdt)表示矩阵Cdt的迹。
为了计算Cturn,在初始化为零之后,一些实现涉及定位每个讲话 突发的开始。例如,一些实现可以涉及考虑V中的每个会议参与者i, 并且查找V中的每一行r,其中在列i中为零而在行r+1中为1。然 后,对于每个讲话突发,一些这样的示例涉及确定哪个会议参与者j 在该讲话突发之前最近发言。这将是涉及会议参与者i和j的“话轮 转换”的例子,这也可以在这里被称为“转换”的例子。
这样的例子可能涉及在时间上向后看(换句话说,查看行r和以 上的行),以便标识哪个会议参与者j在该讲话突发之前最近发言。 在一些这样的例子中,对于发现的每个这样的话轮转换实例,可以向 Cturn的行i、列j加“1”。一般来说,Cturn可能是非对称的,因为它 保留了与时间顺序有关的信息。
给定上述信息,可以例如通过将Cturn除以会议中的总转换数(换 句话说,除以矩阵中的所有元素的总和)来创建归一化的话轮转换矩 阵Nturn,例如如下:
在式6中,∑i∑jCturn,ij代表Cturn矩阵中的所有元素的总和。在 替代实现中,矩阵Cdt和Cturn以及归一化因子tr(Cdt)和∑i∑jCturn,ij可 以通过分析VAD输出(每次一个分析帧)来计算。换句话说,不需 要一次可使用整个矩阵V。除了Cdt,Cturn,tr(Cdt)和∑i∑jCturn,ij之外, 一些这样的方法仅需要最新的讲话者的身份被保持为状态,因为该过 程每次一个帧地迭代地分析VAD输出。
在一些实现中,聚合特征Ndt和Nturn与位置向量a的初始条件一 起可以形成空间优化成本函数的输入。几乎任何一组初始的虚拟会议 参与者位置都是合适的。然而,优选的是,例如为了确保成本函数的 梯度被明确定义,任何两个源最初不位于同一位置。一些实现涉及使 所有初始的虚拟会议参与者位置位于听众后面。在一些这样的实现中, 成本函数可以不包括Fint项或倾向于将短暂插话/很少发言的说话者的 虚拟会议参与者位置移动到听众后面的位置的对应项。换句话说,两 个一般选项如下:(a)使所有初始虚拟会议参与者的位置位于听众后 面,并省去Fint项或对应项;或(b)包括Fint项或对应项,并使初始虚拟会议参与者的位置位于任何方便的位置。对于短暂插话者来说,Ffront可能很小,因为他们很少说话。因此,涉及选项(a)的实现可能没有 将短暂插话者朝收听者前面移动的强烈倾向。
图10示出了虚拟声学空间中的初始虚拟会议参与者位置的示例。 类似于如图9所示,图10所示的虚拟声学空间的坐标系是基于虚拟听 者头部910的位置的。在该示例中,示出了11个初始虚拟会议参与者 位置,每个初始虚拟会议参与者位置已经根据以下被确定:
xi=-0.5 (式7)
在式7-9中,xi,yi和zi表示会话参与者i的初始(x,y,z)坐标, N表示会话参与者的总数。在图10中,编号的点对应于虚拟会议参与 者位置。点大小表示相应的会议参与者的语音的相对量,较大的点表 示相对较多的语音。附连到点的垂直线表示水平面上方的距离,对应 于每个虚拟会议参与者位置的z坐标。单元球1005(其表面距原点为 一个单位的距离)被示出作为参考。
在一个示例中,可以通过应用下式(在迭代k)来执行梯度下降 优化,直到达到收敛标准:
在式10中,βk表示适当的步长大小,这将在下面进一步详细讨 论。在一个示例中,可以对其中以下条件成立的连续优化步骤的数量 n计数:
|F(ak+1)-F(ak)|<T (式11)
在式11中,T表示常数,其可以被设为适当小的值。一些实现的 常数T的合适的示例值是10-5。在替代实现中,T可以被设为另一个 值。然而,在这种替代实现中,可以比平均成本F(a)(例如在大量 会议条件下被平均化)小数个数量级。在一些示例中,收敛标准可以是n≥10,表明在过去10个连续优化步骤中成本的变化非常小,并且 现在非常接近局部最小值(或者至少在成本函数的非常“平坦的”区 域,在该区域中任何进一步变化不太可能被听众感知到)。
为了在下面的讨论中清楚起见,请注意,可以从式10以扩展形式 写出梯度表达式如下:
图11示出了虚拟声学空间中最终的虚拟会议参与者位置的示例。 图11示出了给定图10所示的初始虚拟会议参与者位置,对于11个会 话参与者应用前述过程的示例。在该示例中,所有最终的虚拟会议参 与者位置都位于单位球1005上或附近。在图11中,与最频繁发言的 会话参与者对应的所有最大的点已被移动到虚拟听众的头部910之 前。与会话参与者1和3相对应的小点是最小的,表示这些会话参与 者最少发言,因此保留在虚拟听众的头部910之后。在该示例中,与 会话参与者5和8相对应的点小,但略大于会话参与者1和3的点, 表示这些会话参与者比会话参与者1和3更频繁,但不如其他对象参 与者1和3那样多。因此,与会话参与者5和8相对应的点从他们的 在虚拟听众头部910之后初始位置向前偏移,但不是非常强烈。由于 Fdist的影响,与会话参与者5和8相对应的虚拟会议参与者位置保持 在虚拟侦听器头部910的上方,Fdist在本实施例中倾向于将所有虚拟 会议参与者位置保持在距原点一个单位的半径之处。
以下是根据一些实现对式1的项的更详细的描述。在一些示例中, 式1的对应于涉及会议参与者会话的会话动态数据的项可以如下确定
在式13中,Fconv,ij(a)代表由一对源i和j接近混淆锥而贡献的成本 的分量。因为如果源的y坐标相等(假定它们位于单位球上),则源 会位于混淆锥上,因此在一些例子中,Fconv,ij(a)可被如下确定:
在式14中,Kconv以及ε表示常数。在一些示例中,两个常数可以 被设为相对较小的值,例如0.001。在这个例子中,当数据源正好位于 混淆锥上时,ε会阻止成本达到无穷大的值。Kconv可以关于其他参数 被调整,以实现良好的分离,同时还允许多源在前面。如果Kconv被设 得太高,Fconv将倾向于主宰所有其他成本函数元素,并将源散布到球 体周围。因此,尽管可以在各种实现中使用Kconv以及ε的替代值,但 是这些和其它参数是相互关联的,并且可以被联合调整以产生期望的 结果。
式14的基本假设是源位于单位球上,这是因为在一些实现中, Fdist(a)(其一个例子在下面被更具体地定义)将可靠地将源保持在单 位球附近。如果作为替代地,Fdist(a)被定义为使得它不会可靠地将源 保持在单位球附近,则可能需要在计算Fconv,ij(a)之前对y坐标进行归 一化,例如如下:
一些替代示例可以涉及直接计算与耳间时间差的倒数成正比的成 本。
在一些实现中,Fdt(a)可以如下计算:
在一些示例中,式17的项Fdt,ij(a)可以确定如下:
在式18-20中,Kdt和ε表示常数。在一些实例中,Kdt可以是为 0.002,ε可以为0.001。尽管在替代实现中可以使用Kdt和ε的各种其 他值,但是这些和其它参数是相互关联的,并且可以被联合调整以产 生期望的结果。
在一些实现中,式(1)中的Ffront(a)的变量对于不位于听众前面施 加惩罚,该惩罚与已参与会议的会话参与者的数量的平方成正比。结 果,相对讲话更多的会话参与者的虚拟会议参与者位置终止于与虚拟 声学空间中的虚拟听众相比更靠近前方中心位置。在一些这样的示例 中,Ffront(a)可以如下确定:
Ffront,i(a)=kfrontNdt,ii 2[(xi-1)2+yi 2+zi 2] (式22)
在式22中,Kfront表示常数,在一些示例中,Kfront可能是5。尽管 在替代实现中可以使用Kfront的各种其他值,但是此参数可能与其他参 数相互关联。例如,Kfront应该足够大,以便可以将讲话最多的会话参 与者的虚拟会议参与者位置拉倒前面,但不会太大而使得Ffront始终超 越Fconv和Fdt的贡献。在一些示例中,由于Ffront(a)导致的对梯度的贡 献可以如下确定:
在一些实现中,式1的Fdist(a)分量可对不将虚拟会议参与者位置 布置在单位球上而施加惩罚。在一些这样的例子中,讲话更多的会议 参与者的惩罚可能更高。在某些实例中,Fdist(a)可以如下确定:
Fdist,i(a)=KdistNdt,ii[xi 2+yi 2+zi 2-1]2 (式27)
在式27中,Kdist表示常数,在一些示例中,Kdist可能是1。尽管 在替代实现中可以使用Kdist的各种其他值,但此参数可能与其他参数 相互关联。例如,如果Kdist太小,则Fdist的效果可能太弱,而源将趋 向于偏离单位球。在一些示例中,由于Fdist(a)导致的对梯度的贡献可 以如下确定:
在一些实施例中,式1的项Fint(a)可以被设置为零。这例如在初 始条件将源布置在虚拟听众头部后面的实现中可能是可以接受的。因 为Ffront(a)的各种实现仅对于位于听众后面的极少讲话的源施加了弱 惩罚,所以它们将停留在虚拟听众头部的后面,除非收敛标准非常严 厉。在一些替代实施例中,小的惩罚可以与不在虚拟听众头部后面的 任何源相关联。在许多实现中,这个小的惩罚趋向于被Ffront,i(a)主导, 除了在极少讲话的会话参与者的实例中之外。
现在将描述收敛标准和过程的一些更详细的例子。再次参考式 10,一些实施方式包括随着优化进行通过使用所谓的线搜索来调整步 长大小βk。在一些这样的实现中,可以将β-1的值初始化为0.1。根据 一些这样的示例,在每一步中,βk可以根据以下过程来调整:
在一些实施例中,空间优化成本函数可以考虑会话参与者的感知 区别性。有充分的证据表明,当同时讲话者在他们的声音被感知为区 别明显时可被更好地理解。这在引起声音区别性的特质被描述为分类 (例如,讲话者被认为是男性还是女性,活着声音被感知为是“干净” 还是“嘈杂”)或连续(例如,音调,声道长度等)
因此,一些实现可以涉及确定哪些会议参与者(如果有的话)具 有感知类似的语音。在一些这样的实施方式中,空间优化成本函数可 以应用对于将具有感知相似的语音的会议参与者布置于位于混淆锥上 或者与混淆锥相距在预定的角距离内的虚拟会议参与者位置处的惩 罚,该混淆锥相对于虚拟听众头部被定义。一些这样的实现可以涉及 向式1添加另一个变量。
然而,替代实现可以涉及修改式1的变量之一。例如,虽然Fconv(a) 和Fdt(a)的有些实现旨在惩罚将分别交谈和双讲话的会议参与者定位 在可混淆空间布置中,但是一些替代实现涉及在所关注的会议参与者 在感知上是相似的情况下,修改Fconv(a)和/或Fdt(a)以进一步惩罚这样 的布置。
一些这样的示例可以涉及第三N×N聚合矩阵Ndsim,其量化了参 与会议的每对会议参与者的不相似性。为了计算Ndsim,一些实现首先 确定由会议记录中每个会议参与者的B特性特征组成的“特性特征向 量”s,其中每个特性特征s[k]i是讲话者i的感知相关度量。其中B= 2的一个例子如下:
在式32中,s[l]i表示中间音调,s[2]i表示会议参与者i的估计的 声道长度。可以通过聚合来自会议参与者在会议期间发出的许多(可 能所有)的讲话话语的信息来估计特性特征。在其他实现中,可以使 用其他特性特征,例如口音和语速,来量化一对会议参与者的不相似 性。还有其他实现可能涉及量化一对会议参与者的相似性而不是相似 性。
在一些实现中,特性特征向量可以由一组B个时域滤波器产生, 每个时域滤波器之后可以是具有适当时间常数的包络检测器。可以通 过应用离散傅里叶变换(DFT)来产生特性特征向量,在该离散傅里 叶变换之前可以是适当的加窗,而之后可以是适当的带化(banding) 过程。带化过程可以将DFT箱分组成具有大致相等的感知尺寸的带。 在一些示例中,可以在DFT和带化过程之后计算Mel频率倒谱系数。 如果会议以使用频域编码(例如,根据修改的离散余弦变换(MDCT) 过程)的编码格式被存储,则一些实现可以使用编码域系数,然后进 行适当的带化。
在一些实现中,特性特征向量可以由线性预测系数(诸如在线性 预测编码(LPC)方案中使用的那些)来产生。一些示例可以涉及感 知线性预测(PLP)方法,例如用于语音识别的那些。
根据一些实现,在计算特性特征向量之后,可以在每对特性特征 矢量si,sj之间应用合适的距离度量来计算Ndsim中的每个元素。这样 的距离度量的示例是均方差,其可以如下地计算:
在式33中,k表示B个特性特征中的一个在s中的索引(在该示 例中,s是B维或B特征向量)。根据式33,考虑每个特征,确定每 两个特征之间的差,该差被平方并在所有维度上求和。例如,对于式 32给出的二维示例,B是2,并且变量k上的总和采用对应于式32 中所示的字面数字1和2的值=1和k=2。一些实现可以涉及基于跨 多个会议的信息来计算用于特定会议参与者的特性特征向量s。一些 这样的实现可以涉及基于多个会议的音频数据确定长期平均值。
在某些实现中,可能有会议参与者的性别的先验知识。例如,作 为注册或登记过程的一部分,可能需要或鼓励会议参与者指定他们是 男性还是女性。当这种知识可用于回放系统时,用于计算Ndsim,ij的替 代示例方法可以如下:
在式34中,Khomo和Khetero表示常数。在一个例子中,Khomo和Khetero等于1.0,并且Khetero可以是例如在[0.1,0.9]*Khomo,或等于0.5。
基于上述任何一个例子,可以重新定义Fconv,ij(a)和Fdt,ij(a),并包 括频谱相似性聚合Ndsim,ij,例如如下所示:
根据一些实施例,分配虚拟会议参与者位置可以包括从一组预定 的虚拟会议参与者位置中选择虚拟会议参与者位置。在一些这样的示 例中,每个源可以仅被布置在大小为A的虚拟会议参与者位置的固定 集合之一中。在这样的实现中,可以通过表查找来直接计算每个成本 函数分量,而不通过基于位置坐标的计算。例如,每个成本函数分量 可以如下计算:
Fconv,ij(a)=Kconv,ijNturn,ijNdsim,ij (式37)
在式37中,Kconv,ij表示固定矩阵(例如,查找表),其描述了来 自位置i的语音将在多大程度上在感知上掩盖来自位置j的语音。例 如,Kconv,ij可能从大规模的主观测试得出。在该示例中,优化过程涉 及将每个源分配给A个虚拟会议参与者位置之一。因为搜索空间不再 是连续的,因此在这样的示例中,离散优化技术(诸如模拟退火和遗 传算法)可能比本文所提及的一些其它优化技术更适用。
一些实现可以涉及一种混合解决方案,其中一些虚拟会议参与者 位置被分配给预定的虚拟会议参与者位置,而其他虚拟会议参与者位 置在不参考预定的虚拟会议参与者位置的情况下被确定。例如,当要 确定的虚拟会议参与者位置的数量超过预定的虚拟会议参与者位置的 数量时,可以使用这样的实现。在一些这样的示例中,如果存在A个 预定的虚拟会议参与者位置,但是多于A个虚拟会议参与者位置待确 定的,则可以将预定的虚拟会议参与者位置用于讲话最多的A个会议 参与者,并且可以对于剩余的会议参与者计算动态位置,例如通过使 用诸如式1的空间优化成本函数。
这里公开的一些实现允许收听者快速地回放和/或扫描会议记录, 同时保持有关注感兴趣的词语、主题和讲话者的能力。一些这样的实 现通过利用空间渲染技术并且根据一组感知激发规则引入(或改变) 会议参与者语音的实例之间的重叠来减少回放时间。作为替代地或者 附加地,一些实现可以涉及加速被回放的会议参与者语音。
图12是简述根据本公开的一些实现的方法的一个示例的流程图。 在一些示例中,方法1200可以由诸如图3A的装置的装置和/或图6 的回放系统609的一个或多个组件来执行。在一些实现中,方法1200 可以由至少一个设备根据存储在一个或多个非暂态介质上的软件执 行。类似于本文描述的其它方法,方法1200的块不一定按照所示的顺 序执行。此外,这样的方法可以包括比所示和/或描述的块更多或更少 的块。
在该实现中,块1205涉及接收对应于涉及多个会议参与者的会议 的记录的音频数据。在一些实现中,在块1205中,诸如图3A的控制 系统330的控制系统可以经由接口系统325接收音频数据。
在一些实现中,会议可以是电话会议,而在其他实现中,会议可 以是面对面会议。在该示例中,音频数据可以包括被分别记录的来自 多个端点的音频数据。作为替代地或者附加地,音频数据可以包括来 自对应于多个会议参与者的单个端点的音频数据,并且包括多个会议 参与者中的每个会议参与者的空间信息。例如,单个端点可以包括麦 克风阵列,诸如声场麦克风或空间扬声器电话的阵列。根据一些示例, 音频数据可以对应于完整的或基本上完整的会议的记录。
在一些实现中,音频数据可以包括语音活动检测过程的输出。因 此,在一些这样的实现中,音频数据可以包括语音和/或非语音分量的 指示。然而,如果音频数据不包括语音活动检测过程的输出,则在一 些示例中,方法1200可以涉及识别对应于各个会议参与者的语音。对 于其中在块1205中接收到来自对应于多个会议参与者的单个端点的 会议参与者语音数据的实现,方法1200可以包括根据“发言者日志” 过程的输出来标识对应于各个会议参与者的语音,该“发言者日志” 过程标识说出了语音的每一个实例的会议参与者。
在该示例中,块1210涉及将每个会议参与者的会议参与者语音数 据渲染到虚拟声学空间中的单独的虚拟会议参与者位置。在一些实现 中,块1210可以涉及如本文别处所描述的虚拟会议参与者位置。
因此,在一些这样的实现中,块1210可以涉及分析音频数据以确 定会话动态数据。在某些实例中,会话动态数据可以包括指示会议参 与者语音的频率和持续时间的数据;指示在其期间至少两个会议参与 者同时发言的会议参与者双讲话的实例的数据;以及指示会议参与者 会话的实例的数据。一些实现可以涉及分析音频数据以确定其他类型 的会话动态数据和/或会议参与者语音的相似性。
在一些这样的实现中,块1210可以涉及将会话动态数据应用作为 空间优化成本函数的一个或多个变量。该空间优化成本函数可以是描 述了虚拟声学空间中的每个会议参与者的虚拟会议参与者位置的向量 的函数。虚拟声学空间内的位置可以相对于虚拟听众头部的位置来定 义。块1210可以包括将优化技术应用于空间优化成本函数,以确定局部最优解并至少部分地基于局部最优解来在虚拟声学空间中分配虚拟 会议参与者位置。
然而,在其他实现中,块1210可以不涉及空间优化成本函数。例 如,在一些替代实现中,块1210可以涉及将各会议参与者的会议参与 者语音数据渲染给多个预定的虚拟会议参与者位置中的单独的一个。 块1210的一些替代实现可以涉及在不参考会话动态数据的情况下确 定虚拟会议参与者位置。
在各种实现中,方法1200可以包括根据感知激发规则的集合来回 放会议参与者语音。在该示例中,块1215涉及回放会议参与者语音, 使得根据感知激发规则的集合,先前在时间上不重叠的会议参与者语 音中的至少一些以重叠方式被回放。
根据诸如方法1200的方法,听众可以受益于通过对于多个会议参 与者中的每一个从空间中的各种独特位置回放音频数据而提供的双耳 优点。例如,听众可能能够容忍被渲染到不同的位置的来自会议参与 者的语音的严重重叠,并且仍然保持关注(不失一般性)感兴趣的话 语,主题,声音或讲话者的能力。在一些实现中,一旦已经识别出感 兴趣的部分,收听者可以具有切换到非重叠回放模式的选项以更详细 地收听该部分,例如,通过与回放系统(例如图6的回放系统609) 的一个或多个元件的交互。
方法1200中以及本文提供的其他方法中应用的规则被称为“感知 激发”,因为它们基于现实世界的听觉体验。例如,在一些实现中, 感知激发规则的集合可以包括指示单个会议参与者的两个语音部分不 应该在时间上重叠的规则。这个规则是由于如下这样的观察而激发的, 即尽管听到多位讲话者同时发言(例如在鸡尾酒会上)是人体验的自 然部分,但听到同一个讲话者的两个副本同时发言并不是一个自然的 体验。在现实世界中,人类每次只能发出单一的言语流,而且一般来 说,每个人都有独特的可标识的说话语音。
一些实现可以涉及上述规则的一个或多个变型。例如,在一些实 现中,感知激发规则的集合可以包括指示如果两个语音段对应于单个 端点,则这两个语音端不应该在时间上重叠的规则。在许多实例中, 单个端点将仅对应于单个会议参与者。在这种实例中,这种变型是对 于单个会议参与者的两个语音段在时间上重叠来表达上述规则的另一 种方式。然而,在一些实施方式中,即使对应于多个会议参与者的单 个端点也可以应用该变型。
在一些实现中,一组感知激发的规则可以试图防止在多个会议参 与者之间讨论和/或交互期间的发言顺序以不自然的方式变得无序。例 如,在现实世界中,一个会议参与者可在另一个会议参与者结束阐述 问题之前回答该问题。然而,通常不会期望在问题本身之前听到该问 题的完整答案。
考虑两个连续的输入讲话突发A和B,其中讲话突发A发生在 讲话突发B之前。根据一些实现,感知激发规则的集合可以包括如下 规则,该规则允许对应于B的输出讲话突发的回放在对应于A的输出 讲话突发的回放完成之前开始,但是不会在对应于A的输出讲话突发 的回放开始之前。
在一些实现中,上限(在本文中有时称为T)可以施加于任何两 个连续的输入讲话突发(例如A和B)之间引入的重叠量,以便防止 在多个会议参与者之间进行讨论和/或交互期间回放具有显著的非因 果关系。因此,在一些示例中,感知激发规则的集合可以包括可以包 括如下规则,该规则允许对应于B的输出讲话突发的回放不早于在对 应于A的输出讲话突发的回放完成之前的时间T开始。
在某些实例中,记录的音频数据可以包括先前在时间上(在原始 会议期间)重叠的输入讲话突发。在某些实现中,感知激发规则的集 合可以包括一个或多个规则,其指示对应于先前重叠的输入讲话突发 的输出讲话突发在回放期间应该保持重叠。在一些示例中,感知激发 规则的集合可以包括允许与先前重叠的输入讲话突发对应的输出讲话 突发在时间上进一步重叠地回放的规则。这样的规则可能受制于掌控 允许的重叠量的一个或多个其他规则,例如上述段落中指出那些。
在一些实现中,会议参与者语音中的至少一些可以以比记录会议 参与者语音的速率更快地速率被回放。根据一些这样的实现,可以通 过使用WSOLA(基于波形相似性的重叠相加)技术来实现更快速率 的语音的回放。在替代实现中,可以通过使用诸如间距同步重叠和相 加(PSOLA)或相位声码器法的其他时间尺度修正(TSM)方法来实 现更快速率的语音的回放。
图13是示出在小于输入时间间隔的输出时间间隔期间调度用于 回放的会议记录的示例的框图。图13所示的特征的类型和数量仅仅是 作为示例被示出的。替代实现可以包括更多、更少和/或不同的特征。
在图13所示的示例中,示出了回放调度器1306接收会议记录的 输入会议段1301。在该示例中,输入时间间隔1310对应于输入的会 议段1301的记录时间间隔。在图13中,输入时间间隔1310从输入时 间ti0开始,在输入时间ti1结束。回放调度器1306输出对应的输出回 放调度1311,其具有相对于输入时间间隔1310较小的输出时间间隔 1320。这里,输出时间间隔1320从输出时间to0开始,在输出时间t01结束。
回放调度器1306能够至少部分地执行本文公开的各种方法。例 如,在一些实现中,回放调度器1306能够至少部分地执行图12的方 法1200。回放调度器1306可以根据具体的实施方式在各种硬件,软 件,固件等中实现。回放调度器1306可以例如是回放系统的元件的实 例,诸如图6所示的回放系统609的回放控制模块605。在替代示例 中,回放调度器1306可以至少部分地经由诸如回放控制服务器650 或分析引擎307的另一设备和/或模块来实现,或者可以是诸如图3A 的控制系统330的另一个设备的组件或者经由该另一设备实现的模 块。
因此,在一些示例中,回放调度器1306可以包括接口系统和控制 系统,诸如图3A所示的那些。接口系统可以包括一个或多个网络接 口、控制系统和存储系统之间的一个或多个接口、和/或一个或多个外 部设备接口(诸如一个或多个通用串行总线(USB)接口)。控制系 统可以例如包括通用单芯片或多芯片处理器,数字信号处理器(DSP), 专用集成电路(ASIC),现场可编程门阵列(FPGA)或其他可编程 逻辑器件,离散门或晶体管逻辑,和/或离散硬件组件。在一些示例中, 回放调度器1306可以根据存储在非暂态介质上的指令(例如,软件) 来实现。这种非暂态介质可以包括诸如本文所描述的那些的存储设备, 包括但不限于随机存取存储器(RAM)设备,只读存储器(ROM) 设备等。
在图13所示的示例中,输入会议段1301包括输入会议记录的来 自每个端点1302-1305的输入讲话突发。在一些实现中,端点1302-1305 中的每一个可以对应于电话端点,诸如图1A所示的电话端点1。在其 他实现中,端点1302-1305中的每一个可以对应于面对面会议端点, 诸如图7所示的麦克风715a-715d。这里,输入会议段1301包括来自 端点1302的输入讲话突发1302A-1302D,来自端点1303的输入讲话 突发1303A-1303C,来自端点1304的输入讲话突发1304A和1304B 以及来自端点1305的输入讲话突发1305A和1305B。
输入会议段1301和输出回放时间表1311的水平轴表示时间。因 此,图13所示的每个讲话突发的水平尺寸对应于讲话突发时间间隔的 示例。每个输入讲话突发具有开始时间tstart和结束时间tend。例如,输 入讲话突发1302B的输入开始时间tstart和输入结束时间tend如图13所 示。因此,根据一些实现,输入会议段可以被描述为输入讲话突发的 列表Li,每个输入通话突峰Ti具有输入开始时间tstart(Ti)和输入结束 时间tend(Ti),并且与端点相关联。
在该示例中,输出回放调度1311指示多个空间端点回放位置 1312-1315和相应的输出讲话突发。在一些实现中,空间端点回放位 置中的每一个可以对应于虚拟声学空间中的每个会议参与者的虚拟会 议参与者位置,例如,如本文别处所描述的。在该示例中,输出回放 调度1311包括:输出讲话突发1312A-D,其与端点回放位置1312相 关联并分别基于输入讲话突发1302A-D;输出讲话突发1313A-C,其 与端点回放位置1313相关联,并且分别基于输入讲话突发1303A-C; 输出讲话突发1314A和1314B,其与端点回放位置1314相关联,并且分别基于输入讲话突发1304A和1304B;以及输出讲话突发1315A 和1315B,其与端点回放位置1315相关联并且分别基于输入讲话突发 1305A和1305B。
每个输出讲话突发具有开始时间tstart和结束时间tend。例如,输出 讲话突发1315A的输出开始时间tstart和输出结束时间tend如图13所示。 因此,根据一些实现,可以将输出回放调度描述为输出讲话突发的列 表Lo,每个输出讲话突发To具有输出开始时间tstart(To)和输出结束时 间tend(To),并且与端点和空间端点回放位置相关联。每个输出讲话突 发也可以与相应的输入讲话突发input(Ti)相关联,并且可以被调度为 在输出时间tstart(To)播放。
取决于具体的实现方式,回放调度器1306可以根据各种方法使输 出时间间隔1320小于输入时间间隔1310。例如,可以至少部分地通 过删除与至少一些输入讲话突发之间的非语音间隔或“间隙”相对应 的音频数据,使得输出时间间隔1320小于输入时间间隔1310。一些 替代实现还可以涉及删除对应于至少一些会议参与者发声(例如笑声) 的音频数据。通过将输入会议段1301与输出回放调度1311进行比较, 可以看出,输入讲话突发1302A,1302B和1302C在它们之间具有间 隙,但是回放调度器1306已经去除了对应的输出讲话突发 1303A-1303C之间的间隙。
此外,在图13所示的例子中,以前在时间上不重叠的会议参与者 语音中的至少一些被调度以重叠的方式回放。例如,通过将输入会议 段1301与输出回放调度1311进行比较,可以看出,输入讲话突发 1302A和1303A以前在时间上没有重叠,但是回放调度器1306已经 调度了相应的输出讲话突发1312A和1313A在回放过程中在时间上重 叠。
在该示例中,回放调度器1306根据感知激发规则的集合调度各种 输出讲话突发在回放期间时间重叠。在该实现中,回放调度器1306 调度输出讲话突发回放,使得对应于单个端点的两个语音段不应该在 时间上重叠。例如,虽然回放调度器1306已经去除了全部对应于端点 1302的对应的输出讲话突发1303A-1303C之间的间隙,但是回放调度 器1306没有使输出通话单元1303A-1303C中任何一个重叠。
此外,回放调度器1306调度输出讲话突发回放,使得给定两个连 续的输入讲话突发A和B,讲话突发A发生在讲话突发B之前,对 应于B的输出讲话突发的回放可以在对应于A的输出讲话突发的回放 完成之前开始,但是不会在对应于A的输出讲话突发的回放开始之前。 例如,连续的输入通话突峰1302C和1303B对应于重叠的输出讲话突 发1312C和1313B。这里,回放调度器1306已经调度了输出讲话突 发1313B在输出讲话突发1313C的回放完成之前开始,而不早于输出 通话突发1313C的回放开始。
在一些实现中,回放调度器1306可以调度输出讲话突发以为原始 语音速率倍数的速度因子S来回放。例如,在图13中可以看出,输出 讲话突发1312A-1312D被调度为在比对应的输入讲话突发 1302A-1302D的间隔更短的时间间隔内回放。在一些实现中,回放调度器1306可以根据WSOLA方法或通过使用诸如PSOLA或相位声码 器法的另一时间尺度修正(TSM)方法,使得以更快的速率回放语音。
给定输入讲话突发的列表Li,速度因子S,重叠时间tover和输出 开始时间to0,根据一些实现,回放调度器1306可以如下操作。回放 调度器1306可以将最新输入时间ti1初始化输入段的开始时间ti0。回 放调度器1306可以将对于每个端点的最新输出时间tout,e初始化为to0。 回放调度器1306可以将输出重叠时间tover初始化为to0。回放调度器 1306可以将输出结束时间to1初始化为to0。回放调度器1306可以将输 出讲话突发的列表Lo初始化为空列表。
每个输入讲话突发Ti可以按照输入开始时间的顺序被考虑。在一 些示例中,对于每个输入会话突峰Ti,回放调度器1306可以如下确定 用于回放的输出讲话突发To的暂定开始回放时间:
在式38中,t′start(To)表示输出讲话突发To的暂定开始回放时间, tstart(Ti)表示输入讲话突发Ti的开始时间,S代表速度因子,它可以 表示为要回放输出讲话突发的原始语音速率的倍数。在式38的示例 中,min()的第二自变量(argument)的影响是在输出回放调度 1311中,根据以下感知激发规则来保持输入讲话突发Ti和最新结束的 已考虑的输入讲话突发之间的时间关系,该激发规则为:(a)当考虑 两个连续的输入讲话突发A和B进行重叠时,不允许与B对应的输 出讲话突发开始回放,直到对应于A的输出讲话突发的回放开始之后 的预定时间;和(b)当两个输入讲话突发在输入时间上重叠时,对应 的输出讲话突发应保持重叠,在输出时间具有类似的时间关系。
图14示出了保持重叠的输入讲话突发和重叠的输出讲话突发之 间的类似时间关系的示例。在该示例中,回放调度器1306正在评估输 入通话突峰1402A。因此,输入讲话突发1402A是输入讲话突发Ti的一个例子。在该示例中,与输入讲话突发1402A在时间上重叠的最 新结束且已经考虑的输入讲话突发1401A在输入时间ti1结束。这里, 回放调度器1306已经调度与输入讲话突发1401A相对应的输出讲话 突发1401B,以在输出时间to1结束。
在图14中,输出讲话突发1402B是与输入讲话突发Ti对应的输 出讲话突发To的示例。在该示例中,回放调度器1306根据式38调度 输出讲话突发1402B的暂定开始回放时间。由于式38中的min() 的第二自变量,输出讲话突发1402B已被调度为与1401B重叠 (to1-tstart(To)),其等于按速度因子S缩放的输入讲话突发1402A与 输入讲话突发1401A的重叠时间量((ti1-tstart(Ti))。
回放调度器1306可以通过式38来实现其他感知激发规则。一种 这样的感知激发规则可以是给定两个连续的输入讲话突发A和B,A 在B之前发生,对应于B的输出讲话突发的回放可以不早于在对应于 A的输出讲话突发的回放完成之前的预定时间开始。在一些示例中, 即使输入讲话突发A和B最初没有重叠,也可以应用这种感知激发 规则。
图15示出了确定用于不重叠的输入讲话突发的重叠量的示例。在 该实现中,回放调度器1306根据式38确定输出讲话突发To的输出时 间。这里,输出讲话突发1501是最新结束的输出讲话突发。在该示例 中,根据式38中的min()的第二自变量,块1502A对应于用于输 出讲话突发To的暂定开始回放时间。然而,在该示例中,如块1502B 所示,输出讲话突发To的开始回放时间被临时设置在时间toover,以便 与输出讲话突发1501以重叠时间tover重叠:在该示例中,由于式38 中的min()的运算,t′start(To)=toover。
回放调度器1306可以实现其他感知激发规则。图16是示出应用 感知激发规则以避免来自同一端点的输出讲话突发重叠的示例的框 图。在该示例中,回放调度器1306通过如下地确保输出讲话突发To不会与来自相同端点e的任何已经调度的输出讲话突发重叠来实现该 规则:
tstart(To)=max(t′start(To),tout,e) (式39)
在图16所示的示例中,通过式38的运算,如块1602A的位置所 示,用于输出讲话突发To的开始回放时间的初始候选被设置为 t′start(To)。然而,在该示例中,来自同一端点的输出讲话突发1601已 经被调度为回放,直到在t′start(To)之后的时间tout,e。因此,通过式39的运算,输出讲话突发To被调度为在时间tstart(To)开始回放,如块 1602B的位置所示。
在一些示例中,输出讲话突发To的输出结束时间可以如下计算:
在式40的示例中,tend(To)表示输出讲话突发To的输出结束时间。 在该示例中,通过将输入讲话突发时间间隔(tend(Ti)-tstart(Ti))除以速 度因子S来减小在其期间输出讲话突发To被调度回放的时间间隔。
在一些实现中,然后将输出讲话突发To添加到输出讲话突发列表 Lo。在一些示例中,讲话突发To的对于端点e的最新输出时间可以根 据下式被更新:
tout,e=tend(To) (式41)
在一些示例中,输出重叠时间可以根据下式来更新:
toover=max(toover,tend(To)-tover) (式42)
根据一些实现,最新的输入结束时间可以根据以下来更新:
ti1=max(ti1,tstart(Ti)) (式43)
在某些实例中,最新的输出结束时间可根据以下更新:
to1=max(to1,tend(To)) (式44)
可以重复上述过程,直到已经处理了所有输入讲话突发。已排定 的输出列表Lo可被返回。
一些会议可能涉及多个会议参与者的陈述。如本文所使用的,“陈 述”可以对应于延长时间间隔(其可以例如为几分钟或更长),在其 期间单个会议参与者是主要发言者,或在某些实例中是唯一的发言者。 在一些实现中,感知激发规则的集合可以包括允许来自不同会议参与 者的全部陈述并发地回放的规则。根据一些这样的实施方式,会议参 与者语音中的至少一些可被以比记录会议参与者语音的速率更快的速 率回放。
图17是示出能够调度来自不同会议参与者的全部陈述的并发回 放的系统的示例的框图。图17中所示的特征的类型和数量仅作为示例 示出。替代实现可以包括更多,更少和/或不同的特征。
在图17所示的示例中,系统1700包括段调度器单元1710,其被 示出为接收分段的会议记录1706A。在一些示例中,分段的会议记录 1706A可以根据会话动态数据被分段,以允许讨论,陈述和/或其他类 型的会议段被标识。下面提供了会话动态数据的会议分段的一些示例。 在该示例中,分段的会议记录1706A包括讨论段1701A,其后是陈述 段1702A-1704A,其后是讨论段1705A。
段调度器单元1710和系统1700的其他元素能够至少部分地执行 本文公开的各种方法。例如,在一些实现中,段调度器单元1710和系 统1700的其他元件可以能够调度分段会议记录的段,以用于来自不同 会议参与者的陈述的并发回放。取决于具体实现,段调度器单元1710 和系统1700的其他元件可以以各种硬件,软件,固件等来实现。例如, 段调度器单元1710和/或系统1700的其他元件可以经由通用单芯片或 多芯片处理器,数字信号处理器(DSP),专用集成电路(ASIC), 现场可编程门阵列(FPGA)或其他可编程逻辑器件,离散门或晶体 管逻辑,和/或离散硬件组件来实现。在一些示例中,段调度器单元1710 和/或系统1700的其他元件可以根据存储在非暂态介质上的指令(例 如,软件)来实现。这种非暂态介质可以包括诸如本文所描述的那些 的存储设备,包括但不限于随机存取存储器(RAM)设备,只读存储 器(ROM)设备等。段调度器单元1710和/或系统1700的其他元件 可以例如是诸如图6所示的回放控制模块605的回放系统609的组件。 在替代示例中,段调度器单元1710和/或系统1700的其他元件可以被 实现在另一设备或模块中,诸如回放控制服务器650或分析引擎307, 或者可以由另一设备或模块(例如图3A的控制系统330)实现。
在图17所示的示例中,段调度器单元1710能够确定是否存在能 够并行播放的分别由不同的陈述者陈述的连续陈述段。这里,该处理 的结果是段调度1706B。在该实现中,段调度1706B包括基于讨论段 1701A并将首先被回放的讨论段1701B。这里,段调度1706B分别包 括基于陈述段1702A-1704A的陈述段1702B-1704B。在此实现中,陈 述段1702B-1704B将与讨论段1701B同时地播放并且在其之后还播 放。
在该示例中,插话过滤模块1702C-1704C能够从陈述段 1702B-1704B去除插话。在这里,插话是并非“陈述者”(正进行陈 述的会议参与者)的语音的讲话突发。在一些实现中,可以不从陈述 段去除插话,例如在陈述段不被调度为与另一个陈述段并行地回放的情况下。因此,插话过滤模块1702C-1704C可以确保来自同一端点的 语音不被同时回放。
在该实现中,系统1700包括回放调度器单元1306,诸如图13所 示的。这里,回放调度器单元1306包括模块1701D-1705D,每个模块 能够独立地调度会议段中的一个以供回放。模块1701D和1705D分别 接收讨论段1701B和1705B,并输出相应的讨论回放安排(schedule) 170IF和1705F。模块1702D-1704D接收对应于陈述段1702B-1704B 的插话过滤模块1702C-1704C的输出,并输出相应的独立的陈述回放 安排。在一些替代实现中,可以为每个段创建回放调度器单元1306 的单独实例。在一些实现中,每个段可以依次传递给调度器功能,使 得调度过程对于每个段都重新开始。
在该示例中,系统1700还包括合并单元1702E。这里,合并单元 1702E能够将要并发地回放的段的回放安排(输出时间)合并成单个 回放安排。在该实现中,模块1702D-1704D向合并单元1702E提供对 应于陈述段1702B-1704B的独立的陈述回放安排,其输出合并的渲染 回放安排1702F。在该示例中,合并的陈述回放安排1702F具有等于 任何输入安排的最大长度的长度。
在图17所示的实现中,系统1700包括拼接单元1706G。在该示 例中,拼接单元1706G能够拼接第一讨论回放安排1701F、合并的陈 述回放安排1702F和第二讨论回放安排1705F,并输出单个输出回放 安排1706H。
根据段调度器单元1710的一些实现,输出安排1076H可以被初 始化为空列表。调度器单元1710可以按顺序处理会议记录的每个段, 依次考虑每个段。当所考虑的段不是陈述段时,其可被调度以产生段 安排(例如,1701F),然后以适当的输出时间偏移量拼接到输出回 放安排1076H,使得该段被调度为在输出回放安排1076H中的当前最 后一个讲话突发之后开始。段调度器单元1710然后可以继续下一个 段。
当所考虑的段是陈述安排时,段调度器单元1710也可以考虑之后 的段,只要它们是来自不同陈述者的陈述即可。一旦已经发现可以并 行回放的陈述段的运行,则可以针对每个陈述段进行插话过滤,然后 使用回放调度器605分别进行调度。合并单元1702E然后可以通过将 所有对应的输出讲话突发组合成按输出开始时间排序的单个列表来合 并来自每个陈述段的安排。然后,拼接单元1706G可以将合并的陈述 调度以适当的输出时间偏移量拼接到输出安排1076H,使得它们在输 出安排中的当前最后一个讲话突发之后开始。段调度器单元1710然后 可以继续下一个段。
听众通常难以在不收听整个录音的情况下在会议记录中找到感兴 趣的区域。在听众没有出席会议的情况下尤其如此。本公开引入了各 种新颖的技术来帮助听众在会议记录中找到感兴趣的区域。
本文描述的各种实现涉及将会议记录分类为不同的段,这是基于 看起来在各段中主导地发生的人交互的类别的。这些段可以对应于与 人交互的类别对应的时间间隔和至少一个段分类。例如,如果从时间 T1到时间T2,会议参与者A似乎已经做出了陈述,则可以在从时间 T1到时间T2的时间间隔中标识“陈述”段。陈述段可以与会议参与 者A相关联。如果会议参与者A似乎已经从时间T2到时间T3回答 他或她的观众的问题,则可以在从时间T2到时间T3的时间间隔中标 识“问答”或“Q&A”段。Q&A段可能与会议参与者A相关联。如 果在时间T3之后的会议记录的剩余时间期间,会议参与者A似乎已 经参与了与其他会议参与者的讨论,则可以在时间T3之后的时间间 隔中标识“讨论”。讨论段可能与参与讨论的会议参与者相关联。
所得的会议记录的分段可能以各种方式潜在地有用。分段可以补 充基于内容的搜索技术,例如关键词检索和/或主题确定。例如,不是 在全长3小时的会议录音中搜索术语“helicopter(直升飞机)”,一 些实现可允许听众在该记录内来自特定会议参与者的特定的30分钟 陈述中搜索术语“helicopter”。以这种方式进一步改进搜索的能力可 以减少在电话会议记录中找到感兴趣的特定区域和/或事件所花费的 时间。
本文公开的一些回放系统实现提供图形用户界面,其可以包括会 议段的视觉描绘。在这种实现中,会议段的可视描述对于向回放系统 的用户提供会议的事件的可视概述可能是有用的。该可视概述可以帮 助用户浏览会议内容。例如,一些实现可以允许听众浏览所有讨论段 和/或涉及特定会议参与者的所有讨论段。
此外,这种会议分段在下游注释和搜索技术中可能是有用的。例 如,一旦会议已经基于会话动态被分解成段,则可以通过利用自动语 音识别来向用户指示该分段期间涵盖什么主题的想法。例如,收听者 可能希望浏览涉及特定主题的所有表现段或讨论段。
图18A是简述会议分段方法的一个示例的流程图。在一些示例中, 方法1800可以由装置(诸如图3A的装置和/或图1A或图3C的分析 引擎307的一个或多个组件)执行。
在一些实现中,方法1800可以由至少一个设备根据存储在一个或 多个非暂态介质上的软件执行。与本文所述的其它方法一样,方法 1800的块不一定按照所示的顺序执行。此外,这样的方法可以包括比 所示和/或描述的块更多或更少的块。
在该实现中,块1805涉及接收对应于涉及多个会议参与者的会 议的记录的音频数据。在该示例中,音频数据包括:(a)分别记录的 来自多个端点的会议参与者语音数据;和/或(b)来自对应于多个会 议参与者的单个端点的会议参与者语音数据。
在一些实现中,音频数据可以包括语音活动检测过程的输出。因 此,在一些这样的实现中,音频数据包括语音和/或非语音分量的指示。 然而,如果音频数据不包括语音活动检测过程的输出,则在一些示例 中,方法1800可以包括语音活动检测过程。
根据图18A所示的示例,来自对应于多个会议参与者的单个端点 的会议参与者语音数据还包括用于标识多个会议参与者中的每个会议 参与者的会议参与者语音的信息。这样的信息可以从发言者日志过程 输出。然而,如果音频数据不包括来自发言者日志过程的输出,则在 一些示例中,方法1800可以包括发言者日志过程。
在一些实现中,在块1805中,诸如图3A的控制系统330的控制 系统可经由接口系统325接收音频数据。在一些示例中,控制系统可 以能够执行方法1800的块1805-1820。在一些实现中,控制系统可以 能够执行本文公开的其他与分段有关的方法,诸如本文参考图18B-23 所描述的那些。在一些示例中,方法1800可以至少部分地由联合分析 模块306的一个或多个组件执行,诸如图5的会话动态分析模块510。 根据一些这样的实施方式,块1805可以包括会话动态分析模块510 接收音频数据。
在一些实现中,会议可以是电话会议,而在其他实现中,会议可 以是面对面会议。根据一些示例,音频数据可以对应于完整的或基本 上完整的会议的记录。
在该示例中,块1810涉及分析音频数据以确定会话动态数据。在 一些实例中,会话动态数据可以包括指示会议参与者语音的频率和持 续时间的数据;指示在其期间至少两个会议参与者同时发言的会议参 与者双讲话的实例的双讲话数据等等。在一些实现中,块1810可以涉 及确定双讲话比率,其可指示在该时间间隔中的在其期间至少两个会 议参与者同时发言的语音时间的部分。
这里描述的一些实现涉及评估分析音频数据以确定其他类型的会 话动态数据。例如,在一些实现中,在块1810中确定的会话动态数据 可以包括语音密度度量,其指示该时间间隔的存在任何会议参与者语 音的部分。在一些实现中,块1810可以涉及确定主导度量,其指示在 该时间间隔期间的由主导会议参与者发出的总语音的部分。主导会议 参与者可以是在时间间隔期间发言最多的会议参与者。
在该实现中,块1815涉及搜索会议记录以确定多个段分类中的每 一个的实例。在该示例中,每个段分类至少部分地基于会话动态数据。 以下描述各种示例。
在一些实施方式中,块1815可以涉及确定混串音段的实例,混串 音段是在其期间至少两个会议参与者正在并发地讲话的段。在一些示 例中,混串音段可以根据双讲话数据的实例被标识,例如在阈值时间 间隔期间连续的双讲话的实例和/或其中存在双讲话的时间间隔的一 部分。在实质性讨论、陈述等之前,常常会在会议(特别是包含至少 一个多方端点的会议)开始时找到混串音段。
根据一些实现,块1815可以涉及确定相互静默段的实例,这些段 是在其期间语音可忽略不计(例如,小于相互静默阈值量)的时间间 隔。这例如可能发生在电话会议中当一个会议参与者在未被注意地情 况下暂时离开他或她的端点而其他人等待他或她返回时和/或当一个 会议参与者正在等待他人加入电话会议时。在某些实现中,相互静默 段可以至少部分地基于可以在块1810中确定的语音密度度量。
部分地由于它们独特的会话动态特性,混串音段的实例可被以高 置信水平来标识,并且相互静默段的实例可以用非常高的置信水平来 标识。此外,可以用相对较高的置信水平来标识混串音段和相互静默 段的开始时间和结束时间。由于混串音段包括对应于感兴趣的会议主 题的可理解语音的可能性较低,而相互静默分段包括与感兴趣的会议 主题相对应的任何语音的可能性非常低,所以查看会议记录的人可以 是有理由相信他或她可以安全地省略对这些会议部分的查看。因此, 在回放会议记录期间,标识混串音段和相互静默段可能会导致听众节 省时间。
在一些实现中,块1815可以涉及确定陈述段的实例,该陈述段是 在其中一个会议参与者正在进行绝大多数讲话、而其他会议参与者保 持基本上静默的段。根据一些实现方式,确定陈述段的实例可以至少 部分地基于语音密度度量和主导度量。陈述通常包含很小的双讲话。 因此,在一些实现中,确定陈述段的实例可以至少部分地基于双讲话 量度,例如双讲话比率。
部分地由于它们独特的会话动态特征,陈述段的实例可以用较高 的置信水平来标识。在一些实现中,可以以相当高的置信水平来标识 陈述段的开始时间和结束时间,但是该置信水平通常比可标识混串音 段和相互静默段的使用时间和结束时间的置信水平更低。因为陈述段 包含与感兴趣的会议主题相对应的语音的可能性很高,所以查看者标 识这样的会议段可能是有利的。在提供关于会议段的附加信息的实现 (例如涉及关键词标识、主题确定等的实现)中,这样的潜在优点可 被增强。例如,听众可能选择仅查看其中发出特定词语的陈述段,或 者在其中讨论了特定主题的陈述段。因此,在回放会议记录期间,标 识陈述段段可导致听众的时间节省。
在一些实现中,块1815可以涉及确定讨论段的实例,该讨论段是 在其期间多个会议参与者发言、但是没有单个会议参与者占据任何明 显的主导的段。根据一些实现,确定讨论段的实例可以至少部分地基 于语音密度度量和主导度量。一些讨论可能涉及大量的双讲话,但通 常不如混串音段的双讲话那么多。因此,在一些实现中,确定讨论段 的实例可以至少部分地基于双讲话量度,例如双讲话比率。
在一些实现中,块1815可以涉及确定Q&A段的实例,该Q&A 段是与如下时间间隔相对应的段,在该事件间隔期间多个会议参与者 提出问题,而单个会议参与者进行回复或较小会议参与者子集中的一 个参与者进行回复。例如,Q&A段常常可能在陈述段结束之后。在陈述结束后,陈述会议参与者可以回答正在听陈述的其他会议参与者 所提出的问题。在问答环节期间,单个会议参与者常常进行回复,因 此会议参与者可能会比任何其他会议参与者做更多的发言。因此,主 导度量可能小于关于陈述的主导度量,而大于关于讨论的主导度量。 因此,根据一些实现,确定Q&A段的实例可以至少部分地基于语音 密度度量和主导度量。有时在问答环节可能会有大量的双讲话(例如, 比陈述期间更多的双讲话),但在问答环节中可能会有比在讨论期间 更少的双讲话。因此,在某些实现中,确定Q&A段的实例可以至少 部分地基于双讲话量度,例如双讲话比率。
在一些实现中,讨论段和Q&A段可能不被以与例如相互静默段, 混串音段或甚至陈述段相同的置信水平标识。在一些实现中,讨论段 和Q&A段的开始时间和结束时间可被以中等的置信水平来标识,但 是通常以比可标识混串音段和相互静默段的开始时间和结束时间的置 信水平更低的置信水平来标识。然而,由于讨论段或Q&A段可能包 括与感兴趣的会议主题相对应的语音具有合理的可能性,所以查看者 标识这样的会议段是有利的。在提供关于会议段的附加信息的实现(例 如涉及关键词标识、主题确定等的实现)中,这样的潜在优点可被增 强。例如,听众可以选择仅查看(review)其中发出特定词语或讨论 了特定主题的陈述段,讨论段和/或Q&A段。因此,标识讨论段和/ 或Q&A段可以在会议记录回放期间节省收听者的时间。
这里,块1820涉及将会议记录分段成多个段。在该示例中,每个 段对应于段分类中的至少一个和时间间隔。段可以对应于附加信息, 例如在该段期间发言的会议参与者(如果有的话)。
根据一些实现,搜索和/或分段过程可以是递归的。在一些实现中, 分析、搜索和分段过程可以都是递归的。以下提供了各种示例。
在下面的描述中,可以观察到若干搜索过程可以涉及时间阈值(诸 如tmin和tsnap),这将在下面描述。这些时间阈值具有将段的大小限 制为不小于阈值时间的效果。根据一些实现,当向用户显示分段过程 的结果时(例如,当图6的回放系统609使得在显示器上提供相应的 图形用户界面时),用户可能能够适时地缩放(例如,通过与触摸屏 进行交互,通过使用鼠标或通过激活放大或缩小命令)。在这种实例 中,可能期望以不同的时间尺度(可能涉及应用tmin和tsnap的不同值) 多次执行分段过程。在回放期间,可能有利的是在不同时间尺度的分 段结果之间动态切换,其结果可以基于当前缩放水平被显示给用户。根据一些示例,该过程可能涉及选择将不包含在当前缩放水平下在宽 度上占据小于X个像素的段的分段时间尺度。X的值至少部分地基于 显示器的分辨率和/或尺寸。在一个示例中,X可以等于100个像素。 在替代示例中,X可以等于50个像素,150个像素,200个像素,250个像素,300个像素,350个像素,400个像素,450个像素,500个 像素或某些其他数量的像素。如图5所示的会话动态数据文件 515a-515e是在不同时间尺度的分段结果的示例,其可用于基于当前缩 放水平来快速调整显示。
然而,在其他实现中,块1810-1820可以不递归地执行,而是可 以各自执行预定次数,例如仅一次,仅两次等。作为替代地或者附加 地,在一些实现中,块1810-1820可以仅在一个时间尺度上执行。这 样的实现的输出可能不像递归过程那样准确或那样方便于收听者。然 而,一些这样的实现可以比递归实现和/或对于多个时间尺度执行的实 现更快地执行。作为替代地或者附加地,这样的实现可能比递归实现 和/或对于多个时间尺度执行的实现更简单。
在一些实现中,搜索和分段过程(并且在一些实现中,分析过程) 可以至少部分地基于段分类的层级结构。根据一些实现,分析,搜索 和分段过程全部可以至少部分地基于段分类的层级结构。如上所述, 可以以变化的置信度来标识不同的段类型,以及不同段类型的开始和 结束时间。因此,根据一些实现,段分类的层级结构至少部分地基于 特定段分类的段可被标识的置信水平,段的开始时间可被确定的置信 水平、和/或段的结束时间可被确定的置信水平。
例如,段分类的层级结构的第一或最高级别可以与混串音段或相 互静默段(可被用高(或非常高)置信水平来表示)相对应。混串音 段和相互静默段的开始和结束时间也可以用高(或非常高)的置信水 平确定。因此,在一些实现中,搜索和分段过程(以及在一些实现中, 分析过程)的第一阶段可以涉及定位混串音段或相互静默段。
此外,不同的段类型具有不同的包括感兴趣的主旨(例如对应于 会议主题的会议参与者语音),感兴趣的关键词等的可能性。标识哪 些会议段可以被跳过以及哪些会议段可能包括感兴趣的主旨可能是有 利的。例如,混串音段和相互静默段具有低的或者非常低的包括对应 于会议主题的会议参与者语音、感兴趣的关键词等的可能性。陈述段 可能具有高的包括对应于会议主题的会议参与者语音,感兴趣的关键 词等的可能性。因此,根据一些实现,段分类的层级结构至少部分地 基于特定段分类包括对应于会议主题的会议参与者语音的可能性。
根据一些实现,搜索和分段过程(以及在一些实现中,分析过程) 可以包括首先定位混串音段,然后是陈述段,然后是Q&A段,然后 是其他段。这些过程可以是递归过程。其他实现可以涉及以一个或多 个不同序列定位段。
图18B示出了用于至少部分地执行本文所述的会议分段方法和相 关方法中的一些的系统的示例。与本文提供的其它图一样,图18B所 示的元件的数量和类型仅仅是作为示例被示出的。在该示例中,音频 记录1801A-1803A正由发言者日志单元1801B-1803B接收。在一些实 现中,音频记录1801A-1803A可以与上面参考图3C和图4描述的分 组跟踪文件201B-205B相对应,每个分组跟踪文件可以对应于上行链 路数据分组流201A-205A之一。在一些实现中,发言者日志单元 1801B-1803B可以是图4所示的发言者日志模块407的实例。
在该示例中,音频记录1801A-1803A中的每一个来自电话端点。 这里,音频记录1801A是来自多方端点(例如扬声器电话)的记录, 而音频记录1802A和1803A是单方端点(例如标准电话和/或耳机) 的记录。
在该示例中,发言者日志单元1801B-1803B能够确定每个会议参 与者何时发出语音。当处理来自单方端点的音频数据(诸如音频记录 1802B和1803B)时,发言者日志单元1802B和1803B可以用作语音 活动检测器。当处理来自多方端点的音频数据(诸如音频记录1801A) 时,发言者日志单元1801C可以估计存在多少个会议参与者(例如, 在会议期间有多少个会议参与者在发言),并且可以尝试标识哪个会 议参与者发出了每个讲话突发。在一些实现中,发言者日志单元 1801B-1803B可以使用本领域普通技术人员已知的方法。例如,在一 些实现中,发言者日志单元1801B-1803B可以使用高斯混合模型来对 每个讲话者进行建模,并且可以根据隐马尔可夫模型为每个讲话者分 配相应的讲话突发。
在图18B所示的实现中,发言者日志单元1801B-1803B输出发 言者活动文档1801C-1803C。这里,发言者活动文件1801C-1803C中 的每一个指示在相应端点每个会议参与者何时发出了语音。在一些实 施方式中,发言者活动文件1801C-1803C可以是可用于图5所示的联 合分析401-405的上行链路分析结果的实例。
在该示例中,发言者活动文档1801C-1803C由分段单元1804接 收以用于进一步处理。分段单元1804产生至少部分地基于发言者活动 文档1801C-1803C的分段记录1808。在一些实现中,分段单元1804 可以是图5的会话动态分析模块510的实例。在一些这样的实现中, 分段记录1808可以是被示出为由图5中的会话动态分析模块510输出 的会话动态数据文件515a-515e之一的实例。
根据具体示例,分段单元1804和发言者日志单元1801B-1803B 可以通过硬件,软件和/或固件来实现,例如经由可以包括通用单芯片 或多芯片处理器,数字信号处理器(DSP),专用集成电路(ASIC), 现场可编程门阵列(FPGA)或其他可编程逻辑器件,离散门或晶体 管逻辑、或离散硬件组件中的至少一个的控制系统的一部分来实现。 在一些示例中,分段单元1804和发言者日志单元1801A-1803B可以 根据存储在诸如随机存取存储器(RAM)设备,只读存储器(ROM) 设备等非暂态介质上的指令(例如,软件)来实现。
在该示例中,分段单元1804包括合并单元1806,其能够将多个 发言者活动文档1801C-1803C组合成全局发言者活动图1809。图18B 中示出了关于对应于该示例中的整个会议的从t0到t1的时间间隔的全 局发言者活动图1809。全局发言者活动图1809指示在会议期间哪个 会议参与者在哪个时间间隔期间以及在哪个端点处讲话。
在该示例中,分段单元1804包括分段引擎1807,其能够执行诸 如上面参考图18A所描述的那些的分析,搜索和分段过程。分析,搜 索和分段过程有时在这里可以被统称为“分段过程”。在这种实现中, 分段引擎1807能够执行分层级的和递归的分段过程,从定位混串音段 的过程开始。在替代实现中,分段引擎1807可以从定位另一段分类(诸 如相互静默段或陈述段)的过程开始。
在该示例中,分段记录1808是在会议中发现的段1808A-1808F 的列表。这里,段1808A-1808F中的每一个具有开始时间,结束时间 和段分类标识符。在该示例中,段分类标识符将指示该段是相互静默 段,混串音段,陈述段,讨论段还是问答(Q&A)段。其他实现可能 涉及更多或更少的段分类。在该示例中,段1808A和1808F是混串音 段,段1808B和1808D是陈述段,段1808C是Q&A段,段1808E 是讨论段。
图19简述了根据本文公开的一些实现的分段过程的初始阶段。根 据一些这样的实现,分段处理的所有阶段可以至少部分地由图18B的 分段引擎1807执行。在该示例中,分段引擎1807能够执行从“产生 混串音(Make Babble)”过程1901开始的递归分段处理。在这个例 子中,已经对包含用于产生混串音过程1901的指令的子例程进行了函 数调用。这里,根据产生混串音过程1901的结果,产生混串音过程 1901生成包含一个或多个混串音段的部分分段记录1903A或不包含 混串音段的部分分段记录1903B。
这里,因为这是分段过程的第一和最高级部分,输入到产生混串 音过程1901的发言者活动图是全局发言者活动图1809,其指示对于 整个会议的发言者活动。因此,在该示例中,时间t0到ti之间的时间 间隔包括整个会议。然而,在其他示例中,产生混串音过程1901可以 接收具有较小时间间隔的发言者活动图,以便生成对应于较小时间尺 度的部分分段记录。
在这个例子中,产生混串音过程1901包括最长混串音段搜索过程 1904。在该示例中,最长混串音段搜索处理1904能够搜索全局发言者 活动图1809以在时间t0和t1之间定位最长混串音段。如果不能找到 合适的混串音段,则不包含混串音段的部分分段记录1903B被传送到 下面参照图20描述的进行陈述过程2001。
然而,在这个例子中,最长混串音段搜索过程1904定位最长混串 音段1906B 1,其具有开始时间t2和结束时间t3,其输入到部分分段 记录1903A。这里,在先发言者活动图1906A是输入的全局发言者活 动图1809的在最长混串音段1906B1的时间间隔之前的时间间隔(从 时间t0到时间t2)期间的剩余未分段部分。在该示例中,后续发言者 活动图1906C是输入的全局发言器活动图1809的在最长混串音段 1906B1的时间间隔之后的时间间隔(从时间t3到时间t1)期间的剩余 未分段部分。在先发言者活动图1906A和后续发言者活动图1906C可 以作为输入被提供给“产生混串音”过程1901的一个或多个后续递归。
然而,根据一些实现,可以评估在先发言者活动图1906A和后续 发言者活动图1906C的时间间隔以被评估以确定它们是否短于阈值 tsnap。例如,如果确定在先发言者活动图1906A的时间间隔比阈值tsnap短,则最长混串音比特段1906B将“咬合(snap)”,以通过使t2=t0来跨越在先发言者活动图1906A的时间间隔。否则,在先发言者活动 图1906A被输入到在先发言者活动递归1907A。根据一些这样的实施 方式,如果后续发言者活动图1906C的时间间隔短于阈值tsnap,则最 长混串音段1906B将“咬合”以通过让t3=t1来跨越随后的发言者活 动图1906C的时间间隔。否则,后续发言者活动图1906C被输入到后 续发言者活动递归1907C。
在图19所示的示例中,在先发言者活动图1906A和后续发言者 活动图1906C的时间间隔都比阈值tsnap长。这里,在先发言者活动递 归1907A输出在先部分分段记录1908A,其包括附加的混串音段 1906B2和1906B3,它们在图19中示出为具有与最长混串音段1906B1相同类型的填充。在该示例中,后续发言者活动递归1907C输出后 续部分分段记录1908C,其包括附加的混串音段实例。这些混串音段 也在图19中示出为具有与最长混串音段1906B1相同类型的填充。在 该示例中,在先部分分段记录1908A,最长混串音段1906B 1和后续部分分段记录1908C被拼接以形成部分分段记录1903A。
根据一些实现,为了启动最长混串音段搜索过程1904,可以产生 双讲话段的列表。例如,双讲话段的列表可以按照双讲话段长度的降 序来产生。双讲话段是包括双讲话的实例的会议的部分,在该实例期 间至少有两个会议参与者正在同时讲话。可以依次(例如,按长度的 降序)考虑这些双字节段中的每一个作为根候选混串音段,并且可以 对于每一个进行最长混串音段搜索过程1904。从任何根候选开始发现 的最长混串音段被返回。在替代实施例中,搜索可以从每个根候选依 次前进,直到它们中的任何一个返回有效的混串音段。找到的第一个 混串音段可能会被返回,搜索可能会终止。对于任一类型的实现,如果在搜索每个根候选之后没有发现混串音段,那么最长混串音搜索过 程1904可以报告不能发现混串音段,例如,通过输出不包含混串音段 的部分分段记录1903B。
在一些实现中,为了被包括在候选混串音段中,讲话突发的持续 时间必须至少为阈值候选段时间间隔(例如,600ms长,700ms长, 800ms长,900ms长,1秒长等),并且必须被分类为混串音(例如, 根据图22中所示的分类器2301的确定)。根据一些示例,候选混串 音段可以根据本文中称为“混串音率”的度量(其可以被定义为在其 期间存在双讲话的候选段内的时间占比)被分类为混串音。例如,对 于从时间50开始并在时间54结束的候选混串音段(4秒长),关于 被分类为混串音的从时间51到53的单个讲话突发(2秒长),该混 串音率为50%。一些这样的示例可能要求候选混串音段至少具有阈值 混串音率(例如,40%,45%,50%,55%,60%等),以便被分类 为混串音段。
本文公开的一些实现可以区分混串音率和“双讲话比率”,这将 在下面更详细地讨论。在一些这样的实现中,双讲话比率是与在其期 间存在双讲话的候选段相对应的时间间隔的语音时间的占比(与时间 间隔的总持续时间相反)。
根据一些实现,可以将持续时间至少为阈值候选段时间的下一个 混串音讲话突发添加到先前的候选混串音段,以形成一个新的候选混 串音段。在一些示例中,该下一个混串音讲话突发必须在先前候选混 串音段的阈值候选段时间间隔内,以便被添加到先前的候选混串音段。
同样地,可以将持续时间至少为阈值候选段时间间隔的先前的混 串音讲话突发添加到先前的候选混串音段以形成第二新的候选混串音 段。在一些示例中,先前的混串音讲话突发必须在先前的候选混串音 段的阈值候选段时间间隔内,以便被添加到先前的候选混串音段。因 此,根据这样的实现,在每个步骤中可以生成零个、一个或两个候选 混串音段。
在诸如下面参考图23所描述的替代实现中,可以在一个步骤中评 估下一个混串音讲话突发,然后可以在第二步骤中评估先前的混串音 讲话突发。根据这样的实现,在每个步骤可以生成零个或一个候选混 串音段。
图20简述了根据本文公开的一些实现的分段过程的后续阶段。在 该示例中,已经对包括用于产生陈述(Make Presentation)过程2001 的指令的子例程进行了函数调用。根据一些实现,产生陈述过程2001 可以类似于产生混串音过程1901。这里,根据产生陈述过程2001的 结果,产生陈述过程2001产生包含一个或多个陈述段的部分分段记录 2003A,或者不包含陈述段的部分分段记录2003B。
产生陈述过程2001的输入发言者活动图2002可能取决于具体的 实现。在一些实现中,输入发言者活动图2002可以是全局发言者活动 图1809,其指示整个会议的发言者活动,或者对应于较小时间间隔的 发言者活动图。然而,在一些实现中,产生陈述过程2001可以从产生 混串音过程接收指示会议的哪些时间间隔(或部分或会议的哪个时间 间隔)对应于混串音段的输入。根据一些这样的实现,输入发言者活 动图2002可以对应于不对应于混串音段的时间间隔。
在这个例子中,产生陈述过程2001包括最长陈述段搜索过程 2004。在该示例中,最长陈述段搜索过程2004能够搜索输入的发言者 活动图2002以定位在时间t0到t1之间的最长陈述段。如果没有找到 合适的陈述段,则分段过程可以继续到后续过程,诸如下面参考图21 所描述的产生其他(Make other)过程2101。
然而,在该示例中,最长陈述段搜索过程2004定位了具有开始时 间t2和结束时间t3的最长陈述段2006B 1,其进入到部分分段记录 2003A中。这里,在先发言者活动图2006A是在最长陈述段2006B1 之前的时间间隔(从时间t0到时间t2)期间的输入全局发言者活动图 1809的剩余未分段部分。在该示例中,后续发言者活动图2006C是在 最长陈述段2006B1之后的时间间隔(从时间t3到时间t1)期间的输 入全局发言者活动图1809的剩余未分段部分。在先发言者活动图 2006A和后续发言者活动图2006C可以作为输入提供给产生陈述过程 2001的一个或多个后续递归。
然而,根据一些实施方式,可以评估在先发言者活动图2006A和 后续发言者活动图2006C的时间间隔,以确定它们是否短于阈值tsnap。 例如,如果确定在先发言者活动图2006A的时间间隔比阈值tsnap短, 则最长的陈述段2006B1将“咬合(snap)”,以通过使t2=t0来跨越 在先发言者活动图1906A的时间间隔。否则,在先发言者活动图2006A 被输入到在先发言者活动递归2007A。根据一些这样的实施方式,如 果后续发言者活动图2006C的时间间隔短于阈值tsnap,则最长陈述段 2006B1将“咬合”以通过让t3=t1来跨越随后的发言者活动图2006C 的时间间隔。否则,后续发言者活动图2006C被输入到后续发言者活 动递归2007C。
在图20所示的示例中,在先发言者活动图2006A和后续发言者 活动图2006C的时间间隔都比阈值tsnap长。这里,在先发言者活动递 归2007A输出在先部分分段记录2008A,其包括附加的陈述段2006B2 和2006B3,它们在图20中示出为具有与最长陈述音段2006B 1相同 类型的填充。在该示例中,后续发言者活动递归2007C输出后续部分 分段记录2008C,其包括附加的陈述段实例。这些陈述段也在图20 中示出为具有与最长陈述段2006B 1相同类型的填充。在该示例中, 在先部分分段记录2008A,最长陈述段2006B 1和后续部分分段记录 2008C被拼接以形成部分分段记录2003A。
在一些示例中,当搜索陈述段时,每个根候选段可以是对应于单 个讲话突发的段。搜索可以依次(例如,按长度的降序)在每个根候 选段处开始,直到搜索到所有根候选,并返回最长陈述。
在替代实施例中,搜索可以从每个根候选依次前进,直到它们中 的任何一个返回有效的陈述段。找到的第一个陈述段可能会被返回, 搜索可能会终止。如果在搜索每个根候选之后没有发现陈述段,那么 最长陈述段搜索过程2004可以报告不能发现陈述段(例如,通过输出 不包含陈述段的部分分段记录2003B)。
根据一些实现,在最长陈述段搜索过程2004中生成候选陈述段可 以包括在每个步骤中产生多达两个新候选陈述段。在一些示例中,可 以通过采用现有的候选陈述段并且使得结束时间稍晚以包括在被评估 的时间间隔(在此也可以称为作为“感兴趣区域”)内由相同参与者 发出的下一讲话突发,生成第一新候选陈述段。可以通过采用现有的 候选陈述段,并将开始时间提前以包括在感兴趣区域内由同一个参与 者发出的前一个讲话突发,生成第二新候选陈述段。如果在感兴趣区 域内没有由同一参与者发出的下一个或前一个讲话突发,则可能不会 生成新候选陈述段中的一个或两者。下面将参照图23描述生成候选陈 述段的替代方法。
在一些示例中,最长陈述段搜索过程2004可能涉及评估关于新候 选陈述段的一个或多个接受准则。根据一些这样的实现,可以为每个 新候选陈述段计算主导度量。在一些这样的实现中,主导度量可以指 示在包括新候选陈述段的时间间隔期间由主导会议参与者发出的总语 音的占比。主导会议参与者可能是在该时间间隔内发言最多的会议参 与者。在一些示例中,具有大于主导阈值的主导度量的新候选陈述段 将被添加到现有候选陈述段。在一些实现中,主导阈值可以是0.7, 0.75,0.8,0.85等。否则,搜索可终止。
在一些实现中,可以在产生陈述过程2001期间,例如在最长陈述 段搜索过程2004期间,评估双对话比率和/或语音密度度量。下面将 参考图22来描述一些示例。
图21简述了根据本文公开的一些实现的分段过程的后续阶段。在 该示例中,已经对包括用于产生其他过程2101的指令的子例程进行了 函数调用。
产生其他过程2101的输入发言者活动图2102可以取决于具体的 实现。在一些实现中,输入发言者活动图2102可以是全局发言者活动 图1809,其指示整个会议的发言者活动,或者是对应于较小时间间隔 的发言者活动图。然而,在一些实现中,产生其他过程2101可以从分 段过程的一个或多个先前阶段(诸如产生混串音过程1901和/或产生 陈述过程2001)接收输入,指示会议的哪些时间间隔(或部分或会议 的哪些时间间隔)对应于先前标识的段(诸如先前标识的混串音段或 陈述段)。根据一些这样的实现,输入发言者活动图2102可以对应于 与先前标识的段的时间间隔不对应的时间间隔。
在该示例中,进行过程2101包括最长段搜索处理2104,其可能 能够定位包含来自一个会议参与者的语音的感兴趣区域中的最长段。 这里,根据最长段搜索处理2104的结果,产生其他过程2101产生包 含一个或多个被分类的段的部分分段记录2103A,或包含单个被分类 的段的部分分段记录2103B。在一些示例中,如果进行过程2101产生 部分分段记录2103B,则它将被输入到分类器,诸如下面参考图22描 述的分类器2201。产生其他过程2101可以涉及对于在感兴趣区域中 已经标识了其语音的每个会议参与者执行段搜索过程2104的迭代过 程。
在该示例中,可以基本上如上文参考最长陈述段搜索过程2004 所述地生成根候选段。对于每个根候选讲话突发,一些实现涉及搜索 由与根候选相同的会议参与者所发出的兴趣区域中的所有讲话突发。 一些例子包括构建包括包含根候选的这种讲话突发的最长行程的候选 段。
一些这样的示例涉及应用一个或多个接受准则。在一些实现中, 一个这样的准则是没有两个讲话突发可以被大于阈值候选段时间间隔 twindow分隔开。twindow的示例性设置是tmin/2,其中tmin表示阈值候选 段时间(候选段的最小持续时间)。其他实现可以应用不同的阈值候 选段时间间隔和/或其他接受准则。一些实现可以涉及通过评估同一个 会议参与者的下一个讲话突发和/或同一会议参与者的前一个讲话突 发来构建候选段,如上文所述或如下文参照图23所述。
搜索完成后,最长候选段(在分析所有根候选之后)可以被分类。 在该示例中,最长候选段被传递到分类器2201,分类器2201返回分 类的最长段2106B。在图21所示的示例中,将在先发言者活动图2106A 输入到在先发言者活动递归2107A,其输出在先的部分分段记录 2108A。这里,后续发言者活动图2106C被输入到后续发言者活动递 归2107C,后续发言者活动递归2107C输出后续部分分段记录1908C。
图22简述了根据本文公开的一些实现的段分类器可执行的操作。 在该示例中,给定关于时间t0到t1的发言者活动图2202作为输入, 分类器2201能够确定段分类2209A-2209E之一的实例。在该示例中, 发言者活动图2202包括全局发言者活动图1809的一部分,并且被限 制为包含仅在时间t0到t1之间的感兴趣时间区域中的信息。在一些实 现中,分类器2201可以与本文别处描述的递归分段过程中的一个或多 个结合使用。然而,在替代实现中,分类器2201可以用于非递归分段 过程。根据一些这样的实现,分类器2201可以用于在会议记录或其一 部分的多个时间间隔(例如,顺序时间间隔)中的每一个中标识段。
在该实现中,分类器2201包括特征提取器2203,其能够分析发 言者活动图2202的会话动态,并且标识会话动态数据类型DT,DEN 和DOM,其在本示例中分别对应于双讲话比率、语音密度度量和主导 度量。这里,分类器2201能够根据一组规则来确定段分类的实例,该 组规则在此示例中是基于由特征提取器2203标识的一个或多个会话 动态数据类型的。
在该示例中,该组规则包括以下规则:如果语音密度度量DEN 小于相互静默阈值DENS,则将段分类为相互静默段2209A。这里, 该规则由相互静默确定过程2204应用。在一些实现中,相互静默阈值 DENS可以为0.1,0.2,0.3等。
在该示例中,如果相互静默确定过程2204确定语音密度度量大于 或等于相互静默阈值,则下一个过程是混串音确定过程2205。这里, 该组规则包括以下规则:如果语音密度度量大于或等于相互静默阈值, 并且双讲话比率DT大于混串音阈值DTB,则将段分类为混串音段。 在一些实现中,多路复用阈值DTB可以为0.6,0.7,0.8等因此,如 果混串音确定处理2205确定双讲话比率大于混串音阈值,则混串音确 定过程2205将该段分类为混串音段2209B。
这里,如果混串音确定过程2205确定双讲话比率小于或等于混串 音阈值,则下一过程是讨论确定过程2206。这里,该组规则包括以下 规则:如果语音密度度量大于或等于静默阈值,并且如果双讲话比率 小于或等于混串音阈值但大于讨论阈值DTD,则将段分类为讨论段。 在一些实现中,讨论阈值DTD可以是0.2,0.3,0.4等因此,如果讨 论确定过程2206确定双讲话比率大于讨论阈值DTD,则将段分类为 讨论段2209C。
在该实现中,如果讨论确定过程2206确定双讲话比率不大于讨论 阈值DTD,则下一个过程是陈述确定过程2207。这里,该组规则包括 以下规则:如果语音密度度量大于或等于静默阈值,如果双讲话比率 小于或等于讨论阈值,并且如果主导度量DOM大于陈述阈值DOMp, 则将段分类为陈述段。在一些实现中,陈述阈值DOMP可以为0.7, 0.8,0.9等因此,如果陈述确定过程2207确定主导度量DOM大于 陈述阈值DOMp,则陈述确定过程2207将该段分类为陈述段2209D。
在该示例中,如果陈述确定过程2207确定主导度量DOM不大于 陈述阈值DOMP,则下一过程是问答确定过程2208。这里,该组规则 包括如下规则:如果语音密度度量大于或等于静默阈值,如果双讲话 比率小于或等于讨论阈值,以及如果主导度量小于或等于陈述阈值但 是大于问答阈值,则将段分类为问答段。
在一些实现中,问答阈值可以是全部会议参与者的数量N的函数 或者在感兴趣区域中已经标识了其语音的会议参与者的数量N的函 数。根据一些示例,问答阈值可以是DOMQ/N,其中DOMQ表示常 数。在一些例子中,DOMQ可以等于1.5,2.0,2.5等。
因此,如果问答确定过程2208确定主导度量大于问答阈值,则在 该示例中,该段将被分类为Q&A段2209E。如果没有,在这个例子 中,段将被分类为讨论段2209C。
图23示出了根据本文公开的一些实现的最长段搜索过程的示例。 根据一些实现,例如上述那些,产生混串音,产生陈述和产生其他过 程各自包含相应的最长段搜索过程。在一些这样的实现中,最长段搜 索过程可以如下地进行。此示例将涉及最长陈述段搜索过程。
这里,评估被包括在输入发言者活动图2301中的候选种子讲话 突发2302A-2302F的列表。在一些示例中,如这里,即使候选种子讲 话突发的列表在图23中根据开始和结束时间排列,候选种子讲话突发 的列表仍可以按照长度的降序排序。接下来,可以依次考虑候选种子 讲话突发中的每一个。在该示例中,首先考虑最长候选种子讲话突发 (2302C)。对于每个候选种子讲话突发,可以指定候选段。这里, 候选段2304A最初被指定用于候选种子讲话突发2302C。
在该实现中,第一迭代2303A涉及对候选段2304A(这里,通过 分类器2201)进行分类,以确保其会话动态数据类型(例如,上述的 DEN,DT和/或DOM会话动态数据类型)不排除候选段2304A属于 在最长段搜索过程中寻找的特定段分类。在该示例中,候选段2304A 仅包括被分类为陈述段(2305A)的候选讲话突发2302C。因为这是 在最长段搜索过程中寻找的段分类,所以最长段搜索过程继续。
在该示例中,最长段搜索过程的第二迭代2303B涉及将以下讲话 突发2302D添加到候选段2304A,以创建候选段2304B,并对候选段 2304B进行分类。在一些实现中,在先的和/或随后的讲话突发可能需 要在候选段的阈值时间间隔内,以便有资格被添加到候选段。如果添 加随后的讲话突发排除分类作为正在寻找的段分类,则随后的讲话突 发可能不会被包含在候选分段中。然而,在该示例中,候选段2304B 被分类为陈述段(2305B),因此保留候选段2304B并继续迭代。
在该实现中,最长段搜索过程的第三迭代2303C涉及将在先的讲 话突发2302B添加到候选段2304B,以创建候选段2304C,并对候选 段2304C进行分类。在该示例中,候选段2304C被分类为陈述段 (2305C),因此保留候选段2304C并继续迭代。
在该示例中,最长段搜索过程的第四迭代2303D包括将随后的讲 话突发2302E添加到候选段2304C,以创建候选段2304D,并对候选 段2304D进行分类。在该示例中,候选段2304D被分类为陈述段 (2305D),因此保留候选段2304D并继续迭代。
随后的和/或在先的讲话突发可以继续被添加到候选段,直到添加 任何讲话突发意味着候选段不再是所寻找的类别。这里,例如,最长 段搜索过程的第五迭代2303E涉及将在先的讲话突发2302A添加到候 选段2304D,以创建候选段2304E,并对候选段2304E进行分类。在 该示例中,候选段2304E被分类为Q&A段(2305E),因此不保留 候选段2304E。
然而,在这个例子中,该过程将继续进行,以便评估随后的讲话 突发。在图23所示的例子中,最长段搜索过程的第六迭代2303F涉 及随后的讲话突发2302F添加到候选段2304D,以创建候选段2304E, 并对候选段2304F进行分类。在该示例中,候选段2304F被分类为Q &A段(2305E),因此不保留候选段2304C,并且迭代停止。
如果所得的候选段不短于阈值候选段时间tmin,则候选段可以被 指定为最长段。否则,最长段搜索过程可能会报告没有合适的段存在。 如本文其他地方所述,阈值候选段时间tmin可根据可能对应于感兴趣 区域的时间间隔的时间尺度而变化。在该示例中,候选段2304D长于 阈值候选段时间tmin,因此最长段搜索过程输出陈述段2306。
会议记录通常包括大量的音频数据,其可能包括相当大量的混串 音和非实质性的讨论。通过音频回放找到相关会议主题可能非常耗时。 自动语音识别(ASR)有时被用于将会议记录转换为文本,以使得能 够基于文本搜索和浏览。
不幸的是,基于自动语音识别的准确会议转录已被证明是一项具 有挑战性的任务。例如,美国国家标准与技术研究所(NIST)的领先 的基准已经示出尽管近几十年来各种语言的ASR的误码率(WER) 大幅度下降,但会议语音的WER仍然保持显著高于其他类型语音的 WER。根据2007年发布的NIST报告,会议语音的WER通常超过 25%,而对于涉及多个会议参加者的会议,往往超过50%。(Fiscus, Jonathan G.等人,“The Rich Transcription2007Meeting Recognition Evaluation”(NIST 2007)。)
尽管已知会议语音的WER高,但是自动生成会议主题的先前尝 试通常是基于会议记录的ASR结果产生会议参与者所说的词语的完 美转录的假设的。本公开包括用于确定会议主题的各种新颖技术。一 些实现涉及词语云生成,其可以在回放期间是交互式的。一些例子能 够进行高效的主题挖掘,同时解决了ASR误差提供的挑战。
根据一些实现,给定话语的许多假设(例如,如在语音识别格中 所描述的)可能有助于词语云。在一些示例中,全会议(或多会议) 上下文可以通过编译在整个会议中发现的和/或在多个会议中发现的 许多词语的替代假设的列表而被引入。一些实现可以涉及在多次迭代 上应用全会议(或多会议)上下文,以对语音识别格的假设词重新评 分(例如,通过淡化较不频繁的替代词),从而去除一些话语级别歧 义。
在一些示例中,可以使用“术语频率度量”来将主词候选和替代 词假设排序。在一些这样的示例中,术语频率度量可以至少部分地基 于语音识别格中的假设词的出现次数和语音识别器报告的词语识别置 信度分数。在一些示例中,术语频率度量可以至少部分地基于底层语 言中的词语的频率和/或词语可能具有的不同含义的数量。在一些实现 中,可以使用可以包括上位词信息的本体来将词语概括为主题。
图24是简述本文公开的某些主题分析方法的块的流程图。与本文 所述的其它方法一样,方法2400的块不一定按照所示的顺序执行。此 外,这样的方法可以包括比所示和/或描述的块更多或更少的块。
在一些实施方式中,方法2400可以至少部分地经由存储在诸如本 文所描述的那些的非暂态介质(包括但不限于随机存取存储器(RAM) 设备,只读存储器(ROM)设备等)上的指令(例如,软件)来实现。 在一些实现中,方法2400可以至少部分地由装置(诸如图3A所示的 装置)来实现。根据一些这样的实现,方法2400可以至少部分地由图 3C和5所示的分析引擎307的一个或多个元件实现,例如由联合分析 模块306实现。根据一些这样的示例,方法2400可以至少部分地由图 5的主题分析模块525来实现。
在该示例中,块2405包括接收对于涉及多个会议参与者的会议的 会议记录的至少一部分的语音识别结果数据。在一些示例中,语音识 别结果数据可以由主题分析模块在块2405中接收。这里,语音识别结 果数据包括多个语音识别格、以及语音识别格中的多个假设词中的每 一个的词语识别置信度分数。在该实现中,词语识别置信度分数对应 于假设词与在会议期间会议参与者所说的实际词语正确对应的可能 性。在一些实现中,在块2405中可以接收来自两个或更多个自动语音 识别过程的语音识别结果数据。下面介绍一些例子。
在一些实现中,会议记录可以包括被分别记录的来自多个端点的 会议参与者语音数据。作为替代地或者附加地,会议记录可以包括来 自对应于多个会议参与者的单个端点的会议参与者语音数据,并且包 括用于标识多个会议参与者的每个会议参与者的会议参与者语音的信 息。
在图24所示的例子中,块2410涉及对于语音识别格中的多个假 设词中的每一个确定主词候选和一个或多个替代词假设。这里,与任 何替代词假设的词语识别置信度分数相比,主词候选的词语识别置信 度分数指示更高的与在会议期间会议参与者所说出的实际词语正确对 应的可能性。
在该实现中,块2415涉及为主词候选和替代词假设计算“术语频 率度量”。在该示例中,术语频率度量至少部分地基于语音识别格中 的假设词的出现次数以及基于词语识别置信度分数。
根据一些示例,术语频率度量可以至少部分地基于“文档频率度 量”。在一些这样的示例中,术语频率度量可以与文档频率度量成反 比。例如,文档频率度量可以对应于主词候选将在会议中出现的预期 频率。
在一些实现中,文档频率度量可以对应于主词候选已经在两个或 更多个先前会议中出现的频率。例如,先前的会议可以是同一类别的 会议,例如商业会议,医疗会议,工程会议,法律会议等。在一些实 现中,会议可以按子类进行分类,例如,工程会议的类别可以包括电 气工程会议、机械工程会议、音频工程会议、材料科学会议、化学工 程会议等的子类别。同样,商务会议的类别可能包括销售会议、财务 会议、营销会议等的子类别。在一些示例中,会议可以至少部分地根 据会议参与者进行分类。
作为替代地或者附加地,文档频率度量可以对应于主词候选在至 少一个语言模型中出现的频率,其可以估计不同词语和/或短语的相对 似然性,例如通过根据概率分布将概率分配给词语序列。(一个或多 个)语言模型可以提供上下文以区分听起来相似的词语和短语。语言 模型可以例如是统计语言模型,例如词袋模型,N-gram模型,因子 化语言模型等。在一些实现中,语言模型可以与会议类型相对应,例 如与会议的预期主旨相对应。例如,与和非医学语言有关的语言模型 相比,和医学术语相关的语言模型可能给“脾”和“梗塞”分配更高 的概率。
根据一些实现,在块2405中,会议类别,会议子类别和/或语言 模型信息可以与语音识别结果数据一起被接收。在一些这样的实现中, 这样的信息可以包括在由图5的主题分析模块525接收的会议元数据 210中。
本文公开了确定术语频率度量的各种替代示例。在一些实现中, 术语频率度量可以至少部分地基于数个词语含义。在一些这样的实现 中,术语频率度量可以至少部分地基于标准参考书(例如特定的词典 或字典)中的对应词的定义的数量。
在图24所示的示例中,块2420涉及根据术语频率度量对主词候 选和替代词假设进行排序。在一些实现中,块2420可以包括以术语频 率度量的降序对主词候选和替代词假设进行排序。
在该实现中,块2425涉及将替代词假设包括在替代假设列表中。 在一些实现中,方法2400的至少一些过程的迭代可以至少部分地基于 替代假设列表。因此,一些实现可以涉及在一个或多个这样的迭代期 间保留替代假设列表,例如在每次迭代之后。
在该示例中,块2430涉及根据替代假设列表对语音识别格的至少 一些假设词重新评分。换句话说,在确定、计算、排序,包括和/或重 新评分的一个或多个这样的迭代期间,可以改变在框2405中针对语音 识别格的一个或多个假设词语接收的词语识别置信度分数。以下提供 进一步的细节和实例。
在一些示例中,方法2400可以包括形成包括主词候选和用于每个 主词候选的术语频率度量的词语列表。在一些示例中,词语列表还可 以包括用于每个主词候选的一个或多个替代词假设。例如,替代词假 设可以根据语言模型生成。
一些实现可以涉及至少部分地基于词语列表来生成会话主题的主 题列表。主题列表可以包括词语列表中的一个或多个词语。一些这样 的实现可能涉及确定主题分数。例如,这样的实现可以至少部分地基 于主题分数来确定是否在主题列表上包括词语。根据一些实现,主题 分数可以至少部分地基于术语频率度量。
在一些示例中,主题分数可以至少部分地基于用于主题概括的本 体。在语言学中,下位词是其语义场被包含在另一个词语(其已知为 上位词)的语义场中的词语或短语。下位词与其上位词共享“类型” 的关系。例如,“知更鸟”,“椋鸟”,“麻雀”,“乌鸦”和“鸽 子”都是“鸟”(它们的上位词)的下位词;“鸟”又是“动物”的 下位词。
因此,在一些实现中,产生主题列表可以涉及确定词语列表中的 一个或多个词语的至少一个上位词。这样的实现可以涉及至少部分地 基于上位词分数来确定主题分数。在一些实现中,上位词不需要已被 会议参与者说出以便成为主题分数确定过程的一部分。下面提供了一 些例子。
根据一些实施方式,方法2400的至少一些过程的多次迭代可以包 括生成主题列表并确定主题分数的迭代。在一些这样的实现中,块 2425可以包括至少部分地基于主题分数在替代假设列表中包括替代 词假设。下面描述一些实现,然后是作为确定主题分数的过程的一部 分的使用上位词的一些示例。
在一些示例中,方法2400可以包括将语音识别格的至少一些假设 词缩减为规范的基本形式。在一些这样的示例中,缩减过程可以包括 将语音识别格点的名词缩减为规范的基本形式。规范的基本形式可以 是名词的单数形式。作为替代地或者附加地,缩减过程可以包括将语 音识别格点的动词缩减为规范的基本形式。规范的基本形式可能是动 词的不定式形式。
图25示出了主题分析模块元素的示例。与本文公开的其他实现一 样,主题分析模块525的其他实现可以包括更多,更少和/或其他元素。 主题分析模块525可以例如经由控制系统(诸如图3A所示的控制系 统)来实现。控制系统可以包括通用单芯片或多芯片处理器,数字信 号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA) 或其他可编程逻辑器件,离散门或晶体管逻辑或离散硬件组件中的至 少一个。在一些实现中,主题分析模块525可以通过存储在非暂态介 质上的指令(例如,软件)来实现。这种非暂态介质为诸如本文所描 述的那些介质,包括但不限于随机存取存储器(RAM)设备,只读存 储器(ROM)设备等。
在该示例中,主题分析模块525被示出为接收语音识别格2501。 语音识别格2501例如可以是语音识别结果(诸如上文参照图4和图5 所描述的语音识别结果401F-405F)的实例。语音识别格的一些例子 如下所述。
主题分析模块525的该示例包括格子重评分单元2502。在一些实 现中,格子重评分单元2502可以能够根据替代假设列表对语音识别格 2501中的至少一些假设词重新评分。例如,格子重评分单元2502可 能能够改变在替代假设列表2507中找到的假设词的词语识别置信度 分数,使得这些假设词被淡化。该过程可能取决于用于词语识别置信 度分数的特定度量。例如,在一些实现中,词语识别置信度分数可以 用成本来表示,其的值可以是假设词语有多不可能是正确的度量。根 据这样的实现,淡化这样的假设词可能涉及增加对应的词语识别置信 度分数。
根据一些实现,替代假设列表2507最初可能是空的。如果是这样 的话,格子重评分单元2502可以不执行重新评分,直到稍后的迭代。
在该示例中,主题分析模块525包括格修剪单元2503。格修剪单 元2503可以例如能够执行一种或多种类型的格修剪操作(诸如波束剪 枝,后验概率修剪和/或格深度限制),以便降低输入语音识别格点的 复杂性2501。
图26示出了输入语音识别格的示例。如图26所示,未修剪的语 音识别格可能相当大。图26中的圆圈表示语音识别格的节点。连接节 点的曲线或“弧”对应于假设的词,其可以经由弧连接以形成假设词 序列。
包括图27A和27B的图27示出了修剪后的小语音识别格的一部 分的示例。在这个例子中,修剪的语音识别格对应于话语的第一部分 “I accidentally did not finish mybeef jerky coming from San Francison to Australia(我不小心没有吃完从旧金山到澳大利亚的牛 肉干)”。在这个例子中,针对同一假设词的替代词假设在编号节点 之间的弧上被指示。可以遍历语音识别格的不同弧以形成替代假设词 序列。例如,假设词序列“didn’t finish”由连接节点2,6和8的弧表 示。假设词序列“did of finish”由连接节点5,11,12和15的弧表示。 假设词序列“did of finished”由连接节点5,11,12和14的弧表示。假 设词序列“did not finish”由连接节点5,11和17-20的弧表示。假设 词序列“didnot finished”由连接节点5,11,17和18的弧表示。所有 上述假设词序列对应于实际子话语“did not finish”。
在一些语音识别系统中,给定语音识别器的声学输入特征,语音 识别器可以用对数声学成本CA来报告词语识别置信度分数,对数声 学成本CA是通过格子的这个路径上的这个假设词有多不可能正确的 度量。给定语言模型,语音识别器还可以用对数语言成本CL来报告词 语识别置信度分数,该对数语言成本CL是通过格子的该路径上的这个 假设词的可能性有多不可能不正确的量度。对于格子中的每个弧可以 报告声学和语言成本。
对于图27所示的格子部分中的每个弧,例如,该弧的组合的声学 和语言成本(CA+CL)在每个假设词旁边被示出。在该示例中,通过 语音识别格的最佳假设词序列对应于从起始节点到结束节点的具有最 低弧成本总和的路径。
在图25所示的示例中,主题分析模块525包括词法单元2504。 词法单元2504可以能够将假设词缩减为规范的基本形式。例如,在涉 及将语音识别格的名词缩减为规范的基本形式的一些实现中,词法单 元2504可能能够将名词的多个形式缩减为单数形式(例如,将“cars (多个汽车)”缩减为“car(汽车)”)。在一些涉及将语音识别 格的动词缩减为规范的基本形式的实现中,词法单元2504可能能够将 动词缩减为不定式(例如,缩减“running”为“run”,缩减“runs” 为“run”)。
词法单元2504的替代实现可以包括所谓的“词干分析器”,例如 波特词干分析器(Porter Stemmer)。然而,这种类型的基本词干分 析器可能不能精确地转换不规则名词或动词形式(例如将“mice”缩 减为“mourse”)。对于这种转换可能需要更精确的词法实现,例如 在Miller,George A,WordNet:A Lexical Database for English,in Communicationsof the ACM Vol.38,第11期,第39-41页(1995) 中。
图25的主题分析模块525包括术语频率度量计算器2505。在一 些实现中,术语频率度量计算器2505可以能够确定语音识别格2501 的假设词的术语频率度量。在一些这样的实现中,术语频率度量计算 器2505可能能够确定在输入格中观察到的每个名词的术语频率度量 (例如,词法单元2504可能能够确定哪些假设词是名词)。
在一些实现中,术语频率度量计算器2505可以能够根据术语频率 /逆文档频率(TF-IDF)函数来确定术语频率度量。在一个这样的例 子中,每当在输入语音识别格中检测到具有词典索引x的假设词时, 术语频率度量TFx可以如下确定:
在式45中,TFx'表示词语x的先前术语频率度量。如果这是在当 前迭代中第一次遇到词语x,TFx'的值可能被设置为零。在式45中, DFx表示文档频率度量,ln表示自然对数。如上所述,文档频率度量 可以对应于词语将在会议中出现的预期频率。在一些示例中,预期频 率可以对应于该词已经在两个或更多个在先会议中出现的频率。在一 般性的商务电话会议系统的实例中,文档频率度量可以通过对该词语 在大量商务电话会议上出现的频率进行计数而得出。
作为替代地或者附加地,预期频率可以对应于主词候选在语言模 型中出现的频率。本文公开的方法的各种实施方式可以与语音识别器 一起使用,语音识别器可以将某种类型的词频度量应用作为其语言模 型的一部分。因此,在一些实现中,用于语音识别的语言模型可以提 供由术语频率度量计算器2505使用的文档频率度量。在一些实现中, 这样的信息可以与语音识别格一起被提供或者被包含在会议元数据 210中。
在式45中,MDF表示指示最小对数文档频率的选定常数。在一 些实施方式中,MDF值可以是-10至-4范围内的整数(例如-6)。
在式45中,C表示在输入格子中由语音识别器报告的在范围[0-1] 中的词语识别置信度分数。根据一些实现,可以根据以下来确定C:
C=exp(-CA-CL) (式46)
在式46中,CA表示对数声学成本,CL表示对数语言成本,两者 均使用自然对数表示。
在式45中,N表示词义的数量。在一些实现中,N的值可以基于 标准词典(例如特定字典)中的词语的定义的数量。
根据一些替代实现,术语频率度量TFX可以如下确定
在式47中,α表示可以例如具有在0到1的范围内的值的权重因 子。在式45中,以未加权的方式使用识别置信度C.在一些实例中, 未加权的识别置信度C可能是非最优的,例如,如果假设词具有非常 高的识别置信度,但出现的频率较低。因此,添加权重因子α可能有 助于控制识别信心的重要性。可以看出,当α=1时,式47等同于式 45。然而,当α=0时,不使用识别置信度,并且可以根据分母中的项 的倒数确定术语频率度量。
在图25所示的示例中,主题分析模块525包括替代词语假设修剪 单元2506。当词语列表2508被创建时,系统通过对于相同的时间间 隔分析通过格子的替代路径来为每个词语标记一组替代词假设。
例如,如果会议参与者所说的实际词语是词pet,语音识别器可 能已经报告了put和pat作为替代词假设。对于实际的词语pet的第二 个实例,语音识别器可能已经报告了pat,pebble和parent作为替代 词假设。在这个例子中,在分析了与会议中所有话语对应的所有语音 识别格之后,用于词语pet的替代词假设的完整列表可以包括put,pat, pebble和parent。词语列表2508可以按照TFx的降序被排序。
在替代词假设修剪单元2506的一些实现中,可以从列表中去除在 列表中进一步在后(例如,具有较低TFx值)的替代词假设。删除的 替代词可以被添加到替代词假设列表2507中。例如,如果假设词pet 比其替代词假设具有更高的TFx,则替代词假设修剪单元2506可以从 词语列表2508中去除替代词假设pat,put,pebble和parent,并将替 代词假设pat,put,pebble和parent添加到替代词假设列表2507。
在该示例中,主题分析模块525至少临时地将替代词假设列表 2507存储在存储器中。替代词假设列表2507可以如其他地方所述地 通过多次迭代被输入到格子重评分单元2502。迭代次数可以根据具体 实现而变化,并且可以是例如在1到20的范围内。在一个具体实现中, 4次迭代产生令人满意的结果。
在一些实现中,词语列表2508可以在每次迭代开始时被删除,并 且可以在下一次迭代期间重新编译。根据一些实现,替代词假设列表 2507可以在每次迭代开始时不被删除,因此替代词假设列表2507的 尺寸可以随着迭代继续进行而增大。
在图25所示的示例中,主题分析模块525包括主题评分单元 2509。主题评分单元2509可以能够确定词语列表2508中的词语的主 题分数。
在一些示例中,主题分数可以至少部分地基于用于主题概括的本 体2510,例如本文别处讨论的词网(WordNet)本体。因此,在一些 实现中,产生主题列表可以涉及确定词语列表2508中的一个或多个词 语的至少一个上位词。这样的实现可以涉及至少部分地基于上位词分 数来确定主题分数。在一些实现中,上位词不需要已经被会议参与者 说出以便成为主题分数确定过程的一部分。
例如,“pet(宠物)”是“animal(动物)”的一个例子,它是 一类organism(有机体),它是一种living thing(生物)。因此,“动 物”这个词可能被认为是“pet”这个词的第一级上位词。“organism” 这个词可能被认为是“pet”这个词的第二级上位词以及是“animal”这个词的第一级上位词。“living thing”一词可能被认为是“pet”这 个词的第三级上位词,“animal”这个词的第二级上位词和“organism” 这个词的第一级上位词。
因此,如果词语“pet”位于词语列表2508上,则在某些实现中, 主题评分单元2509可能能够根据多个上位词“animal”,“organism” 和/或“living thing”中的一个或多个确定主题分数。根据一个这样 的示例,对于词语列表2508中的每个词语,主题评分单元2509可以 遍历上位词树的N级(这里例如N=2),将每个上位词添加到主题 列表2511(如果没有已经存在),并且将该词的术语频率度量加到与 上位词相关联的主题分数上。例如,如果“pet”在词语列表2508中 存在,术语频率度量为5,则pet,animal和organism将被添加到主题列表中,术语频率度量为5。如果animal也位于词语列表2508中, 术语频率度量为3,那么animal和organism的主题分数将被加3,总 主题分数为8,living thing将被添加到词语列表2508中,术语频率度 量为3。
根据一些实现,方法2400的至少一些过程的多次迭代可以包括生 成主题列表并确定主题分数的迭代。在一些这样的实现中,方法2400 的块2525可以包括至少部分地基于主题分数将替代词假设包含在替 代假设列表中。例如,在一些替代实现中,主题分析模块525可以能 够基于术语频率度量计算器2505的输出来进行主题评分。根据一些这 样的实现,除了替代词假设之外,替代词假设修剪单元2506还可执行 主题的替代假设修剪。
例如,假定主题分析模块525由于“pet(宠物)”的一个或多个 实例的术语频率度量为15,“dog(狗)”的实例的术语频率度量为5, “goldfish(金鱼)”的实例的术语频率度量为4,确定了“pet”的会 议主题。进一步假定在会议中某处可能会有“cat”的单个话语,但是实际说出的词语是否是“cat”,“mat”,“hat”,“catamaran”, “catenary”,“caterpillar”等则非常不明确。如果主题分析模块 525仅考虑了反馈循环中的词语频率,则词语列表2508将不会有助于 消除这些假设的歧义的过程,因为只有“cat”的一个可能话语。但是, 因为“cat”是“pet”的下位词,其利用其它说出的词语被标识为主 题,所以主题分析模块525可能会更好地消除“cat”的可能话语的歧 义。
在该示例中,主题分析模块525包括元数据处理单元2515。根据 一些实现,元数据处理单元2515可能能够产生至少部分地基于由主题 分析模块525接收的会议元数据210的偏向词列表2512。偏向词列表 2512可以例如能够包括可以用固定的术语频率度量直接插入到词语 列表2508中的词语列表。元数据处理单元2515例如可以从与会议的 主题或议题相关的先验信息(例如,从日历邀请,电子邮件等)中导 出偏向词列表2512。偏向词列表2512可能使得主题列表构建过程偏 向于更可能包含与会议的已知议题有关的主题。
在一些实现中,可以根据多种语言模型生成替代词假设。例如, 如果会议元数据将指示会议可能涉及法律和医疗问题,例如与基于由 于医疗程序而导致的患者伤害或死亡的诉讼对应的医疗事故问题,则 可以根据医疗和法律语言模型两者来生成替代词假设。
根据一些这样的实现,多个语言模型可以由ASR过程在内部内 插,使得在方法2400的块2405接收的语音识别结果数据和/或图25 中接收的语音识别格2501基于多种语言模型。在替代实现中,ASR 过程可以输出多组语音识别格,每组对应于不同的语言模型。可以为 每种类型的输入语音识别格生成主题列表2511。多个主题列表2511 可以根据所得到的主题分数被合并到单个主题列表2511中。
根据本文公开的一些实现,主题列表2511可以用于有助于回放会 议记录,搜索会议记录中的主题等的过程。根据一些这样的实现,主 题列表2511可以用于提供与一些或所有会议记录相对应的主题的“词 语云”。
包括图28A和28B的图28示出了包括用于整个会议记录的词语 云的用户界面的示例。用户界面606a可以在显示器上被提供,并且可 以用于浏览会议记录。例如,如上文参考图6所述,用户界面606a 可以在显示设备610的显示器上被提供。
在该示例中,用户界面606a包括会议记录的会议参与者的列表 2801。这里,用户界面606a以对应于会议参与者语音的时间间隔示出 波形625。
在该实现中,用户界面606a提供了用于整个会议记录的词语云 2802。主题列表2511中的主题可以在词语云2802中按主题频率的降 序(例如,从右到左)排列,直到没有其它空间可用(例如在给定最 小字体大小的情况下)。
根据一些这样的实现,每当用户调整缩放比率时,可以重新运行 用于词语云2802的主题布置算法。例如,用户可以能够与用户界面 606a交互(例如,经由触摸、手势、语音命令等)以便至少“放大” 或者扩大图形用户界面606的一部分,以示出比整个会议记录的时间 间隔更小的时间间隔。根据一些这样的示例,图6的回放控制模块605 可以访问可以由会话动态分析模块510先前输出的会话动态数据文件 515a-515n的不同实例,其与用户选定的时间间隔更接近地对应。
包括图29A和29B的图29示出了包括用于多个会议段中的每一 个的词语云的用户界面的示例。如前面的例子那样,用户界面606b 包括会议参与者的列表2801,并且以对应于会议参与者语音的时间间 隔示出波形625。
然而,在该实现中,用户界面606b为多个会议段1808A-1808J 中的每一个提供了词语云。根据一些这样的实现,会议段1808A-1808J 可以先前由分段单元确定,诸如上面参照图18B所描述的分段单元 1804。在一些实现中,主题分析模块525可以针对会议的每个段1808 被单独调用(例如,通过每次仅使用对应于来自一个段1808的话语的 语音识别格2501),对于每个段1808生成单独的主题列表2511。
在一些实现中,用于在词语云中渲染每个主题的文本的大小可以 与主题频率成比例。在图29A所示的实现中,例如,主题“kitten(小 猫)”和“newborn(新生儿)”的字体大小可以稍大于主题“large integer (大整数)”,这指示在段1808C中主题“kitten”和“newborn”比 主题“large integer”讨论得更多。然而,在一些实现中,主题的文本 大小可能受到显示词语云可用的区域,最小字体大小(可能是用户可 选择的)等约束。
图30是简述本文公开的一些回放控制方法的块的流程图。与本文 所述的其它方法一样,方法3000的块不一定按照所示的顺序执行。此 外,这样的方法可以包括比所示和/或描述的块更多或更少的块。
在一些实现中,方法3000可以至少部分地通过存储在非暂态介质 上的指令(例如,软件)来实现。这种非暂态介质为诸如本文所描述 的那些介质,包括但不限于随机存取存储器(RAM)设备,只读存储 器(ROM)设备等。在一些实现中,方法3000可以至少部分地通过 装置(诸如图3A所示的装置)来实现。根据一些这样的实现,方法 3000可以至少部分地由图6所示的回放系统609的一个或多个元件实 现,例如由回放控制模块605实现。
在该示例中,块3005涉及接收涉及多个会议参与者的会议的至少 一部分的会议记录和会议主题的主题列表。在一些实现中,如图6所 示,块3005可以包括由回放系统609接收诸如回放流401B-403B之 类的各个回放流。根据一些这样的实现,块3005可以涉及接收其他数 据,例如由图6的回放系统609接收的回放流索引401A-403A,分析 结果301C-303C,段和词语云数据309,搜索索引310和/或会议概述 信息311。因此,在一些示例中,块3005可以涉及接收包括会议段时 间间隔数据和会议段分类的会议段数据。
根据一些实现,块3005可以涉及经由接口系统接收会议记录和/ 或其他信息。接口系统可以包括网络接口,控制系统和存储系统之间 的接口,控制系统与另一设备之间的接口,和/或外部设备接口。
这里,块3010涉及提供用于控制显示器以展示被显示的用于会议 的至少一部分的会议主题的指令。在该示例中,展示包括与至少一些 会议主题对应的词语的图像,例如图28所示的词语云2802。在一些 实现中,回放控制模块605可以在块3010中提供这样的用于控制显示 器的指令。例如,块3010可以包括经由接口系统向诸如显示设备610 的显示设备提供这样的指令。
显示设备610可以例如是膝上型计算机,平板计算机,智能电话 或能够在显示器上提供包括所显示的会议主题的词语云的图形用户界 面的其它类型的设备,该图形用户界面诸如是图28的图形用户界面 606a或图29的图形用户界面606b。例如,显示设备610可以执行用 于根据来自回放控制模块605的指令提供图形用户界面的软件应用程 序或“app”,接收用户输入,将与所接收的用户输入对应的信息发 送到回放控制模块605等。
在一些实例中,由回放控制模块605接收的用户输入可以包括用 户(例如根据与“放大”或“缩小”命令相对应的用户输入)选择的 所选会议记录时间间隔的指示。响应于这样的用户输入,回放控制模 块605可以经由接口系统提供用于控制显示器以展示所显示的与所选 择的会议记录时间间隔对应的会议主题的指令。例如,回放控制模块 605可以选择会话动态数据文件(诸如被示出为由图5中的会话动态 分析模块510输出的会话动态数据文件515a-515e之一)的不同实例, 其最接近地对应于由用户选择的所选会议记录时间间隔,并向显示设 备610提供相应的指令。
如果块3005涉及接收会议段数据,则显示设备610可能能够控制 显示器以展示一个或多个会议段的指示,并且展示指示在该一个或多 个会议段中讨论的会议主题的所显示的会议主题,例如,如图29所示。 显示设备610可以能够控制显示器来展示与会议参与者语音的实例对 应的波形和/或与会议参与者对应的图像,诸如图28和29所示的那些。
在图30所示的示例中,块3015涉及接收由用户从所显示的会议 主题中选择的所选主题的指示。在一些示例中,块3015可以包括由回 放控制模块605和经由接口系统接收来自显示设备610的用户输入。 用户输入可已经经由用户与显示器的与所选主题相对应的部分的交互 被接收,例如来自触摸传感器系统的用户在所显示的词语云的与所选 主题对应的区域中的触摸的指示。另一个示例在图31中示出并在下面 描述。在一些实现中,如果用户使光标悬停在所显示的词语云中的特 定词语上,则可以回放与该词语关联的会议参与者语音的实例。在一 些实现中,会议参与者语音可以以重叠的方式在空间上渲染和/或回 放。
在图30所示的示例中,块3020涉及选择包括会议记录的包括所 选主题的一个或多个语音实例的回放音频数据。例如,块3020可以包 括选择与所选主题相对应的语音实例,以及在所选主题之前和/或之后 说出的至少一些词语,以便提供上下文。在一些这样的示例中,块3020 可以涉及选择包括所选主题的话语。
在一些实现中,块3020可以包括选择至少两个语音实例,包括由 至少两个会议参与者中的每一个发出的至少一个语音实例。该方法可 以包括将语音实例渲染到虚拟声学空间的至少两个不同的虚拟会议参 与者位置,以产生渲染的回放音频数据,或者访问包括所选主题的先 前渲染的语音的部分。根据一些实现,该方法可以包括调度语音实例 的至少一部分同时回放。
根据一些实现,块3015可以涉及接收由用户从多个会议参与者中 选择的所选会议参与者的指示。一个这样的例子在图32中示出并在下 面描述。在一些这样的实现中,块3020可以涉及选择包括会议记录的 一个或多个语音实例的回放音频数据,该一个或多个语音实例包括所 选会议参与者的关于所选主题的语音。
这里,块3025涉及提供回放音频数据以供在扬声器系统上回放。 例如,在块3025中,回放系统609可以经由接口系统向显示设备610 提供混合和渲染的回放音频数据。作为替代地,在块3025中,回放系 统609可以将回放音频数据直接提供给扬声器系统,诸如耳机607和/ 或扬声器阵列608。
图31示出了从词语云选择主题的示例。在一些实施方式中,显示 设备610可以在显示器上提供图形用户界面606c。在该示例中,用户 从词语云2802中选择了词语“pet(宠物)”,并将该词语的表示拖 到搜索窗口3105。作为响应,显示设备可以向回放控制模块605发送 所选主题“pet”的指示。因此,这是可以在图30的块3015中被接收 的“所选主题的指示”的示例。作为响应,显示设备610可以接收对 应于涉及宠物主题的一个或多个语音实例的回放音频数据。
图32示出了从词语云选择主题以及从会话参与者的列表中选择 会议参与者这两者的示例。如上所述,显示设备610可以在显示器上 提供图形用户界面606c。在该示例中,在用户从词语云2802中选择 了词语“pet”之后,用户将会议参与者Geogre Washington的表示拖 到搜索窗口3105。显示设备610可以将所选主题“pet”和会议参与 者GeogreWashington的指示发送到回放控制模块605。作为响应, 回放系统609可以向显示设备610发送与会议参与者Geogre Washington关于宠物主题的一个或多个语音实例对应的回放音频数 据。
在查看大量的电话会议记录,甚至长时间的电话会议的单个记录 时,手动定位所记得的电话会议的一部分可能是耗时的。先前已经描 述了一些系统,通过该系统,用户可以通过输入他或她希望定位的关 键词的文本来搜索语音记录中的关键词。这些关键词可以用于语音识 别系统产生的文本的搜索。结果列表可以在显示屏幕上被呈现给用户。
本文中公开的一些实现提供了用于呈现会议搜索结果的方法,可 以涉及以被设计为允许听众注意到他或她感兴趣的那些结果的方式、 非常快速地向用户播放会议记录的摘录(excerpt)。一些这样的实现 可以被定制用于存储器扩容。例如,一些这样的实现可以允许用户搜 索用户记得的会议(或多个会议)的一个或多个特征。一些实现可以 允许用户非常快速地查看搜索结果以找到用户正在寻找的一个或多个 特定实例。
一些这样的示例涉及空间渲染技术,例如将每个会议参与者的会 议参与者语音数据渲染到单独的虚拟会议参与者位置。如本文其他地 方详细描述的,一些这样的技术可以允许收听者快速地听到大量内容, 然后选择感兴趣的部分以供更详细和/或更慢的回放。一些实现可以涉 及例如根据一组感知激发规则引入或改变会议参与者语音的实例之间 的重叠。作为替代地或者附加地,一些实现可以涉及加速被回放的会 议参与者语音。因此,这样的实现可以利用选择注意力的人才,以确 保找到期望的搜索项,同时最小化搜索过程所需的时间。
因此,不是返回与用户的搜索项非常相关的一些结果并且要求用 户分别试听每个结果(例如,通过依次点击列表中的每个结果来进行 播放),一些这样的实现可以返回用户可以使用空间渲染和本文公开 的其他快速回放技术快速(例如,在几秒钟内)试听的许多搜索结果。 一些实现可以提供允许用户进一步研究(例如,以1:1回放速度的试 听)用户搜索结果的所选实例的用户界面。
然而,根据具体实现,这里公开的一些示例可以涉及或可以不涉 及空间渲染,引入或改变会议参与者语音的实例之间的重叠,或者加 速被回放的会议参与者语音。此外,一些公开的实现可以涉及除了内 容之外或作为内容的替代,搜索一个或多个会议的其他特征。例如, 除了在一个或多个电话会议中搜索特定词之外,一些实现还可以涉及 对会议记录的多个特征执行并发搜索。在一些示例中,特征可以包括 发言者的情感状态、发言者的身份、在说话时发生的会话动态的类型 (例如陈述,讨论,问答环节等)、端点地点,端点类型和/或其他特 征。
涉及多个特征的并发搜索(有时在本文中称为多维搜索)可以提 高搜索精度和效率。例如,如果用户只能执行关键词搜索,例如对于 会议中的“销售”一词,则用户可能必须在从会议找到用户可能会记 住的感兴趣的特定摘录之前收听许多结果。相比之下,如果用户要对 会议参与者Fred Jones所说的“销售”一词的示例执行多维搜索,那 么用户可能会减少在找到感兴趣的摘录之前用户需要查看的结果的数 量。
因此,一些公开的实现提供了如下的方法和设备,其用于高效地 指定用于一个或多个电话会议记录的多维搜索项,并且高效地查看搜 索结果以定位感兴趣的特定摘录。
图33是简述本文公开的某些主题分析方法的块的流程图。与本文 所述的其它方法一样,方法3300的块不一定按照所示的顺序执行。此 外,这样的方法可以包括比所示和/或描述的块更多或更少的块。
在一些实现中,方法3300可以至少部分地通过存储在非暂态介质 上的指令(例如,软件)来实现。这种非暂态介质为诸如本文所描述 的那些介质,包括但不限于随机存取存储器(RAM)设备,只读存储 器(ROM)设备等。在一些实现中,方法3300可以至少部分地由控 制系统实现,例如通过诸如图3A所示的装置的控制系统来实现。控 制系统可以包括通用单芯片或多芯片处理器,数字信号处理器(DSP), 专用集成电路(ASIC),现场可编程门阵列(FPGA)或其他可编程 逻辑器件,离散门或晶体管逻辑或离散硬件组件中的至少一个。根据 一些这样的实现,方法3300可以至少部分地由图6所示的回放系统 609的一个或多个元件实现,例如通过回放控制模块605来实现。
在该示例中,块3305涉及接收对应于涉及多个会议参与者的至少 一个会议的记录的音频数据。在该示例中,音频数据包括被分别记录 的来自多个端点的会议参与者语音数据,和/或来自对应于多个会议参 与者的单个端点的会议参与者语音数据,其包括多个会议参与者的每 个会议参与者的空间信息。
在图33所示的示例中,块3310涉及基于一个或多个搜索参数来 确定对音频数据的搜索的搜索结果。根据一些示例,确定搜索结果可 能涉及接收搜索结果。例如,在一些实现中,诸如图6所示的回放系 统609的回放系统的一个或多个元件可以执行方法3300的一些处理, 而诸如服务器的另一个设备可以执行方法3300的其他处理。根据一些 这样的实现,回放控制服务器650可以执行搜索,并且可以将搜索结 果提供给回放系统609,例如提供给回放控制模块605。
在其他示例中,在块3310中确定搜索结果可以涉及实际执行搜 索。例如,在一些这样的实现中,回放系统609可能能够执行搜索。 如下面更详细地描述的,回放系统609和/或另一设备可以能够根据用 户输入执行搜索,在一些示例中可以经由在显示设备上提供的图形用 户界面来接收该用户输入。
在一些实现中,块3310可以涉及对在块3305中接收的音频数据 的多个特征执行并发搜索。能够对音频数据的多个特征执行并发搜索 可以提供许多潜在的优点,部分地是因为会议参与者将常常记住特定 会议体验的许多不同方面。上面描述的一个例子涉及对于会议参与者 Fred Jones所说的“销售”一词的实例的多维搜索。在更详细的例子 中,会议参与者可能会记得Fred Jones在三个星期的时间间隔期间有 时进行陈述的同时提到“销售”。会议参与者可能已经能够从Fred Jones的声音的声调确定他对这个话题感到兴奋。会议参与者可能会 记得Fred Jones正在他在旧金山的办公室中戴上耳机进行交谈。这些 单独搜索功能中的每一个可能在使用本身时可能不是非常具体,但是 当它们组合在一起时,它们可能非常具体,并且可以提供非常集中的 搜索。
在一些示例中,特征可以包括词语,该词语可以根据关键词检索 索引从语音识别程序的内部语音识别格结构确定,其中的一些示例在 下面详细描述。这样的实现可以允许关于在会议中说出了哪些词语而 非常快速地搜索语音识别器提供的许多并发假设。作为替代地或者附 加地,搜索中使用的词语可以对应于从语音识别格确定的会议主题, 例如,通过使用上述的“词语云”方法。
本文公开了确定会议段的各种方法,其可以基于会话动态。在一 些实现中,多维搜索可以至少部分地基于搜索一个或多个类型的会议 段。
在一些实现中,多维搜索可以至少部分地基于会议参与者身份。 对于诸如移动电话或基于PC的软客户端的单方端点,一些实现可以 涉及从设备ID记录每个会议参与者的姓名。对于互联网协议电话 (VoIP)软客户端系统,用户经常被提示输入他或她的姓名进入会议。 这些姓名可能会被记录下来供将来参考。对于扬声器电话设备,可以 使用声纹分析来从被邀请参会的那些人中识别设备周围的每个发言者 (如果记录/分析系统例如基于会议邀请已经知晓受邀者列表)。一些 实现可以允许基于关于会议参与者身份的一般分类的搜索,例如,基 于会议参与者是美国英语的男性发言者这一事实的搜索。
在一些示例中,时间可能是可搜索的特征。例如,如果会议记录 与其开始和结束时间以及日期一起被存储,则一些实现可以允许用户 搜索在指定的日期和/或时间范围内的多个会议记录。
一些实现可以允许用户基于会议参与者的情感来搜索一个或多个 会议记录。例如,分析引擎307可以对音频数据执行一种或多种类型 的分析,以从音频记录确定会议参与者情绪特征(参见例如 Bachorowski,J.A。,&Owren,M.J.(2007).Voice expression ofemotion。Lewis,M.,Haviland-Jones,J.M.,&Barrett,L.F.(Eds.), The Handbook ofEmotion,3rd Edition.New York:Guilford,(印刷 中),其通过引用并入本文),例如兴奋、攻击性、或压力/认知负荷。 (参见例如Yap,Tet Fei.,Speech production undercognitive load: Effects and classification,Dissertation,The University of NewSouth Wales(2012),其通过引用并入本文)。在一些实现中,结果可以 被索引,被提供给回放系统609并且用作多维搜索的一部分。
在一些示例中,端点位置可以是可搜索的特征。例如,对于安装 在特定房间中的端点,可能先验地知道该位置。一些实现可以涉及基 于由车载GPS接收机提供的位置信息记录移动端点位置。在一些示例 中,可以基于端点的IP地址来定位VoIP客户端的位置。
一些实现可以允许用户基于端点类型搜索一个或多个会议记录。 如果会议记录标记了关于每个参与者使用的电话设备的类型的信息 (例如,电话的制作和/或模型,基于web的软客户端的用户代理字符 串,设备的类别(耳机,手机或扬声器电话)等),在一些实现中, 该信息可以被存储作为会议元数据,提供给回放系统609并用作多维 搜索的一部分。
在一些示例中,块3310可以涉及执行与多个会议的记录对应的音 频数据的搜索。下面介绍一些例子。
在该示例中,在块3310中确定的搜索结果对应于音频数据中的会 议参与者语音的至少两个实例。这里,会议参与者语音的至少两个实 例包括由第一会议参与者发出的至少第一语音实例和由第二会议参与 者发出的至少第二语音实例。
在该实现中,块3315涉及将会议参与者语音的实例渲染到虚拟声 学空间的至少两个不同的虚拟会议参与者位置,使得第一语音实例被 渲染给第一虚拟会议参与者位置,并且第二实例语音被渲染给第二虚 拟会议参与者位置。
根据一些这样的实现,回放系统的一个或多个元件,诸如回放系 统609的混合和渲染模块604,可以执行块3315的渲染操作。然而, 在一些实现中,块3315的渲染操作可以至少部分地由诸如图6所示的 渲染服务器660的其它设备来执行。
在一些示例中,是回放系统609还是其他设备(诸如渲染服务器 660)执行块3315的渲染操作可以至少部分地取决于渲染过程的复杂 性。例如,如果块3315的渲染操作涉及从一组预定虚拟会议参与者位 置中选择虚拟会议参与者位置,则块3315可能不涉及大量的计算开 销。根据一些这样的实现,块3315可以由回放系统609执行。
然而,在一些实现中,渲染操作可能更复杂。例如,一些实现可 以涉及分析音频数据以确定会话动态数据。会话动态数据可以包括指 示会议参与者语音的频率和持续时间的数据,指示会议参与者双讲话 (在其期间至少两个会议参与者同时发言)的实例的数据、和/或指示 会议参与者会话的实例的数据。
一些这样的示例可以涉及将会话动态数据应用作为如下向量的空 间优化成本函数的一个或多个变量,该向量描述了虚拟声学空间中的 每个会议参与者的虚拟会议参与者位置。一些实现可以涉及将优化技 术应用于空间优化成本函数以确定局部最优解,并至少部分地基于局 部最优解来在虚拟声学空间中分配虚拟会议参与者位置。
在一些这样的实现中,确定会话动态数据、将优化技术应用到空 间优化成本函数等可以由除回放系统609以外的模块(例如,由回放 控制服务器650)执行。在一些实现中,这些操作中的至少一些可以 先前已经例如由回放控制服务器650或由联合分析模块306执行。根 据一些这样的实现,块3315可以涉及接收这样的过程的输出,例如, 通过混合和渲染模块604接收被分配的虚拟会议参与者位置,并将会 议参与者语音的实例渲染到至少两个不同的虚拟会议参与者位置。
在图33所示的示例中,块3320涉及调度会议参与者语音的实例 的至少一部分以进行同时回放,以产生回放音频数据。在一些实现中, 调度可以包括至少部分地基于搜索相关性度量来调度会议参与者语音 的实例以进行回放。例如,不是根据例如会议参与者语音的每个实例 的开始时间来调度会议参与者语音以进行回放,一些这样的实现可以 涉及调度具有相对更高的搜索相关性度量的会议参与者语音,以便比 具有相对较低的搜索相关性度量的会议参与者语音更早地回放。下面 介绍一些例子。
根据一些实现,块3320可以涉及调度先前在时间上不重叠的会议 参与者语音的实例以在时间上重叠地回放,和/或调度先前在时间上重 叠的会议参与者语音的实例以在时间上进一步重叠地回放。在一些实 例中,可以根据例如如本文别处所公开的感知激发规则的集合来执行 这样的调度。
例如,感知激发规则的集合可以包括指示单个会议参与者的两个 讲话突发不应该在时间上重叠的规则,和/或指示如果两个讲话突发对 应于单个会话参与者端点则该两个讲话突发不应该在时间上重叠的规 则。在一些实现中,感知激发规则的集合可以包括如下规则,其中给 定两个连续的输入讲话突发A和B,A已经在B之前发生,对应于B 的输出讲话突发的回放可在对应于A的输出讲话突发的回放完成之前 开始,但是不会在对应于A的输出讲话突发的回放已开始之前开始。 在一些示例中,感知激发规则集合可以包括如下规则,该规则允许对 应于B的输出讲话突发的回放不早于在对应于A的输出讲话突发的回 放完成之前的时间T开始,其中T大于零。
根据一些实现,方法3300可以包括将回放音频数据提供给扬声器 系统。作为替代地或者附加地,方法3300可以包括将回放音频数据提 供给诸如图6的显示设备610的其他设备,其能够向扬声器系统(例 如,耳机607,耳塞,扬声器阵列608等)提供回放音频数据。
图34是示出搜索系统元件的示例的框图。在该实现中,搜索系统 3420包括搜索模块3421,扩展单元3425,合并单元3426和回放调度 单元3406。在一些实现中,搜索模块3421,扩展单元3425,合并单 元3426和/或回放调度单元3406可以至少部分地通过存储在非暂态介 质上的指令(例如,软件)来实现,这种非暂态介质为诸如本文所描 述的那些介质,包括但不限于随机存取存储器(RAM)设备,只读存 储器(ROM)设备等。在一些实现中,搜索模块3421,扩展单元3425, 合并单元3426和/或回放调度单元3406可以至少部分地被实现为控制 系统的元件,例如通过如图3A所示的装置的控制系统实现。控制系 统可以包括通用单芯片或多芯片处理器,数字信号处理器(DSP), 专用集成电路(ASIC),现场可编程门阵列(FPGA)或其他可编程 逻辑器件,离散门或晶体管逻辑或离散硬件组件中的至少一个。根据 一些实现,搜索模块3421,扩展单元3425,合并单元3426和/或回放 调度单元3406可以至少部分地由图6所示的回放系统609的一个或多 个元件来实现,例如通过回放控制模块605来实现。
在该示例中,搜索模块3421能够接收一个或多个搜索参数3422 并根据搜索索引3423执行搜索过程,以产生搜索结果列表3424。根 据一些实现,搜索索引3423可以相当于由图5的关键词检索和索引模 块505输出的搜索索引310。下面提供了搜索索引的额外示例。在一 些实现中,搜索过程可以是多阶段搜索过程,例如,如下所述。
在一些示例中,搜索模块3421能够执行常规的“关键词检索”功 能,诸如D.Can和M.Maraclar,“Lattice Indexing for Spoken Term Detection”,IEEE TRANSACTIONS ONAUDIO,SPEECH,AND LANGUAGE PROCESSING,Vol.19,No.8,November 2011(“格索 引出版物”),其通过引入而并入本文。作为替代地或者附加地,搜 索模块3421可以执行涉及多个特征的多维搜索。这样的特征可以包括 词语,会议段,时间,会议参与者情绪,端点位置和/或端点类型。本 文提供了各种示例。
在图34中,搜索模块3421被示出为接收可以从用户输入导出的 搜索参数3422的列表。在一个示例中,如果用户输入pet animal(宠 物动物),搜索参数将包括pet(宠物)和animal(动物),这意味 着用户想要找到词语pet或词语animal的实例。搜索系统领域的普通 技术人员已知的这些和/或其他搜索定义和过程可以由搜索模块3421 实现。例如,“sanfrancisco”在双引号中输入的情况下可作为双连词 被搜索,并且可以对应于参数列表3422的单个条目。因此,搜索模块 3421可以采用搜索参数的交集,而不是并集。在一些实现中,搜索参 数可以包括其他类型的特征,例如,指示搜索应当被限制到特定类型 的会议段、特定会议的语音、特定日期或日期范围等的搜索参数。
搜索索引3423可以允许搜索参数3422与在一个或多个会议记录 中找到的相应参数进行高速匹配。在一些示例中,搜索索引3423可以 允许搜索模块3421实现有限状态转换机方法,诸如在格索引出版物中 描述的方法。在一些实现中,搜索索引3423可以具有更简单的搜索索 引数据结构,诸如散列表或二叉树的结构。对于搜索模块3421实现“关 键词搜索”搜索的实现,搜索索引3423可以允许用户从输入语音识别 格中找到描述对于会议中检测到的每个话语的语音识别引擎的假设的 词语。对于其中搜索模块3421实现如本文所公开的多维搜索的实现, 搜索索引还可以提供加速的找到诸如会议段的其他特征的方式。
在该示例中,搜索结果3424可以包括被假设为与搜索参数相关的 会议摘录的列表。会议摘录可以包括与被包括在搜索参数中的一个或 多个词语对应的会议参与者语音的实例。例如,搜索结果3424可以包 括假设词的列表、以及所估计的每个假设词的词语识别置信度分数。 在一些实现中,列表上的每个条目可以包括端点标识符,摘录的开始 时间(例如,相对于会议开始时间)和摘录的结束时间。如果搜索索 引包含多个会议,则列表中的每个条目可以包括会议标识符。
在一些实现中,词语识别置信度分数可以与搜索相关性度量相对 应。然而,一些实现可以涉及其他类型的相关性评估,例如,如上文 参考会议主题确定和词语云生成实现所描述的。在一些实施例中,相 关性度量可以被限制在从0到1的范围内。在其他实施例中,相关性 度量可以被限制在不同的数值范围内。例如,相关性度量可以采取对 数成本的形式,其可以类似于上面的成本CA和CL。在其他示例中, 相关性度量可以是无约束的量,其可仅对于比较两个结果是有用的。 在一些示例中,搜索结果3424可以按相关性降序排列。回放调度单元 3406可以调度最相关的结果被首先回放。
在一些实现中,搜索系统3420能够修改包括在搜索结果3424中 的会议参与者语音的实例中的一个或多个的开始时间或结束时间。在 该示例中,扩展单元3425能够扩展对应于会议参与者语音的实例的时 间间隔,从而提供更多的上下文。例如,如果用户正在搜索词语“pet”, 则扩展单元3425可能能够确保词语“pet”之前和之后的某些词语被 包括在会议参与者语音的相应实例中。不是仅指示词语“pet”,而是 所得到的会议参与者语音的实例例如可能包括诸如“I don’t have many pets(我没有很多宠物)”,“I have a petdog named Leo(我 有一只名叫Leo的宠物狗)”等上下文词语。因此,收听会议参与者 语音的这种实例的用户可以更好地能够确定哪些实例相对更有可能或 相对更不可能是感兴趣的,并且可以更准确地决定哪些实例值得更详 细地收听。
在一些实现中,扩展单元3425可以在摘录的开始时间不能早于包 含它的讲话突发的开始时间的约束下,从会议参与者语音的实例的开 始时间减去固定偏移量(例如2秒)。在一些实现中,扩展单元3425 可以在摘录的结束时间不能晚于包含它的讲话突发的结束时间的约束 下,向会议参与者语音的实例的结束时间加上固定偏移量(例如2秒)。
在该实现中,搜索系统3420包括合并单元3426,该合并单元3426 能够合并在扩展后在时间上重叠的与单个会议端点对应的会议参与者 语音的两个或更多个实例。因此,合并单元3426可以确保在查看搜索 结果时会议参与者语音的同一实例不会被多次听到。在一些示例中, 当会议参与者语音的实例被合并时,合并后的结果被分配合并的实例 的所有输入相关性分数中的最高分(最相关)。
在该示例中,合并单元3426产生的修改后的搜索结果列表形成输 入到回放调度器3406的输入讲话突发3401的列表。在一些实现中, 输入讲话突发3401的列表可相当于上文参考图13所述的会议段 1301。
在该实现中,回放调度单元3406能够调度会议参与者语音的实例 进行回放。在某些实现中,回放调度单元3406能够调度具有相对更高 的搜索相关性度量的会议参与者语音的实例,以比具有相对较低的搜 索相关性度量的会议参与者语音的实例更早地回放。
根据一些示例,回放调度单元3406可能能够提供与上文参考图 13描述的回放调度器1306类似的功能。类似地,在一些实现中,回 放安排3411可以与上文参考图13描述的输出回放安排1311相当。因 此,回放调度部3406可以能够调度先前在时间上未重叠的会议参与者 语音的实例以在时间上重叠地回放,和/或调度先前在时间上重叠的会 议参与者语音的实例以在时间上进一步重叠地回放。在一些实例中, 可以根据例如如本文别处所公开的一组感知激发的规则来执行这样的 调度。
图35示出了回放调度单元,合并单元和回放调度单元功能的示 例。在该示例中,搜索结果3424的搜索结果部分3501被示出为具有 按输入时间排列的会议参与者语音的实例3507A-3510A。这些实例实 际上在此示例中按照相关性降序被排序,如搜索结果3424中所示,每 个实例被示出具有相应的搜索相关性度量。在此示例中,搜索相关性 度量的值为从0到10。这里,底层搜索涉及单个会议记录,并且端点 3501A和350BB是同一会议内的搜索模块3421对于其已经返回结果 的两个不同示例性端点。
在该实现中,搜索结果部分3501包括会议的讲话突发 3504-3506。在该示例中,在端点3501A处发出讲话突发3504和3506, 并且在端点350B发出讲话突发3505。
在该示例中,会议参与者语音的实例3507A是在端点3501A处发 出的讲话突发3504(例如,一个句子)的一部分(例如一个词)。会 议参与者语音的实例3507A的搜索相关性度量为2。这里,会议参与 者语音的实例3508A是在端点3501B处发出的讲话突发3505的一部 分。会议参与者语音的实例3508A的搜索相关性度量为10。会议参与 者语音的实例3509A和3510A是在端点3501A处发出的讲话突发3506 的不同部分(例如,句子中的词语的两个不同实例)。会议参与者语 音的实例3509A和3510A的搜索相关性度量分别为7和8。
在该示例中,搜索结果部分3501还示出了在扩展之后,例如在由 图34的扩展单元3425处理之后,的会议参与者语音的实例。在该示 例中,示出了会议参与者语音3507B-3510B的扩展实例。开始时间和 结束时间已经被扩展,同时确保所得到的经扩展的会议参与者语音的 实例3507B-3510B没有延伸超出其对应的讲话突发(例如,经扩展的 会议参与者语音的实例3507B不会讲话突发3504的开始时间之前开 始)。
块3502示出了在扩展和合并之后的修改的示例搜索结果,为了清 楚起见在输入时间中示出。会议参与者语音的实例实际上按相关性降 序排序,如修改的搜索结果列表3512所示。在该示例中,从扩展和合 并过程输出会议参与者语音的实例3507C,3508C和3510C。这里, 实例3507C与实例3507B相同,因为扩展后没有发生合并。同样,在 此示例中,实例3508C与实例3507C相同,因为扩展后没有发生合并。 然而,实例3509B和3510B已经合并在一起,以形成实例3510C。这 里,实例3509B和3510B已被合并,因为这两个会议参与者语音实例 来自相同的端点并且在时间上重叠。在该示例中,两个搜索相关性度 量中的较高者(8)被分配给所得到的实例3510C。
在该示例中,块3503示出了在回放调度处理之后得到的输出回放 安排3411的一部分。由于搜索结果3511和经修改的搜索结果3512 按照相关性降序排序,所以会议参与者语音的实例3507D,3508D和 3510D在输出时间上被调度以使得听众按相关性的降序听到输出。在 该示例中,会议参与者语音的实例3507D,3508D和3510D中的每一 个被调度为以比会议参与者语音的输入实例3507C,3508C和3510C 更高的速率回放,因此相应的时间间隔被缩短。
此外,在该示例中,已经在会议参与者语音的实例3508D和3510D 之间引入了重叠。在该示例中,实例3510D被调度为在实例3508D被 调度完成之前开始。这可以根据允许来自不同端点的会议参与者语音 的实例的这种重叠的感知激发规则被许可。在该示例中,实例3507D 被调度为在实例3508D被调度完成时开始,以便消除居间时间间隔。 但是,实例3507D没有被调度为在实例3508D调度完成之前开始,这 是因为两个实例都来自同一端点。
本文公开的各种实现涉及提供用于控制显示器以提供图形用户界 面的指令。一些这样的方法可以包括接收对应于用户与图形用户界面 的交互的输入,并且至少部分地基于该输入来处理音频数据。在一些 示例中,输入可以对应于用于执行音频数据的搜索的一个或多个参数 和/或特征。
根据一些这样的实现,用于控制显示器的指令可以包括用于进行 会议参与者的展示的指令。用于执行搜索的一个或多个参数和/或特征 可以包括会议参与者的指示。在一些示例中,用于控制显示器的指令 可以包括用于进行会议段的展示的指令。用于执行搜索的一个或多个 参数和/或特征可以包括会议段的指示。根据一些实现,用于控制显示 器的指令可以包括用于展示搜索特征的显示区域的指令。用于执行搜 索的一个或多个参数和/或特征可以包括词语,时间,会议参与者情绪, 端点位置和/或端点类型。本文公开了各种示例。
图36示出了可以用于实现本公开的一些方面的图形用户界面的 示例。在一些实现中,用户界面606d可以至少部分地基于由诸如图6 所示的回放系统609的回放系统提供的信息而被呈现在显示器上。根 据一些这样的实现,用户界面606d可以被呈现在诸如图6所示的显示 设备610的显示设备的显示器上。
在该实现中,用户界面606d包括会议参与者的列表2801。在此 示例中,会议参与者的列表2801对应于多个单方端点,并且指示每个 相应的会议参与者的姓名和图片。在该示例中,用户界面606d包括波 形显示区域3601,该波形显示区域3601示出用于每个会议参与者的 时间上的语音波形625。在该实现中,波形显示区域3601的时间尺度 由波形显示区域3601内的垂直线指示,并且与会议记录的时间尺度相 对应。该时间尺度在本文中可以称为“输入时间”。
这里,用户界面606d还指示会议段1808K和1808L,它们分别 对应于问答段和讨论段。在该示例中,用户界面606d还包括播放模式 控件3608,用户可以在线性(输入时间)回放和非线性(调度的输出 时间)回放之间切换。当回放被调度的输出时,在该实现中,点击回 放模式控件3608允许用户更详细地查看结果(例如,以较慢的速度, 具有附加的上下文)。
这里,用户界面606d包括允许用户播放,暂停,倒带或快进内容 的传输控件3609。在该示例中,用户界面606d还包括各种量过滤器 3610,其控制返回的搜索结果的数量。在该示例中,量过滤器3610 上指示的点越多,可能返回的搜索结果的数量越大。
在该实现中,用户界面606d包括搜索窗口3105和用于输入搜索 参数的文本字段3602。在一些示例中,用户可以将一个或多个显示的 特征(例如会议段或会议参与者)“拖”到搜索窗口3105中和/或在 文本字段3602中键入文本,以便指示该特征应被用于会议记录的搜 索。在该示例中,搜索窗口3105的框3605指示用户已经发起了针对 关键词“Portland”的实例的基于文本的搜索。
在该示例中,用户界面606d还包括调度输出区域3604,其在此 示例中具有输出时间(在本文中也称为“回放时间”)中的时间尺度。 这里,线3606表示当前回放时间。因此,在该示例中,已经回放了会 议参与者语音的实例3604A和3604B(分别具有最高和第二高搜索相 关性度量)。在该实现中,调度输出区域3604中的会议参与者语音的 实例3604A和3604B对应于波形显示区域3601中所示的会议参与者 语音的实例3601A和3601B。
在该示例中,当前正在回放会议参与者语音的实例3604C和 3604D。这里,会议参与者语音的实例3604C和3604D对应于波形显 示区域3601中所示的会议参与者语音的实例3601C和3601D。在该 实现中,会议参与者语音的实例3604E和3604F尚未被回放。在该示 例中,会议参与者语音的实例3604E和3604F对应于波形显示区域 3601中所示的会议参与者语音的实例3601E和3601F。
在该示例中,会议参与者语音的实例3604A和3604B以及会议参 与者语音的实例3604C和3604D被调度为在回放期间在时间上重叠。 据一些实现,这根据如下的感知激发规则是可以接受的,该规则指示 单个会议参与者或单个端点的两个讲话突发不应该在时间上重叠,但 是该规则允许其它方式的重叠回放。然而,由于会议参与者语音的实 例3604E和3604F来自同一端点和同一会话参与者,所以会议参与者 语音的实例3604E和3604F没有被调度为重叠回放。
图37示出了用于多维会议搜索的图形用户界面的示例。如图36 所示的例子,框3605指示至少部分地基于对关键词“Portland”的搜 索的用户对会议搜索的选择。然而,在该示例中,用户还将块3705a 和3705b拖到搜索窗口3105中。块3705a对应于会议参与者Abigail Adams,并且块3705b对应于Q&A会议段。因此,已经对于在Q& A会议段期间由会议参与者Abigail Adams所说的词语“Portland” 的实例执行了多维会议搜索。
在该示例中,多维会议搜索已经返回了会议参与者语音的单个实 例。该实例在波形显示区域3601中被示出为会议参与者语音的实例 3601G,并且在调度输出区域3604中被示出为会议参与者语音的实例 3604G。
图38A示出了上下文增强语音识别格的示例部分。图38B和38C 示出了可以通过使用如图38A所示的上下文增强语音识别格作为输入 而生成的关键词检索索引数据结构的示例。例如,对于关键词检索索 引3860a和3860b被示出的数据结构的示例可以用于实现涉及多个会 议和/或多种类型的上下文信息的搜索。在一些实现中,关键词检索索 引3860可以由图5所示的关键词检索和索引模块505输出,例如通过 使用语音识别处理的结果(例如,语音识别结果401F-405F)作为输 入。因此,关键词检索索引3860a和3860b可以是搜索索引310的实 例。在一些示例中,上下文增强的语音识别格3850可以是由图4所示 的自动语音识别模块405输出的语音识别结果的实例。在一些实现中, 可以由大词汇量连续语音识别(LVCSR)过程基于加权有限状态转换 器(WFST)来生成上下文增强的语音识别格3850。
在图38A中,上下文增强的语音识别格3850的时间参考时间线 3801被指示。图38所示的弧链接了上下文增强的语音识别格3850的 节点或“状态”。例如,弧3807c链接两个状态3806和3808。如时 间线3801中所示,开始时间3820和结束时间3822对应于弧3807c 的时间跨度3809。
在一些示例中,上下文增强的语音识别格3850可以包括用于每个 弧的格式为“输入:输出/权重”的信息。在一些示例中,输入项可以 对应于状态标识信息,如由用于弧3807b的状态标识数据3802所示。 在一些实现中,状态标识数据3802可以是上下文相关的隐马尔可夫模 型状态ID。输出项可以对应于词语标识信息,如由用于弧3807b的词 语标识数据3803所示。在该示例中,“权重”项包括如本文其他地方 所描述的词语识别置信度分数,其示例是弧3807b的分数3804。
在该示例中,上下文增强的语音识别格3850的权重项还包括上下 文信息,其示例是对于弧3807b示出的上下文信息3805。在会议期间, 无论是面对面会议还是电话会议,及除了所说的词语和短语之外,会 议参与者还可以观察和回忆上下文信息。在一些示例中,上下文信息 3805可以例如包括从前端声学分析获得的音频场景信息。可以按不同 的时间粒度以及通过各种模块来检索上下文信息3805。一些例子如下 表所示:
| 上下文信息 | 时间粒度 | 模块 |
| 端点类型 | 会议 | 系统硬件 |
| 发言者 | 会议 | 发言者标识 |
| 性别 | 会议 | 性别标识 |
| 位置 | 会议 | 车载GPS接收机,IP |
| 会议段 | 段 | 分段单元1804 |
| 情绪 | 段 | 分析引擎307 |
| 可视线索 | 段 | 视频及屏幕分析器 |
| 距离 | 帧 | 音频场景分析 |
| 角度 | 帧 | 音频场景分析 |
| 扩散 | 帧 | 音频场景分析 |
| 信噪比 | 帧 | 前端处理 |
表1
在一些实现中,对于每个弧,不仅可以存储分数3804,而且可以 存储上下文信息3805,例如以包含多个条目的“元组”的形式。可以 基于相应时间跨度内的分数和上下文信息来分配值。在一些这样的实 现中,可以针对整个会议或多个会议收集这样的数据。这些数据可以 输入到统计分析中,以便获得诸如上下文分布之类的因素的先验知识。 在一些示例中,这些上下文特征可以被归一化和聚集,并且可以通过 矢量量化(VQ)过程对结果进行编码。
图38B和38C中示出了关键词检索索引3860的数据结构的两个 示例。在这两个示例中,用于上下文增强的语音识别格的每个弧的状 态标识数据3802/词语标识数据3803对已经被变换为用于对应的关键 词检索索引的每个弧的词语标识数据3803/词语标识数据3803A对。 图38B和38C各自示出了关键词检索索引的非常小部分:在这些示例 中,这些部分可以用于标记3元模型。
在第一个例子中,如图38B所示,词语标识数据3803/词语标识 数据3803A对被包括在对应的弧3830a-3832a中示出的对应的索引单 元3810a-3810c的词语身份字段3812a-3812c中。在该示例中,分数 3804,开始时间3820,结束时间3822和量化的上下文信息(本示例 中为VQ索引3825a)存储在多维权重字段3813中。VQ索引有时在 本文中称为“VQ ID”。该结构(在本文中可被称为“类型I”数据结 构)具有至少三个潜在的优点。首先,将多维上下文信息变换为一维 VQ索引3825a,这可以减少存储关键词检索索引3860所需的存储空 间量。其次,索引结构可以与词语身份字段3812a-3812c中的输入和 输出项一起存储,而不是例如词语和位置项。词语身份字段 3812a-3812c的这个特征具有降低搜索复杂度的潜在优点。第三个优点 是这种类型的数据结构(以及图38C中所示的“类型2”数据结构) 有助于包括多个会议的记录的搜索和/或可涉及对于多种类型的上下 文信息的并发搜索的搜索。
类型1数据结构的一个潜在缺点是在一些示例中,用于搜索词语 的附加后过滤处理之后可以是通过VQ索引过滤合格场景的过程。换 句话说,基于具有类型1数据结构的关键词检索索引3860a的搜索可 以是两阶段处理。第一阶段可以包括例如根据搜索查询的时间参数(例 如开始时间和结束时间信息)来确定所希望的用于搜索的会议。第二 阶段可以涉及根据其他搜索参数(可能包括基于上下文的查询)来检 索搜索结果。
图38C所示的类型2数据结构可以有助于更快的搜索。在该示例 中,索引单元3811a-3811c包括相应的词语和VQ字段3814a-3814c, 其包含词语/VQ元组。在该示例中,词语和VQ字段3814a-3814c包 括包含词语标识数据3803和对应的VQ索引3825b的第一词语/VQ 元组,以及包含词语标识数据3803A和相应的VQ指数3825c的第一 词语/VQ元组。
在该实现中,索引单元3811a-3811c中的每一个包括权重和时间 字段3815,其包括分数3804,开始时间3820和结束时间3822。具有 类型2数据结构的关键词检索索引3860b可以提供比具有类型1数据 结构的关键词检索索引3860a更快的搜索。然而,具有类型2数据结 构的关键词检索索引3860b可能需要比具有类型1数据结构的关键词 检索索引3860a更多的存储空间。
图39显示了被聚集的上下文特征的示例。此示例示出了两个显著 上下文特征,设备类型和位置之间的关系。在本例中,竖轴表示位置, 外部位置对应于“设备”轴下方的区域,而内部位置对应于设备轴下 方区域。设备轴指示与移动设备、耳机,笔记本电脑和空间捕获设备 (例如,空间会议电话)相对应的区域。在图39中,集群3901对应 于在室内位置使用耳机的会议参与者,而集群3902和3905分别对应 于使用笔记本电脑的室内和室外会议参与者。这里,集群3903对应于 使用空间会议电话的室内会议参与者,而集群3904对应于使用移动设 备的室外会议参与者。
在一些实现中,可以在上下文索引的过程期间去除时间信息,这 部分地是因为时间是连续的特殊上下文维度。此外,构建包括全局时 间戳的大索引(例如,包括用于许多会议的音频数据)可能是有挑战 性的。随着附加的会议被记录而对应的音频数据被处理,使用全局时 间重建先前的索引可能是不可行的,因为该过程将为每个额外的会议 记录引入额外的计算。
图40是示出基于时间的分层索引的示例的框图。图40示出了分 层索引4000,其中每个会议记录具有会议索引4001。在一天中可能存 在多个会议记录,因此针对单个日索引4002指示多个会议索引4001。 同样地,对于单个周指数4003指示多个日索引4002,并且针对单个 月索引4004指示多个周索引4003。一些实现可以包括额外的层次级 别,例如年索引,更少的层次级别和/或不同的层次级别。
如图40所示,每当分层索引4000的任何层级的时间间隔结束时, 相应的索引被建立,其将被全局时间戳散列表4005弄乱。例如,在每 次会议结束时,在分层索引4000的最低层建立会议索引4001。例如, 如果在特定一天中存在三个会议,则可以通过组合对于该三个会议中 的每一个的关键词检索索引来创建对应的日索引4002。在该周末,可 以产生周索引4003。可以在月底创建月索引4004。根据一些实现,开 始和结束时间可以全局时间戳散列表4005以层级结构来保持。例如, 高级时间戳散列表条目(例如,对于周索引4003)可以包括指向一个 或多个低级索引(例如,日索引4002)中的每一个的指针。通过包含 在每层中的相互关联的时间上下文信息,分层索引4000可以有助于跨 多个会议记录的快速搜索。
图41是示出上下文关键词搜索的示例的框图。在一些实现中,参 考图41描述的处理可以至少部分地由诸如图34所示的搜索模块3421 的并且如上所述的搜索模块来执行。在该示例中,接收到的查询4101 被分成词语分量4103,时间分量4102和上下文分量4104。在一些实 例中,词语分量4103可以包括一个或多个词语或短语。上下文分量 4104可以包括一种或多种类型的上下文信息,包括但不限于上述表1 所示的示例。
在一些示例中,时间分量4102可以指示对应于单个会议的时间信 息,而在其他示例中,时间分量4102可以指示对应于多个会议的时间 信息。在该示例中,时间分量4102的时间信息被用于通过全局时间戳 散列表4005(例如上文参照图40所述)对相应的索引进行过滤的过 程(如图41中的过程4105所示)。下面参考图42描述过程4105的 示例。
在该示例中,将根据上下文分量4104中的信息来确定上下文索 引。基于上下文索引,可以经由VQ码本4106搜索上下文输入以检索 一组合格候选上下文VQ ID 4107。在一些实现中,一个或多个约束(例 如距离限制(例如,欧几里德距离))可以应用于上下文输入搜索。
在该示例中,依赖于关键词检索索引数据结构(其可以是图38 所示的类型1或类型2数据结构),可能存在不同类型的上下文索引 单元。用于类型1数据结构的上下文索引单元可以具有基于词语的因 子转换器索引,其与类型1数据结构的词语身份字段3812的数据结构 相对应。因此,基于词语的因子转换器索引可以用于类型1上下文索 引4109。用于类型2数据结构的上下文索引单元可以具有基于(词语, VQ ID)元组的因子转换器索引,其对应于词语的数据结构和类型2 数据结构的VQ字段3814。因此,对于类型2上下文索引4108可使 用基于(词语,VQ ID)元组的因子转换器索引。在一些实现中,检 索过程可以涉及有限状态传感器复合操作。
图42示出了自顶向下基于时间戳的散列搜索的示例。图42所示 的示例可以是上文在图41的讨论中提及的过程4105的实例。在图42 中,层级结构的每个级别对应于和(St,Ed)时间戳元组对应的不同 时间间隔,(St,Ed)时间戳元组对应于开始时间和结束时间。每个 块还包括指向处于不同级别的一个或多个块的指针“Pt”。在此示例 中,级别4210是层级结构的最高级别。
在该实现中,级别4210的每个块对应于1个月的时间间隔,而级 别4220的每个块对应于1天的时间间隔。因此,可以看出,图42中 的块的宽度不是准确地表示对应的时间间隔。级别4230的块对应于该 示例中的各个会议。在一些这样的示例中,级别4230中的块的时间间 隔可以根据每个会议的时间间隔而变化。在该示例中,如果查询的时 间间隔(例如,如由接收到的查询4101的时间分量4102指示)不能 跨越更高级别块的整个时间间隔,则搜索将转到较低的级别,以检索 具有更详细的时间分辨率的相应的索引。
例如,假设接收到的查询4101将包括时间分量4102,其对应于 在从2014年10月1日至2014年11月2日的时间间隔内在太平洋标 准时间下午2点举行的会议。在该示例中,块4201对应于2014年10 月,并且块4202对应于2014年11月。因此,块4201的时间间隔将 被接收到的查询4101的时间间隔完全涵盖。然而,块4202的时间间 隔将不会被接收到的查询4101的时间间隔完全涵盖。
因此,在该示例中,搜索引擎(例如,搜索模块3421)将该值提 取到用于块4202的散列密钥,以获得指向较低级索引的指针Pt,该 较低级索引在该实现中为级别4220。在该示例中,块4203对应于2104 年11月1日,并且块4204对应于2014年11月2日。因此,块4203的时间间隔将被接收到的查询4101的时间间隔完全涵盖,但是块4204 的时间间隔将不会被接收到的查询4101的时间间隔完全涵盖。
因此,在该示例中,搜索引擎将该值提取到块4204的散列密钥, 以获得指向较低级索引的指针Pt,该较低级索引在该实现中是级别 4230。在该示例中,2014年11月2日的前两次会议(对应于块4205 和4206)的时间间隔被接收到的查询4101的时间间隔完全涵盖。在 这种实例中,2014年11月2日的第三次会议的时间间隔(对应于块 4207)是从下午1点至3点,并且因此不会被接收到的查询4101的时 间间隔完全涵盖。然而,由于在此示例中,层级结构的最低级别对应 于各个会议,所以对应于框4207的索引仍将被利用。然后,将使用全 部选择的索引作为可在对其执行关键词检索的索引(类型1上下文索 引4109或类型2上下文索引4108)数据库。
如上所述,在一些实现中,检索过程可以涉及有限状态转换器复 合操作。根据一些这样的示例,在获得结果之后,可以检索来自每个 因子换能器弧的重量分量(例如,从索引单元3810的多维权重字段 3813或从索引单元3811的权重和时间字段3815)。如图41所示,一 些示例可以包括附加的后过滤过程4110,其用于基于类型1上下文索 引的检索,以通过选择具有合格上下文ID的结果来过滤合格上下文。 当使用基于类型2上下文索引的检索时,后过滤过程不是必需的,因 此检索速度可能更快。
与会议搜索有关的上述实现中的许多实现对于会议参与者的后续 查看特别有用。现在将描述对于没有参加会议的人,例如对于无法参 加的人员,尤其有用的各种实现。例如,查看会议记录的人可能希望 获得会议的高级概述,以尽可能快地确定是否有可能讨论了听众感兴 趣的任何材料。如果是这样,可能需要对会议录音(或至少其部分) 进行更全面的查看。如果没有,不需要进一步查看。例如,听众可能 希望确定谁参加了会议,讨论了哪些主题,谁做了大部分的发言等。
因此,一些实现可能涉及仅选择总会议参与者语音的一部分以进 行回放。“部分”可以包括会议参与者语音的一个或多个实例,例如 一个或多个讲话突发和/或讲话突发的摘录。在一些示例中,选择过程 可以涉及主题选择过程,讲话突发过滤处理和/或声学特征选择过程。 一些示例可以涉及接收目标回放持续时间的指示。选择音频数据的部 分可以包括使回放音频数据的持续时间在目标回放持续时间的阈值时 间差之内。在一些示例中,选择过程可以包括仅保留一些讲话突发的 一小部分和/或去除短的讲话突发,例如具有低于阈值持续时间的持续 时间的讲话突发。
图43是简述仅选择会议参与者语音的一部分以进行回放的方法 的框图。与本文所述的其它方法一样,方法4300的块不一定按照所示 的顺序执行。此外,这样的方法可以包括比所示和/或描述的块更多或 更少的块。
在一些实现中,方法4300可以至少部分地通过存储在非暂态介质 上的指令(例如,软件)来实现,这种非暂态介质为诸如本文所描述 的那些介质,包括但不限于随机存取存储器(RAM)设备,只读存储 器(ROM)设备等。在一些实现中,方法4300可以至少部分地由控 制系统实现,例如由诸如图3A所示的装置的控制系统来实现。控制 系统可以包括通用单芯片或多芯片处理器,数字信号处理器(DSP), 专用集成电路(ASIC),现场可编程门阵列(FPGA)或其他可编程 逻辑器件,离散门或晶体管逻辑或离散硬件组件中的至少一个。根据一些这样的实现,方法4300可以至少部分地由图6所示的回放系统 609的一个或多个元件实现,例如由回放控制模块605实现。作为替 代地或者附加地,方法4300可以至少部分地由一个或多个服务器来实 现。
在该示例中,块4305涉及接收对应于会议记录的音频数据。在该 示例中,音频数据包括对应于多个会议参与者中的每一个的会议参与 者语音的数据。
在图43所示的示例中,块4310涉及仅选择会议参与者语音的一 部分作为回放音频数据。在一些实现中,图6所示的回放系统609的 一个或多个元件(诸如回放控制模块605)可以执行块4310的选择过 程。然而,在一些实现中,诸如服务器的另一设备可以执行块4310 的选择过程。根据一些这样的实现,回放控制服务器650可以至少部 分地执行块4310的选择处理。在一些这样的示例中,回放控制服务器 650可以将选择处理的结果提供给回放系统609,例如提供给回放控制 模块605。
在该示例中,块4310涉及以下一个或多个:(a)主题选择过程, 其根据所估计的会议参与语音与一个或多个会议主题的相关性来选择 会议参与语音以供回放;(b)主题选择过程,其根据所估计的会议参 与语音与会议段的一个或多个主题的相关性,选择会议参与者语音以 供回放;(c)去除具有低于阈值输入讲话突发持续时间的输入讲话突 发持续时间的输入讲话突发;(d)讲话突发过滤过程,去除具有等于 或高于阈值输入讲话突发持续时间的输入讲话突发持续时间的输入讲 话突发的一部分;和(e)根据至少一个声学特征选择会议参与语音以 供回放的声学特征选择过程。如下面讨论的各种示例中所指出的,在一些实现中,选择可以涉及迭代过程。
听众可能希望扫描涉及被估计为是最重要的会议话题的会议参与 者讲话。例如,包括主题部分过程的一些实现可以涉及接收会议主题 的主题列表并且确定所选择的会议主题的列表。主题列表可以例如先 前由主题分析模块525生成,如上所述。所选择的会议主题的列表可 能是主题列表的一个子集。确定所选择的会议主题的列表可能涉及主 题排名过程。例如,一些这样的方法可以涉及接收主题排名数据,其 指示主题列表上的每个会议主题的估计的相关性。在一些示例中,主 题排名数据可以基于术语频率度量,例如本文别处公开的术语频率度 量。确定所选择的会议主题的列表可以至少部分地基于主题排名数据。 一些实现可以涉及用于多个会议段中的每一个的主题排名过程。
作为替代地或者附加地,一些实现可以包括一种或多种类型的讲 话突发过滤过程。在一些实现中,讲话突发过滤过程可以涉及去除至 少一些输入讲话突发的初始部分。初始部分可以是从输入讲话突发开 始时间到输出讲话突发开始时间的时间间隔。在一些实现中,初始部 分可以是一秒,两秒等。一些这样的实现可以涉及去除在长讲话突发 的开始附近的初始部分,例如至少具有阈值持续时间的讲话突发。
这样的实现可能是有益的,因为人们经常以“插声停顿”(例如 “嗯”,“哦”等)开始讲话突发。发明人有经验地确定,如果选择 会议参与者语音的过程被影响以丢弃每个讲话突发的初始部分,则与 选择过程保持每个语音突发开始时开始的语音相比,所得到的摘要(digest)倾向于包含更多的相关内容和更少的插声停顿。
在一些实现中,讲话突发过滤过程可以包括至少部分地基于输入 讲话突发持续时间来计算输出讲话突发持续时间。根据一些这样的实 现,如果确定输出讲话突发持续时间超过输出讲话突发时间阈值,讲 话突发过滤过程可以涉及为单个输入讲话突发生成会议参与者语音的 多个实例。在一些实现中,会议参与者语音的多个实例中的至少一个 具有与输入讲话突发结束时间相对应的结束时间。下面更详细地描述 讲话突发过滤过程的各种示例。
涉及声学特征选择过程的一些实现可以包括根据音调变化,语音 速率和/或响度选择会议参与语音以供回放。这种声学特征可以指示会 议参与者的情绪,其可以对应于在相应的会议参与语音时被讨论的主 旨的感知重要性。因此,根据这样的声学特征来选择会议参与语音以 供回放可能是选择会议参与者语音的值得注意的部分的有用方法。
如本文其他地方所述,在一些实现中,分析引擎307可以对音频 数据执行更多类型的分析之一以确定会议参与者心情特征(参见例如 Bachorowski,J.A。,&Owren,M.J.(2007).Voice expression of emotion。Lewis,M.,Haviland-Jones,J.M.,&Barrett,L.F.(Eds.), The Handbook of Emotion,3rd Edition.New York:Guilford,(印刷 中),其通过引用并入本文),例如兴奋、攻击性、或压力/认知负荷。 (参见例如Yap,Tet Fei.,Speechproduction under cognitive load: Effects and classification,Dissertation,TheUniversity of New South Wales(2012),其通过引用并入本文)。在一些实现中,分析引擎307可以在回放阶段之前执行这样的分析。一个或多个这样的分析的 结果可以被索引,提供给回放系统609,并且被用作选择会议参与者 语音以供回放的过程的一部分。
根据一些实现,可以至少部分地根据用户输入来执行方法4300。 例如,可以响应于用户与图形用户界面的交互来接收输入。在一些示 例中,图形用户界面可以根据来自回放控制模块605的指令在诸如图 6所示的显示设备610的显示器的显示器上被提供。回放控制模块605 可以能够接收对应于用户与图形用户界面的交互的输入,以及至少部 分地基于该输入来处理用于回放的音频数据。
在一些示例中,用户输入可以涉及块4310的选择过程。在某些实 例中,听众可能希望对所选择的会议参与者语音的回放时间设置时间 限制。例如,听众只能在有限的时间内查看会议记录。听众可能希望 尽可能快地扫描会议记录的突出部分,或许允许有一些额外的时间来 查看感兴趣的部分。根据一些这样的实现,方法4300可以涉及接收包 括目标回放持续时间的指示的用户输入。目标回放持续时间可以例如 是在块4310中扫描所选择的会议参与者语音并且输出为回放音频数 据所需的持续时间,。在一些示例中,目标回放持续时间可能不包括 听众详细查看感兴趣的项目所需的额外时间。响应于用户与图形用户 界面的交互,用户输入可被接收。
在一些这样的示例中,框4310的选择过程可以包括根据目标回放 持续时间来选择用于回放的会议参与者语音。选择过程例如可以包括 使回放音频数据的持续时间在目标回放持续时间的阈值时间差之内。 例如,阈值时间差可以是10秒,20秒,30秒,40秒,50秒,1分钟, 2分钟,3分钟等。在一些实现中,选择过程可以包括使回放音频数据 的持续时间在目标回放持续时间的阈值百分比之内。例如,阈值百分 比可以是1%,5%,10%等。
在一些实例中,用户输入可以涉及一个或多个搜索参数。这样的 实现可以涉及至少部分地基于搜索相关性度量,选择会议参与者语音 以用于回放和/或调度用于回放的会议参与者语音的实例。
在该示例中,块4315包括将回放音频数据提供给用于回放的扬声 器系统(例如,到耳机,耳塞,扬声器阵列等)。在一些示例中,块 4315可以包括将回放音频数据直接提供给扬声器系统,而在其他实现 中,块4315可以涉及将回放音频数据提供给诸如图6所示的显示设备 610的设备,该设备可以能够与扬声器系统通信。
方法4300的一些实现可以涉及引入(或改变)会议参与者语音的 实例之间的重叠。例如,一些实现可能涉及调度会议参与者语音的实 例(其与会议参与者语音的另一实例先前在时间上没有重叠)以在时 间上重叠地被回放,和/或调度会议参与者语音的实例(其与会议参与 者语音的另一实例先前在时间上重叠)以在时间上进一步重叠地被回 放。
在一些这样的实现中,可以根据感知激发规则的集合来执行调度。 例如,感知激发规则的集合可以包括指示单个会议参与者的两个讲话 突发不应该在时间上重叠的规则,和/或指示如果两个讲话突发对应于 单个端点,则该两个讲话突发不应该在时间上重叠的规则。在一些实 现中,感知激发规则的集合可以包括如下规则,其中给定两个连续的输入讲话突发A和B,A已经在B之前发生,对应于B的会议参与者 语音的实例的回放可在对应于A的会议参与者语音的实例的回放完成 之前开始,但是不会在对应于A的会议参与者语音的实例的回放已开 始之前开始。在一些示例中,感知激发规则集合可以包括如下规则, 该规则允许对应于B的会议参与者语音的实例的回放不早于在对应于 A的会议参与者语音的实例的回放完成之前的时间T开始,其中T大 于零。
方法4300的一些实现可以涉及通过利用空间渲染技术来减少回 放时间。例如,音频数据可以包括被分别记录的来自多个端点的会议 参与者语音数据,和/或来自对应于多个会议参与者的单个端点的并且 包括多个会议参与者中的每个会议参与者的空间信息的会议参与者语 音数据。一些这样的实现可以涉及将回放音频数据渲染在虚拟声学空 间中,使得其语音被包括在回放音频数据中的每个会议参与者具有各 自不同的虚拟会议参与者位置。
然而,在一些实现中,渲染操作可能更复杂。例如,一些实现可 以涉及分析音频数据以确定会话动态数据。会话动态数据可以包括指 示会议参与者语音的频率和持续时间的数据,指示会议参与者双讲话 (在此期间至少两个会议参与者同时发言)的实例的数据,和/或指示 会议参与者会话的实例的数据。
一些这样的示例可以涉及将会话动态数据应用作为描述各会议参 与者在虚拟声学空间中的虚拟会议参与者位置的向量的空间优化成本 函数的一个或多个变量。这样的实现可以包括将优化技术应用于空间 优化成本函数,以确定局部最优解并且至少部分地基于局部最优解来 在虚拟声空间中分配虚拟会议参与者位置。
作为替代地或者附加地,一些实现可以涉及加速被回放的会议参 与者语音。在一些实现中,回放音频数据的持续时间至少部分地通过 将会议参与者语音的至少一些选定部分的持续时间乘以加速系数来确 定。一些实现可以涉及将会议参与者语音的所有选定部分乘以加速系 数。选定部分可以对应于单独的讲话突发,讲话突发的部分等。在一 些实现中,选定部分可以对应于会议段的所有选择的会议参与者语音。 下面介绍一些例子。
图44示出了选择性摘要模块的示例。选择性摘要模块4400可能 能够至少部分地执行上面参考图43描述的操作。在一些实现中,选择 性摘要模块4400可以至少部分地通过存储在非暂态介质上的指令(例 如,软件)来实现,这种非暂态介质为诸如本文所描述的那些介质, 包括但不限于随机存取存储器(RAM)设备,只读存储器(ROM) 设备等。在一些实现中,选择性摘要模块4400可以至少部分地通过控 制系统来实现,例如通过如图3A所示的装置的控制系统实现。控制 系统可以包括通用单芯片或多芯片处理器,数字信号处理器(DSP), 专用集成电路(ASIC),现场可编程门阵列(FPGA)或其他可编程 逻辑器件,离散门或晶体管逻辑或离散硬件组件中的至少一个。根据 一些这样的实现,选择摘要模块4400可以至少部分地由图6所示的回 放系统609的一个或多个元件实现,例如通过回放控制模块605来实 现。作为替代地或者附加地,选择性摘要模块4400可以至少部分地由 一个或多个服务器来实现。
选择性摘要模块4400可以例如仅选择包含在与一个或多个会议 的记录相对应的所接收的音频数据中的会议参与者语音的一部分。在 该示例中,选择性摘要模块4400能够从接收到的输入讲话突发的列表 4430A中自适应地选择会议参与者语音的实例,使得当被调度时,对 应于所选择的会议参与者语音的实例的回放音频数据的持续时间将接 近接收到的目标回放时间持续时间4434的指示。会议参与者语音的实 例可以例如包括讲话突发和/或讲话突发的部分,后者也可以在这里被 称为“讲话突发摘录”。在一些实现中,选择摘要模块4400可能能够 使回放音频数据的持续时间在目标回放时间段4434的阈值时间差或阈值时间百分比之内。
在一些示例中,输入讲话突发的列表4430A可以包括会议中的所 有讲话突发的列表。在替代示例中,输入讲话突发的列表4430A可以 包括在会议的特定时间区域中的所有讲话突发的列表。在一些实现中, 会议的时间区域可以与会议段对应。在一些示例中,输入讲话突发的 列表4430A可以包括针对每个讲话突发的端点标识数据、开始时间和 结束时间。
在图44的示例中,选择性摘要4400被示出为输出所选择的讲话 突发摘录的列表4424A。在一些实现中,所选择的讲话突发摘录的列 表4424A可以包括针对每个所选摘录的端点标识数据、开始时间和结 束时间。本文所描述的各种示例涉及输出用于回放的所选择的讲话突 发摘录的列表,部分是因为这种讲话突发摘录可以被更快速地查看, 并且在一些示例中可以包括相应的讲话突发的最显著部分。然而,一 些实现涉及输出可以包括讲话突发和/或讲话突发摘录的会议参与者 语音的所选实例的列表。
在该示例中,选择性摘要4400还能够调度所选择的讲话突发摘录 的列表4424A以进行回放。因此,选择性摘要4400还被示出为输出 回放安排4411A。在该示例中,回放安排4411A描述如何回放会议的 选择性摘要(会议参与者语音的所选实例的列表)或者电话会议的时 间区域(例如,会议段)。在一些示例中,回放安排4411A可以类似 于图34所示的输出回放安排3411,并且参考图34和35在上文被描 述。
图45示出了选择性摘要模块的元件的示例。在该示例中,选择性 摘要模块4400包括选择器模块4531和回放调度单元4506。在该特定 实现中,选择性摘要模块4400包括扩展单元4525和合并单元4526。 然而,选择性摘要模块4400的替代实现可以包括或可以不包括扩展单 元4525和/或合并单元4526。
这里,选择器模块4531被示出为接收输入讲话突发的列表4430 和目标回放持续时间的指示4434。在该示例中,选择器模块4531能 够至少部分地基于目标回放持续时间4434和由实际持续时间复用器 4532提供的经调度的回放持续时间4533,从输入讲话突发的列表4430 中产生所选择的讲话突发摘录4424的候选列表。
在该实现中,实际持续时间复用器4532确定当前迭代是否是第一 次迭代,并且提供对应的经调度的回放持续时间。在一些实现中,在 选择性摘要模块4400的操作的第一次迭代期间,将经调度的回放持续 时间4533设置为零。这允许至少一次迭代,在该迭代期间,扩展单元 4525,合并单元4526和回放调度单元4506(或者在可能不包括扩展 单元4525和/或合并单元4526的替代实现中,至少回放调度单元4506) 可以对由选择器模块4531选择的讲话突发的摘录进行操作。在该例 中,在后续的迭代中,由实际持续时间复用器4532提供给选择器模块 4531的经调度的回放时间持续时间4533是由再现调度单元4506进行 调度之后的实际的经调度的回放时间持续时间4535的值。这里,实际 的经调度的回放时间持续时间4535对应于上述“回放音频数据的持续 时间”。
根据该示例,当经调度的回放持续时间4533处于目标回放持续时 间4434的阈值范围内时,所选择的讲话突发摘录4424的候选列表被 返回作为所选择的讲话突发摘录4424A的最终列表。在一个这样的示 例中,阈值范围可以是+/-10%,这意味着经调度的回放持续时间4533 必须小于或等于目标回放持续时间4434的110%,而大于或等于目标 回放时间长度的90%。然而,在替代实例中,阈值范围可以是不同的 百分比,例如1%,2%,4%,5%,8%,12%,15%等。在其他实 现中,阈值范围可以是阈值时间差,例如10秒,20秒,30秒,40秒, 50秒,1分钟,2分钟,3分钟等。
在该示例中,扩展单元4525能够修改所选择的讲话突发4424的 候选列表中的讲话突发摘录的开始和/或结束时间以提供附加的上下 文。因此,在该示例中,扩展单元4525能够提供与如上参照图34所 描述的扩展单元3425的功能相似的功能。因此,用户收听会议参与者 语音的这种实例可以更好地确定哪些实例相对更可能或相对不太可能 是感兴趣的,并且可以更准确地确定哪些实例值得更详细地收听。根 据一些实现,扩展单元4525可以在讲话突发摘录的开始时间不早于包 含它的讲话突发的开始时间的约束下,从讲话突发摘录的开始时间减 去固定的偏移量tex(例如,1秒,2秒等)。根据一些示例,扩展单 元4525可以在讲话突发摘录的结束时间可不晚于包含它的讲话突发 的结束时间的约束下,将固定的偏移量tex(例如,1秒,2秒等)加 到讲话突发摘录的结束时间上。
在这种实现中,合并单元4526能够合并对应于单个会议端点和/ 或会议参与者的、在扩展之后在时间上重叠的会议参与者语音的两个 或更多个实例。因此,合并单元4526可以确保在查看搜索结果时不会 多次听到会议参与者语音的同一实例。在该示例中,合并单元4526 能够提供与上文参考图34所述的合并单元3426的功能类似的功能。 在该示例中,由合并单元4526产生的修改的讲话突发摘录的列表4501 被断言给回放调度器4506。
根据一些实施方式,回放调度单元4506可能能够提供诸如上文参 照图13描述的回放调度器1306和/或上文参考图34和35所描述的 回放调度单元3406的功能。因此,回放调度单元4506可以能够调度 与会议参与者语音的另一实例先前在时间上没有重叠的会议参与者 语音的实例(在此示例中,经修改的讲话突发摘录)以在时间上重叠 地被回放,和/或调度与会议参与者语音的另一实例先前在时间上重 叠的会议参与者语音的实例以在时间上进一步重叠地被回放。例如, 回放调度单元4506可以根据一组感知激发规则来调度经修改的讲话 突发摘录以进行回放。
在该示例中,回放调度单元4506能够生成候选输出回放安排 4411。例如,候选输出回放安排4411可以与上文参考图13描述的输 出回放安排1311和/或以上参考图34和35描述的输出回放安排3411 相当。在该实现中,当经调度的回放持续时间4533在目标回放持续时 间4434的阈值范围内时,候选输出回放安排4411作为最终输出回放 安排4411A被返回。
在图45所示的例子中,回放调度单元4506返回实际的经调度的 回放持续时间4535,其对应于在通过回放调度部4506进行调度后的 经修改的讲话突发摘录的回放时间。在替代实施方式中,可以在回放 调度单元4506外确定实际的经调度的回放持续时间4535,例如通过 将候选输出回放安排4411上的第一条目的输出开始时间与最后一个 条目的输出结束时间进行比较。
图46示出了用于将选择性摘要方法应用于分段会议的系统的示 例。在一些实现中,选择性摘要系统4600可以至少部分地通过存储在 非暂态介质上的指令(例如,软件)来实现,这种非暂态介质为诸如 本文所描述的那些介质,包括但不限于随机存取存储器(RAM)设备, 只读存储器(ROM)设备等。在一些实现中,选择性摘要系统4600 可以至少部分地由控制系统实现,例如由诸如图3A所示的装置的控 制系统来实现。控制系统可以包括通用单芯片或多芯片处理器,数字 信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA) 或其他可编程逻辑器件,离散门或晶体管逻辑或离散硬件组件中的至 少一个。根据一些这样的实施方式,选择性摘要系统4600可以至少部 分地由图6所示的回放系统609的一个或多个元件实现,例如由回放 控制模块605实现。作为替代地或者附加地,选择性摘要系统4600 可以至少部分地由一个或多个服务器来实现。
在一些实现中,选择性摘要系统4600可以包括比图46所示的元 件更多或更少的元件。例如,在该实现中,选择性摘要系统4600包括 多个选择性摘要模块4400A-4400C,每个会议段一个。然而,在一些 替代实现中,对应于一些段(例如,混串音段和/或静默段)的音频数 据将不被处理,并且将不存在对应的选择性摘要模块4400。在该示例 中,示出正在处理来自仅三个会议段的音频数据,但是会议段1808B 和1808C的表示之间的间隙预期表示一个或多个附加会议段。因此, 在该示例中,输入音频数据4601表示用于整个会议记录的音频数据。 其他示例可以涉及处理更多或更少的会议段,或者处理整个会议而不 进行分段。
在该示例中,选择性摘要模块4400A-4400C中的每一个接收分别 与会议段1808A-1808C之一对应的输入讲话突发列表4430A-4430C中 的对应的一个。这里,选择性摘要模块4400A-4400C中的每一个输出 所选择的讲话突发摘录的逐段列表4624A-C(每个会议段一个)中的 对应的一个。此外,每个选择性摘要模块4400A-4400C输出逐段输出 回放安排4611A-4611C中的相应的一个。取决于具体实现,分段信息 可以被包括也可以不被包括在选择性摘要模块4400A-4400C的输出 中。
在该实现中,选择性摘要系统4600包括时间乘法器 4602A-4602C,每个正在处理音频数据的会议段一个。在一些示例中, 通过将每个段的输入持续时间乘以系数α来计算每个段的目标回放时 间,该系数反映了要加速回放的期望因子。在一些示例中,α可以在从0到1的范围内。在实验原型中成功使用的α的一些示例值分别包 括0.5,0.333,0.25和0.1,分别对应于回放速率中的2x,3x,5x和 10x加速。根据一些实现,α的值可以对应于关于回放速率中的期望加 速的用户输入,或用户对回放速率中的最大容许加速的指示。
在该示例中,选择性摘要系统4600包括拼接单元4603。这里, 拼接单元4603能够将所选择的讲话突发摘录的逐段列表4624A-C(例 如,按照每个会议段的开始时间的顺序)拼接成所选择的讲话突发摘 录的最终列表4624D。在一些实现中,可以丢弃逐段输出回放安排 4611A-4611C,而在其他实现中,可以保留逐段输出回放安排 4611A-4611C。取决于具体实现,分段信息可以包括也可以不包括在 级联单元4603的输出中。
在该实现中,选择性摘要系统4600包括最终回放调度单元4606。 在一些实现中,最终回放调度单元4606可以具有与系统1700的功能 类似的功能,系统1700包括段调度器单元1710并且在上文参考图17 进行了描述。因此,最终回放调度单元4606可能能够调度来自连续段 的所选择的讲话突发摘录在时间上重叠。
在一些示例中,最终回放调度单元4606可以具有与在上文参考图 45所述的回放调度单元4506的功能类似的功能。在一些这样的示例 中,最终回放调度单元4606可以能够调度每个段的所选择的讲话突发 摘录以在输出时间内彼此跟随。虽然可以安排一些讲话突发摘录来重 叠回放,但是这样的实现可能不涉及调度整个会话段的所选择的讲话 突发摘录以重叠回放。
在该示例中,最终回放调度单元4606输出最终回放安排4611D, 该最终回放安排4611D是在此示例中用于会议的所有选择的讲话突发 摘录的安排。在一些实现中,最终回放安排4611D对应于与乘以系数 α的电话会议的输入持续时间近似成比例的经调度的回放时间持续时 间。然而,在替代实现(诸如涉及会议段的同时回放的那些)中,经 调度的回放持续时间可能不与乘以系数α的电话会议的输入持续时间 成比例。
图47示出了根据一些实现的选择器模块的块的示例。在该示例 中,选择器模块4531能够提供主题选择功能。例如,选择器模块4531 可以基于所估计的与会议或段的整体主题的相关性来确定要选择会议 参与者语音的哪些实例。
在该示例中,选择器模块4531被示出为接收输入讲话突发列表 4430和主题列表4701。在一些实现中,输入讲话突发列表4430和主 题列表4701可以对应于整个会议,而在其他实现中,输入讲话突发列 表4430和主题列表4701可以对应于会议段。主题列表4701可以例 如对应于上文参考图25描述的主题列表2511。在一些实现中,主题 列表4701中的主题可以按估计的重要性(例如根据术语频率度量)的 降序存储。对于主题列表4701上的每个主题,可能会有会议参与者语 音的一个或多个实例。会议参与者语音的每个实例可以具有端点指示, 开始时间和结束时间。
在该实现中,选择器模块4531被示出为接收目标回放持续时间 4434和经调度的回放持续时间4533。可以根据来自用户界面的用户输 入来接收目标回放持续时间4434,例如如上文参照图43和44所述。 可以从回放调度单元4506接收经调度的回放持续时间4533,例如如 上文参考图45所述。在该示例中,选择器模块4531能够在迭代过程 中操作以调整要从主题列表4701保持的词语数N,直到经调度的回放 持续时间4533在目标回放持续时间4434的预定范围内(例如,百分 比或绝对时间范围)。如上所述,本文所用的术语“word(词语)” 还可以包括短语,例如“living thing(生物)”。(在上面描述的一 个例子中,短语“living thing”被描述为词”pet“的第三级上位词, 词“animal”的第二级上位词和词“organism”的第一级上位词)
在该示例中,选择器模块4531包括前N个词语选择器4702,其 能够选择主题列表4701的N个最重要的词语,例如,根据术语频率 度量来估计。例如,前N个词选择器4702可以按所估计的重要性的 降序经过主题列表4701。对于遇到的每个主题,前N个词语选择器4702可以按降序取词,直到前N个词语的列表4703已经被编译。
在该实现中,N的最终值根据由包括搜索调整单元4705和N初 始化器4706的调整模块4710执行的迭代过程来确定。对于第一迭代, N初始化器4706将N设置为适当的初始值N0。在该示例中,状态变 量4707被示出在调整模块4710内,其是被存储的并且从迭代到迭代 被更新的可变值N。
在该示例中,搜索调整单元4705能够基于N的先前值以及目标 回放持续时间4434与经调度的回放持续时间4533之间的差,产生N 的更新估计。如果经调度的回放持续时间4533太低,则搜索调整单元 4705可以添加更多内容(换句话说,可以增加N的值),而如果经调 度的回放持续时间4533太高,则搜索调整单元4705可以删除内容(换 句话说,可以降低N的值)。
依赖于具体实现,搜索调整单元4705可以根据不同的方法来调整 N的值。在一些示例中,搜索调整单元4705可以执行线性搜索。例如, 搜索调整单元4705可以从N(0)=N0=0开始。在每次迭代中,搜索 调整单元4705可以将N增加固定量(例如,5或10),直到目标回 放持续时间4434与经调度的回放持续时间4533之间的差在预定范围 内。
在一些实现中,搜索调整单元4705可以执行不同类型的线性搜 索。例如,搜索调整单元4705可以从N(0)=N0=0开始。对于每次 迭代,搜索调整单元4705可以增加N,使得来自主题列表4701上的 下一个主题的所有词语被包括。搜索调整单元4705可以重复该过程, 直到目标回放持续时间4434和经调度的回放持续时间4533之间的差 在预定范围内。
在替代实现中,搜索调整单元4705可以执行二分搜索。例如,在 每次迭代期间,搜索调整单元4705可以保持Nmin(N的下限),和 Nmax(N的上限)。例如,搜索调整单元4705可以以Nmin(0)=0, Nmax(0)=Ntotal,N(0)=N0=αNtotal,其中Ntotal表示主题列表4701 的所有主题所包含的词语总数。对于每次迭代k,如果经调度的回放 持续时间4533低于目标回放持续时间4434,则搜索调整单元4705可 以如下地设置Nmin和Nmax:
Nmin(k)=N(k-1),Nmax(k)=Nmax(k-1),
然而,如果经调度的回放持续时间4533高于目标回放持续时间 4434,则搜索调整单元4705可以如下地设置Nmin和Nmax:
搜索调整单元4705可以重复该过程,直到目标回放持续时间4434 和经调度的回放持续时间4533之间的差在预定范围内。
在通过调整模块4710确定N的最终值之后,可以将N的最终值 提供给前N个词语选择器4702。在该示例中,前N个词语选择器4702 能够选择主题列表4701的N个最重要的词语,并输出前N个词语的 列表4703。
在该实现中,将前N个词语的列表4703提供给讲话突发过滤器 4704。在该示例中,讲话突发过滤器4704仅保留在输入讲话突发列表 4430和前N个词语的列表4703两者中存在的讲话突发的摘录。例如, 保留词语可以按照它们在输入讲话突发的列表4430中被指定的顺序 (例如按照时间顺序)返回到所选择的讲话突发摘录的列表4424中。 虽然在图47中未示出,但是在一些示例中,所选择的讲话突发摘录的 列表4424可以由扩展单元4525来处理,以便为讲话突发摘录提供更 多的上下文。在一些实现中,所选择的讲话突发摘录的列表4424也可 以由合并单元4526处理。
图48A和48B示出了根据一些替代实现的选择器模块的块的示 例。在该示例中,选择器模块4531能够提供启发式选择功能。例如, 选择器模块4531可以能够去除具有低于阈值输入讲话突发持续时间 的输入讲话突发持续时间的输入讲话突发。作为替代地或者附加地, 选择器模块4531可以能够去除具有等于或高于阈值输入讲话突发持 续时间的输入讲话突发持续时间的至少一些输入讲话突发的一部分。 在一些实现中,选择器模块4531能够仅保持每隔一个讲话突发的部 分、每第三个讲话突发的部分,每第四个讲话突发的部分等。在一些 实施方式中,选择器模块4531可能能够在没有关于会议主题的信息的 情况下提供启发式选择功能。
能够提供启发式选择功能的选择器模块4531的一些实现也可以 包括扩展单元4525。在一些这样的实现中,当选择器模块4531提供 启发式选择功能时,可以限制或取消扩展单元4525的效果,例如通过 将tex设置为零或小的值(例如,0.1秒,0.2秒,0.3秒等)。根据一 些这样的实现,讲话突发摘录的最小尺寸可以由下面描述的tspeck参数 来控制。
在该示例中,选择器模块4531被示出为接收输入讲话突发的列表 4430。在一些实施方式中,输入讲话突发的列表4430可以对应于整个 会议,而在其他实现中,输入讲话突发的列表4430和主题列表4701 可以对应于会议段。在该实现中,选择器模块4531还被示出为接收目 标回放持续时间4434和经调度的回放持续时间4533。可以根据来自 用户界面的用户输入来接收目标回放持续时间4434,例如,如上文参 照图43和44所述。可以从回放调度单元4506接收经调度的回放持续 时间4533,例如,如上文参考图45所述。
在该实现中,选择器模块4531能够应用迭代启发式选择过程来调 整所选择的讲话突发的回放时间,直到所选择的讲话突发摘录的输出 列表4424的经调度的回放持续时间4533在目标回放持续时间4434 的预定范围(例如,百分比或绝对时间范围)内。
在该示例中,选择器模块4531包括过滤器4801和调整模块4802。 在一些实现中,过滤器4801可以应用两个参数K和tspeck。在一些这 样的实现中,K可以表示参数,例如在0到1的范围内,其表示每个 讲话突发的应该被保持的比例。根据一些这样的实现,tspeck可以表示 例如可以以秒为单位测量的持续时间阈值(例如,讲话突发或讲话突 发摘录的最小持续时间)。
根据一些示例,对于每次迭代k,调整模块4802可以基于先前的 值K(k-1)和tspeck(k-1)以及以及经调度的回放持续时间4533和目 标回放持续时间4434之间的差来确定参数K(k)和tspeck(k)的新 值。在一些这样的示例中,比tspeck短(在以K缩放之后)的讲话突 发摘录可以被过滤器4801去除。
在一些实现中,调整模块4802可以应用以下的一组启发式规则。 在第一次迭代中,可以将K设置为最大值(例如,1),并且将tspeck设置为零秒,使得保持所有内容。在随后的迭代中,K的值可以减小 和/或tspeck的值可以增加,从而逐渐去除更多的内容,直到经调度的 回放持续时间4533和目标回放持续时间4434之间的差在预定范围内, 例如根据以下启发式规则。首先,如果tspeck小于阈值(例如,3秒,4 秒,5秒等),则一些实现涉及增加tspeck的值(例如,每次迭代0.1 秒,0.2秒或0.3秒等)。根据一些这样的实现方式,在去除长讲话突发的部分的过程之前,将去除短的讲话突发(在阈值持续时间之下的 那些)。
如果在去除低于阈值持续时间的讲话突发之后,经调度的回放持 续时间4533和目标回放持续时间4434之间的差仍然不在预定范围内, 则一些实现涉及降低K的值。在一些示例中,可以通过应用公式K(k) =β*K(k-1)来减小K的值,其中β在(0,1)范围内(例如,0.8,0.85,0.9,0.95等)。根据这样的例子,内容将被去除,直至经调度 的回放持续时间4533和目标回放持续时间4434之间的差在预定范围 内。
根据一些实现,来自输入讲话突发的列表4430的讲话突发可以被 顺序地(例如按照时间顺序)呈现给过滤器4801。如图48B所示,对 于给定的具有初始持续时间t0的输入讲话突发4803,在一些示例中, 过滤器4801或者产生相应的输出讲话突发摘录4804,其被添加到所 选择的讲话突发摘录的列表4424中,或者消耗输入讲话突发4803而 不产生相应的输出讲话突发摘录4804。
根据一些示例,掌控过滤器4801的这种操作的启发式规则如下。 在一些这样的示例中,过滤器4801将根据t1=Kt0计算候选输出讲话 突发的输出持续时间t1。根据一些这样的示例,如果t1<tspeck,则过滤 器4801将不会产生输出讲话突发。在一些示例中,过滤器4801可以 根据以下来计算相对于输入讲话突发(4803)的开始时间的候选输出 讲话突发的开始时间ts:
在式48中,tum表示在一些示例中可能在[0,2]秒范围内的系数。 在某些实现中,tum的值可被选择为使得通常保留在长讲话突发的开 头附近的语音,而不是在长讲话突发的刚开始处的语音。这种选择的 动机是人们常常开始用诸如“嗯”,“哦”等插声停顿来开始讲话突 发。本发明人通过实验确定,如果选择器偏向于忽略在长讲话突发刚 刚开始时的语音(例如,在每个讲话突发的前1秒期间,在每个讲话 突发的前1.5秒期间,在每个讲话突发的前2秒期间,等等)则与如 果选择器模块4531保持在每个讲话突发的刚开始处开始的语音相比, 所得到的摘要包含更多相关的内容和更少的插声停顿。
在一些实现中,过滤器4801可以为单个输入讲话突发4803产生 多个讲话突发摘录。根据一些这样的实现方式,多个讲话突发摘录中 的至少一个可能具有与输入讲话突发结束时间相对应的结束时间。
在一些这样的示例中,当候选输出讲话突发t1的持续时间超过第 一阈值t2(例如,8秒,10秒,12秒等)但是小于阈值t3(例如,15 秒,20秒,25秒,30秒等),过滤器4801可以产生两个输出讲话突 发摘录。例如,第一输出讲话突发摘录可以相对于输入讲话突发的开始时间在时间ts开始,并且可以具有持续时间t1/2。在一些这样的示 例中,第二输出讲话突发摘录也可以具有持续时间t1/2,并且可以在 输入讲话突发4803结束之前t1/2的时间开始,使得第二输出讲话突 发摘录的结束时间段对应于输入讲话突发的结束时间。
根据一些这样的实现方式,当候选输出讲话摘录t1的长度超过阈 值t3时,过滤器4801可以产生三个输出讲话突发摘录。例如,第一 输出讲话突发摘录可以相对于输入讲话突发的开始时间在时间ts处开 始,并且可以具有持续时间t1/3。第三输出讲话突发摘录也可以具有 持续时间t1/3,并且可以在输入讲话突发4803结束之前t1/3的时间 开始,使得第三输出讲话突发摘录的结束时间对应于输入讲话突发的 结束时间。根据一些这样的示例,第二输出讲话突发摘录也可以具有 持续时间t1/3,并且可以在时间((t0+ts)-t1/3))/2开始。因此,第二输出 讲话突发摘录的开始时间可被选择为使得第二输出讲话突发摘录在第一和第三输出讲话突发摘录之间。
在一些实施方式中,过滤器4801可以产生四个或更多个输出讲话 突发摘录。根据一些这样的实现方案,多个输出讲话突发摘录中的至 少一个可能具有与输入讲话突发的结束时间对应的结束时间。在一些 这样的示例中,输出讲话突发摘录可以对应于从输入讲话突发4803 以规则的间隔取得的样本,从而长输入讲话突发4803的语音被规则地 采样。
图49示出了根据其他替代实现的选择器模块的框的示例。在该示 例中,选择器模块4531能够提供声学特征选择功能。例如,选择器模 块4531可以基于为每个讲话突发计算的声学特征(诸如音调方差,语 音速率,响度等)来确定要选择会议参与者语音的哪个实例,该声学 特征可以指示哪个讲话突发是相对的更令人兴奋的。这种功能是基于 经验观察的,该经验观察表明当讲话者关于一个主题更激动时,存在 可用于检测到这种兴奋的相应声学特征。可以假设当讲话者更加兴奋 的时候,听众也可能对这个话题更有兴趣。
在该示例中,选择器模块4531被示出为接收输入讲话突发的列表 4430和声学特征列表4901。在一些实施方式中,输入讲话突发的列表 4430和声学特征列表4901可以对应于整个会议,而在其他实现中, 输入讲话突发的列表4430和声学特征列表4901可以对应于会议段。 例如,分析引擎307可以在先执行对会议记录的音频数据的更多类型 的分析之一以确定会议参与者情绪特征,例如兴奋、攻击性、或压力/ 认知负荷。上面描述了一些示例。声学特征列表4901可以是这种分析 的结果。声学特征列表4901上的每个条目可以是会议参与者语音的实 例,例如讲话突发或讲话突发摘录。会议参与者语音的每个实例可以 具有端点指示,开始时间和结束时间。
在一些实现中,声学特征列表4901可以按所估计的重要性(例如 根据兴奋度量)的降序被存储。兴奋度量可以例如是音调方差,语速 和/或响度的函数。然而,一些类型的“激动的言论”,如笑声,可能 很容易发现,而不一定对应于重要的话题。相反,笑声可能对应于个 人评论,非主题笑话等。因此,一些实现可以涉及将相对较低的重要 性水平(例如,通过分配相对较低的兴奋度量)分配给检测到的会议 参与者笑声的实例。
根据一些实现,对于声学特征可能变化很大的长讲话突发,讲话 突发可以被分成几个单独的条目,每个条目根据本地声学特征进行排 名。例如,具有超过20秒的持续时间的讲话突发可以被分成不超过 10秒长的一系列讲话突发,每个具有单独计算的声学特征。
在一些示例中,声学特征列表4901可以基于音调方差。在一个示 例中,兴奋度量可以如下计算。可以使用已知的音调跟踪技术(例如 根倒谱技术)为每个音频帧提取基频估计(F0)。然后,F0的值可以 转换为半音,以消除男性和女性讲话者之间的变化。可以针对每个讲 话突发或讲话突发摘录计算半音值的标准偏差。标准偏差可以用作该 讲话突发或讲话突发摘录的兴奋度量。声学特征列表4901可以通过根 据兴奋度量以降序排序讲话突发和/或讲话突发摘录而被创建。
在该实现中,选择器模块4531被示出为接收目标回放持续时间 4434和经调度的回放持续时间4533。可以根据来自用户界面的用户输 入来接收目标回放持续时间4434,例如,如上文参照图43和44所述。 可以从回放调度单元4506接收经调度的回放持续时间4533,例如, 如上文参考图45所述。在该示例中,选择器模块4531能够在迭代过 程中进行操作,以调整要从声学特征列表4901保留的讲话突发(或讲 话突发)的数量N,直到经调度的回放持续时间4533在目标回放持续 时间4434的预定范围(例如百分比或绝对时间范围)内。
在该示例中,选择器模块4531包括能够选择声学特征列表4901 的N个最重要的讲话突发(或讲话突发摘录)的前N个讲话突发选择 器4902,例如,根据术语频率度量来估计。前N个讲话突发选择器 4902可以例如按估计的重要性的降序通过声学特征列表4901,直到编 译了前N个讲话突发(或讲话突发摘录)的列表4903。
在该实现中,N的最终值根据由包括搜索调整单元4905和N初 始化器4906的调整模块4910执行的迭代过程来确定。在一些实施方 式中,调整模块4910可以具有诸如上文参考图47的调整模块4710 所描述的功能。对于第一迭代,N初始化器4906将N设置为适当的初始值N0。在该示例中,状态变量4907被示出在调整模块4910内, 其是被存储的并且从迭代到迭代被更新的可变值N。
在该示例中,搜索调整单元4905能够基于N的先前值以及目标 回放持续时间4434与经调度的回放持续时间4533之间的差,产生N 的更新估计。一般来说,如果经调度的回放持续时间4533太低,则搜 索调整单元4905可以添加更多内容(换句话说,可以增加N的值),而如果经调度的回放持续时间4533太高,则搜索调整单元4905可以 删除内容(换句话说,可以降低N的值)。
依赖于具体实现,搜索调整单元4905可以根据不同的方法来调整 N的值。在一些示例中,搜索调整单元4905可以执行线性搜索或者二 分搜索,如上文参照图47的搜索调整单元4705所描述的。
在通过调整模块4910确定N的最终值之后,可以将N的最终值 提供给前N个讲话突发选择器4902。在该示例中,前N个讲话突发 选择器4902能够选择声学特征列表4901的N个最重要的讲话突发(或 者讲话突发摘录),并输出前N个讲话突发(或者讲话突发摘录)的列表4903。
在该实现中,列表4903提供给讲话突发过滤器4904。在该示例 中,讲话突发过滤器904仅保留在输入讲话突发列表4430和列表4903 两者中存在的讲话突发(或讲话突发摘录)。例如,保留的讲话突发 (或讲话突发摘录)可以按照它们在输入讲话突发的列表4430中被指 定的顺序(例如按照时间顺序)返回到所选择的讲话突发(或讲话突 发摘录)的列表4424中。虽然在图49中未示出,但是在一些示例中, 讲话突发摘录可以由扩展单元4525来处理以便提供更多的上下文。在 一些实现中,讲话突发摘录也可以由合并单元4526处理。
在本公开中描述的实现的各种修改对于本领域普通技术人员来说 是显而易见的。在不脱离本公开的范围的实例中,本文定义的一般原 理可以应用于其他实现。例如,一些替代实现不涉及根据TF-IDF算 法来确定术语频率度量。一些这样的实现可以涉及使用简约的语言模 型来生成主题列表。
一些实现可以涉及将讲话突发过滤过程与声学特征选择过程相组 合。根据一些这样的实现,至少部分地基于讲话突发持续时间的语音 突发过滤过程可以与至少部分地基于音调变化的声学特征选择过程组 合。例如,如果K为0.5(对应于保留了输入讲话突发的一半的示例), 则可以保持具有较大间距变化的半讲话突发。
在涉及将讲话突发过滤处理与声学特征选择过程组合的另一种实 现中,可以识别基于音调变化和讲话突发长度的输入讲话突发的排名, 并且可以通过使用加权因子来生成组合排名。在一个这样的例子中, 相等的权重(0.5)可以被分配用于音调变化和讲话突发长度。排名阈 值可以位于实现期望的压缩比之处(换句话说,目标回放持续时间 4434和经调度的回放持续时间4533之间的差在预定范围内的阈值)。 组合排名低于阈值的讲话突发可能被删除。
作为替代地或者附加地,一些实现可以涉及将主题选择过程与声 学特征选择过程组合。根据一些这样的实现,可以根据声学特征选择 过程(例如,根据诸如音调变化的兴奋度量)对与同一主题相关的会 议参与者语音的实例进行排名。在其他实现中,用于输入讲话突发的 排名可以基于声学特征选择过程和主题选择过程。可以通过使用加权 因子来生成根据这两个过程的组合排名。
一些实现可能涉及将会话动态分析与声学特征选择过程相结合。 根据一些这样的实现,可以根据兴奋度量(例如音调变化)的突然增 加和/或说话之后的双讲话的突然增加来识别与对于话语的兴奋响应 相对应的会议参与者语音的实例。在一些例子中,可以通过说话后的 静默时间间隔和/或兴奋度量的突然增加和/或静默时间间隔之后双讲 话的突然增加,来识别与说话之后的“死寂”相对应的会议参与者语 音的实例。
因此,权利要求不旨在限于本文所示的实施方式,而是应被给予 与本公开,本文公开的原理和新颖特征相一致的最宽范围。
Claims (32)
1.一种用于处理音频数据的方法,所述方法包括:
通过会话动态分析模块接收对应于涉及多个会议参与者的会议的会议记录的音频数据,所述音频数据包括以下中的至少一个:(a)被分别记录的来自多个端点的会议参与者语音数据,或(b)来自对应于多个会议参与者的单个端点的、并且包括用于标识所述多个会议参与者中的每个会议参与者的会议参与者语音的信息的会议参与者语音数据;
分析会议记录的会话动态以确定会话动态数据;
搜索会议记录以确定多个段分类中的每一个的实例,每个段分类至少部分地基于会话动态数据;以及
将会议记录分成多个段,每个段对应于时间间隔和至少一个段分类,其中该分析、搜索和分段处理是通过所述会话动态分析模块执行的,
其中段分类的实例根据一组规则被确定,并且其中,该组规则包括如下规则,即如果语音密度度量大于或等于相互静默阈值并且双讲话比率大于混串音阈值,则将段分类为混串音段。
2.根据权利要求1所述的方法,其中,该搜索处理和分段处理是递归的。
3.根据权利要求1所述的方法,其中,该搜索处理和分段处理被在不同的时间尺度上执行多次。
4.根据权利要求1所述的方法,其中,该搜索处理和分段处理至少部分地基于段分类的层级结构。
5.根据权利要求4所述的方法,其中段分类的层级结构基于来自准则列表的一个或多个准则,所述准则列表包括特定段分类的段能被标识的置信水平;段的开始时间能被确定的置信水平;段的结束时间能被确定的置信水平;以及特定段分类包括对应于会议主题的会议参与者语音的可能性。
6.根据权利要求1所述的方法,其中该组规则是基于选自一组会话动态数据类型的一个或多个会话动态数据类型的,该组会话动态数据类型包括(a)指示在时间间隔中的在其期间至少两个会议参与者同时发言的语音时间的占比的双讲话比率;(b)指示在该时间间隔中的存在任何会议参与者语音的占比的语音密度度量;和(c)指示在该时间间隔期间的由主导会议参与者发出的总语音的占比的主导度量,主导会议参与者是在该时间间隔期间发言最多的会议参与者。
7.根据权利要求6所述的方法,其中该组规则包括如果语音密度度量小于相互静默阈值则将段分类为相互静默段的规则。
8.根据权利要求1所述的方法,其中该组规则包括如下规则,即如果语音密度度量大于或等于静默阈值,并且如果双讲话比率小于或等于混串音阈值但是大于讨论阈值,则将段分类为讨论段。
9.根据权利要求8所述的方法,其中该组规则包括如下规则,即如果语音密度度量大于或等于静默阈值,如果双讲话比率小于或等于讨论阈值,以及如果主导度量大于陈述阈值,则将段分类为陈述段。
10.根据权利要求9所述的方法,其中该组规则包括如下规则,即如果语音密度度量大于或等于静默阈值,如果双讲话比率小于或等于讨论阈值,以及如果主导度量小于或等于陈述阈值但大于问答阈值,则将段分类为问答段。
11.根据权利要求10所述的方法,其中搜索处理和分段处理至少部分地基于段分类的层级结构,并且搜索处理的第一层级涉及搜索会议记录以确定混串音段的实例。
12.根据权利要求11所述的方法,其中搜索处理的第二层级涉及搜索会议记录以确定陈述段的实例。
13.根据权利要求12所述的方法,其中搜索处理的第三层级涉及搜索会议记录以确定问答段的实例,并且其中,搜索处理的第四层级涉及搜索会议记录以确定讨论段的实例。
14.根据权利要求1-13中任一项所述的方法,其中段分类的实例根据机器学习分类器被确定。
15.根据权利要求14所述的方法,其中机器学习分类器是从一组机器学习分类器选择的,该组机器学习分类器包括:(a)自适应增强技术;(b)支持向量机技术;(c)贝叶斯网络模型技术;(d)神经网络技术;(e)隐式马尔可夫模型技术;和(f)条件随机场技术。
16.一种用于处理音频数据的装置,所述装置包括:
接口系统;以及
控制系统,所述控制系统能够:
通过接口系统接收对应于涉及多个会议参与者的会议的会议记录的音频数据,所述音频数据包括以下中的至少一个:(a)被分别记录的来自多个端点的会议参与者语音数据,或(b)来自对应于多个会议参与者的单个端点的、并且包括用于标识所述多个会议参与者中的每个会议参与者的会议参与者语音的信息的会议参与者语音数据;
分析会议记录的会话动态以确定会话动态数据;
搜索会议记录以确定多个段分类中的每一个的实例,每个段分类至少部分地基于会话动态数据;以及
将会议记录分成多个段,每个段对应于时间间隔和至少一个段分类,
其中所述控制系统能够根据一组规则确定段分类的实例,并且其中该组规则包括如下规则,即如果语音密度度量大于或等于相互静默阈值并且双讲话比率大于混串音阈值,则将段分类为混串音段。
17.根据权利要求16所述的装置,其中,所述控制系统能够在不同的时间尺度上多次执行该搜索处理和分段处理。
18.根据权利要求16所述的装置,其中,该搜索处理和分段处理至少部分地基于段分类的层级结构。
19.根据权利要求18所述的装置,其中段分类的层级结构基于来自准则列表的一个或多个准则,所述准则列表包括特定段分类的段能被标识的置信水平;段的开始时间能被确定的置信水平;段的结束时间能被确定的置信水平;以及特定段分类包括对应于会议主题的会议参与者语音的可能性。
20.根据权利要求16-19中任一项所述的装置,其中该组规则是基于选自一组会话动态数据类型的一个或多个会话动态数据类型的,该组会话动态数据类型包括(a)指示在时间间隔中的在其期间至少两个会议参与者同时发言的语音时间的占比的双讲话比率;(b)指示在该时间间隔中的存在任何会议参与者语音的占比的语音密度度量;和(c)指示在该时间间隔期间的由主导会议参与者发出的总语音的占比的主导度量,主导会议参与者是在时间间隔期间发言最多的会议参与者。
21.一种非暂态介质,在所述非暂态介质上存储有软件,所述软件包括用于控制用于处理音频数据的一个或多个设备的指令,所述软件包括用于以下的指令:
接收对应于涉及多个会议参与者的会议的会议记录的音频数据,所述音频数据包括以下中的至少一个:(a)被分别记录的来自多个端点的会议参与者语音数据,或(b)来自对应于多个会议参与者的单个端点的、并且包括用于标识所述多个会议参与者中的每个会议参与者的会议参与者语音的信息的会议参与者语音数据;
分析会议记录的会话动态以确定会话动态数据;
搜索会议记录以确定多个段分类中的每一个的实例,每个段分类至少部分地基于会话动态数据;以及
将会议记录分成多个段,每个段对应于时间间隔和至少一个段分类,
其中所述软件包括用于根据一组规则确定段分类的实例的指令,并且其中,该组规则包括如下规则,即如果语音密度度量大于或等于相互静默阈值并且双讲话比率大于混串音阈值,则将段分类为混串音段。
22.根据权利要求21所述的非暂态介质,其中,所述软件包括用于在不同的时间尺度上多次执行该搜索处理和分段处理的指令。
23.根据权利要求21所述的非暂态介质,其中,该搜索处理和分段处理至少部分地基于段分类的层级结构。
24.根据权利要求23所述的非暂态介质,其中段分类的层级结构基于来自准则列表的一个或多个准则,所述准则列表包括特定段分类的段能被标识的置信水平;段的开始时间能被确定的置信水平;段的结束时间能被确定的置信水平;以及特定段分类包括对应于会议主题的会议参与者语音的可能性。
25.根据权利要求21-24中任一项所述的非暂态介质,其中该组规则是基于选自一组会话动态数据类型的一个或多个会话动态数据类型的,该组会话动态数据类型包括(a)指示在时间间隔中的在其期间至少两个会议参与者同时发言的语音时间的占比的双讲话比率;(b)指示在该时间间隔中的存在任何会议参与者语音的占比的语音密度度量;和(c)指示在该时间间隔期间的由主导会议参与者发出的总语音的占比的主导度量,主导会议参与者是在该时间间隔期间发言最多的会议参与者。
26.一种用于处理音频数据的装置,所述装置包括:
接口系统;
用于经由接口系统接收对应于涉及多个会议参与者的会议的会议记录的音频数据的部件,所述音频数据包括以下中的至少一个:(a)被分别记录的来自多个端点的会议参与者语音数据,或(b)来自对应于多个会议参与者的单个端点的、并且包括用于标识所述多个会议参与者中的每个会议参与者的会议参与者语音的信息的会议参与者语音数据;
用于分析会议记录的会话动态以确定会话动态数据的部件;
用于搜索会议记录以确定多个段分类中的每一个的实例的部件,每个段分类至少部分地基于会话动态数据;以及
用于将会议记录分成多个段的部件,每个段对应于时间间隔和至少一个段分类,
其中段分类的实例根据一组规则被确定,并且该组规则包括如下规则,即如果语音密度度量大于或等于相互静默阈值并且双讲话比率大于混串音阈值,则将段分类为混串音段。
27.根据权利要求26所述的装置,其中,所述装置能够在不同的时间尺度上多次执行该搜索处理和分段处理。
28.根据权利要求26所述的装置,其中,该搜索处理和分段处理至少部分地基于段分类的层级结构。
29.根据权利要求28所述的装置,其中段分类的层级结构基于来自准则列表的一个或多个准则,所述准则列表包括特定段分类的段能被标识的置信水平;段的开始时间能被确定的置信水平;段的结束时间能被确定的置信水平;以及特定段分类包括对应于会议主题的会议参与者语音的可能性。
30.根据权利要求26-29中任一项所述的装置,其中该组规则是基于选自一组会话动态数据类型的一个或多个会话动态数据类型的,该组会话动态数据类型包括(a)指示在时间间隔中的在其期间至少两个会议参与者同时发言的语音时间的占比的双讲话比率;(b)指示在该时间间隔中的存在任何会议参与者语音的占比的语音密度度量;和(c)指示在该时间间隔期间的由主导会议参与者发出的总语音的占比的主导度量,主导会议参与者是在时间间隔期间发言最多的会议参与者。
31.一种设备,包括:
一个或多个处理器,
一个或多个存储介质,存储有指令,所述指令在被所述一个或多个处理器执行时使得执行根据权利要求1-15中任一项所述的方法。
32.一种包括用于执行根据权利要求1-15中任一项所述的方法的部件的装置。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2015072168 | 2015-02-03 | ||
| CNPCT/CN2015/072168 | 2015-02-03 | ||
| US201562170236P | 2015-06-03 | 2015-06-03 | |
| US62/170,236 | 2015-06-03 | ||
| PCT/US2016/016281 WO2016126767A1 (en) | 2015-02-03 | 2016-02-03 | Conference segmentation based on conversational dynamics |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN107211058A CN107211058A (zh) | 2017-09-26 |
| CN107211058B true CN107211058B (zh) | 2020-06-16 |
Family
ID=55359769
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201680008614.1A Active CN107211058B (zh) | 2015-02-03 | 2016-02-03 | 基于会话动态的会议分段 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US10522151B2 (zh) |
| EP (1) | EP3254453B1 (zh) |
| CN (1) | CN107211058B (zh) |
| WO (1) | WO2016126767A1 (zh) |
Families Citing this family (93)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3311558B1 (en) | 2015-06-16 | 2020-08-12 | Dolby Laboratories Licensing Corporation | Post-teleconference playback using non-destructive audio transport |
| US11120342B2 (en) | 2015-11-10 | 2021-09-14 | Ricoh Company, Ltd. | Electronic meeting intelligence |
| US10922347B2 (en) * | 2016-01-28 | 2021-02-16 | Hyland Switzerland Sàrl | Hierarchical dictionary with statistical filtering based on word frequency |
| JP7098875B2 (ja) * | 2016-02-02 | 2022-07-12 | 株式会社リコー | 会議支援システム、会議支援装置、会議支援方法及びプログラム |
| US10643031B2 (en) * | 2016-03-11 | 2020-05-05 | Ut-Battelle, Llc | System and method of content based recommendation using hypernym expansion |
| US10614162B2 (en) * | 2016-05-27 | 2020-04-07 | Ricoh Company, Ltd. | Apparatus, system, and method of assisting information sharing, and recording medium |
| US11107461B2 (en) * | 2016-06-01 | 2021-08-31 | Massachusetts Institute Of Technology | Low-power automatic speech recognition device |
| WO2018009969A1 (en) * | 2016-07-11 | 2018-01-18 | Ftr Pty Ltd | Method and system for automatically diarising a sound recording |
| US10546011B1 (en) * | 2016-09-23 | 2020-01-28 | Amazon Technologies, Inc. | Time code to byte indexer for partial object retrieval |
| US10860985B2 (en) * | 2016-10-11 | 2020-12-08 | Ricoh Company, Ltd. | Post-meeting processing using artificial intelligence |
| US11307735B2 (en) | 2016-10-11 | 2022-04-19 | Ricoh Company, Ltd. | Creating agendas for electronic meetings using artificial intelligence |
| US20180143970A1 (en) * | 2016-11-18 | 2018-05-24 | Microsoft Technology Licensing, Llc | Contextual dictionary for transcription |
| US10642889B2 (en) * | 2017-02-20 | 2020-05-05 | Gong I.O Ltd. | Unsupervised automated topic detection, segmentation and labeling of conversations |
| EP3593349B1 (en) * | 2017-03-10 | 2021-11-24 | James Jordan Rosenberg | System and method for relative enhancement of vocal utterances in an acoustically cluttered environment |
| US9741337B1 (en) * | 2017-04-03 | 2017-08-22 | Green Key Technologies Llc | Adaptive self-trained computer engines with associated databases and methods of use thereof |
| US10491651B2 (en) * | 2017-05-15 | 2019-11-26 | Omnivision Technologies, Inc. | Method and system for streaming low-delay high-definition video with partially reliable transmission |
| US10522135B2 (en) * | 2017-05-24 | 2019-12-31 | Verbit Software Ltd. | System and method for segmenting audio files for transcription |
| US10956875B2 (en) | 2017-10-09 | 2021-03-23 | Ricoh Company, Ltd. | Attendance tracking, presentation files, meeting services and agenda extraction for interactive whiteboard appliances |
| US11030585B2 (en) | 2017-10-09 | 2021-06-08 | Ricoh Company, Ltd. | Person detection, person identification and meeting start for interactive whiteboard appliances |
| US11062271B2 (en) | 2017-10-09 | 2021-07-13 | Ricoh Company, Ltd. | Interactive whiteboard appliances with learning capabilities |
| WO2019099549A1 (en) * | 2017-11-18 | 2019-05-23 | Cogi, Inc. | Interactive representation of content for relevance detection and review |
| US11064000B2 (en) * | 2017-11-29 | 2021-07-13 | Adobe Inc. | Accessible audio switching for client devices in an online conference |
| US10423382B2 (en) | 2017-12-12 | 2019-09-24 | International Business Machines Corporation | Teleconference recording management system |
| US10582063B2 (en) * | 2017-12-12 | 2020-03-03 | International Business Machines Corporation | Teleconference recording management system |
| US10592608B2 (en) | 2018-01-08 | 2020-03-17 | International Business Machines Corporation | Topic based conversation retrieval |
| US10777217B2 (en) * | 2018-02-27 | 2020-09-15 | At&T Intellectual Property I, L.P. | Performance sensitive audio signal selection |
| US10757148B2 (en) | 2018-03-02 | 2020-08-25 | Ricoh Company, Ltd. | Conducting electronic meetings over computer networks using interactive whiteboard appliances and mobile devices |
| CN108564941B (zh) * | 2018-03-22 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
| US11018885B2 (en) * | 2018-04-19 | 2021-05-25 | Sri International | Summarization system |
| US11457308B2 (en) * | 2018-06-07 | 2022-09-27 | Sonova Ag | Microphone device to provide audio with spatial context |
| EP3811360A4 (en) | 2018-06-21 | 2021-11-24 | Magic Leap, Inc. | PORTABLE SYSTEM VOICE PROCESSING |
| US11545144B2 (en) * | 2018-07-27 | 2023-01-03 | Samsung Electronics Co., Ltd. | System and method supporting context-specific language model |
| US10720161B2 (en) * | 2018-09-19 | 2020-07-21 | International Business Machines Corporation | Methods and systems for personalized rendering of presentation content |
| JP7142315B2 (ja) * | 2018-09-27 | 2022-09-27 | パナソニックIpマネジメント株式会社 | 説明支援装置および説明支援方法 |
| KR20210114521A (ko) * | 2019-01-25 | 2021-09-23 | 소울 머신스 리미티드 | 스피치 애니메이션의 실시간 생성 |
| US11587563B2 (en) | 2019-03-01 | 2023-02-21 | Magic Leap, Inc. | Determining input for speech processing engine |
| CN111739522B (zh) * | 2019-03-07 | 2025-05-23 | 京东科技控股股份有限公司 | 一种序列数据识别的方法和装置 |
| US11080466B2 (en) | 2019-03-15 | 2021-08-03 | Ricoh Company, Ltd. | Updating existing content suggestion to include suggestions from recorded media using artificial intelligence |
| US11392754B2 (en) | 2019-03-15 | 2022-07-19 | Ricoh Company, Ltd. | Artificial intelligence assisted review of physical documents |
| US11263384B2 (en) | 2019-03-15 | 2022-03-01 | Ricoh Company, Ltd. | Generating document edit requests for electronic documents managed by a third-party document management service using artificial intelligence |
| US11573993B2 (en) | 2019-03-15 | 2023-02-07 | Ricoh Company, Ltd. | Generating a meeting review document that includes links to the one or more documents reviewed |
| US11720741B2 (en) | 2019-03-15 | 2023-08-08 | Ricoh Company, Ltd. | Artificial intelligence assisted review of electronic documents |
| US11270060B2 (en) | 2019-03-15 | 2022-03-08 | Ricoh Company, Ltd. | Generating suggested document edits from recorded media using artificial intelligence |
| JP7560480B2 (ja) * | 2019-04-19 | 2024-10-02 | マジック リープ, インコーポレイテッド | 発話認識エンジンのための入力の識別 |
| US11322148B2 (en) * | 2019-04-30 | 2022-05-03 | Microsoft Technology Licensing, Llc | Speaker attributed transcript generation |
| US11430433B2 (en) * | 2019-05-05 | 2022-08-30 | Microsoft Technology Licensing, Llc | Meeting-adapted language model for speech recognition |
| US11212389B2 (en) | 2019-06-03 | 2021-12-28 | Revenue, Inc. | Systems and methods for dynamically controlling conversations and workflows based on multi-modal conversation monitoring |
| US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
| US10665231B1 (en) | 2019-09-06 | 2020-05-26 | Verbit Software Ltd. | Real time machine learning-based indication of whether audio quality is suitable for transcription |
| KR102845224B1 (ko) * | 2019-12-09 | 2025-08-12 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
| KR102712458B1 (ko) * | 2019-12-09 | 2024-10-04 | 삼성전자주식회사 | 오디오 출력 장치 및 오디오 출력 장치의 제어 방법 |
| US20220013127A1 (en) * | 2020-03-08 | 2022-01-13 | Certified Electronic Reporting Transcription Systems, Inc. | Electronic Speech to Text Court Reporting System For Generating Quick and Accurate Transcripts |
| US20210280193A1 (en) * | 2020-03-08 | 2021-09-09 | Certified Electronic Reporting Transcription Systems, Inc. | Electronic Speech to Text Court Reporting System Utilizing Numerous Microphones And Eliminating Bleeding Between the Numerous Microphones |
| US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
| US20210406839A1 (en) * | 2020-06-29 | 2021-12-30 | Capital One Services, Llc | Computerized meeting system |
| EP3944100A1 (en) * | 2020-07-20 | 2022-01-26 | Mimi Hearing Technologies GmbH | Method of selecting a suitable content for subjective preference judgement |
| CN112017655B (zh) * | 2020-07-25 | 2024-06-14 | 云开智能(深圳)有限公司 | 一种智能语音收录回放方法及其系统 |
| CN111798871B (zh) * | 2020-09-08 | 2020-12-29 | 共道网络科技有限公司 | 会话环节识别方法、装置及设备、存储介质 |
| WO2022072752A1 (en) | 2020-09-30 | 2022-04-07 | Magic Leap, Inc. | Voice user interface using non-linguistic input |
| US20220172728A1 (en) * | 2020-11-04 | 2022-06-02 | Ian Perera | Method for the Automated Analysis of Dialogue for Generating Team Metrics |
| CN114582348A (zh) * | 2020-11-18 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 语音播放系统、方法、装置及设备 |
| JP7033181B1 (ja) * | 2020-11-30 | 2022-03-09 | レノボ・シンガポール・プライベート・リミテッド | 情報処理装置及びレコーディング方法 |
| US11740856B2 (en) * | 2021-01-07 | 2023-08-29 | Meta Platforms, Inc. | Systems and methods for resolving overlapping speech in a communication session |
| US20220222604A1 (en) * | 2021-01-11 | 2022-07-14 | Target Brands, Inc. | Feedback visualization tool |
| EP4315760A4 (en) * | 2021-03-31 | 2025-01-01 | Jio Platforms Limited | SYSTEM AND METHOD FOR ENABLING IMPROVED SPATIAL CONFERENCE |
| US11736660B2 (en) | 2021-04-28 | 2023-08-22 | Zoom Video Communications, Inc. | Conference gallery view intelligence system |
| US12068872B2 (en) | 2021-04-28 | 2024-08-20 | Zoom Video Communications, Inc. | Conference gallery view intelligence system |
| CN113259619A (zh) * | 2021-05-07 | 2021-08-13 | 北京字跳网络技术有限公司 | 信息发送及显示方法、装置、存储介质和会议系统 |
| US11540078B1 (en) | 2021-06-04 | 2022-12-27 | Google Llc | Spatial audio in video conference calls based on content type or participant role |
| CN113536744A (zh) * | 2021-07-15 | 2021-10-22 | 维沃移动通信(杭州)有限公司 | 会议记录方法和装置 |
| US11490052B1 (en) * | 2021-07-27 | 2022-11-01 | Zoom Video Communications, Inc. | Audio conference participant identification |
| US11849257B2 (en) | 2021-08-04 | 2023-12-19 | Google Llc | Video conferencing systems featuring multiple spatial interaction modes |
| US11637991B2 (en) | 2021-08-04 | 2023-04-25 | Google Llc | Video conferencing systems featuring multiple spatial interaction modes |
| US11934432B2 (en) * | 2021-08-31 | 2024-03-19 | Shopify Inc. | Systems and methods for dynamic labeling of real-time communication sessions |
| US12045574B2 (en) * | 2021-08-31 | 2024-07-23 | Shopify Inc. | Systems and methods for generating indications of real-time communication sessions |
| JP7532322B2 (ja) * | 2021-09-01 | 2024-08-13 | 株式会社東芝 | コミュニケーションデータログ処理装置、方法及びプログラム |
| US11700335B2 (en) * | 2021-09-07 | 2023-07-11 | Verizon Patent And Licensing Inc. | Systems and methods for videoconferencing with spatial audio |
| US11843898B2 (en) | 2021-09-10 | 2023-12-12 | Zoom Video Communications, Inc. | User interface tile arrangement based on relative locations of conference participants |
| CA3142130A1 (en) | 2021-12-14 | 2023-06-14 | Breeze Systems Inc. | Integrating online and telephonic conference platforms and enabling screening of attendee questions regardless of way attendee joins |
| US20230197097A1 (en) * | 2021-12-16 | 2023-06-22 | Mediatek Inc. | Sound enhancement method and related communication apparatus |
| US11882383B2 (en) | 2022-01-26 | 2024-01-23 | Zoom Video Communications, Inc. | Multi-camera video stream selection for in-person conference participants |
| US12499887B2 (en) | 2022-02-16 | 2025-12-16 | Sri International | Hybrid human-assisted dialogue system |
| US12107699B2 (en) * | 2022-03-11 | 2024-10-01 | Read AI, Inc. | Systems and methods for creation and application of interaction analytics |
| WO2024020171A2 (en) * | 2022-07-22 | 2024-01-25 | Afiniti, Ltd. | Natural language processing with contact center data |
| US12437776B2 (en) * | 2022-09-19 | 2025-10-07 | SubStrata Ltd. | Automated classification of relative dominance based on reciprocal prosodic behaviour in an audio conversation |
| US12388888B2 (en) | 2022-12-21 | 2025-08-12 | Zoom Communications, Inc. | Packet replacement during poor network connectivity or network congestion |
| US12424198B2 (en) | 2022-12-21 | 2025-09-23 | Zoom Communications, Inc. | Word replacement during poor network connectivity or network congestion |
| CN115934995A (zh) * | 2022-12-28 | 2023-04-07 | 安徽淘云科技股份有限公司 | 数据存储方法、装置、电子设备和存储介质 |
| US20250078842A1 (en) * | 2023-08-30 | 2025-03-06 | Nvidia Corporation | Multi-speaker speech recognition facilitated by language models |
| CN117079655B (zh) * | 2023-10-16 | 2023-12-22 | 华南师范大学 | 一种音频分析方法、装置、设备和可读存储介质 |
| WO2025108378A1 (zh) * | 2023-11-22 | 2025-05-30 | 北京字跳网络技术有限公司 | 会议数据的处理方法及装置、媒体内容的划分方法及装置、摘要生成方法及装置、电子设备和计算机可读介质 |
| US12131272B1 (en) | 2023-12-14 | 2024-10-29 | COLLABIP, Inc. | Systems and methods for automated conversation monitoring and control |
| CN118038886A (zh) * | 2024-02-18 | 2024-05-14 | 南京龙垣信息科技有限公司 | 异构多说话人自适应语音会议记录系统及方法 |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1577264A (zh) * | 2003-07-28 | 2005-02-09 | 国际商业机器公司 | 提供在线协作会议的实例的系统和方法 |
| CN1859511A (zh) * | 2005-04-30 | 2006-11-08 | 华为技术有限公司 | 一种电话会议混音方法 |
| JP2009141400A (ja) * | 2007-12-03 | 2009-06-25 | Audio Technica Corp | 音声会議装置および音声会議方法 |
| CN101690150A (zh) * | 2007-04-14 | 2010-03-31 | 缪斯科姆有限公司 | 基于虚拟现实的电话会议 |
| CN102045461A (zh) * | 2009-10-09 | 2011-05-04 | 杭州华三通信技术有限公司 | 语音信号的混音方法和装置 |
| CN103109529A (zh) * | 2010-08-27 | 2013-05-15 | Televic会议股份有限公司 | 在数字会议系统中使用的设备 |
| WO2014004224A1 (en) * | 2012-06-28 | 2014-01-03 | Dolby Laboratories Licensing Corporation | Metric for meeting commencement in a voice conferencing system |
Family Cites Families (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6404925B1 (en) | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
| US7617094B2 (en) | 2003-02-28 | 2009-11-10 | Palo Alto Research Center Incorporated | Methods, apparatus, and products for identifying a conversation |
| US8175874B2 (en) | 2005-11-17 | 2012-05-08 | Shaul Shimhi | Personalized voice activity detection |
| JP5055781B2 (ja) | 2006-02-14 | 2012-10-24 | 株式会社日立製作所 | 会話音声分析方法、及び、会話音声分析装置 |
| EP2266231B1 (en) | 2008-04-17 | 2017-10-04 | Telefonaktiebolaget LM Ericsson (publ) | Coversational interactivity measurement and estimation for real-time media |
| US8554562B2 (en) | 2009-11-15 | 2013-10-08 | Nuance Communications, Inc. | Method and system for speaker diarization |
| US8797380B2 (en) | 2010-04-30 | 2014-08-05 | Microsoft Corporation | Accelerated instant replay for co-present and distributed meetings |
| US8306814B2 (en) | 2010-05-11 | 2012-11-06 | Nice-Systems Ltd. | Method for speaker source classification |
| WO2011160741A1 (en) | 2010-06-23 | 2011-12-29 | Telefonica, S.A. | A method for indexing multimedia information |
| WO2012108918A1 (en) * | 2011-02-09 | 2012-08-16 | The Trustees Of Dartmouth College | Acoustic sensor with an acoustic object detector for reducing power consumption in front-end circuit |
| JP5732976B2 (ja) | 2011-03-31 | 2015-06-10 | 沖電気工業株式会社 | 音声区間判定装置、音声区間判定方法、及びプログラム |
| CN102509548B (zh) | 2011-10-09 | 2013-06-12 | 清华大学 | 一种基于多距离声传感器的音频索引方法 |
| US9711167B2 (en) | 2012-03-13 | 2017-07-18 | Nice Ltd. | System and method for real-time speaker segmentation of audio interactions |
| US20130300939A1 (en) | 2012-05-11 | 2013-11-14 | Cisco Technology, Inc. | System and method for joint speaker and scene recognition in a video/audio processing environment |
| US9368116B2 (en) | 2012-09-07 | 2016-06-14 | Verint Systems Ltd. | Speaker separation in diarization |
| US9058806B2 (en) | 2012-09-10 | 2015-06-16 | Cisco Technology, Inc. | Speaker segmentation and recognition based on list of speakers |
| US8976226B2 (en) | 2012-10-15 | 2015-03-10 | Google Inc. | Generating an animated preview of a multi-party video communication session |
| CN103559882B (zh) | 2013-10-14 | 2016-08-10 | 华南理工大学 | 一种基于说话人分割的会议主持人语音提取方法 |
| CN111866022B (zh) | 2015-02-03 | 2022-08-30 | 杜比实验室特许公司 | 感知质量比会议中原始听到的更高的后会议回放系统 |
-
2016
- 2016-02-03 EP EP16704783.6A patent/EP3254453B1/en active Active
- 2016-02-03 US US15/546,109 patent/US10522151B2/en active Active
- 2016-02-03 CN CN201680008614.1A patent/CN107211058B/zh active Active
- 2016-02-03 WO PCT/US2016/016281 patent/WO2016126767A1/en not_active Ceased
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1577264A (zh) * | 2003-07-28 | 2005-02-09 | 国际商业机器公司 | 提供在线协作会议的实例的系统和方法 |
| CN1859511A (zh) * | 2005-04-30 | 2006-11-08 | 华为技术有限公司 | 一种电话会议混音方法 |
| CN101690150A (zh) * | 2007-04-14 | 2010-03-31 | 缪斯科姆有限公司 | 基于虚拟现实的电话会议 |
| JP2009141400A (ja) * | 2007-12-03 | 2009-06-25 | Audio Technica Corp | 音声会議装置および音声会議方法 |
| CN102045461A (zh) * | 2009-10-09 | 2011-05-04 | 杭州华三通信技术有限公司 | 语音信号的混音方法和装置 |
| CN103109529A (zh) * | 2010-08-27 | 2013-05-15 | Televic会议股份有限公司 | 在数字会议系统中使用的设备 |
| WO2014004224A1 (en) * | 2012-06-28 | 2014-01-03 | Dolby Laboratories Licensing Corporation | Metric for meeting commencement in a voice conferencing system |
Also Published As
| Publication number | Publication date |
|---|---|
| US20180336902A1 (en) | 2018-11-22 |
| US10522151B2 (en) | 2019-12-31 |
| EP3254453B1 (en) | 2019-05-08 |
| CN107211058A (zh) | 2017-09-26 |
| EP3254453A1 (en) | 2017-12-13 |
| WO2016126767A1 (en) | 2016-08-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107211058B (zh) | 基于会话动态的会议分段 | |
| CN107210045B (zh) | 会议搜索以及搜索结果的回放 | |
| CN107211027B (zh) | 感知质量比会议中原始听到的更高的后会议回放系统 | |
| CN107211061B (zh) | 用于空间会议回放的优化虚拟场景布局 | |
| CN107211062B (zh) | 虚拟声学空间中的音频回放调度 | |
| CN107210034B (zh) | 选择性会议摘要 | |
| CN107210036B (zh) | 会议词语云 | |
| EP3311558B1 (en) | Post-teleconference playback using non-destructive audio transport |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |