CN117915157A

CN117915157A - 转录和基于文本的视频编辑的面部感知说话人日志化

Info

Publication number: CN117915157A
Application number: CN202310958027.0A
Authority: CN
Inventors: F·D·卡巴·海尔布隆; 白雪; A·O·阿加瓦拉; 蔡浩然; L·A·唐特彻瓦
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2022-10-17
Filing date: 2023-08-01
Publication date: 2024-04-19
Also published as: GB2635831A; DE102023120748A1; AU2023216768A1; GB202312321D0; GB2623617A; GB202414809D0; US12125501B2; GB2623617B; US20240127857A1

Abstract

本公开的实施例涉及转录和基于文本的视频编辑的面部感知说话人日志化。本发明的实施例提供了用于面部感知说话人日志化的系统、方法和计算机存储介质。在示例性实施例中，应用纯音频说话人日志化技术来生成视频的纯音频说话人日志化，应用视听说话人日志化技术来生成视频的面部感知说话人日志化，并且使用面部感知说话人日志化来细化纯音频说话人日志化，以生成将检测到的面部链接到检测到的语音的混合说话人日志化。在一些实施例中，为了适应具有表现为像素化的小面部的视频，从视频的每一帧提取任何给定面部的裁剪图像，并且使用裁剪图像的大小来选择相应的活动说话者检测模型，以预测针对裁剪图像中面部的活动说话者得分。

Description

转录和基于文本的视频编辑的面部感知说话人日志化

背景技术

近年来，视频的使用激增，它在从电影电视到广告和社交媒体的几乎每个行业都有应用。企业和个人经常在各种环境中创建和分享视频内容，例如演示文稿、教程、评论、新闻和体育片段、博客、产品评论、表彰、喜剧、舞蹈、音乐、电影和视频游戏，仅举几个示例。视频可以使用相机捕获，使用动画或渲染工具生成，使用各种类型的视频编辑软件进行编辑，并通过各种渠道分享。事实上，数码相机、智能手机、社交媒体和其他技术的最新进步提供了许多新方法，使得即使是新手也更容易捕获和分享视频。随着这些捕获和分享视频的新方式的出现，对视频编辑功能的需求也越来越大。

传统上，视频编辑涉及选择视频帧并对帧或相关联的音频执行某种类型的动作。一些常见操作包括导入、裁切、裁剪、重新排列、应用过渡和效果、调整颜色、添加标题和图形、导出及其他。视频编辑软件，例如PRO和ADOBEPREMIERE ELEMENTS，通常包括图形用户界面(GUI)，其呈现表示视频中的视频帧的视频时间线，并允许用户选择特定帧以及要对帧执行的操作。然而，传统的视频编辑可能乏味、具有挑战性，甚至超出了许多用户的技能水平。

发明内容

本发明的一些实施例涉及使用转录(transcript)交互的视频片段选择和编辑，包括标识视频片段的候选边界、使用那些边界选择视频片段(例如，沿着转录文本拖动)、以及相应的视频编辑(例如，基于文本的视频编辑)。为了便于对对应于所选转录文本的视频片段进行选择和执行操作(音频和视频资产的基于文本的编辑)，基于在转录中检测到的句子和词来标识视频片段的候选边界。在示例实施例中，转录来自视频的音频轨道，从而生成标识句子、词和表示在视频中何时说出每个词的时间戳的转录。转录被用来标识句子片段的边界，并且如果在句子片段之间存在任何非语音段(例如，长于指定持续时间)，则基于语音或音频活动对句子片段的边界重新定时。每个句子片段被分成词片段，并且如果在词片段之间存在任何非语音片段(例如，长于指定的持续时间)，则基于语音或音频活动对词片段的边界重新定时。因此，转录界面呈现转录并接受从转录中选择单个句子或词的输入(例如，通过点击或敲击并在转录上拖动)，并且对应于所选转录文本的所标识的边界被用作所选视频片段的边界。在一些实施例中，转录界面接受传统上被认为是基于文本的操作的命令(例如，剪切、复制、粘贴或删除所选转录文本的指令)，并且作为响应，使用所选视频片段执行相应的视频编辑操作。因此，用户可以很容易地创建只包含他们想要的转录部分的视频剪辑。

本发明的一些实施例针对面部感知说话人日志化(diarization)技术，该技术便于音频和视频资产的基于文本的编辑，因为对于编辑者来说，知道内容的哪些部分由不同的人说出通常是非常有帮助的。在一个示例实施例中，面部感知说话人日志化技术最初应用纯音频说话人日志化技术，该技术考虑从视频的音频轨道检测到的语音识别以计算第一说话人日志化(例如，将音频轨道中的说话人标识为“说话人1”、“说话人2”等)。此外，应用考虑面部和语音识别(分别从音频和视频轨道检测)的视听说话人日志化技术来计算第二说话人日志化。因此，视频中对应于视频中每个时刻的活动语音的面部由第二说话人日志化来标识，并用于通过确保活动语音和视频中看到的面部之间的一致对应性来细化第一说话人日志化(例如，分配给不同说话人的开始/结束时间)。在一些实施例中，使用Hungarian算法组合第一和第二说话人日志化，以找到从一个日志化到另一个日志化的说话人标识的最佳分配。依赖于该混合日志化技术的实施例通过利用视频信号结合音频信号来避免或减少传统的过度分段问题，同时保留纯音频说话人日志化的精确度益处。同样地，在一些实施例中，面部被链接到语音，使得显示日志化转录的转录界面可以显示每个说话人的面部，而不是“说话人1”、“说话人2”等。

为了适应具有看起来像素化的小面部的视频，从每一帧中提取任何给定面部的裁剪图像，并且使用裁剪图像的大小来选择相应的面部感知说话人日志化模型来处理裁剪图像。示例实现包括在(像素化的)面部的小图像上训练的一个模型和在面部的较大图像上训练的另一个模型，并且基于从给定帧提取的裁剪图像的大小来选择适当的模型。

本发明的一些实施例涉及用于基于文本的视频编辑的日志化转录中的说话人缩略图选择和说话人视觉化(visualization)。一般来说，在视频中选择特定说话人面部的最佳图像有助于在日志化转录中实现说话人视觉化。为了帮助用户标识选择转录的哪些部分，在一些实施例中，转录界面利用说话人的视觉表示(例如，说话人缩略图)和/或来自对应于该段落的视频部分的视频帧(例如，视频缩略图)来显示转录的每个段落，例如，形成对应段落的说话人缩略图、视频缩略图和转录文本的列。在一些实施例中，特定说话人的面部的最佳图像是基于图像质量、面部情感(例如，使用生成快乐得分的情感分类器)、大小因素(例如，偏爱较大的图像)和/或朝着面部轨迹的开始或结尾出现的惩罚图像从视频中选择的。因此，转录界面以说出该段落的说话人的最佳图像来显示转录的每个段落，和/或转录界面接受改变与每个说话人相关联的说话人缩略图的输入(例如，以校正日志化错误)。

本发明的一些实施例涉及便于音频和视频资产的基于文本的编辑的音乐感知说话人日志化，因为对于编辑者来说，知道内容的哪些部分由不同的人说出通常是非常有帮助的。在示例实施例中，音乐感知说话人日志化技术使用音频自动标记来移除在时间上与检测到的纯音乐区域重叠的转录和说话人，和/或在转录中呈现检测到的音频分类的视觉化。在一些实施例中，在摄取期间应用的音频分类器彼此独立地检测语音和音乐，这有助于检测音频轨道中包含音乐但不包含语音的区域。在一些实现中，将这些纯音乐区域与转录进行比较，并且从转录中移除在时间上与纯音乐区域重叠的任何转录和说话人。因此，这样的实施例通过从转录中标识并移除与检测到的音乐重叠的文本来避免转录唱歌的传统不准确性。在一些实施例中，不是让转录显示来自该检测到的音乐的文本，而是将音频波形的视觉表示包括在转录的相应区域中。在一些实现中，音频波形的视觉表示被空间压缩以在转录中占用较少的空间、放在其自己的转录行中、和/或用标识对应的检测到的音频类别(例如，音乐、诸如笑声或哭声的音频事件的特定类别)的标签来注释。

本发明的一些实施例针对用于将转录分段成段落以使转录更容易阅读、理解和交互的转录段落分段技术。在某些情况下，每当有新的说话人说话时，说话人日志化被用来分段转录。然而，在许多情况下，单个说话人讲了很长时间，导致转录中可能出现一个冗长而笨拙的段落。因此，在较高级别，每当存在长停顿(句子之间的静默时间)和/或分段比指定长度或持续时间(例如，50或100个词)更长的段落时，一些实施例开始新的段落，基于每个候选段落中的文本段的长度和语义一致性来评估不同的候选段落。在示例实现中，使用成本函数来标识和评估在句子边界处将长段落分解成多个较小段落的不同候选分段，该成本函数基于与目标段落长度的偏离来惩罚候选分段和/或鼓励将语义相似的句子分组为共同段落的分段。更具体地，对于定义一组候选段落的每个候选分段(一组候选句子边界)，向每个候选段落分配成本，并且使用动态规划来选择使该候选分段中的候选段落的成本总和最小的候选分段。因此，这样的实施例标识具有灵活的段落长度的段落，并在期望的段落长度和每个段落中主题的一致性之间提供平衡。

本发明的一些实施例涉及用于用视频元数据注释转录文本并在转录中包括缩略图栏以帮助用户通过转录交互来选择视频的期望部分的技术。在示例实施例中，视频编辑界面包括呈现加载的视频的转录的转录界面，并且选择转录文本的用户输入(例如，点击或敲击并沿转录拖动)用于标识具有与所选转录文本相对应的边界的相应视频片段。例如，通过样式化(例如，下划线、突出显示)对应的转录文本和/或用标识对应的检测到的特征(例如，检测到的视频对象或动作、检测到的音频事件、检测到的音频分类)的标签或标签来标记对应的转录文本，对转录文本进行注释以指示其中检测到各种特征的视频的相应部分。在一些情况下，转录界面显示检测到的非语音音频或停顿的视觉表示(例如，作为音棒)，例如与转录文本同行或在单独的行中。在一些情况下，转录界面在时间线视图中在转录中的每行文本下方(例如，作为缩略图栏)显示对应于每行转录文本的视频缩略图。在一些实施例中，缩略图栏是可选择的，从而转录界面接受从转录中的一个或多个缩略图栏中选择一段缩略图的输入(例如，点击或敲击并沿转录中的一个或多个缩略图栏拖动)，其用于标识具有对应于所选缩略图的边界的相应视频片段。

本发明的一些实施例针对用于导航转录的视觉/文本搜索界面。在视觉搜索的示例实施例中，训练一个或多个机器学习模型(例如，一个或多个神经网络)以将文本和视觉形态(例如，自由形式查询和各个图像帧)编码到公共嵌入空间中。因此，视频的每个视频帧被编码到对应的帧嵌入中，搜索界面接受自由形式的文本查询，该自由形式的文本查询被编码到查询嵌入中，并且执行最近邻搜索以标识具有与查询嵌入最佳匹配(例如，在阈值相似度内)的对应帧嵌入的视频帧。附加地或备选地，搜索界面搜索与文本查询匹配的转录文本片段和/或搜索与文本查询匹配的检测到的特征标签。在既包括视觉搜索又包括文本搜索的一些实施例中，在搜索界面的第一部分(例如，可以向左和向右滚动的一行图块，其中每个图块显示视频缩略图、视频中的时间和/或匹配视频片段的匹配得分)中显示视觉搜索结果，并且在搜索界面的第二部分(例如，可以向上和向下滚动的一列图块，其中每个图块显示匹配视频片段的视频缩略图、说话人缩略图和/或文本)中显示文本搜索结果。在一些实施例中，对在搜索结果图块中再现的转录文本进行注释以指示从其检测到匹配文本查询的特征标签的视频中的对应区域(例如，通过在对应的转录文本下划线，用标识对应的检测到的特征的标签或标签来标记转录文本)。在示例实现中，在搜索界面中选择(例如，点击或敲击)搜索结果图块将转录界面导航到转录的相应部分，转录界面突出显示匹配的转录文本，和/或转录界面注释文本以指示从其检测到匹配文本查询的特征标签的视频中的对应区域。

本发明的一些实施例针对出现在视频转录中的有意义的问题进行问题搜索。许多视频包括人与人之间的对话，例如采访、会议、交互式演示或其他场景的视频。按问题导航视频是导航视频的一种很有帮助的方式。因此，在一些实施例中，搜索界面接受执行问题搜索的命令，并且搜索界面标识并显示与出现在转录中的有意义的问题相匹配的视频片段。在示例实施例中，转录来自视频的音频轨道，生成标识句子和标点符号(例如，句点和问号)的转录，并且解析该转录以标识以问号结尾的句子。根据实施例，可能对导航视频没有帮助的一种或多种类型的问题被滤除，诸如短于某些最小长度或持续时间的短句(例如，什么？)、后勤问题(例如，你能看到我的屏幕吗？你现在能听到我说话吗？我们在等人吗？)，和/或反问句。因此，在一些实施例中，响应于执行问题搜索的命令，搜索界面标识(例如，先前确定的有意义的问题)并在搜索界面的一部分(例如，可以向上和向下滚动的一列图块，其中每个图块显示匹配视频片段的视频缩略图、说话人缩略图和/或转录文本)中显示对应的匹配视频片段的表示。在一些实施例中，特定搜索结果问题的搜索结果图块包括比简单的问题更多的转录文本(例如，分组的问题、指定长度或持续时间的转录内容直到说话人改变)。在示例实现中，在搜索界面中选择(例如，点击或敲击)搜索结果图块将转录界面导航到转录的对应部分，和/或转录界面突出显示匹配的问题。

提供该发明内容是为了以简化形式介绍一组概念，这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或基本特征，也不旨在用作确定所要求保护的主题的范围的辅助。

附图说明

下面参考附图详细描述本发明，其中：

图1A-图1B是根据本发明实施例的用于视频编辑或回放的示例计算系统的框图；

图2示出了根据本发明实施例的示例活动说话人检测模型；

图3示出了根据本发明实施例的不同面部的小图像或像素化图像的示例；

图4示出了根据本发明实施例的示例混合说话人日志化；

图5示出了根据本发明的实施例的视频中特定说话人的面部的示例裁剪图像；

图6示出了根据本发明的实施例的移除转录的唱歌的音乐感知说话人日志化技术的示例；

图7是示出根据本发明实施例的示例转录分段技术的流程图；

图8A-图8C示出了根据本发明实施例的使用示例词和句子片段的示例分段技术；

图9示出了根据本发明实施例的示例视频选择界面；

图10示出了根据本发明实施例的示例视频编辑界面；

图11示出了根据本发明的实施例的用于基于文本的视频编辑的示例转录界面；

图12示出了根据本发明的实施例的视觉化非语音音频的示例转录界面；

图13示出了根据本发明的实施例的包括缩略图栏的示例转录界面；

图14示出了根据本发明实施例的用于视频内容的视觉和文本搜索的示例搜索界面；

图15示出了根据本发明的实施例的注释搜索结果中的转录文本的示例搜索界面；

图16示出了根据本发明实施例的视频中问题的示例搜索界面；

图17是示出根据本发明实施例的基于文本的视频编辑方法的流程图；

图18是示出根据本发明实施例的用于视频分段和视频片段选择和编辑的方法的流程图；

图19是示出根据本发明实施例的基于词和/或句子片段的视频分段方法的流程图；

图20是示出根据本发明实施例的面部感知说话人日志化方法的流程图；

图21是示出根据本发明实施例的基于面部感知说话人日志化来更新初始说话人日志化的方法的流程图；

图22是示出根据本发明实施例的用于标识被检测说话人的面部的代表图像的方法的流程图；

图23是示出根据本发明实施例的用于标识面部的最佳图像的方法的流程图；

图24是示出根据本发明实施例的从转录文本中省略转录唱歌的方法的流程图；

图25是示出根据本发明实施例的用于音乐感知说话人日志化的方法的流程图；

图26是示出根据本发明实施例的用于转录段落分段和视觉化的方法的流程图；

图27是示出根据本发明实施例的用于视觉化转录的方法的流程图；

图28是示出根据本发明实施例的用于触发视频的视觉和文本搜索的方法的流程图；

图29是示出根据本发明实施例的用于触发对视频中出现的问题的搜索的方法的流程图；

图30是示出根据本发明实施例的用于标识视频中出现的问题的方法的流程图；

图31是示出根据本发明实施例的用于标识后勤问题的方法的流程图；

图32是适于在实现本发明的实施例中使用的示例计算环境的框图。

具体实施方式

视频文件、剪辑或项目通常可以分为视觉元素和音频元素。例如，视频可以编码或以其他方式标识包括静止图像序列(例如，视频帧)的视频轨道和包括一个或多个音频信号的伴随音频轨道。传统的视频编辑界面允许用户通过与视频时间线交互来选择特定的视频帧，该视频时间线将时间线上的帧作为时间的函数线性地表示，并且在对应于每个帧出现在视频中的时间的位置处。然而，依赖于特定视频帧或相应时间范围的选择的交互模式本质上是缓慢和细粒度的，导致编辑工作流通常被认为是乏味的、具有挑战性的，甚至超出了许多用户的技能水平。换言之，需要选择特定视频帧或时间范围的基于时间的视频编辑提供了具有有限灵活性的交互形态，从而限制了用户与传统视频编辑界面交互的效率。因此，需要用于视频编辑工具的改进的界面和改进的交互模式。

可用于促进视频编辑的一个特征是说话人日志化，其涉及接收音频、将音频中的语音内容转录成文本、以及基于说话的人将文本的不同部分分配给不同的说话人。从本质上讲，说话人日志化识别说话人何时改变(或重复)，以及每个说话人说了什么。仅有很少(如果有的话)商业上可用的视频编辑工具在视频编辑界面中提供日志化转录。在许多情况下，对于进行编辑的人来说，知道内容的哪些部分是由不同的人说出会非常有帮助。同样地，并且如更详细地解释的，一些实施例利用说话人日志化来提供便于视频编辑的日志化转录。

然而，当应用于来自视频的音频轨道时，仅考虑音频信号的传统的基于音频的说话人日志化技术遭受各种缺陷。首先，基于音频的说话人日志化不会将声音(说话人)与视频中看到的人相关联，这意味着说话人的图像不能显示在他们的句子旁边，这将有助于视频编辑应用程序。此外，由于只考虑音频，这种方法往往会过度分段内容(即，划分成比实际数量更多的说话人)。此外，当分析包含带有唱歌的音乐的内容时，传统的说话人日志化技术常常产生较差的结果。注意，在说话人日志化中，语音(即说出的词)和唱歌被认为是不同的现象。自动语音识别(ASR)系统用作传统的说话人日志化的基础，试图转录音频中的所有人类声音，包括歌词。由于ASR在转录唱歌方面很差，它经常导致文本中出现乱码或其他不准确的文本。此外，存在可能与视频编辑转录相关的多个场景，其中可能不希望将说话人分配给某些音频内容，但是传统的说话人日志化技术仍会尝试这样做。例如，传统的说话人日志化算法将尝试将说话人分配给转录的唱歌，即使该唱歌很可能是背景音乐轨道的一部分或用于增强不相关视频片段的音乐视频剪辑的一部分(例如，在电影、游戏等中)，并且将说话人分配给转录中的那些唱过的词可能是没有帮助或不希望的。因此，需要一种用于视频编辑工具的改进的说话人日志化技术。

此外，传统转录技术具有一些缺陷，这将限制它们在各种应用中的有用性。例如，现有的转录服务将音频中的语音内容转录成文本，但简单地呈现整个音频轨道的转录文本可能会限制转录文本的可读性和可理解性。因此，需要改进的转录技术以及用于与转录交互的改进的技术。

因此，本发明的实施例涉及用于视频导航、视频编辑、转录编辑和/或视频回放的视频分段、说话人日志化、转录段落分段和/或各种交互模式。在示例实施例中，通过检测各种特征(例如，转录)、基于检测到的句子和词标识用于视频分段的边界、使用音频和/或视频轨道检测活动说话人并将检测到的说话人分配给转录的相应部分、以及逐段分段转录来摄取视频。在一些实施例中，当用户将摄取的视频加载到视频编辑界面中时，转录界面呈现日志化的、分段的转录，并提供允许用户通过选择相应的转录文本来选择视频片段并响应于与所选择的转录文本交互的输入来执行视频编辑操作的各种视觉化和交互模式。在一些实施例中，搜索界面接受文本查询并对匹配的框架嵌入执行视觉搜索，接受文本查询并对转录或检测到的特征标签中的匹配词执行文本搜索，和/或对出现在视频中的有意义的问题执行问题搜索。因此，搜索和/或转录界面向用户提供在视频内导航、选择视频片段以及通过转录交互对所选视频片段执行编辑操作的能力。因此，本技术提供了创建、编辑和消费视频的新方式，为创建者和消费者提供了用于与视频交互的更直观的结构。

在一些实施例中，为了便于对对应于所选转录文本的视频片段进行选择和执行操作(基于文本的音频和视频资产的编辑)，基于在转录中检测到的句子和词来标识视频片段的候选边界。在示例实施例中，转录来自视频的音频轨道，生成标识句子、词和表示在视频中何时说出每个词的时间戳的转录。转录被用来标识句子片段的边界，并且如果在句子片段之间存在任何非语音段(例如，长于指定持续时间)，则基于语音或音频活动对句子片段的边界重新定时。每个句子片段被分成词片段，并且如果在词片段之间存在任何非语音片段(例如，长于指定的持续时间)，则基于语音或音频活动对词片段的边界重新定时。因此，转录界面呈现转录并接受从转录中选择单个句子或词的输入(例如，通过点击或敲击并在转录上拖动)，并且对应于所选转录文本的所标识的边界被用作所选视频片段的边界。在一些实施例中，转录界面接受传统上被认为是基于文本的操作的命令(例如，剪切、复制、粘贴或删除所选转录文本的指令)，并且作为响应，使用所选视频片段执行相应的视频编辑操作。因此，用户可以很容易地创建只包含他们想要的转录部分的视频剪辑。

在一些实施例中，应用说话人日志化来促进音频和视频资产的基于文本的编辑，因为编辑者知道内容的哪些部分由不同的人说出是非常有帮助的。在示例实施例中，面部感知说话人日志化技术最初应用纯音频的说话人日志化技术，该技术考虑从视频的音频轨道中检测到的语音识别以计算第一说话人日志化(例如，将音频轨道中的说话人标识为“说话人1”、“说话人2”等)。分别考虑从音频和视频轨道中检测到的面部和语音识别的视听说话人日志化技术被应用于计算第二说话人日志化。因此，视频中对应于视频中每个时刻的活动语音的面部由第二说话人日志化来标识，并用于通过确保活动语音和视频中看到的面部之间的一致对应性来细化第一说话人日志化(分配给不同说话人的开始/结束时间)。在一些实施例中，使用Hungarian算法组合第一和第二说话人标识，以找到从一个日志化到另一个日志化的说话人标识的最佳分配。由于纯音频方法往往会过度分段(检测到的说话人多于音频中的实际说话人，将同一人所说的部分分配给两个不同的说话人)，因此利用视频中语音和面部之间的对应关系可以减少过度分段，从而产生更准确的日志化。此外，依赖于该混合日志化技术的实施例通过利用视频信号结合音频信号来避免或减少传统的过度分段问题，同时保留纯音频说话人日志化的准确性益处。因此，在一些实施例中，面部被链接到语音，使得显示日志化转录的转录界面可以显示每个说话人的面部，这显著地改善了用户(编辑)体验，而不是“说话人1”、“说话人2”等。

在一些实施例中，为了适应具有看起来像素化的小面部的视频，从每一帧提取任何给定面部的裁剪图像，并且使用裁剪图像的大小来选择对应的面部感知说话人日志化模型来处理裁剪图像(例如，向该面部分配活动说话人得分)。一个示例实现包括一个为(像素化的)面部的小图像调整大小并在其上训练的模型，以及另一个为面部的较大图像调整大小并在其上训练的模型，并且基于从给定帧提取的裁剪图像的大小来选择适当的模型。

在另一个示例实施例中，音乐感知(music-aware)说话人日志化技术使用音频自动标记来移除转录，并且在时间上与检测到的纯音乐区域重叠的说话人(例如，移除转录的唱歌)，和/或检测到的音频分类在转录中视觉化。在示例实现中，在摄取期间应用的音频分类器彼此独立地检测语音和音乐，这有助于检测音频轨道中包含音乐但不包含语音的区域。在一些实施例中，将这些纯音乐区域与转录进行比较，并且从转录中移除在时间上与纯音乐区域重叠的任何转录和说话人。因此，这样的实施例通过从转录中标识并移除与检测到的音乐重叠的文本来避免转录唱歌的传统不准确性。此外，在一些实施例中，不是让转录显示来自该检测到的音乐的文本，而是呈现包括语音(视觉化为文本)和音乐(视觉化为例如波形)两者的混合转录视觉化。在示例实现中，用于检测到的音乐的音频波形的视觉表示被包括在转录的相应区域中。在一些实现中，音频波形的视觉表示被空间压缩以在转录中占用较少的空间、放在其自己的转录行中、和/或用标识对应的检测到的音频类别(例如，音乐、诸如笑声或哭声的音频事件的特定类别)的标签来注释。这样的技术允许用户更有效地导航转录或相应的视频，因为它们可以容易地区分语音内容和音乐内容。

在一些实施例中，转录被分段成段落，以使转录更容易阅读、理解和交互。在某些情况下，每当有新的说话人说话时，说话人日志化被用来分段转录。然而，在许多情况下，一个说话人讲了很长时间，导致转录中可能出现一个冗长而笨拙的段落。因此，在较高级别，每当存在长停顿(句子之间的非语音片段)和/或分段比指定长度或持续时间(例如，50或100个词)更长的段落时，一些实施例开始新的段落，基于每个候选段落中的文本片段的长度和语义一致性来评估不同的候选段落。在示例实现中，使用成本函数来标识和评估在句子边界处将长段落分解成多个较小段落的不同候选分段，该成本函数基于与目标段落长度的偏离来惩罚候选分段，奖励将语义相似的句子分组为共同段落的候选分段，和/或惩罚包括具有长停顿(例如，长于标准化长度或持续时间)的候选段落的候选分段。更具体地，对于定义一组候选段落的每个候选分段(一组候选句子边界)，将成本分配给每个候选段落，并且使用动态规划来选择使给定候选分段中的候选段落的成本总和最小的候选分段。因此，这样的实施例标识具有灵活的段落长度的段落，并在期望的段落长度和每个段落中主题的一致性之间提供平衡。

在一些实施例中，视频选择界面允许用户将一个或多个视频(例如，摄取的视频、由其他用户分享的视频、先前创建的剪辑)加载到视频编辑界面。在一些实现中，视频选择界面呈现视频的文件夹或库的表示，接受从库选择多个视频，创建具有所选视频的合成剪辑，并将合成剪辑加载到视频编辑界面中。在示例实现中，视频编辑界面包括播放加载的视频的回放界面、对与回放同步的视频的转录进行视觉化的转录界面、以及执行视觉、文本和/或问题搜索以在加载的视频内匹配视频片段的搜索界面。

在一些实施例中，转录界面呈现加载的视频的转录(例如，按说话人和段落分段的日志化转录)，并提供便于基于文本的视频编辑的各种视觉化和交互模式。在示例实现中，选择转录文本的用户输入(例如，点击或敲击并沿转录拖动)用于标识具有与所选转录文本相对应的边界的对应视频片段，并且用户对该视频片段执行任意数量或类型的视频编辑操作。

为了帮助用户标识选择转录的哪些部分，在一些实施例中，转录界面利用说话人的视觉表示(例如，说话人缩略图)和/或来自对应于该段落的视频部分的视频帧(例如，视频缩略图)来显示转录的每个段落，例如，形成对应段落的说话人缩略图、视频缩略图和转录文本的列。在一些实施例中，特定说话人的面部的最佳图像是基于图像质量、面部情感(例如，使用生成快乐得分的情感分类器)、大小因素(例如，偏爱较大的图像)和/或朝着面部轨迹的开始或结尾出现的惩罚图像从视频中选择的。因此，转录界面以说出该段落的说话人的最佳图像来显示转录的每个段落，和/或转录界面接受改变与每个说话人相关联的说话人缩略图的输入(例如，以校正日志化错误)。在一些实施例中，将光标悬停在转录上(例如，将光标悬停在转录文本上)导致显示视频的相应部分的预览(例如，通过将表示转录中该段落的固定视频缩略图替换为来自该段落的视频部分的多个帧的动画预览)。

在一些实施例中，例如通过样式化对应的转录文本的视觉外观(例如，下划线、突出显示、文本颜色、文本大小、字体)和/或用标识对应的检测到的特征(例如，检测到的视频对象或动作、检测到的音频事件、检测到的音频分类)的文本标签或标签来标注转录文本以指示其中检测到各种特征的视频的相应部分(例如，使用一个或多个机器学习模型)。在一些情况下，转录界面显示检测到的非语音音频或停顿的视觉表示(例如，作为音棒)，例如与转录文本一行或在单独的行中。在一些情况下，转录界面在时间线视图中在转录中的每行文本下方(例如，作为缩略图栏)显示对应于每行转录文本的视频缩略图。在一些实施例中，缩略图栏是可选择的，使得转录界面接受从转录中的一个或多个缩略图栏中选择一段缩略图的输入(例如，沿着转录中的一个或多个缩略图栏点击或敲击并拖动)，其用于标识具有对应于所选缩略图的边界的相应视频片段。

在一些实施例中，转录界面接受在转录内创建组织标题而不编辑视频的输入，使得转录界面提供大纲视图，该大纲视图响应于输入选择(例如点击或敲击)标题来导航到转录(和视频)的相应部分。这些只是几个示例，并且在本公开的范围内设想了其他转录视觉化和交互技术。

在一些实施例中，使用搜索界面来执行视觉搜索、文本搜索和/或问题搜索。在示例实施例中，训练一个或多个机器学习模型(例如，一个或多个神经网络)以将文本和视觉形态(例如，自由形式查询和各个图像帧)编码到公共嵌入空间中。因此，视频的每个视频帧被编码到对应的帧嵌入中，搜索界面接受自由形式的文本查询，该自由形式的文本查询被编码到查询嵌入中，并且执行最近邻搜索以标识具有与查询嵌入最佳匹配(例如，在阈值相似度内)的对应帧嵌入的视频帧。附加地或备选地，搜索界面搜索与文本查询匹配的转录文本片段和/或搜索与文本查询匹配的检测到的特征标签。在既包括视觉搜索又包括文本搜索的一些实施例中，在搜索界面的第一部分(例如，可以向左和向右滚动的一行图块，其中每个图块显示视频缩略图、视频中的时间和/或匹配视频片段的匹配得分)中显示视觉搜索结果，并且在搜索界面的第二部分(例如，可以向上和向下滚动的一列图块，其中每个图块显示匹配视频片段的视频缩略图、说话人缩略图和/或文本)中显示文本搜索结果。

在一些实施例中，对在搜索结果图块中再现的转录文本进行注释以指示从其检测到匹配文本查询的特征标签的视频中的对应区域(例如，通过给对应的转录文本加下划线，用标识对应的检测到的特征的标签或标签来标记转录文本)。在示例实现中，在搜索界面中选择(例如，点击或敲击)搜索结果图块将转录界面导航到转录的相应部分，转录界面突出显示匹配的转录文本，和/或转录界面注释文本以指示从其检测到匹配文本查询的特征标签的视频中的对应区域。

在一些实施例中，搜索界面接受对出现在视频中的有意义的问题执行问题搜索的命令，并且搜索界面标识并显示与出现在转录中的有意义的问题相匹配的视频片段。通过激励的方式，许多视频包括人与人之间的对话，例如采访、会议、互动演示或其他场景的视频。按问题导航视频是导航视频的一种很有帮助的方式。在示例实施例中，转录来自视频的音频轨道，生成标识句子和标点符号(例如，句号和问号)的转录。因此，对转录进行分析以标识以问号结尾的句子。

根据该实施例，可能对导航视频没有帮助的一种或多种类型的问题被滤除，诸如短于某些最小长度或持续时间的短句(例如，什么？)、后勤问题(logistical question)(例如，你能看到我的屏幕吗？你现在能听到我说话吗？我们在等人吗？)，和/或反问句。在涉及后勤问题过滤的示例中，示例后勤问题的数据集被编码到后勤句子嵌入中，并且后勤句子嵌入被组合(例如，平均)以生成示例后勤问题的合成表示。因此，将转录问题编码到相应的句子嵌入中，通过计算某些相似度度量(例如，余弦相似度)，将每个转录问题的句子嵌入与示例后勤问题的合成表示进行比较，并且将在某个阈值相似度内的转录问题标记为后勤问题和/或滤除。

在涉及反问句的示例中，日志化转录被用来标识和/或过滤说话人回答他或她自己的问题的问题(例如，后面跟着同一说话人所说的句子的问题)。在另一示例中，日志化转录用于标识和/或过滤在某一指定长度或持续时间内未被另一说话人回答的问题(例如，在某一指定长度或持续时间内没有跟随说话人改变的问题，例如20秒)。在一些实施例中，例如，基于连续问题彼此具有某种阈值相似度(例如，彼此的阈值余弦相似度)的确定，将一组连续问题分组在一起，并且为了问题搜索的目的，分组的问题被认为是单个问题。

因此，在一些实施例中，响应于执行问题搜索的命令，搜索界面标识(例如，先前确定的有意义的问题)并在搜索界面的一部分(例如，可以向上和向下滚动的一列图块，其中每个图块显示匹配视频片段的视频缩略图、说话人缩略图和/或转录文本)中显示对应的匹配视频片段的表示。在一些实施例中，特定搜索结果问题的搜索结果图块包括比简单的问题更多的转录文本(例如，分组的问题、指定长度或持续时间的转录内容直到说话人改变)。在滤除在某一指定长度或持续时间(例如，20秒)内没有说话人改变的反问句的示例中，未被滤除的一些问题将包括在该问题结束之后由同一说话人通过指定的长度或持续时间说出的附加转录文本，直到该说话人改变为止(例如，在该问题之后多达20秒的附加内容)。因此，一些实施例在搜索结果图块中显示该问题的表示，该搜索结果图块不仅包括转录的问题，而且还包括通过说话人改变所说的附加转录文本。这些只是几个示例，并且在本公开的范围内可以考虑其他变型。在示例实现中，在搜索界面中选择(例如，点击或敲击)搜索结果图块将转录界面导航到转录的对应部分，和/或转录界面突出显示匹配的问题。

因此，本公开提供了直观的视频交互技术，其允许用户容易地选择和编辑视频片段，创建具有对应于转录的选定部分的视频片段的合成剪辑，以及导航到对应于视觉、文本和/或问题搜索结果的转录的部分。因此，本视频交互技术提供了更灵活和高效的交互方式，允许用户快速标识、选择和操作他们可能感兴趣的视频部分。因此，编辑现在可以更快地工作，跳到感兴趣的部分，而不必观看视频。

示例视频编辑环境

现在参考图1A，示出了适用于实现本发明的实施例的示例环境100的框图。通常，环境100适合于视频编辑或回放，并且尤其便于视频分段、说话人日志化、转录段落分段、视频导航、视频或转录编辑、和/或视频回放。环境100包括客户端设备102和服务器150。在各种实施例中，客户端设备102和/或服务器150是任何类型的计算设备，诸如下面参考图32描述的计算设备3200。计算设备的示例包括个人计算机(PC)、膝上型计算机、移动或移动设备、智能手机、平板计算机、智能手表、可穿戴计算机、个人数字助理(PDA)、音乐播放器或MP3播放器、全球定位系统(GPS)或设备、视频播放器、手持通信设备、游戏设备或系统、娱乐系统、车载计算机系统、嵌入式系统控制器、相机、遥控器、条形码扫描仪、计算机化测量设备、家用电器、消费电子设备、工作站、其某种组合，或任何其他适合的计算机设备。

在各种实现中，环境100的组件包括存储信息的计算机存储介质，该信息包括在本文描述的技术的一些实施例中使用的数据、数据结构、计算机指令(例如，软件程序指令、例程或服务)和/或模型(例如，机器学习模型)。例如，在一些实现中，客户端设备102、服务器150和/或存储设备190包括一个或多个数据存储(或计算机数据存储器)。此外，尽管图1A中将客户端设备102、服务器150和存储设备190各自描述为单个组件，但在一些实施例中，客户端设备102、服务器150和/或存储设备190使用任何数量的数据存储来实现，和/或使用云存储来实现。

环境100的组件经由网络103彼此通信。在一些实施例中，网络103包括一个或多个局域网(LAN)、广域网(WAN)和/或其他网络。这样的网络环境在办公室、企业范围的计算机网络、内部网和互联网中很常见。

在图1A和1B所示的示例中，客户端设备102包括视频交互引擎108，而服务器150包括视频摄取工具160。在各种实施例中，视频交互引擎108、视频摄取工具160和/或图1A和图1B中所示的任何元素被结合或集成到(多个)应用(例如，分别位于客户端设备102和服务器150上的对应应用)、或(多个)应用的(多个)扩展或(多个)插件中。在一些实施例中，(多个)应用是能够促进视频编辑或回放的任何应用，诸如单机应用、移动应用、网络应用等。在一些实现中，(多个)应用包括例如可通过网络浏览器访问、至少部分地托管服务器端等的网络应用。附加地或备选地，(多个)应用包括专用应用。在一些情况下，应用被集成到操作系统中(例如，作为服务)。示例视频编辑应用程序包括ADOBE PREMIERE PRO和ADOBEPREMIERE ELEMENTS。尽管关于视频编辑应用和视频交互引擎描述了一些实施例，但是一些实施例在任何类型的应用中实现本技术的各方面，诸如涉及转录处理、视觉化和/或交互的那些应用。

在各种实施例中，本文描述的功能被分配给任何数量的设备。在一些实施例中，视频编辑应用105至少部分地在服务器侧被托管，使得视频交互引擎108和视频摄取工具160协调(例如，经由网络103)以执行本文描述的功能。在另一示例中，视频交互引擎108和视频摄取工具160(或其某些部分)被集成到可在单个设备上执行的公共应用中。尽管关于(多个)应用描述了一些实施例，但是在一些实施例中，本文描述的任何功能被附加地或备选地集成到操作系统(例如，作为服务)、服务器(例如，远程服务器)、分布式计算环境(例如，作为云服务)和/或其他中。这些仅是示例，并且在这些或其他设备之间的任何适当的功能分配可以在本公开的范围内实现。

为了开始通过图1A和1B中所示的配置的示例工作流的高级概述，客户端设备102是台式、膝上型或移动设备，诸如平板电脑或智能电话，并且视频编辑应用105提供一个或多个用户界面。在一些实施例中，用户通过视频编辑应用105访问视频，和/或以其他方式使用视频编辑应用105来标识存储视频的位置(无论是客户端设备102本地的、诸如存储器190的某个远程位置处，还是以其他方式)。附加地或备选地，用户使用客户端设备102(或某个其他设备)和/或至少部分在该设备上执行的某个应用(例如Adobe Behance)的视频记录能力来记录视频。在一些情况下，视频编辑应用105上传视频(例如，到用于视频文件192的某些可访问存储设备190)或以其他方式将视频的位置传送到服务器150，并且视频摄取工具160接收或访问视频并对视频执行一个或多个摄取功能。

在一些实施例中，视频摄取工具160从视频中提取各种特征(例如，转录195、语言特征、说话人、面部、音频分类、视觉相似场景、视觉伪像、视频中出现的对象、视频中出现的动作、音频事件)，并且生成并存储检测到的特征的表示、检测到的特征存在的对应特征范围、和/或对应的置信度(例如，检测到的特征194)。在一个示例实现中，视频摄取工具160包括使用来自视频的音频和/或视频轨道来生成转录195的说话人日志化的日志化组件164、逐段分段转录195的转录分段组件170、以及例如基于转录片段(例如，基于从音频轨道检测到的语音或音频活动来调整的)来生成并存储视频的一个或多个分段的表示(例如，(多个)视频分段196)的视频分段组件180。尽管这些功能被描述为在摄取时执行，但在某些情况下，这些功能中的一些或全部在其他时间(例如，按需)执行。

在一些实施例中，日志化组件164包括面部感知说话人日志化组件166、音乐感知说话人日志化组件168和/或说话人缩略图标识组件169。面部感知说话人日志化组件166执行说话人日志化以从视频的音频和视频轨道检测面部和语音标识，和/或组合多个说话人日志化技术(例如，纯音频和视听技术)以生成混合说话人日志化，混合说话人日志化将来自视频轨道的检测到的面部链接到来自音频轨道的检测到的语音。在一些实施例中，面部感知说话人日志化组件166使用一个或多个机器学习模型来评估来自视频的一个或多个帧和对应的音频窗口的面部的一个或多个裁剪图像，以预测活动说话人得分，该得分量化了裁剪图像中表示的面部在音频窗口中说话的可能性。在一些实施例中，面部感知说话人日志化组件166根据裁剪图像的大小使用不同的模型，并且模型选择器167评估裁剪图像的大小并选择和触发适当的模型(例如，一个用于评估具有一个或多个维度中小于阈值数目的像素的小图像，以及一个用于评估较大图像)。因此，面部感知说话人日志化组件166更新转录195以表示哪个被检测的说话人和/或被检测的面部在正在说转录195的哪些片段。

在一些实施例中，音乐感知说话人日志化组件168通过移除(或指定)在时间上与检测到的纯音乐区域重叠的转录和说话人来更新转录195。附加地或备选地，说话人缩略图标识组件169例如基于图像质量、面部情感、图像的大小和/或朝着面部轨迹的开始或结束出现的惩罚性图像来标识每个检测到的说话人的面部的代表性裁剪图像。因此，说话人缩略图标识组件169将每个检测到的说话人的面部的代表性裁剪图像(例如，缩略图)的表示存储在例如存储设备190中。

在一些实施例中，转录分段组件170分段转录195以使转录更容易阅读、理解和交互。在图1A中，转录分段组件170包括从转录195标识句子片段的句子分段组件172、为每个句子片段生成句子嵌入(或访问先前生成的句子嵌入)的句子嵌入组件174、在每个说话人改变时(以及可选地在说话人停顿时，诸如那些长于指定长度或持续时间的)分段转录195的日志化和停顿分段组件176，以及段落分段组件178使用动态编程在句子边界处将长段落(例如，长于指定长度或持续时间)分成多个较小的段落，以最小化基于与目标段落长度的偏离来惩罚候选分段的成本函数，这奖励将语义相似的句子分组到共同段落中的候选分段，和/或惩罚包括具有长停顿(例如，长于标准化长度或持续时间)的候选段落的候选分段。

在一些实施例中，视频分段组件180基于转录195中的句子边界和词边界来标识视频片段的候选边界。在图1A中，视频分段组件180包括从转录195标识句子片段的句子分段组件182。在示例实施例中，视频分段组件180包括间隙关闭组件186，该间隙关闭组件186基于语音或音频活动对句子片段的边界重新定时(例如，关闭句子之间的非语音静默间隙，将句子边界扩展到阈值持续时间内语音或音频活动最小的位置)。词分段组件182基于转录195将句子片段分段成词片段，并且在一些实施例中，间隙关闭组件186基于语音或音频活动对词片段的边界重新定时。在至少部分地使用音频轨道(例如，从音频轨道生成转录，因此从音频轨道检测句子和/或词边界)的实施例中，所得到的边界可以被认为是音频剪辑。

在一些实施例中，视频分段组件180使用一个或多个数据结构存储由词和/或句子片段的边界定义的视频分段的表示(例如，视频分段196)。因此，视频摄取工具160和/或视频编辑应用105访问视频(例如，视频文件192中的一个)，生成转录(例如，转录195)，并生成视频的一个或多个分段的表示(例如，(多个)视频分段196)、(多个)视频分段的组成视频分段(例如，视频文件192)和/或其某些表示，和/或其某些表示，并将其存储在任何适合的存储位置中，诸如存储设备190、客户端设备102、服务器150、其某种组合，和/或其他位置。

在示例实施例中，视频编辑应用105(例如，视频交互引擎108)向一个或多个用户界面提供一个或多个交互元素，一个或多个交互元素允许用户与摄取的视频交互，例如，使用与转录195的交互来选择视频片段(例如，具有来自(多个)视频分段196的对应于转录195的所选区域的边界)。图1B示出了包括视频选择工具110和视频编辑工具115的视频交互引擎108的示例实现。

在示例实现中，视频选择工具110提供界面，该界面导航视频和/或文件库，接受选择一个或多个视频(例如，视频文件192)的输入，并触发视频编辑工具115将一个或多个选择的视频(例如，摄取的视频、由其他用户分享的视频、先前创建的剪辑)加载到视频编辑界面中。在一些实现中，由视频选择工具110提供的界面呈现视频文件夹或库的表示，接受从库中选择多个视频，创建具有多个所选视频的合成剪辑，并触发视频编辑工具115将合成剪辑加载到视频编辑界面中。在示例实现中，视频编辑工具115提供播放加载的视频的回放界面、视觉化转录195的转录界面(由转录工具120提供)、以及对加载的视频内的匹配视频片段执行视觉、文本和/或问题搜索的搜索界面(由搜索工具136提供)。

在一些实施例中，转录工具120包括选择和对齐工具122，其接受从转录195中选择单个句子或词的输入(例如，通过点击或敲击并在转录上拖动)，并且标识具有对齐到与来自转录195的所选句子和/或词相对应的先前确定的边界(例如，音频剪辑)的位置的边界的视频片段。在一些实施例中，转录工具120包括基于文本的视频编辑工具124，其接受传统上被认为是基于文本的操作的命令(例如，剪切、复制、粘贴或删除所选转录文本的指令)，并且作为响应，使用所选视频片段执行相应的视频编辑操作。根据该实施例，转录工具120包括：非语音内容视觉化组件126，其视觉化转录195中的非语音内容(例如，表示音乐的音频波形、表示检测到的特征194在视频中的相应位置的文本注释)；视频缩略图预览组件128，其显示转录195的每个段落以及一个或多个对应的视频缩略图(例如，响应于将输入悬停在转录195的一部分上)；说话人缩略图组件130，其将转录195的每个段落与说话人缩略图相关联和/或显示；转录滚动工具132，其在视频回放时自动滚动转录195(例如，当用户将转录195从正在回放的部分滚动离开时停止自动滚动，和/或当用户回滚到正在回放的部分时恢复自动滚动)；和/或标题工具134，其接受在转录内创建组织标题的输入而不编辑视频，并且响应于输入选择(例如点击或敲击)标题而提供导航到转录(和视频)的相应部分的大纲视图。

在一些实施例中，搜索工具136包括：视觉搜索组件138，其对自由形式查询进行编码并对匹配的框架嵌入执行视觉搜索；文本搜索组件140，其执行文本搜索以寻找转录195中的匹配词或检测到的特征194的标签；问题搜索组件142，其搜索或标识出现在视频中的有意义的问题(例如，滤除短于指定长度或持续时间的修辞、后勤和/或短问题)；和/或搜索结果布局组件142，其响应于对特定搜索结果的选择而呈现搜索结果(例如，在搜索结果图块的行或列中，其中每个图块显示代表性视频缩略图、视频中的时间、匹配视频片段的匹配得分、说话人缩略图和/或匹配视频片段的转录文本)和/或导航转录195的相应部分。

取决于实现，视频编辑工具115和/或视频交互引擎108对所选视频片段执行任意数量和种类的操作。作为非限制性示例，所选视频片段被回放、删除、裁剪、重新排列、导出为新的或合成剪辑、和/或其他操作。因此，在各种实施例中，视频交互引擎108提供允许用户基于与转录195的交互来选择、导航、播放和/或编辑视频的界面功能。

示例视频摄取技术

返回图1A，在一些实施例中，视频摄取工具160执行一个或多个视频摄取功能，诸如特征检测、转录分段和/或视频分段。尽管这些功能被描述为在摄取时执行，但在一些情况下，这些功能中的一些或全部在任何适合的时间执行，例如当摄取或初始处理视频时、在接收到查询时、在显示视频时间线时、在激活用户界面时和/或在某个其他时间。

在图1A所示的示例中，视频摄取工具160摄取视频(例如，视频文件、视频文件的一部分、由项目文件表示或以其他方式标识的视频，诸如视频编辑项目文件)。在一些实施例中，摄取视频包括从视频中提取一个或多个特征和/或生成标识相应视频片段和/或片段边界的视频的一个或多个片段。在图1A所示的实现中，视频摄取工具160包括(多个)特征提取组件162、转录分段组件170和视频分段组件180。

在较高级别，视频摄取工具160(例如，(多个)特征提取组件162)例如使用一个或多个机器学习模型、自然语言处理、数字信号处理和/或其他技术，从视频检测、提取或以其他方式确定各种特征(例如，转录195、语言特征、说话人、面部、音频分类、视觉相似场景、视觉伪像、视频对象或动作、音频事件)。在一些实施例中，(多个)特征提取组件162包括用于要检测多个类别的特征中的每一个的一个或多个机器学习模型。因此，视频摄取工具160和/或对应的(多个)特征提取组件162提取、生成和/或存储每个类别中的检测到的特征(例如，面)的表示、存在检测到的特征的对应特征范围、和/或对应的置信度水平。

在一些实施例中，一个或多个特征类别(例如，说话人、面部、音频分类、视觉相似场景等)具有其自己的特征轨道，该特征轨道表示特征类别中检测到的特征的实例(例如，诸如唯一面部或说话人之类的方面)。作为非限制性示例，对于每个特征类别，检测到的特征(例如，检测到的特征194)的表示包括特征类别(例如，检测到的面部)中检测到的面(例如，每个唯一面部)的每个实例的列表、数组或其他表示。在示例实现中，用检测到该实例的特征范围(例如，每个实例的开始和停止时间戳)、标识该实例所属的面的唯一值(例如，每个唯一面部、说话人、视觉场景等的唯一值)、量化预测置信度或可能性的对应置信度、和/或其他特征的表示来表示检测到的面的每个实例。

在一些实施例中，(多个)特征提取组件162从与视频相关联的音频轨道中提取转录195和/或语言特征。在示例实现中，将任何已知的语音到文本算法应用于音频轨道以生成语音的转录、检测语音片段(例如，对应于词、句子、由音频间隙分隔的连续语音的话语等)、检测非语音片段(例如，停顿、沉默或非语音音频)等。在一些实施例中，语音或音频活动检测被应用(例如，应用于音频轨道、检测到的非语音段)以检测和/或分类具有非词人类声音(例如，笑声、可听得见的喘息等)的音频轨道段。在一些情况下，转录195和/或检测到的转录片段与视频的时间线相关联，并且转录片段与对应的时间范围相关联。在一些实施例中，使用任何已知的主题分段技术(语义分析、自然语言处理、应用语言模型)来分段或以其他方式标识视频中可能包含相似主题的部分，并且检测到的语音片段与表示该语音片段结束主题片段的可能性有多大的得分相关联。附加地或备选地，转录分段组件170划分或以其他方式标识转录195的段落，如下文更详细地描述。

在一些实施例中，(多个)特征提取组件162包括生成一个或多个说话人日志化的日志化组件164。例如，日志化组件164包括从与视频相关联的音频和/或视频轨道检测唯一说话人的一个或多个机器学习模型。在示例实现中，应用语音识别、说话人标识或说话人日志化技术来检测唯一声纹(例如，在单个视频内、跨越视频集合)，并基于说话人标识划分或以其他方式标识(多个)音频轨道的部分。在语音识别、说话人标识或说话人日志化中使用的示例技术使用频率估计、模式匹配、向量量化、决策树、隐马尔可夫模型、高斯混合模型、神经网络和/或其他技术。附加地或备选地，除了使用音频签名来检测说话人之外，在一些实施例中，使用一个或多个机器学习模型来通过检测检测到的面部上的嘴巴运动来确定哪个检测到的面部正在说话。在示例实现中，视频中检测到的说话人的每个实例与检测到说话人的视频的对应时间范围、量化预测置信度或可能性的对应置信度和/或检测到的说话人的面部的缩略图相关联。附加地或备选地，检测到的语音片段(例如，词、短语、句子)和/或其他转录特征与相应的检测到的说话人的表示相关联，以将转录195更新为日志化转录。

在示例日志化技术中，面部感知说话人日志化组件166最初执行ASR和纯音频说话人日志化，随后通过活动说话人标识进行面部感知细化。在一些实施例中，面部感知说话人日志化组件166使用任何已知的基于音频的ASR+日志化方法来计算初始说话人日志化。这种日志化不会将说话人与面部联系起来，因此它只将说话人标识为“说话人1”、“说话人2”等。它可能会遭受过度分段的影响。然后，使用活动说话人识别方法，例如在下文中所描述的方法：Juan Leon Alcazar,Fabian Caba,Long Mai,Federico Perazzi,Joon-YoungLee,Pablo Arbelaez,Bernard Ghanem；Active Speaker in Context(上下文中的活动说话人)，IEEE/CVF计算机视觉和模式识别会议论文集，2020，pp.12465-12474(“上下文中的活动说话人”)，面部感知说话人日志化组件166标识视频中对应于视频中每个时刻的活动语音的面部。这种面部感知说话人日志化被用来细化初始说话人日志化(例如，分配给不同说话人的开始/结束时间)并将面部链接到语音，使得转录195的不同部分与说出它们的面部的标识相关联，而不是“说话人1”、“说话人2”等。

更具体地，在一些实施例中，面部感知说话人日志化组件166执行面部轨迹检测、活动说话人检测、面部感知日志化和日志化更新。在示例实现中，为了执行面部轨迹检测，给定视频，面部感知说话人日志化组件166检测所有面部(例如，标识每个检测到的面部的边界框)，随时间追踪它们(例如，生成面部轨迹)，并将它们聚类成人/面部标识(例如，面部ID)。更具体地，在一些实施例中，面部感知说话人日志化组件166触发一个或多个机器学习模型以从视频的视频帧中检测独特的面部。在示例实现中，应用任何已知的面部检测技术(例如，RetinaFace)来检测每个视频帧中和/或跨时间的唯一面部。例如，通过将每个面部从背景中分段(例如，使用一个或多个神经网络)、对准每个面部、检测面部地标(例如，眼睛、鼻子、嘴巴)的位置、以及生成检测到的面部地标的(例如，向量)表示来处理每个视频帧。在一些实施例中，来自不同帧(例如，在单个视频内、跨越视频集合)并且具有相似表示(例如，被某个阈值内的距离隔开、基于一个或多个聚类算法进行聚类)的检测到的面部被确定属于相同的标识。在示例实现中，检测到的面部的每个实例与跨越检测到面部的视频帧的对应时间范围和/或量化预测置信度或可能性的对应置信度相关联。面部轨迹检测的示例输出是属于M个不同标识的K个面部轨迹的集合。

在示例实现中，面部感知说话人日志化组件166执行活动说话人检测以分配活动说话得分(例如，[0-)，该得分量化每个面部轨迹是在对应音频窗口期间说话的那个的可能性。通常，在任何给定的视频帧中可能存在多个面部，说话的人可能是其中之一，甚至可能是相机外的某个人。因此，在一些实施例中，面部感知说话人日志化组件166使用活动说话人检测来预测每个面部轨迹是否正在活动地说话。在示例实施例中，面部感知说话人日志化组件166包括或触发机器学习模型(例如，经由双塔卷积神经网络实现的、在ActiveSpeakers in Context(上下文中的活动说话人)中描述的短期编码器)，该机器学习模型获取面部图像序列(例如，归一化为具有相似尺寸的来自N个帧的序列的N个裁剪的面部图像的堆栈，例如15个)和音频轨道的对应窗口，融合视听信息，执行二进制分类，并输出活动说话得分。图2示出了示例活动说话人检测模型200，该模型接收裁剪的面部图像的堆栈210和音频轨道的对应窗口220，并预测活动说话得分。

在一些实施例中，面部感知说话人日志化组件166为其中特定面部在最小数目的帧(例如，15)的序列中出现的每个实例生成活动说话得分，并且具有最高预测活动说话得分(例如，高于阈值，例如0.9)的面部被视为活动说话人。在机器学习模型采用N个(裁剪后的)帧序列和对应的音频窗口的一些实施例中，针对范围(例如，特定说话人正在说话的连续范围，诸如在初始说话人日志化中标识的连续范围)上的每个窗口计算活动说话得分，并为每个面部计算平均。例如，在一些实施例中，给定表示分配给N个说话人标识的L个时间片段的初始(例如，纯音频的)日志化，面部感知说话人日志化组件166将面部标识(面部ID)分配给L个时间片段中的每一个和/或来自初始日志化的N个说话人标识中的每一个。在一些实施例中，对于L个时间片段钟的每一个，面部感知说话人日志化组件166标识包含在时间片段内的所有面部轨迹，并选择在整个时间片段具有最大预测活动说话得分(例如，通过对时间片段中的每个窗口的预测活动说话得分进行平均来计算)的对应的面部标识(面部ID)。在一些实施例中，低于阈值(例如，0.5)的预测得分在平均之前被置零，以不强调对连续范围的部分的低置信度预测。因此，具有最大(例如，平均)预测活动说话得分(例如，大于阈值)的面部ID在第二(面部感知)日志化中被分配给该时间片段。

根据视频，检测到的面部的图像可以是小的或像素化的，其示例在图3中示出。这样的情况可以在各种场景中发生，例如在来自不同参与者的视频馈送被显示在屏幕的不同部分的视频会议中，具有远离相机的人的视频中，或者为了更快的处理而被缩小比例的视频中。在这种情况下，活动说话人检测模型可能会产生假阴性(例如，实际正在说话的面部的预测说话人得分较低)。

为了解决该问题，一些实施例针对不同大小的图像使用不同的活动说话人检测模型。在视频摄取工具160对视频进行下采样以便于更快处理的一些实施例中，提取原始或更高分辨率的裁剪的面部图像，并将其传递给面部感知说话人日志化组件166以供处理。在一些实施例中，面部感知说话人日志化组件166的模型选择器167确定一个或多个裁剪的面部图像的大小并将其与图像大小阈值进行比较(例如，以标识一侧小于47个像素的图像)，并且基于该确定，将(多个)图像路由到对相称大小或质量的图像(例如，极低分辨率裁剪、来自每秒低帧的视频的裁剪)训练的对应的活动说话人检测模型(具有相应大小的输入通道)。在活动说话人检测模型采用从N个连续视频帧(例如，15帧)提取的N个裁剪面部图像的堆栈的一些实施例中，模型选择器167确定代表性裁剪面部图像(例如，从范围中的中间帧)或来自那些帧的任何裁剪面部图像是否小于指定的图像大小阈值。附加地或备选地，除了针对特定大小的图像具有单独的活动说话人检测模型之外，一些实施例使用不同的置信度阈值来向说话人分配面部。例如，由于在小图像上训练的活动说话人检测模型可能由于底层图像被像素化而产生相对较低的预测置信度得分，因此一些实施例基于由活动说话人检测模型针对较小图像预测的置信度得分(例如，0.65)来应用比由针对较大图像的活动说话人检测模型预测的置信度得分(例如，0.9)更低的阈值来分配活动说话人。因此，在一些这样的实施例中，面部感知说话人日志化组件166使用依赖于来自序列的面部的一个或多个裁剪图像的大小的模型，为其中特定面部出现在序列帧(例如，15)中的每个实例生成活动说话得分，并且具有最高预测置信度得分(例如，高于取决于所选择的模型和/或裁剪图像的大小的阈值)的面部被视为活动说话人。

在一些实施例中，为了标识潜在的相机外说话人(或其中人的脸模糊的视频)，面部感知说话人日志化组件166获取音频轨道的音频样本(例如，对应于检测到的语音)，将每个音频样本投影到嵌入空间中(例如，使用任何已知技术)，对音频嵌入进行聚类，并且将来自检测到的面部轨迹的面部ID分配给聚类(例如，基于每个聚类中具有高于阈值的预测活动说话人得分的音频嵌入的某个数量或百分比)。为音频嵌入的每个剩余的未标记聚类分配唯一的面部ID(为了面部感知说话人日志化的目的，即使那些音频嵌入可能不对应于检测到的面部)。

因此，在一些实施例中，面部感知说话人日志化组件166(或一些其他组件)生成初始(例如，纯音频的)说话人日志化假设，其将第一组标识分配给音频轨道和/或转录195的对应片段，以及第二说话人日志化假设(通过链接最有可能说话的面部轨迹的标识而生成)，其将第二组标识(例如，面部ID)分配给音频轨道和/或转录195的对应片段。

因此，在一些实施例中，面部感知说话人日志化组件166将这些日志化假设组合成混合日志化。为了说明该问题，假设初始说话人日志化包含以下说话人序列：[说话人2、说话人1、说话人2、说话人1、说话人3]，并且第二说话人日志化包含以下内容：[说话人B、说话人A、说话人B、说话人A、说话人A]。在一些实施例中，目标是找到两个假设之间的最优标识映射。对于上面的示例，它将是：{说话人1-->说话人A，说话人2-->说话人B，说话人3-->无}。在一些实施例中，面部感知说话人日志化组件166使用Hungarian算法来寻找最优分配。附加地或备选地，如果在用于特定时间片段的两个日志化假设之间的所分配的说话人标识之间存在冲突，并且在第二说话人日志化中所分配的说话人的预测活动说话人得分大于指定阈值，则面部感知说话人日志化组件166细化在第一说话人日志化中分配的标识以反映由第二说话人日志化所分配的标识。在上面的示例中，第一说话人日志化输出的标识将通过更改说话人3→说话人1来更新。

作为说明，考虑图4中所示的示例，其描绘了第一或参考日志化410(例如，纯音频日志化)和第二日志化420(面部感知日志化)。假设参考日志化410包含N个参考说话人，并且第二日志化420包含M个细化说话人。在一些实施例中，使用Hungarian算法来确定说话人之间的最佳映射，使得每个参考说话人与至多一个细化说话人配对，并且每个细化说话人与至多一个参考说话人配对。例如，在图4中，参考说话人R₁具有三个潜在的细化说话人候选：O₁、O₂和O₆。一些实施例选择O₂，因为它与R₁具有最大重叠。Hungarian算法找到在所有参考说话人上优化的分配，如参考日志化410和第二日志化420之间的箭头所示。在其中第二日志化420表示面部标识的实施例中，为了保存面部标识，如匹配的日志化430所示，用来自第二日志化420的对应面部标识替换来自参考日志化410的参考标识。最后，如果在匹配日志化430中被分配给时间片段的说话人与在第二日志化420的对应部分中的一个或多个分配的说话人之间存在冲突，则如果第二日志化420的部分中的被分配的说话人之一具有大于指定阈值的预测活动说话人得分，则匹配日志化430中的说话人标识被来自第二日志化420的标识重写(例如，O₂被O₆重写)，从而产生混合日志化440。

因此，并返回图1A，面部感知说话人日志化组件166生成将说话人和/或面部标识分配给音频轨道的时间片段和/或转录195的对应段的说话人日志化。在一些实施例中，由于使用检测到的面部轨迹将面部标识分配给说话人，因此每个说话人与包含、表示或以其他方式标识该说话人的面部的不同图像的一个或多个检测到的面部轨迹相关联。为了便于对说话人进行视觉化(例如，在显示日志化转录界面中，在显示日志化转录的匹配片段的搜索界面中)，在一些实施例中，说话人缩略图标识组件169从候选裁剪图像中标识每个说话人的面部的代表图像，候选裁剪图像从对应于与该说话人相关联的检测到的面部轨迹的视频帧被提取。

在一些实施例中，与特定说话人相关联的一个或多个面部轨迹存储或标识其中出现说话人面部的视频帧的表示、边界框位置和/或说话人面部的裁剪图像。因此，可能有许多候选图像可以用来表示该说话人。图5示出了根据本发明实施例的视频中特定说话人的面部的示例裁剪图像。例如，在随机选择的帧中，说话人可能没有看着相机。因此，在一些实施例中，基于图像质量、面部情绪(例如，使用生成幸福得分的情感分类器)、大小因素(例如，偏爱较大的图像)和/或朝着面部轨迹的开始或结尾出现的惩罚图像来选择说话人的代表图像。

在示例实施例中，使用任何已知技术(例如由美国专利第11,410,038号描述的技术)评估每个候选图像的图像质量，并且选择具有最高质量的图像作为该说话人的代表图像。

在一些实施例中，针对诸如幸福的特定情感来评估每个候选图像(例如，通过将每个图像应用于情感分类器以生成检测到的情感的度量，诸如幸福得分)，并且选择具有最高预测情感得分的图像作为该说话人的代表图像。

在一些实施例中，基于图像大小来评估每个候选图像，并且选择最大的图像(例如，最高分辨率)作为该说话人的代表图像。

在一些实施例中，基于从其提取图像的帧到检测到的面部轨迹的开始或结束的邻近度来评估每个候选图像。交叉淡入淡出通常用于视频编辑，检测到的面部轨迹可以拾取交叉淡入淡出期间出现的面部，在这种情况下，面部的图像可以显示为透明或半透明。因此，一些实施例选择来自检测到的面部轨迹的中央时间区域的代表图像。

在一些实施例中，基于任何前述因素(和/或其他因素)来评估每个候选图像以生成对应的因素得分，这些因素得分被归一化和/或组合(例如，在加权和中)以生成每个候选图像的组合得分。例如，一些实施例计算表示图像质量的评估的测量并奖励较高质量的图像的图像质量因素、表示面部情感的评估的测量并奖励期望的情感(例如，快乐)的面部情感因素、奖励面部的较大图像的大小因素(例如，随着图像中的像素数在x或y维度上增长而线性增长的得分，并且随着大小分别接近上下级目标大小而接近上下级渐近线的得分)，和/或惩罚朝面部轨迹的开始或结束出现的图像的边缘因素(例如，对于面轨迹边缘上的帧为0，从中心帧开始为1，以及之间的过渡)。在一些实施例中，为每个候选图像计算多个单独因素得分，组合各个因素得分(例如，在加权和中)，并且选择具有最大总分的候选图像作为说话人的代表图像。在包括图像质量、面部情感因素和大小因素的示例实施例中，总分的加权和由{质量+w₁·快乐+w₂·大小}给出，其中w₁和w₂是指定的权重。

因此，返回图1A，说话人缩略图标识组件169标识每个说话人的代表图像(例如，说话人缩略图)和/或存储每个说话人的图像的表示(例如，在检测到的特征194中)。

现在转到音乐感知说话人日志化组件168，在一些实施例中，音乐感知说话人日志化组件168通过标识并移除与从转录195中检测到的音乐重叠的文本来移除转录的唱歌。更具体地，在一些实施例中，音乐感知说话人日志化组件168通过移除(或指定)在时间上与检测到的纯音乐区域重叠的转录和说话人来更新转录195。在示例实现中，(多个)特征提取组件162提取标识随着时间的推移音频包含语音和音乐的可能性的音频分类，并且音乐感知说话人日志化组件168将音频分类转换成事件(具有开始和结束时间的连续区域)、合并相同类型的相邻事件、标识存在音乐但不存在语音的时间、移除这些短于3秒的纯音乐事件、检测与纯音乐事件重叠(例如，至少50％)的句子(例如，转录195)、并将它们标识为不应被包括在转录195中的句子。

更具体地，在一些实施例中，(多个)特征提取组件162包括从与视频相关联的音频轨道提取音频分类的一个或多个机器学习模型(例如，音频标记模型)。应用任何已知的声音标识技术来检测任何数量的音频类别(例如，音乐、语音、其他)。在示例实现中，来自音频轨道的每一帧音频数据被编码成向量表示(例如，使用线性预测编码)，并由一个或多个神经网络分类，以预测不同声音类别随时间(例如，每秒10次预测)出现在音频信号中的可能性(例如，在0-1之间)。因此，生成用于语音和音乐的检测曲线，其中每个检测曲线表示随着时间的推移出现相应音频分类的可能性。

请注意，在该上下文中，唱歌不是语音。“语音”是人类的声音，用一种说话的语调说出词，“唱歌”是词(或音节)以音乐的方式产生(即，作为代表旋律的音符)。因此，使用一个或多个示例音频标记模型，语音(说话)将被分类为语音，器乐将被分类为音乐，唱歌将被分类为音乐，具有唱歌的音乐将被分类为音乐，并且在背景中有音乐地说话将被分类为语音和音乐(例如，示例模型产生多个同时的标签)。

在一些实施例中，音乐感知说话人日志化组件168对预测的可能性进行后处理，以将它们转换成表示具有开始和结束时间的连续区域的事件(例如，从时间1秒到12秒的“音乐”，从时间5.5秒到20秒的“语音”，“从时间30.1秒到40.7秒的语音”，等等)。在示例实现中，为了实现这一点，音乐感知说话人日志化组件168将平滑和阈值应用于每个声音类别(“音乐”和“语音”)的检测曲线。

在一些实施例中，如果相同类型的相邻事件(例如，两个音乐事件或两个语音事件)在彼此的指定阈值时间间隔内，则音乐感知说话人日志化组件168合并它们。在示例实现中，分别为语音(2秒)和音乐(5秒)调谐阈值。合并相邻事件(例如，语音事件)确保了由于音频标记模型中可能的检测错误而导致的任何短间隙(例如，在语音中)不会导致丢失分类的区域(例如，语音)。

在一些实施例中，音乐感知说话人日志化组件168通过将音乐事件的时间与语音事件的时间进行比较来生成纯音乐区域的表示，以标识音乐存在但语音不存在的时间。这些“纯音乐”时间是我们最终想要从日志化中排除的时间区域，因为我们只想在日志化输出中包括语音内容。请注意，由于我们不希望在说话人日志化输出中包含唱歌，因此这些“纯音乐”区域可以按预期包含唱歌。

在一些实施例中，音乐感知说话人日志化组件168将持续时间过滤器应用于这些检测到的纯音乐事件，移除短于指定阈值持续时间(例如，3秒)的事件。在一些实施例中，由于稍后将从转录195中排除纯音乐区域(并且可选地，在转录界面中视觉化为音乐)，移除非常短的音乐片段避免了将短音乐片段与短音乐片段混杂在一起，短音乐片段比音频/视频中的真实音乐内容更可能由AI检测错误导致。

在一些实施例中，音乐感知说话人日志化组件168获取剩余的检测到的纯音乐事件，将它们与来自转录195的被检测句子的时间范围进行比较(例如，日志化转录)，检测与纯音乐事件重叠的句子(例如，重叠至少50％)，并将它们标识为不应该包括在转录195中的句子(例如，被标记为纯音乐，不被显示为转录文本)。

图6示出了根据本发明的实施例的移除转录的唱歌的音乐感知说话人日志化技术的示例。在图6中，视频的音频轨道由完整记录610表示，并且去除转录的唱歌之前的音频轨道的转录被表示为620之前的转录。620之前的转录的图示部分包括带有转录错误的转录唱歌，这是传统ASR技术的常见问题(例如，其通常分配不正确的词并且完全遗漏词)。

作为示例，假设完整记录610是30秒的记录，其包含从0-15秒的音乐和从10-30秒的语音。使用本文描述的技术，0-10秒的区域被检测为纯音乐区域，这是因为在该区域中，“音乐”标签是活动的，而“语音”标签不是。10-15秒之间的区域包含音乐和语音，因此不会被标记为纯音乐。15-30的区域仅包含语音，因此也不会被标记为纯音乐。在本示例中，最终结果是只检测到一个纯音乐区域，即语音开始前记录的前10秒。

在该示例中，如图6所示，假设音乐的前10秒包含唱歌。默认情况下，传统转录和日志化算法尝试将歌词转录成句子并将其分配给说话人。相反，使用本文描述的技术，评估转录的和/或日志化的句子以标识它们是否与纯音乐区域重叠。如果它们是这样的(例如，至少通过指定的重叠阈值数量或百分比，诸如50％)，则这些句子被标识为唱歌和/或从转录文本和/或日志化中排除。请注意，句子时间和纯音乐的区域可能不会完全重叠，因此设置小于100％的指定重叠阈值可以降低保留本应丢弃的唱歌句子的风险。

现在转到图1的转录分段组件170，在一些实施例中，转录分段组件170逐段地分段转录195以使转录更容易阅读、理解和交互。在示例实施例中，转录分段组件170基于每个段落中的文本片段的段落长度和/或语义一致性将转录195分段成段落。作为激励，一些实施例寻求创建合理长度的段落(例如，不太短但也不太长)。一些实施例附加地或备选地以每个结果段落在语义上连贯的方式分解文本，并在主题改变的最佳点处分解文本。

在一些实施例中，转录195包括说话文本、对应的说话人ID和/或词级计时的表示。在示例实现中，转录分段组件170从转录195中提取句子、对应的说话人ID以及每个句子的开始和结束时间。在一些实施例中，转录分段组件170使用句子开始和结束时间来标识句子之间的停顿，并且在长于指定长度(例如，词)或持续时间的每个停顿处分段转录195的文本。附加地或备选地，转录分段组件170在每个说话人改变的开始处分段转录195的文本。在一些实施例中，如果任何结果段落长于指定长度(例如，在词中)或持续时间，则使用动态编程对该段落进行分段，以选择使该分段中产生的段落的成本总和最小的候选分段。

图7是示出根据本发明实施例的示例转录分段技术(例如，由图1的转录分段组件170实现)的流程图。转录分段技术700包括句子分段710、日志化和停顿分段720、句子嵌入生成730和段落分段740。

在一些实施例中，句子分段从转录中提取句子、对应的说话人ID以及每个句子的开始和结束时间。日志化和停顿分段720基于说话人的改变和长停顿来中断转录文本。在示例实现中，无论何时有说话人改变和/或只要有长停顿(例如，长于指定长度或持续时间的非语音片段，例如3秒)，日志化和停顿分段720就开始新的段落。在一些实施例中，在基于说话人日志化和/或长停顿的分段之后，如果仍然存在长于指定长度或持续时间(例如，50或100个词)的段落，则对每个这样的段落应用段落分段740以将其分解成更小的段落。

为了便于基于语义一致性的段落分段，在一些实施例中，句子嵌入生成器730从转录195(例如，所有句子，仅是被分段的段落中的那些句子)生成一个或多个句子的句子嵌入，并且段落分段740量化候选段落中的句子之间的相似度。根据实现，句子嵌入生成器730使用任何已知技术来生成(或访问先前生成的)句子嵌入。生成句子嵌入的示例模型是通用句子编码器，它生成每个句子的向量(大小为512)表示。

在一些实施例中，段落分段使用动态编程来找到段落的全局最优文本分段，评估在候选句子边界处打断该段落的候选分段，并基于候选段落的句子相似度和长度来评估所得到的候选段落(以及由此得到的候选分段)。在示例实现中，段落分段740使用段落中句子的边界作为候选边界(例如，以避免在句子中间中断)来标识该段落的每个潜在候选分段。对于候选分段中的每个候选分段和每个候选段落，段落分段740分配基于与目标段落长度的偏离来惩罚候选段落和/或奖励将语义相似的句子分组为共同段落的候选段落的成本。

关于段落长度，一些实施例指定目标段落长度(例如，以句子或词为单位)。根据实现，转录的句子可以具有广泛可变的长度，因此一些实施例为转录段落分配理想的(目标)字长。因此，在示例实现中，段落分段740分配长度成本，该长度成本使用距离函数来量化候选段落的长度与一个或多个指定目标长度的距离(例如，最小和最大)。候选段落的长度成本示例如下：

其中，l是候选段落的长度(例如，以词为单位)，minL是指定的最小目标长度(例如，以词为单位)，并且maxL是指定的最大目标段落长度(例如，以词为单位)。

关于候选段落内的语义一致性，一些实施例量化每个候选段落中的句子的相似度。在示例实现中，段落分段740分配段落一致性成本，该成本鼓励对语义相似的句子进行分组而不鼓励对语义不同的句子进行分组。在示例实现中，段落分段740计算候选段落中的每一对句子的相似度度量(例如，通过计算它们对应的句子嵌入的余弦相似度)。在一些实施例中，如果候选段落具有N个句子，则段落分段740生成N*N相似度矩阵，并且组合(例如，平均)每对的相似度度量以生成段落相似度度量。由于该相似度度量对于具有更多语义一致性的候选段落更大(并因此惩罚)，在一些实施例中，段落分段740采用其相加的逆值来生成惩罚语义一致性较低的候选段落的段落一致性成本(或减去加权和中的段落相似度，如下所示)。

因此，在一些实施例中，段落分段740组合每个候选段落的长度成本和段落一致性成本(例如，作为加权和)。在示例实现中，加权和被计算为：

候选段落成本＝w*f(l)-(1-w)*段落相似度其中w是权重，它确定是否应该更多地强调生成的段落的长度或它们的相似度。非限制性实施例中的示例权重为w＝0.01。

在一些实施例中，除了在长停顿处分段之外，段落分段740还包括惩罚候选段落中的长停顿(例如，长于规格化长度或持续时间)的成本函数中的成本。在示例实现中，段落分段740标识正被分段的段落中的语音中的所有停顿(例如，查找与由(多个)特征提取组件162的一个或多个音频分类器提取并存储在检测到的特征194中的语音停顿的音频分类相关联的开始和停止时间，从转录195中的词或句子定时的差异标识停顿)。给定正被分段的段落中停顿的持续时间，段落分段740规格化持续时间(例如，计算平均停顿持续时间、特定说话人在说话人改变之前的连续停顿的平均持续时间)，并计算惩罚停顿长于归一化长度/持续时间的候选段落的成本。因此，在一些实施例中，段落分段740基于候选段落中说话人停顿的持续时间向候选段落分配成本，惩罚包括比归一化长度/持续时间更长(例如，总或平均长度/持续时间)的(多个)说话人停顿的候选段落。

因此，对于每个候选分段和每个候选分段中的每个候选段落，段落分段740将成本分配给候选段落，并使用动态编程来选择使候选段落的成本总和最小的候选分段。因此，这样的实施例标识具有灵活的段落长度的段落，并在期望的段落长度、每个段落中主题的一致性和/或每个段落中(多个)说话人停顿的长度之间提供平衡。

现在转到图1A的视频分段组件180，在一些实施例中，视频分段组件180基于转录195中的句子边界和词边界来标识视频片段的候选边界。在示例实现中，边界将在基于文本的视频编辑界面中使用，该界面呈现包括转录文本(例如，日志化的、按段落分段的)的转录195的视觉化，并接受基于文本的选择和编辑操作(例如，选择转录文本、选择诸如剪切、复制、粘贴、删除的命令)。在该示例中，选择转录文本的用户输入将转录文本的选择对齐到由视频分段组件180标识的词和/或句子边界，并且将对应的视频片段的选择对齐到对应的边界。因此，使用基于文本的选择来定义相应的视频片段，并且使用基于文本的命令(例如，剪切、复制、粘贴)来指示对视频片段进行相应的视频编辑。

图8A-图8C示出了根据本发明实施例的使用示例词和句子片段的示例分段技术。在示例实现中，生成的转录标识句子、词和时间戳，时间戳指示在对应的音频轨道中何时说出每个句子和/或词。图8A-图8C表示在时间线810上使用转录服务检测到的转录片段(句子和词片段)以及它们的持续时间(例如，作为长度)。在该示例中，转录包括被表示为对应的句子片段820a-c的三个句子，每个句子片段820a-c被细分为对应的词片段。在一些实施例中，如图8A所示，从转录中提取句子片段820a-c的表示。

在一些实施例中，句子片段820a-c的边界的时间戳用于检测句子片段(非语音片段)之间是否存在任何间隙，并且基于语音或音频活动将邻近间隙的句子片段的边界重新定时到该间隙中。例如，如图8B所示，在句子片段820b和820c之间存在间隙。因此，对应的语音或音频活动信号830被映射到时间线810上。根据实现，语音或音频活动信号830是表示音频轨道中的内容的任何信号，诸如音频轨道的音频波形的幅度、语音幅度的表示(例如，从音频轨道生成的话音活动检测信号)和/或其他。对于每个句子片段(例如，与检测到的间隙相邻)，搜索指定长度或持续时间(例如，0.5秒)(例如，在相邻间隙内)的邻域，以寻找语音或音频活动信号830最小的位置，并且将边界调整到该位置。如图8C所示，句子片段820b将其外边界调整到语音或音频活动信号830最小的新位置840，从而产生更新的句子片段850。在一些实施例中，关闭小于指定持续时间的短间隙，将一个或多个相邻句段边界延伸到间隙中语音或音频活动信号最小的位置。

在一些实施例中，使用来自转录的时间戳将每个句子片段映射到其构成词片段。在示例实施例中，词片段的边界的时间戳用于检测词片段(非语音段)之间是否存在任何间隙，并且基于语音或音频活动将邻近间隙的词片段的边界重新定时到间隙中。对于每个词片段(例如，与检测到的间隙相邻)，搜索指定长度或持续时间(例如，0.1秒)(例如，在相邻间隙内)的邻域，以寻找语音或音频活动信号最小的位置，并且将边界调整到该位置。在一些实施例中，关闭小于指定持续时间的短间隙，将一个或多个相邻词片段边界延伸到间隙中或跨越间隙的位置，其中语音或音频活动信号是最小的。

因此，所产生的(例如，重新定时的)句子和/或词边界(例如，视频/音频时间戳)的表示被存储并用于将选择对齐到最接近的对应边界。返回图1A，在一些实施例中，视频分段组件180使用一个或多个数据结构存储由词和/或句子片段的边界定义的视频分段196的表示。在示例实现中，(多个)视频分段196的视频分段由表示或引用时间轴位置(例如，边界位置、ID等)、分段持续时间、边界之间的分隔(例如，对齐点)和/或其他表示的值来标识。在一些情况下，维护视频的单个转录和/或一个或多个分段的边界位置的表示。附加地或备选地，出于效率的目的，视频文件在来自(例如，默认)视频分段的视频片段的边界位置处被分解成片段。

示例基于文本的视频编辑界面

上一节描述了用于生成视频的音频轨道的转录并基于转录片段分段视频以例如为视频编辑或其他视频交互做准备的示例技术。因此，视频摄取工具160生成视频的结构化表示，该结构化表示提供用于例如经由图1A和1B中的视频编辑应用105的视频交互引擎108与视频交互的高效且直观的结构。

在示例实现中，视频交互引擎108提供允许用户通过与在由转录工具控制的转录界面中呈现的转录的视觉化交互来选择、导航、播放和/或编辑视频的界面功能。在图1B中的示例实现中，视频交互引擎108包括视频选择工具110，其提供导航视频和/或文件库、接受选择一个或多个视频(例如，视频文件192)的输入、以及触发视频编辑工具115以将一个或多个选择的视频(例如，摄取的视频、由其他用户分享的视频、先前创建的剪辑)加载到由视频编辑工具115控制的视频编辑界面的界面。通常，视频选择工具110和/或视频编辑工具115呈现提供用于选择、导航、播放和/或编辑视频的各种交互模式的一个或多个交互元素。在各种实施例中，这些工具使用代码来实现，该代码使得呈现对应的(多个)交互元素，并检测和解释与(多个)交互元素交互的输入。

图9示出了根据本发明实施例的示例视频选择界面。在该示例中，视频选择界面900包括左侧的面板，该面板具有上传按钮910、你的编辑按钮920、与你分享的编辑按钮930以及你的媒体按钮940。上传按钮910打开导航界面，该导航界面接受标识要上传到用户的媒体库中的视频的位置的输入。在示例实现中，上传视频触发各种视频摄取过程(例如，生成视频的音频轨道的转录、基于转录片段分段视频)。你的编辑按钮920打开列出由特定帐户创建的各种视频剪辑的界面，与你分享的编辑按钮930打开列出由其他帐户与该特定帐户分享的各种视频剪辑的界面，并且你的媒体按钮940打开列出摄取的媒体(例如，摄取的视频)的界面。在示例实现中，媒体按钮940打开诸如在视频选择界面900的右侧所示的界面，在具有来自视频的缩略图(例如，缩略图950)和/或各种视频元数据(例如，文件名、创建日期、视频持续时间)的对应行中列出每个可用(例如，摄取的)视频。

在一些实施例中，视频选择界面900接受对所列出的视频之一的选择(例如，经由诸如复选框960的交互元素)，在其上用户选择新编辑按钮970以使用所选择的视频创建新的视频编辑项目，并在视频编辑界面中打开该视频，诸如图10的视频编辑界面1000。本文基础上，选择新编辑按钮970(或一些其他交互元素)用于创建组合所选视频的合成视频(以及组合所选视频的转录的合成转录)，并在视频编辑界面(例如，图10的视频编辑界面1000)中的新视频编辑项目中打开合成视频(和合成转录)。这些仅作为示例，并且在本公开的范围内考虑选择一个或多个视频进行编辑的其他方式。

图10示出了根据本发明实施例的示例视频编辑界面。在该示例中，视频编辑界面1000包括呈现加载的视频的转录的视觉化的转录界面1010、接受视觉和/或文本查询的搜索栏1040、以及回放加载的视频的回放区域1080。

在图10中，转录界面呈现被分段成段落的日志化转录(例如，基于说话人的改变、主题的改变)。根据该实施例，转录界面1010向转录文本1015的每个段落(例如，段落1030a、段落1030b)呈现讲该段落的人的视觉化表示(例如，该说话人的代表性说话人缩略图，诸如说话人缩略图1020)，和/或对应于该段落的视频片段的一个或多个视频缩略图的视觉化(例如，视频缩略图1025)。在一些实施例中，转录界面1010接受选择某些转录文本1015的输入(例如，点击或敲击并沿着转录拖动)，将所选转录文本对齐词和/或句子边界，和/或将对相应视频片段的选择对齐对应边界。因此，转录界面1010使用基于文本的选择来定义相应的视频片段。在一些实施例中，转录界面1010接受标识基于文本的命令(例如，剪切、复制、粘贴)的输入，并且作为响应，在视频片段上执行相应的视频编辑操作，如下面参考图11更详细描述的。在一些实施例中，转录界面1010用检测到各种特征的视频的相应部分的指示来注释转录文本，显示检测到的非语音音频或停顿的视觉表示(例如，作为音棒)，和/或在转录中的每行文本下方的时间线视图中显示对应于每行转录文本的视频缩略图(例如，作为缩略图条)，如下面参考图11-图13更详细地描述的。

根据实现，转录界面1010包括特征的任何组合。在一些实施例中，交互元素(例如，与说话人缩略图1020的交互相关联)接受改变与特定说话人相关联的说话人缩略图(例如，从来自对应面部轨迹的候选裁剪面部图像、上传的图像中选择)的输入，基于该输入，转录界面1010更新该说话人所说的转录的每个段落以示出所选择的说话人缩略图。在一些实施例中，将光标悬停在转录中的特定段落上(或其一部分，诸如悬停在转录文本上)导致显示视频的相应部分的预览(例如，通过用来自对应于该段落的视频部分的多个帧的动画预览来替换视频缩略图1025)。在一些实施例中，转录界面1010与回放区域1080中的视频回放同步地自动滚动转录。附加地或备选地，当用户在转录界面1010中将视觉化的转录从正在回放的部分滚动离开时，转录界面1010停止自动滚动，和/或当用户回滚到正在回放的部分时，转录界面1010恢复自动滚动。在一些实施例(图10中未示出)中，转录界面1010接受在转录内创建组织标题而不编辑视频的输入，并且提供响应于输入选择(例如点击或敲击)标题而导航到转录(和视频)的相应部分的大纲视图。

继续图10中所示的示例，视频编辑界面包括具有搜索栏1040的搜索界面，其接受文本查询并执行对匹配帧嵌入的可视搜索和/或针对转录或检测到的特征标签中的匹配词的文本搜索，如下面参考图14-15更详细地描述的。在一些实施例中，搜索界面可视地表示不同的检测到的说话人(例如，说话人缩略图1050)，其具有或作为触发对所选说话人所说的转录的部分的搜索的关联交互元素。在一些实施例中，搜索界面视觉地表示检测到的特征类，诸如检测到的声音类(例如，声音1060)，具有或作为触发对与检测到所选特征类的音频轨道的部分相对应的转录的部分的搜索的相关联的交互元素。在一些实施例中，搜索界面可视地表示执行问题搜索的选项(例如，问题元素1070)，对该选项的选择触发对视频和/或转录(例如，一个或多个指定类别的问题)中所问问题的表示的搜索和/或呈现，其示例将在下面参考图16更详细地描述。

图11示出了根据本发明的实施例的用于基于文本的视频编辑的示例转录界面1100。在该示例中，转录界面1100呈现被分段成段落的日志化转录的一部分，每个段落包括对应的转录文本、针对该段落检测到的说话人的说话人缩略图、以及来自对应于该段落的视频片段的视频缩略图。

图11示出了用于选择转录文本以标识对应的视频片段并基于通过与所选择的转录文本交互而接收的基于文本的命令来执行视频编辑操作的示例技术。更具体地，图11示出了对转录的一部分的选择1110(例如，通过点击或敲击并沿转录拖动来进行)。在一些实施例中，转录界面1100将选择1110对齐到对应的词和/或句子边界，和/或将对相应视频片段的选择对齐到与选择1110的第一个词/句子的开始和最后一个词/句子的结束相对应的边界。

在一些实施例中，在接收到选择1110时(和/或诸如右击选择1110之类的一些后续输入)，转录界面1100显示包括视频编辑操作的选项的菜单1120。例如，创建剪辑选项1130获取转录的所选部分，将来自加载的视频项目的相应视频片段(例如，包括音频和视频轨道的相应部分)分段成单独的视频剪辑，和/或将该视频剪辑添加到用户的媒体库。剪切选项1140从加载的视频项目中移除相应的视频片段，并将其放置在剪贴板中。复制选项1150将相应的视频片段保留在加载的视频项目中，并将其放置在剪贴板中。粘贴选项1160将先前复制的视频片段粘贴到与转录中的位置光标1165对应的加载的视频项目的位置(和/或粘贴在对应于选择1110的视频片段上)。注意，位置光标1165被显示为具有视频的对应位置的时间戳。删除选项1170从加载的视频项目中删除相应的视频片段(例如，移除视频轨道、音频轨道和重脚本(rescript)的相应部分)。从源媒体编辑新选项1180打开具有对应于选择1110的视频片段的新视频项目。

因此，转录界面1100提供了示例的基于文本的视频编辑界面，其中所选择的转录文本被用来标识相应的视频片段，并且通过与转录文本的交互接收的编辑命令被解释为对相应视频片段执行相应编辑的指令。

注意，图11还示出了其中转录将检测到的音乐和/或声音视觉化为转录中检测到音乐和/或声音的对应区域中的音频波形的示例。例如，音棒1190示出了与转录文本一致的语音中检测到的停顿，从而帮助用户视觉化转录内的非语音并确定将选择边界放置在哪里(例如，在音棒1190之前或之后)。在图11所示的示例中，选择1110包括由音棒1090表示的转录部分(例如，检测到的音乐)。在一些实施例中，对转录进行注释以指示在转录的区域中检测到的特征，该区域对应于检测到特征的视频/音频的部分。例如，音乐标签1118和其上方的带下划线的文字指示带下划线的文字对应于检测到音乐的音频轨道的区域。该特定标签仅作为示例，因为各种实施例注释转录的部分以指示位置和/或对任何类型的检测特征(例如，语言特征、说话人、面部、音频分类、视觉相似场景、视觉伪影、视频对象或动作、音频事件)进行分类。

图12示出了根据本发明的实施例的视觉化非语音音频的示例转录界面。在该示例中，转录界面1200呈现日志化转录的一部分(例如，分段段落)。在该示例中，转录将检测到的音乐和/或声音视觉化为转录中检测到音乐和/或声音的对应区域中的音频波形。例如，音棒1210示出了与转录文本一致的语音中检测到的停顿，并且音棒1220示出了在加载的视频/音频的前一行转录之后的一部分中检测到的声音的区域。此外，音棒1220利用标签1230和1240而被注释，以指示音棒1220的分别对应于检测到的波音和检测到的婴儿咯咯笑的部分。

图13示出了根据本发明的实施例的包括缩略图栏的示例转录界面。在该示例中，转录界面1300以不同的方式视觉化图12中所示的日志化转录的部分(例如，分段段落)。更具体地，转录界面1300包括散布在对应的转录文本行1015之间的缩略图栏1310。在该示例中，缩略图栏1310表示与转录中每行文本下方的时间线视图中的每行转录文本相对应的视频缩略图。在一些实施例中，转录界面1300分别图示了具有可视地表示音频轨道的相应非语音部分的相应音棒的非语音部分，和/或图示了视觉地表示视频音频轨道的相应部分的相应缩略图条。例如，非语音部分1350包括散布在相应音棒1340之间的缩略图栏1330，帮助用户在转录中视觉化非语音部分1350。

在一些实施例中，转录文本(例如，转录文本1320)、缩略图栏(例如，缩略图栏1310、1330)和/或声音条(例如，发声条1340)是可选择的，使得转录界面1300接受选择转录中的转录文本段、一个或多个发声条的片段、和/或一个或多个缩略图条的段的输入(例如，基于沿一行或多行转录文本、发声条和/或缩略图条的输入点击或敲击和拖动)，其用于标识具有对应于该选择的边界的相应视频片段。

图14示出了根据本发明实施例的用于视频内容的视觉和文本搜索的示例搜索界面。搜索界面1400包括搜索栏1410，搜索栏1410接受自由形式查询，触发对匹配自由形式查询的加载视频的帧的视觉搜索(例如，匹配自由形式查询的相应嵌入的帧嵌入)，并触发文本搜索以从对应的转录或从来自加载视频的检测到的特征的标签中搜索匹配词。图14示出了对返回了视觉搜索结果1420和转录搜索结果1430的“海滩”的示例搜索。在该示例中，视觉搜索结果1420在搜索结果图块的一行中呈现，其中每个图块示出代表性视频缩略图(例如，匹配视频帧)、视频中的时间以及匹配视频帧的匹配得分。此外，转录搜索结果1430被呈现在视觉搜索结果行1420的下方，其中，转录搜索结果1430被呈现为具有匹配的转录文本(例如，突出显示的，具有用于上下文的相邻转录文本)、说出匹配的转录文本的说话人的说话人缩略图、以及来自相应的匹配视频片段的代表性视频缩略图的搜索结果图块。在示例实现中，点击搜索结果图块中的一者将转录(和/或视频回放)导航到转录(和/或视频)的对应部分，使得能够快速导航到感兴趣的转录的部分，便于快速和直观地进行基于文本的视频编辑。

图15示出了根据本发明实施例的注释搜索结果中的转录文本的示例搜索界面。搜索界面1500示出了通过利用检测到匹配的检测到的特征的视频的相应区域的指示来注释转录文本来视觉化与文本查询匹配的检测到的特征标签的方式。在图15中，搜索界面1500示出了对匹配从音频轨道中提取的音频标签的“风噪声”的搜索。更具体地，加载的视频包括具有使用音频分类器检测到风的片段的音频轨道。因此，搜索结果图块1510表示对应的匹配视频片段，其中对应的转录文本的视觉表示被标注(例如，通过下划线等风格化，其中在对应的转录文本下方显示有匹配标签1520、1530、1540的文本)、说出相应转录文本的说话人的说话人缩略图、以及来自相应匹配视频片段的代表性视频缩略图。注意，此处，查询“风噪声”与转录文本本身并不匹配，但却返回了与视频中检测到风的位置对应的转录文本。附加地或备选地，除了注释搜索结果中的对应转录文本之外，一些实施例还标注转录界面中的对应转录文本。

在一些实施例中，问题搜索是使用交互元素来触发的，交互元素例如是“问题”链接或按钮。附加地或备选地，通过在查询中输入词“问题”来触发问题搜索。图16示出了根据本发明实施例的视频中问题的示例搜索界面1600。在该示例中，用户在搜索栏1610中输入词“问题”，搜索栏1610搜索或检索视频中的问题的表示，并呈现表示具有检测到的问题的视频片段的搜索结果图块1620。在该示例中，搜索结果图块1620表示对应的匹配视频片段，该对应的匹配视频片段具有注释(例如，诸如通过突出显示来样式化)的对应的转录文本(例如，匹配的问题)的视觉表示、说出对应的转录文本的说话人的说话人缩略图、以及来自对应的匹配视频片段的代表性视频缩略图。在示例实现中，点击搜索结果图块之一将文本(和/或视频回放)导航到文本(和/或视频)的对应部分。因此，用户可以容易地搜索视频中的问题，并导航到转录的对应部分。

示例流程图

现在参考图17-图31，提供了说明各种方法的流程图。方法1700-3100和本文描述的任何其他方法的每个块包括使用硬件、固件和/或软件的任何组合执行的计算过程。例如，在一些实施例中，各种功能由执行存储在存储器中的指令的处理器执行。在某些情况下，该方法被实施为存储在计算机存储介质上的计算机可用指令。在一些实现中，这些方法由独立应用、服务或托管服务(独立或与另一托管服务组合)、或另一产品的插件提供，仅举几个示例。

图17是示出根据本发明实施例的用于基于文本的视频编辑的方法的流程图。首先，在框1710，摄取视频。框1715-1730描述了示例视频摄取过程。在框1715，从视频的音频轨道(例如，使用任何已知技术)提取视频的转录，以标识句子、词和表示在视频中何时说出每个词的时间戳。在框1720，转录被日志化(例如，通过图1的日志化组件164)。在框1725，(例如，通过图1的转录分段组件170)对转录进行分段。在框1730，视频被分段(例如，图1的视频分段组件180)。

在框1740，在编辑器界面(例如，由图1的视频编辑工具115控制)中呈现日志化的、分段的转录。在框1750，将在编辑器界面中显示的转录文本的文本选择解释为视频片段选择。在示例实施例中，文本选择用于标识具有对应于所选转录文本中的第一个词的开始边界(或对应于紧接在所选转录选择开始处的所选音棒之前的词的结尾的开始边界)和对应于所选转录文本中的最后一个词的结束的停止边界(或对应于紧随在所选转录选择的末尾的所选音棒之后的下一个词的开始的停止边界)的视频片段。从在框1730中生成的视频分段存储的或以其他方式标识的候选边界中选择视频片段的开始和结束边界。因此，在框1760，文本编辑命令(例如，剪切、复制、粘贴)被解释为视频编辑命令，并且在框1770，对视频片段执行视频编辑命令。

图18是示出根据本发明实施例的用于视频分段和视频片段选择和编辑的方法的流程图。在框1810，使得生成视频分段的表示，该视频分段在与视频的转录的转录片段相关联的边界处对视频进行分段。在框1820，与转录片段的视觉化交互的第一输入被解释为选择视频分段的对应视频片段的指令。在框1830，与转录片段的视觉化交互的第二输入被解释为对对应视频片段执行视频编辑操作的指令。

图19是示出根据本发明实施例的用于基于词和/或句子片段的视频分段的方法的流程图。方法1900是执行方法1700的框1730或方法1800的框1810的至少一部分的可能方式的示例。首先，在框1910，从转录中标识句子片段。在示例实现中，从(例如，视频的)音频轨道生成转录，以标识句子、词、标点符号和表示何时在音频轨道中说出每个词的时间戳，并且使用句子标记和/或标点符号来标识句子片段以提取句子文本，并使用时间戳将所提取的文本段与音频轨道中的对应时间相关联。在框1920，基于语音或音频活动对句子片段的某些边界重新定时。在示例实现中，如果在句子片段之间存在任何时间间隙或者存在其他提取的非语音片段(例如，长于指定的持续时间)，则评估音频轨道中的语音或音频活动以标识在与间隙相邻的每个边界的搜索邻域内语音或音频活动是最小的位置(例如，仅扩展到间隙，而不是收缩句子片段)。

在框1930，将句子片段分段成词片段(例如，使用提取的词片段、时间戳等)。在框1940，基于语音或音频活动对词片段的某些边界重新定时。在示例实现中，如果在词片段之间存在任何时间间隙或者在句子片段内存在其他提取的非语音片段(例如，长于指定的持续时间)，则评估音频轨道中的语音或音频活动以标识在每个边界的搜索邻域内与间隙相邻的位置，其中语音或音频活动是最小的(例如，仅扩展而不是收缩词片段)。在框1950，存储由词和/或句子片段的(重新定时的)边界定义的视频(或音频)分段的表示以供以后使用(例如，选择和编辑相应的视频/音频段)。

图20是示出根据本发明实施例的用于面部感知说话人日志化的方法2000的流程图。方法2000是执行方法1700的框1720的至少一部分的可能方式的示例。在框2010，生成初始说话人日志化，其将视频中检测到的说话人分配给视频的第一组时间片段。在示例实现中，使用任何已知的纯音频日志化技术来生成初始说话人日志化，该日志化技术在不考虑来自视频轨道的可视数据的情况下评估音频轨道。在框2020，生成面部感知说话人日志化，其将检测到的说话面部分配给视频的第二组时间片段。下面在图1的框2120-2140中描述执行框2020的至少一部分的示例方式。在框2030，生成将初始说话人日志化与面部感知说话人日志化相结合的混合说话人日志化。上面参考图4描述了执行框2030的至少一部分的示例方式。

图21是示出根据本发明实施例的用于基于面部感知说话人日志化来更新初始说话人日志化的方法2100的流程图。方法2100是执行方法1700的框1720的至少一部分的可能方式的示例。在框2110，计算初始说话人日志化。在示例实现中，使用任何已知的纯音频日志化技术来生成初始说话人日志化，该日志化技术在不考虑来自视频轨道的可视数据的情况下评估音频轨道。

在框2120，使用任何已知技术来执行面部轨迹检测，以检测面部，随着时间的推移追踪它们，并将它们聚类成人/面部标识(例如，面部ID)。在框2130，执行活动说话人检测。在示例实现中，使用一个或多个机器学习模型(例如，图2的活动说话人检测模型，基于馈送到模型中的(多个)输入图像的大小选择的模型)来预测和分配活动说话得分(例如，[0-)，其量化每个面部轨迹是在相应音频窗口期间说话的那个面部轨迹的可能性，如以上参考图1的面部感知说话人日志化组件166更详细地描述的。在示例实现中，对于出现在一个或多个视频帧中的每个面部，来自连续视频帧序列(例如，15)的面部裁剪图像和对应的音频窗口被馈送到活动说话人检测模型中，以生成其中出现该面部的每个连续帧序列的活动说话得分。

在框2140，执行面部感知日志化。在示例实现中，对于任何给定帧或帧序列(例如，高于阈值，诸如对于大于指定大小的图像为0.9，对于小于指定大小的图像为0.5)，具有最高预测活动说话得分的面部(例如，面部标识)被视为活动说话人。在一些实施例中，音频轨道的音频样本被编码到音频嵌入中并被聚类，并且来自检测到的面部轨道的面部ID被分配给包括一个或多个音频嵌入(或聚类中音频嵌入的阈值数目或百分比)的聚类，一个或多个音频嵌入已经预测了特定面部ID的活动说话人得分高于指定阈值。在一些实施例中，音频嵌入的每个剩余的未标记聚类被分配唯一的面部ID。

在框2150，使用从框2140产生的面部感知日志化来更新初始说话人日志化。上面参考图4描述了执行框2150的至少一部分的示例方式。

图22是示出根据本发明实施例的用于标识被检测说话人的面部的代表图像的方法2200的流程图。在框2210，生成视频中检测到的说话人的面部的候选图像。从由面部的检测到的面部轨迹标识的视频的帧中提取候选图像。在框2220，从候选图像中标识检测到的说话人的面部的代表图像。下面参考图23的框2330-2380更详细地描述执行框2220的至少一部分的示例方式。在框2230，使得呈现与由检测到的说话人说出的、视频的日志化转录的片段相关联的检测到的说话人的面部的代表图像。

图23是示出根据本发明实施例的用于标识面部的最佳图像的方法2300的流程图。在框2310，针对特定面部标识(例如，使用任何已知技术)检测(多个)面部轨迹。在框2320，生成与面部标识相关联的面部的裁剪图像(例如，通过从由对应面部轨迹标识的每一帧的对应位置裁剪出面部)。在框2330，评估裁剪图像的图像质量(例如，使用任何已知技术)。在框2340，评估裁剪图像的面部情感(例如，通过应用情感分类器来量化诸如快乐的指定情感的度量)。在框2350，评估裁剪图像的图像大小(例如，计算奖励面部的较大图像的大小系数)。在框2360，评估裁剪图像是否接近面部轨迹的边缘(例如，计算惩罚从看起来朝向面部轨迹的开始或结尾的帧提取的图像的边缘因素)。在框2370，为每个裁剪图像生成组合得分。在框2380，选择具有最高组合得分的裁剪图像作为面部的最佳图像。

图24是示出根据本发明实施例的用于从转录文本中省略转录唱歌的方法的流程图。方法2400是执行方法1700的框1720的至少一部分的可能方式的示例。在框2410，使用一个或多个音频分类器检测两件事：(i)包含检测到的语音的音频轨道的语音区域和(ii)包含检测到的音乐的音频轨道的音乐区域。在框2420，至少基于将音乐区域的时间与语音区域的时间进行比较来检测纯音乐区域。在框2430，基于与纯音乐区域重叠的对应句子(例如，大于诸如50％的阈值百分比)，在音频的转录中标识转录唱歌。在框2440，使得呈现从转录的转录文本中省略转录的唱歌的转录的视觉化。

图25是示出根据本发明实施例的用于音乐感知说话人日志化的方法2500的流程图。方法2500是执行方法1700的框1720的至少一部分的可能方式的示例。在框2510，提取标识音频随时间包含语音的可能性和音频随时间包含音乐的可能性的音频分类。在框2520，音频分类被转换成事件(例如，使用阈值和平滑)。在框2530，合并相同类型的相邻事件。在框2540，标识纯音乐事件(当存在音乐但不存在语音时的连续范围)。在框2550，移除短于指定持续时间的纯音乐事件。在框2560，检测与纯音乐事件重叠(例如，至少50％)的转录句子。在框2570，从转录文本中移除检测到的句子或将其标记为唱歌(例如，以指示不在转录中呈现转录的唱歌)。

图26是示出根据本发明实施例的用于转录段落分段和视觉化的方法2600的流程图。方法2400(和图7的转录分段技术700)是执行方法1700的框1725的至少一部分的可能方式的示例。在框2610，导致生成转录的段落分段的表示。段落分段基于段落分段的一个或多个段落内的文本的段落长度和语义一致性。在示例实现中，使用成本函数来标识和评估在句子边界处将长段落分解成多个较小段落的不同候选分段，成本函数基于与目标段落长度的偏离来惩罚候选分段，奖励将语义相似的句子分组为共同段落的候选分段，和/或惩罚包括具有长停顿(例如，长于标准化长度或持续时间)的候选段落的候选分段，并且使用动态编程来选择最小化成本总和的候选分段。在框2620，使用户界面呈现转录(例如，在所标识的句子边界处分段以形成段落的转录文本)的段落分段的视觉化。

图27是示出根据本发明实施例的用于视觉化转录的方法的流程图。在框2710，使得转录界面呈现视频的转录的视觉化。视觉化(i)对与检测到特征的视频的一部分相对应的转录文本的视觉外观进行样式化，或者(ii)用检测到的特征类别的文本表示来标记转录文本。在框2720，与转录的视觉化交互的输入被解释为选择视频的对应视频片段的指令。

图28是示出根据本发明实施例的用于触发视频的视觉和文本搜索的方法的流程图。在框2810，响应于通过视频编辑界面的搜索界面接收到自由形式的文本查询，触发两件事：(i)对匹配自由形式文本查询的加载视频的匹配视频帧进行视觉搜索，以及(ii)在加载视频的转录或来自加载视频的检测特征的标签中对匹配词进行文本搜索。在框2820，使得搜索界面呈现表示匹配视频帧的视觉搜索结果图块和表示与匹配词相对应的视频片段的文本搜索结果图块。

图29是示出根据本发明实施例的用于触发对视频中出现的问题的搜索的方法的流程图。在框2910，响应于通过视频编辑界面的搜索界面接收到执行问题搜索的命令，针对视频中询问的问题触发问题搜索。根据实施例，在该命令之前(例如，在摄取期间)或响应于该命令来标识问题。下面参考图30更详细地描述标识问题的示例方式。在框2920，使得搜索界面呈现表示对应于视频中询问的问题的视频片段的搜索结果图块。

图30是示出根据本发明实施例的用于标识出现在视频中的问题的方法3000的流程图。方法3000(或其一部分)是在方法2900的框2910中引用的命令之前(例如，在摄入期间)或响应于该命令来标识问题的可能方式的示例。在框3010，转录视频的音频轨道以生成转录。在框3020，对转录进行解析以标识以问号结尾的句子并将其标记为问题。在框3030，标识并标记或滤除后勤问题。在框3040，标识并标记或滤除反问句。在框3050，标识并标记或滤除小于阈值长度或持续时间的短问题。因此，根据实施例，响应于对应命令，剩余的问题(或具有(多个)指定标签的问题)被呈现或视觉化(例如，作为表示相应视频片段的搜索结果图块)。

图31是示出根据本发明实施例的用于标识后勤问题的方法的流程图。方法3100是执行方法3000的框3030的至少一部分的可能方式的示例。在框3110，将示例后勤问题的数据集编码到后勤句子嵌入中。在框3120，组合(例如，平均)后勤句子嵌入以生成示例后勤问题的合成表示。在框3130，将转录问题编码到句子嵌入中。在框3140，量化嵌入到示例后勤问题的合成表示的每个句子的相似度(例如，使用余弦相似度)。在框3150，标识并标记或滤除具有句子嵌入在示例后勤问题的合成表示的阈值相似度内的后勤问题。

示例操作环境

在描述了本发明的实施例的概述之后，下面描述其中实现本发明的一些实施例的示例操作环境，以便提供本发明的各个方面的一般上下文。现在具体参考图32，示出了用于实现本发明实施例的示例操作环境，并将其总体指定为计算设备3200。计算设备3200仅是适合的计算环境的一个示例，并且不旨在建议对本发明的使用范围或功能的任何限制。计算设备3200也不应被解释为具有与所示组件的任何一个或组合相关的任何依赖性或要求。

在一些实施例中，本技术实施在计算机代码或机器可用指令中，包括由诸如蜂窝电话、个人数字助理或其他手持设备的计算机或其他机器执行的诸如程序模块的计算机可执行指令。通常，程序模块(例如，包括或引用例程、程序、对象、组件、库、类、变量、数据结构等)指执行特定任务或实现特定抽象数据类型的代码。各种实施例在各种系统配置中实现，包括手持设备、消费电子产品、通用计算机、更专业的计算设备等。一些实现在分布式计算环境中实现，其中任务由通过通信网络链接的远程处理设备执行。

参考图32中所示的示例操作环境，计算设备3200包括直接或间接耦合以下设备的总线3210：存储器3212、一个或多个处理器3214、一个或多个呈现组件3216、输入/输出(I/O)端口3218、输入/输出组件3220、以及说明性电源3222。总线3210表示可以是一条或多条总线(诸如地址总线、数据总线或其组合)。尽管为了清楚起见，图32的各个块用线条示出，但在某些情况下，不可能为不同的组件描绘清晰的边界。在这种情况下，比喻地说，这些线将是灰色和模糊的。因此，图32和本文描述的其他组件的图应当被理解为仅示出各种示例实现，诸如实现实施例或其一部分的示例计算设备。如图32的范围内所设想的那样，没有在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等类别之间进行区分。

计算设备3200通常包括各种计算机可读介质。计算机可读介质可以是可由计算设备3200访问的任何可用介质，并且包括易失性和非易失性介质以及可移除和不可移除介质。作为非限制性示例，在一些情况下，计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、盒式磁带、磁带、磁盘存储或其他磁存储设备、或可用于存储所需信息并可由计算设备3200访问的任何其他介质。计算机存储介质本身不包括信号。通信介质通常在诸如载波或其他传输机制的调制数据信号中包含计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息递送介质。术语“调制数据信号”是指其一个或多个特性以编码信号中的信息的方式设置或改变的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、RF、红外和其他无线介质的无线介质。上述任何一项的组合也应包括在计算机可读介质的范围内。

存储器3212包括易失性和/或非易失性存储器形式的计算机存储介质。在各种实施例中，存储器是可移除的、不可移除的或其组合。示例硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备3200包括从诸如存储器3212或I/O组件3220的各种实体读取数据的一个或多个处理器。(多个)呈现组件3216向用户或其他设备呈现数据指示。示例演示组件包括显示设备、说话人、打印组件、振动组件等。

I/O端口3218允许计算设备3200逻辑地耦合到包括I/O组件3220的其他设备，其中一些可以内置。说明性组件包括麦克风、操纵杆、游戏板、卫星天线、扫描仪、打印机、无线设备等。I/O组件3220可以提供处理由用户生成的空中手势、语音或其他生理输入的自然用户界面(NUI)。在某些情况下，输入被传输到适当的网络元件以进行进一步处理。在一些实施例中，NUI实现与计算设备3200的显示相关联的语音识别、指示笔识别、面部识别、生物测定识别、屏幕上和邻近屏幕的手势识别、空中手势、头部和眼睛追踪、和/或触摸识别(如下更详细地描述)的任何组合。在一些情况下，计算设备3200配备有深度相机，例如立体相机系统、红外相机系统、RGB相机系统、触摸屏技术及其组合，用于手势检测和识别。附加地或备选地，计算设备3200配备有能够检测运动的加速计或陀螺仪，并且在某些情况下，加速计或陀螺仪的输出被提供给计算设备3200的显示器以呈现沉浸式增强现实或虚拟现实。

本文描述的实施例支持视频分段、说话人日志化、转录段落分段、视频导航、视频或转录编辑、和/或视频回放。在各种实施例中，本文描述的组件指的是系统的集成组件。集成组件是指支持使用系统的功能的硬件架构和软件框架。硬件架构指的是物理组件及其相互关系，而软件框架指的是提供可以用包含在设备上的硬件实现的功能的软件。

在一些实施例中，端到端的基于软件的系统在系统的组件内操作以操作计算机硬件以提供系统功能。在较低级别，硬件处理器执行从用于给定处理器的机器语言(也称为机器代码或本机)指令集中选择的指令。处理器识别本机指令并执行与例如逻辑、控制和存储器操作相关的相应低级功能。在某些情况下，用机器码编写的低级软件为高级软件提供了更复杂的功能。如本文所使用的，计算机可执行指令包括任何软件，包括以机器代码编写的低级软件、诸如应用软件之类的高级软件及其任意组合。在这一点上，系统组件可以管理资源并为系统功能提供服务。对于本发明的实施例，可以设想任何其他的变型及其组合。

参考神经网络来描述一些实施例，神经网络是一种机器学习模型，其通过分析不同抽象级别的样本(例如，训练)数据来学习逼近未知函数。通常，神经网络通过沿输入序列生成隐藏向量输出来对复杂的非线性关系进行建模。在某些情况下，神经网络包括相互连接的数字神经元的模型，该模型进行通信并学习近似复杂函数，并基于提供给该模型的多个输入来生成输出。在各种实现中，神经网络包括各种深度学习模型中的任何一种，包括卷积神经网络、递归神经网络、深度神经网络和深度堆叠网络，仅举几个示例。在一些实施例中，神经网络包括或以其他方式利用一个或多个机器学习算法来从训练数据学习。换句话说，神经网络可以包括实现深度学习技术(例如机器学习)的算法，以尝试对数据中的高级抽象进行建模。

尽管关于神经网络描述了一些实现，但是一些实施例是使用其他类型的(多个)机器学习模型来实现的，例如使用线性回归、逻辑回归、决策树、支持向量机(SVM)、朴素贝叶斯、K近邻(Knn)、K均值聚类、随机森林、降维算法、梯度提升算法、神经网络(例如，自动编码器、卷积、递归、感知器、长期/短期记忆(LSTM)、Hopfield、Boltzmann、深度信念、反卷积、生成性对抗性、液体状态机等)和/或其他类型的机器学习模型。

在标识了本公开中的各种组件之后，应该理解，在本公开的范围内可以采用任何数量的组件和布置来实现期望的功能。例如，为了概念清楚起见，图中描述的实施例中的组件用线条示出。也可以实现这些组件和其他组件的其他布置。例如，尽管一些组件被描绘为单个组件，但本文描述的许多元件可以作为离散或分布式组件或者与其他组件结合并且以任何适当的组合和位置来实现。有些元素可能会被完全省略。此外，本文描述的由一个或多个实体执行的各种功能可以由硬件、固件和/或软件来执行，如下所述。例如，各种功能可以由执行存储在存储器中的指令的处理器来执行。同样，其他布置和元素(例如，机器、接口、功能、顺序和功能分组等)可作为所示内容的补充或替代。

本文详细描述本发明的主题以满足法定要求。然而，说明书本身并不旨在限制本专利的范围。相反，发明人设想，所要求保护的主题也可以以其他方式实施，以包括与本文档中描述的步骤类似的不同步骤或步骤组合，结合其他现在或将来的技术。此外，尽管本文可以使用术语“步骤”和/或“框”来表示所采用的方法的不同元素，但是除非明确地描述了各个步骤的顺序，否则这些术语不应被解释为意味着在本文公开的各个步骤之间或之间的任何特定顺序。为了本公开的目的，除非另有相反说明，否则诸如“一”和“一个”之类的词包括复数和单数。因此，例如，在存在一个或多个特征的情况下，满足了“特征”的要求。

本发明是关于特定实施例描述的，这些实施例在所有方面都是说明性的而不是限制性的。在不脱离其范围的情况下，对于本发明所属领域的普通技术人员来说，备选实施例将变得显而易见。

从上面可以看出，本发明很好地适应于实现上述所有目的和目标，以及该系统和方法明显的和固有的其他优点。应当理解，某些特征和子组合是有效用的，并且可以在不参考其他特征和子组合的情况下使用。这是权利要求所预期的并且在权利要求的范围内。

Claims

1.一种或多种计算机存储介质，存储计算机可用指令，所述计算机可用指令在由一个或多个计算设备执行时使得所述一个或多个计算设备执行操作，所述操作包括：

生成初始说话人日志化，所述初始说话人日志化将视频中检测到的说话人分配给所述视频的第一组时间片段；

生成面部感知说话人日志化，所述面部感知说话人日志化将检测到的说话面部分配给所述视频的第二组时间片段；以及

生成混合说话人日志化，所述混合说话人日志化将所述初始说话人日志化与所述面部感知说话人日志化相结合。

2.根据权利要求1所述的一种或多种计算机存储介质，其中所述混合说话人日志化将所述视频的转录的片段与说出所述片段的所述检测到的说话面部的相应标识相关联。

3.根据权利要求1所述的一种或多种计算机存储介质，其中生成所述面部感知说话人日志化包括：对于所述初始说话人日志化的所述第一组时间片段中的特定时间片段，预测针对出现在所述特定时间片段中的每个检测到的面部的活动说话人得分，并将具有最大活动说话得分的面部标识分配给所述特定时间片段。

4.根据权利要求1所述的一种或多种计算机存储介质，其中生成所述面部感知说话人日志化包括：对于所述初始说话人日志化的所述第一组时间片段中的特定时间片段，预测针对出现在所述特定时间片段中的每个检测到的面部以及针对所述特定时间片段中的多个窗口中的每个窗口的活动说话人得分，以及在所述多个窗口上对针对每个检测到的面部的所述活动说话人得分求平均。

5.根据权利要求1所述的一种或多种计算机存储介质，其中生成所述面部感知说话人日志化包括：对于所述初始说话人日志化的所述第一组时间片段中的特定时间片段，在所述特定时间片段中的多个窗口上对针对检测到的面部的活动说话人得分求平均之前，将低于阈值的所述活动说话人得分中的一个或多个活动说话人得分归零。

6.根据权利要求1所述的一种或多种计算机存储介质，其中生成所述面部感知说话人日志化包括：将从所述视频被提取的检测到的面部的不同大小的图像应用于不同的活动说话人检测模型。

7.根据权利要求1所述的一种或多种计算机存储介质，其中生成所述面部感知说话人日志化包括：对于使用从所述视频被提取的检测到的面部的不同大小的图像而被生成的活动说话得分来应用不同的置信度阈值，以将所述检测到的说话面部分配给所述第二组时间片段。

8.根据权利要求1所述的一种或多种计算机存储介质，其中生成所述混合说话人日志化将所述面部感知说话人日志化中的所述检测到的说话面部分配给所述初始说话人日志化中的所述检测到的说话人。

9.根据权利要求1所述的一种或多种计算机存储介质，其中生成所述混合说话人日志化包括：至少基于具有高于阈值的预测活动说话人得分的相关联的细化标识，利用所述面部感知说话人日志化中的所述检测到的说话面部中的一者的所述相关联的细化标识，来重写所述初始说话人日志化中的所述检测到的说话人中的一者的特定标识。

10.一种方法，包括：

生成初始说话人日志化，所述初始说话人日志化将视频中的检测到的说话人与所述视频的第一组时间片段相关联；

生成面部感知说话人日志化，所述面部感知说话人日志化将所检测到的说话面部与所述视频的第二组时间片段相关联；以及

生成混合说话人日志化，所述混合说话人日志化至少基于所述面部感知说话人日志化来细化所述初始说话人日志化。

11.根据权利要求10所述的方法，其中所述混合说话人日志化将所述视频的转录的片段与说出所述片段的所述检测到的说话面部的相应标识相关联。

12.根据权利要求10所述的方法，其中生成所述面部感知说话人日志化包括：对于所述初始说话人日志化的所述第一组时间片段中的特定时间片段，预测针对出现在所述特定时间片段中的每个检测到的面部的活动说话人得分，并且将具有最大活动说话得分的面部标识分配给所述特定时间片段。

13.根据权利要求10所述的方法，其中生成所述面部感知说话人日志化包括：对于所述初始说话人日志化的所述第一组时间片段中的特定时间片段，预测针对出现在所述特定时间片段中的每个检测到的面部以及针对所述特定时间片段中的多个窗口中的每个窗口的活动说话人得分，并且在所述多个窗口上对针对每个检测到的面部的所述活动说话人得分求平均。

14.根据权利要求10所述的方法，其中生成所述面部感知说话人日志化包括：对于所述初始说话人日志化的所述第一组时间片段中的特定时间片段，在所述特定时间片段中的多个窗口上对针对检测到的面部的活动说话人得分求平均之前，将低于阈值的所述活动说话人得分中的一个或多个活动说话人得分归零。

15.根据权利要求10所述的方法，其中生成所述面部感知说话人日志化包括：将从所述视频被提取的检测到的面部的不同大小的图像应用于不同的活动说话人检测模型。

16.根据权利要求10所述的方法，其中生成所述面部感知说话人日志化包括：对于使用从所述视频被提取的检测到的面部的不同大小的图像而被生成的活动说话得分来应用不同的置信度阈值，以将所述检测到的说话面部分配给所述第二组时间片段。

17.根据权利要求10所述的方法，其中生成所述混合说话人日志化包括：将所述面部感知说话人日志化中的所述检测到的说话面部分配给所述初始说话人日志化中的所述检测到的说话人。

18.根据权利要求10所述的方法，其中生成所述混合说话人日志化包括：至少基于具有高于阈值的预测活动说话人得分的相关联的细化标识，利用所述面部感知说话人日志化中的所述检测到的说话面部中的一者的所述相关联的细化标识，来重写所述初始说话人日志化中的所述检测到的说话人中的一者的特定标识。

19.一种计算机系统，包括一个或多个处理器和被配置为向所述一个或多个处理器提供计算机程序指令的存储器，所述计算机程序指令包括：

视频交互引擎，所述视频交互引擎被配置为触发混合说话人日志化的生成，所述混合说话人日志化对初始说话人日志化进行细化，以将来自视频的视频轨道的检测到的面部链接到来自所述视频的音频轨道的检测到的语音；以及

转录工具，所述转录工具被配置为使用所述混合说话人日志化来呈现转录，所述转录包括与所述所检测的面部在所述视频中说话的所述转录的片段相关联的所述所检测的面部的图像。

20.根据权利要求19所述的计算机系统，其中所述混合说话人日志化被配置为：将来自面部感知说话人日志化的与所述检测到的面部相关联的检测到的面部标识分配给来自所述初始说话人日志化的所述检测到的语音。