CN111833904A

CN111833904A - 用于将在时间上彼此跟随的数字音频数据分类的方法

Info

Publication number: CN111833904A
Application number: CN202010298706.6A
Authority: CN
Inventors: A.基尔施; C.拜耳; K.M.拉德玛奇; O.舍恩罗克
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-04-17
Filing date: 2020-04-16
Publication date: 2020-10-27
Anticipated expiration: 2040-04-16
Also published as: US11404074B2; US20200335123A1; DE102019205543A1; CN111833904B

Abstract

描述用于将在时间上彼此跟随的数字音频数据分类的方法，所述音频数据描述表征危险情形的声学信号，该方法具有如下步骤：为时间上彼此跟随的音频数据的逐步进展的时间区间计算多个频率表达；为每个单个频率表达的每个倍频程形成确定数量的频率区段，其中频率区段包括单个频率表达的子集；将每个单个频率表达的倍频程的相应频率区段相加；通过为每个单个频率表达中各个相加的频率区段形成平均值来计算频率分量；借助分类器和多个频率表达的频率分量的数量生成分类矢量，其中分类器设计成，将表征危险情形的利用所属的在时间上彼此跟随的数字音频数据描述的信号借助多个频率表达的频率分量的所属数量来分类且将分类的分类矢量与相应值相关联。

Description

用于将在时间上彼此跟随的数字音频数据分类的方法

技术领域

本发明涉及一种用于将数字音频数据分类的方法，所述数字音频数据描述表征如例如在道路交通中出现的危险情形的声学信号。

背景技术

迄今为止在道路交通中还不存在具有特殊信号识别的系统，因为实际应用需要具有高灵敏度的系统，所述系统必须确保将道路交通中的声音信号关于存在具有可忽略不计数量的错误警报的特殊信号进行分类。因为仅在错误率非常接近零时，这种系统在道路交通中的使用才可以表明是正确的，以便避免车辆的不需要的或可能错误的反应，诸如闯红灯，以及与此关联的在道路交通中的延迟。这种系统此外应可以在世界范围内使用的不同的特殊信号之间进行区分。

发明内容

本发明公开根据独立权利要求的特征的一种用于将在时间上彼此跟随的数字音频数据分类的方法，所述数字音频数据描述表征危险情形的声学信号，以及一种计算机程序、一种计算机可读的存储器介质以及一种决策系统。有利的设计方案是从属权利要求以及下面的描述的主题。

不仅对于驾驶辅助系统，但是也在至少部分自动化驾驶的领域内，重要的是，根据在不同国家中的法律规定，识别具有特殊信号的紧急车辆和具有声学信号发送器的交通警察。也应识别表征危险情形的其他声学信号、诸如其他车辆的求救呼叫或警告信号，以便可以导入相应的必要时自动的行动或者可以向车辆驾驶员表明情形。

此外，具有声学特殊信号识别的至少部分自动化驾驶的车辆提供如下优点，在还没有直接看到特殊车辆或交通警察的情况下，通过标识这种音频信号，对于车辆驾驶员和对于部分自动化的系统而言及早的情形估计是可能的，以便可以相应地做出反应。

对于至少部分自动化的车辆，在驶近难以看清的十字路口时或在紧急情况下，借助于相应分类的音频信号信息可以及早地选择适合的驾驶路线，以便为紧急车辆让行。替选地，如果在至少部分自动化驾驶的范围内没有使用识别系统，当识别到特殊信号时，可以进行驾驶员的相应的通知。这在驾驶辅助系统中对于听力受限人是十分有利的，但是通过较高的灵敏度、由于尽可能在内部空间外部安置的声音转换器对于全部车辆驾驶员也能够是有利的。

紧急车辆的特权对于涉及的其他车辆例如取决于形成救护通道，例如让行或者禁止驶入十字路口。因此，必须标识适合的驾驶路线。然而，在不同国家，将不同的信号用作为特殊信号。例如在德国的跟随信号（“Martinshorn，警铃”）或者在美国的“Wail”、“Yelp”或“Rumbler”。

本发明基于如下知识，在识别道路交通的声学情形中的尤其特殊信号和其他表征危险情形的声学信号时，对属于基调的泛音的分析通常改进对要确定的信号的识别，并且在确定的声学情形下，甚至更简明地将泛音作为所属的基调从背景噪声中突出。

表征危险情形的声学信号尤其在道路交通中具有重要意义，因为每个交通参与者根据其在道路交通中所处的情形必须对这种信号做出反应。作为这种信号的重要示例，提到紧急车辆的特殊信号，所述特殊信号典型地作为特定的警笛实施并且生成不同的音序，所述音序也还是国家特定的。作为特殊信号的示例的是警铃：在3.0+/-0.5s之内的（在大约360Hz和630Hz之间）两个基调的音序“Ta-Tü-Ta-Ta”；以及Wail、Yelp和Rumbler，但是它们必须与其他的音调次序（英语为：change of constant notes，变调），失真的警笛信号（所述失真的警笛信号例如出自玩具或智能电话）、稳态的警笛（英语为：Civil defensesiren，防御警报）区分。其他的示例为汽车喇叭，所述汽车喇叭可以出自不同的车辆类型，如载客车辆、载货车辆或火车或有轨电车。对于道路交通参与者而言重要的还有交通警察的声学信号，如哨子、在铁路道口处的声学警铃信号、向回行驶的车辆的声学警告信号以及自动警报设施的声学信号。此外，注意不同语言的求救呼叫或其他呼叫，如“停车”或“着火”并且必要时必须可以与正常交谈或音乐区分。

表征危险情形的这种声学信号可以借助于一个或多个声音转换器、诸如麦克风转换成电信号，其中声音转换器可以尽可能声学上直接与例如道路交通情形的要监控的声音环境耦合。例如布置在车舱之外的声音转换器相对于布置在车辆的内部区域中具有如下优点：声学信号不通过车舱限界部衰减从而直接耦合到声音环境。

从声音转换器的这种电信号可以生成在时间上彼此跟随的数字音频数据，例如借助于电子模数转换器电路，所述数字音频数据于是以数字编码的方式包含相应的表征危险情形的信号。

电信号的数模转换在此可以执行为，使得表征危险情形的声学信号包括例如250Hz至8kHz的重要的频域，从而借助于最高要检测的频率的两倍大的采样率或取样率检测电信号，从而转换成数字音频数据。更高的采样率可以提高转换的精度。

用于提供描述表征危险情形的声学信号的数字音频数据的上述步骤主要用于阐述、介绍和定义术语。

用于将描述表征危险情形的声学信号的、在时间上彼此跟随的数字音频数据分类的根据本发明的方法在方法的一个步骤中为在时间上彼此跟随的音频数据的逐步进展的时间区间计算多个频率表达。

为数字音频数据的在时间上彼此跟随的、即与随后的时间错开的时间区间的逐步进展的时间区间计算频率表达，其中计算频率表达可以借助多个替选的方法执行。一个示例性的方法是所谓的短时傅里叶变换（Short-time Fourier Transformation；STFT），另外的可能的方法是所谓的小波变换。所述方法在更下文中还详细阐述。从所述计算中得出频谱，即由数字音频数据描述的声学信号关于频率的频率分量的幅度。

所述逐步进展的时间区间根据本发明的方法可以在时间上交叠。时间区间的高程度的交叠引起频谱、即数字音频数据的频率表达关于时间的具有高的时间分辨率的表示。

作为示例，频率表达的计算可以借助于短时傅里叶变换以2的11次幂11=2048数字音频取样来计算，但是本领域技术人员理解的是，在此音频取样的多个其他值是可能的。如果借助10kHz取样率生成数字音频信号，那么所述数据包括0.2048秒的时间区间，并且在时间区间的进展以0.1秒的时间间距进行时，在延迟小的同时得出高的探测精度。借此，时间区间彼此间以大约50%重叠。与要探测的信号、需要的精度和用于分类的延迟时间相关地，时间间距例如也可以在例如0.05秒至例如0.2秒的范围中调整，并且重叠也可以更大地或更小地选择。借助0.05秒步长的时间区间，通过提高的时间分辨率，为快速变换的信号、诸如“Yelp”实现提高的分类性能。

多个频率表达例如可以包括28个频率表达，使得在0.1秒的时间区间中分别包括大约3秒的时间区域，这在探测特别重要的信号时的例如跟随信号（Folgensignal）的为3秒的重复频率下遵循紧急车辆的跟随特殊信号，以便可以分析所述信号的表征性的时间变化。所述示例性地提到的值可以容易地匹配于其他分类任务。

在方法的另外的步骤中，各个频率表达分成倍频程，即频率的范围，该范围的最终频率为初始频率的两倍。在每个倍频程中，形成每个单个频率表达的确定数量的频率区段，其中频率区段包括单个频率表达的子集。确定数量的频率区段例如可以为12，但是可以选择任意其他数量的、对于随后分析例如要通过分类识别的声学信号尤其有益的划分。在此，划分也可以根据多分辨率滤波器组（multirate filter bank）或根据其他的合并策略划分，其中例如在频率较高的情况下使用较宽的区段。

不同倍频程的每个单个频率表达的相应的频率区段在根据本发明的另一步骤中相加。频率区段存在于频率表达的全部倍频程中，根据升高的频率在所属的倍频程中被分类并且可以以相同的份额分配到相应的倍频程上。因此，一个倍频程的频率区段对应于另一倍频程的频率区段，所述另一倍频程的频率区段以相同的方式在其倍频程中分类。

借此实现，在信号协调构成的情况下，属于基调的泛音对此相加至基调的信号分量，从而具有较大的值，所述值可以更容易地从基本噪声、例如交通情形中突出。如果基调在音频数据中少地显现，那么要探测的信号由于经常显现的泛音而被识别。

通过为每个单个频率表达中的各个相加的频率区段形成平均值，在方法的另一步骤中计算频率分量。

因此，通过逐级地降低要处理的数据的数量，除了对数据的简化的继续处理之外还实现，由数字音频数据描述的要识别的信号的频率中的小波动不损害用于识别和分类的数据的质量，或者为分析抑制噪声分量。要识别的信号通过例如不同的用于特殊信号的发生器类型的区分或可变性以及要识别的信号的多重叠加通过所述方法减小，这明显地降低分类任务的复杂性，所述发生器类型例如基于气动的或电学的作用原理。

在方法的另一步骤中，分类矢量借助于分类器和多个频率表达的频率分量的数量生成。对此，分类器设计成，将表征危险情形的、利用在时间上彼此跟随的数字音频数据描述的信号借助于多个频率表达的频率分量的所属数量来分类，并且将分类的分类矢量与相应的值相关联。

借助所描述的根据本发明的方法，因此为识别声学特殊信号和为其他表征危险情形的声学信号实现高的灵敏度，即有效半径，这引起明显更早地识别所述信号。

因为借助于所述方法能够实现从声学环境中突出要探测的信号，所以造成低的错误率，所述低的错误率由尤其通过频率区段的叠加造成的特定的信号处理连同特别限定的分类器造成。因为例如区域无效的警笛类型在识别到特殊信号时不触发系统的不需要的和错误的反应，并且能够将交通流的干扰降低到最小值。所述方法因此例如识别声学特殊信号并且在不同的特殊信号类型之间进行区分。

根据该方法的一个设计方案提出，用于每个单个频率表达的每个倍频程的该数量的频率区段的频率区段布置在倍频程之内，使得频率区段至少部分地彼此叠加。这种叠加也可以借助如下频率区段进行，所述频率区段事先借助分配函数卷积，使得与其他区段的叠加区域的贡献不那么强地衰落，即使当频率叠加区域大时也如此。

借此实现的对较大的频率范围的包括可以造成更鲁棒的分类和更好的信噪比。

根据该方法的另一设计方案提出，在时间上彼此跟随的数字音频数据关于存在基调和泛音方面进行分析，并且在为在时间上彼此跟随的音频数据的逐步进展的时间区间计算多个频率表达之前，将音频数据中的所述基调和泛音周围的频带中的频率削弱。

借助对音频数据的所述预处理实现，音频数据关于尤其特殊信号、例如紧急车辆的特殊信号具有改进的信噪比从而可以更鲁棒地分类。例如，可以将在基频和基频的前三个谐波周围的确定宽度的频带从音频信号中滤出。也就是说，将在所述频带之外的频率分量削弱，以便滤出所述频带。

识别音频信号中的基频和/或泛音可以借助一系列分析方法执行。例如，在此一些方法在下文中提到，所述方法示出该方法的设计方案的相应的特征。

音调探测或基频分析（英语为：Pitch Detection）借助于音频信号的自动关联计算针对存在突出的信号分量来检查时间信号。在识别的频带之外的频率分量的过滤或降低于是可以借助于带通滤波器执行。

倒频谱分析是基于傅里叶变换的方法。计算通过傅里叶变换的求复数对数和随后的反傅里叶变换进行。借助于带通滤波器，可以过滤在识别的频带之外的频率分量。

谱平度（英语为Spectral Flatness）尤其可以在要分类的特殊信号中通过其高的谱能量密度在仅单个的离散的频率中使用。在此，仅保留示出频谱中的峰值的这种频率分量，而滤出全部其他的。“谱平度”是用于“峰值/音调”的度量并且通过如下计算：谱平度=（功率谱的几何平均值）/（功率谱的算术平均值）。在此，不再需要用于过滤的附加的步骤。

“自适应谱减法”过滤器为自适应过滤器，所述自适应过滤器可以调整其过滤特性。在尤其表现出的噪声背景下，过滤器可以适配于当前数据并且更强地抑制背景。在此，在规则的时间和频率区间中计算谱中的背景，诸如在音调/峰值类似的频率分量之下的平坦的背景，诸如警铃的“Ta-Tü-Ta-Ta”并且从总谱中减去。

预处理的另一可能性是使用自动编码器神经网络，所述自动编码器神经网络学习模本，以便生成输入数据的压缩的或消除噪声的表达，其方式为：相应地提取重要的特征，在我们的情况下为：从一般背景中提取音频信号。

“自动编码器”理解成人工神经网KNN，所述人工神经网能够实现，学习确定的在输入数据中包含的模本。使用自动编码器，以便生成输入数据的压缩的或消除噪声的表达，其方式为：相应地提取重要的特征，如确定的类别，在我们的情况下为：从一般背景中提取音频信号。自动编码器使用三个或更多个层：

·输入层，诸如2维图像。

·多个明显更小的层，所述层形成编码以减少数据。

·输出层，所述输出层的维度对应于输入层的维度，即输出层中的每个输出参数与输入层中的相应的参数具有相同的含义。

根据该方法的另一设计方案提出，为在时间上彼此跟随的音频数据的逐步进展的时间区间计算多个频率表达借助于短时傅里叶变换或小波变换进行。

时间有限或短时傅里叶变换（英语STFT=Short-Time Fourier Transform）是如下程序，所述程序为非静态数据提供傅里叶变换。汉宁窗（英语为hanning window）应用于所观察的数字音频数据，所述汉宁窗将音频数据的始端和终端降低到值零，以便减小泄露效应并且提高时间分辨率。每个单个快速傅里叶变换（FFT）在此与如下时刻相关联，所述时刻对应于窗口中部。利用窗函数的短时傅里叶变换具有固定的频率-时间分辨率。

在与STFT类似的小波分析中，使用时间有限的“波包”函数代替无穷扩展的正弦/余弦函数。术语小波变换WT表示线性时间频率变换的家族。在此，WT由所谓的小波分析、即从时间表示到谱表示的过渡和小波合成、即小波变换到时间段中的反变换组成。小波变换在频率低的情况下具有高的频率分辨率，但是低的时间定位。在频率高时，小波变换具有低的频率分辨率，但是良好的时间定位。

尤其地，借助短时傅里叶变换计算频率表达具有如下优点：执行傅里叶变换的尤其快速的计算。

在方法的一个设计方案中提出，将每个单个频率表达的频率分量在生成分类矢量之前归一化。

在该方法的另一设计方案中提出，将每个单个频率表达的频率分量关于值一归一化。

归一化的优点为，首先一次仅少量地从数字音频数据的噪声中突出的不那么强的声学信号也通过用于分类器的归一化从背景中突出。

在方法的一个设计方案的变型形式中提出，每个单个频率表达的频率分量借助于直方图均衡法（英语为“Histogram Equalization”）来计算。在此，较少出现的这种刻度值、如图像的灰度或色彩值增强，而尤其频繁地出现的这种刻度值削弱。与简单地以最大值归一化相比，借助直方图均衡法可以有针对性地突出和增强数据中的结构或对比度。

根据该方法的另一设计方案提出，分类器具有人工神经前馈网，所述人工神经前馈网被设计成并且训练成，将借助在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过生成分类矢量的值来分类。

特殊信号的分类可以借助于人工神经网络（KNN，英语为：Artificial NeuralNetwork ANN）进行。KNN在此由人工神经元的网构成，其为生物学样板，即神经系统/大脑中的神经元的联网相应地被建模。

神经网络为用于机器学习、用于协作的多个不同算法并且为处理复杂的数据输入提供框架。这种神经网络学习，根据示例执行任务，而典型地不借助任务特定的规则编程。

这种神经网基于连接的单元或节点的汇集，所述单元或节点称作为人工神经元。每个连接可以将信号从一个人工神经元传递至另一人工神经元。接收信号的人工神经元可以对信号进行处理并且随后激活另外的与其连接的人工神经元。在神经网的常规的实现方案中，在人工神经元的连接处的信号为实数，并且人工神经元的输出通过其输入的总和的非线性函数来计算。人工神经元的连接典型地具有权重，所述权重随着学习的进展进行调整。权重提高或减小在连接处的信号的强度。人工神经元可以具有阈值，使得信号仅在如下情况下输出：总信号超出所述阈值。典型地，多个人工神经元在层中综合。不同的层可能执行用于其输入的不同类型的变换。信号可能在多次穿过层之后从第一层、输入层移动至最后的层、输出层。

人工神经前馈网的结构可以是如下结构，所述结构配置成，使得其在其输入级中根据图像接收单个数据模本，并且提供输出分类矢量，所述输出分类矢量包含对于每个感兴趣的类别的识别概率。

根据该方法的另一设计方案提出，分类器具有多层感知器（MLP），所述多层感知器被设计成和训练成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过生成分类矢量的值来分类。

这种网络属于前馈人工神经网络的家族。原则上，MLP由至少3个神经元层构成：输入层，中间层（hidden layer，隐藏层）和输出层。这表示，网络的全部神经元被划分成层，其中一层的神经元始终与下一层的全部神经元连接。不存在与之前的层的连接并且不存在跳过层的连接。除了输入层之外，不同的层由神经元构成，所述神经元承受非线性的激活函数，并且与下一层的神经元连接。

根据该方法的另一设计方案提出，分类器具有人工神经反馈网，所述人工神经反馈网被设计成和训练成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过生成分类矢量的值来分类。反馈神经网（英语为Recurrent Neural Network，RNN）是如下神经网，所述神经网与前馈网相比也具有一个层的神经元与同一层或之前层的神经元的连接。所述结构在此尤其适合于，发现数据中的按时间编码的信息。

根据该方法的另一设计方案提出，分类器具有人工神经卷积网，所述人工神经卷积网被设计成和训练成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过生成分类矢量的值来分类。

对上文的前馈神经网的实施方案补充地，人工神经卷积网（ConvolutionalNeural Network）的结构由一个或多个由池化层跟随的卷积层（convolutional layer）构成。层的次序可以在具有或不具有标准化层（例如批标准化）、Padding（填充像素）层、失落（Dropout）层和激活函数、诸如线性整流单元ReLu、sigmoid函数、tanh函数或softmax函数的情况下使用。

所述单元原则上可以任意频繁地重复，在充分重复的情况下那么提及深度卷积神经网。在由卷积层和池化层构成的重复的块统一时，CNN以一个（或多个）全连接层、类似于MLP的结构结束。

这种神经卷积网的结构典型地由两个部分构造。第一部分是以下层的次序，所述层以较低的分辨率向下扫描输入网格，以便获得期望的信息和存储冗余的信息。第二部分是以下层的次序，所述层扫描第一部分重新到全连接层中的输出并且产生期望的输出分辨率，诸如具有与多个表征要分类的危险情形的信号相同长度的分类矢量。

根据该方法的另一设计方案提出，分类器被设计成，借助于将多个频率表达的频率分量的数量与模本的数量逐步比较，将表征危险情形的信号分类，并且根据比较的结果，将分类矢量与不同的值相关联。

所述简单的方案的优点是，与KNN相比在此可以清楚地理解算法的作用方式。

根据该方法的另一设计方案提出，分类器具有“支持向量机”SVM，所述支持向量机被设计成和训练成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过生成分类矢量的值来分类。

所述算法使用训练数据，其中分别已知的是，所述训练数据属于哪个类别并且可以作为分类器和作为回归数使用。SVM在此将数据点/对象的集合在n维空间中划分成类别，使得在类别界限周围，尽可能大的n维“区域”保持自由。因此寻找所谓的超平面，所述超平面将不同类别的数据组尽可能好地彼此分离。

根据该方法的另一设计方案提出，分类器是k最近邻k-NN（k-Nearest-Neighbor）分类器。这是对概率密度函数进行估计的非参数的方法。类别关联仅在考虑k个最近邻的条件下进行。在最简单的情况下，分类通过简单的多重决策进行，k个最近的对象参与其中。对象x分配给如下类别，所述类别具有这k个邻居的最大数量的对象。为了确定k个最近邻，可以考虑多个间距度量（诸如欧几里得间距等）。对此，根据已知类别的数据来训练k-NN分类器。

根据该方法的另一设计方案提出，分类器具有预先分类器和主分类器，并且预先分类器被设计成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量来进行识别。主分类器被设计成，如果预先分类器已经在时间上彼此跟随的数字音频数据中识别表征危险情形的信号，则将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过分类矢量的值来分类。

因为预先分类器需要解决不那么复杂的任务，所以得出如下优点，预先分类器可以更快速地并且以更少的资源来识别，在连接准确的分类的较复杂的任务之前，究竟是否存在表征危险情形的信号。

根据该方法的另一设计方案提出，分类器具有多个子分类器，它们分别仅针对一个要分类的信号进行训练并且并行地完成分类任务。借此，子分类器可以高度特定地单独训练并且相对于错误分类更加鲁棒。对此，N个分类器单独地训练，其中N是替选的类别的数量。各个“二进制的”分类可以以不同的方式组合成总分类器。分类的最终的评估然后可以通过单个分类器中的具有最高概率的类别进行。

根据该方法的另一设计方案提出，根据分类矢量的值中的至少一个来发出用于操控至少部分自动化的车辆的操控信号和/或用于警告车辆乘客的警告信号。

基于操控信号，尤其可以通过车辆进行纵向或横向引导。

这种操控信号因此例如可以输送给控制单元或执行器，所述控制单元或执行器然后分别可以导入过程，诸如转向过程、加速或制动过程。

基于警告信号，例如可以将显示单元操控成，使得车辆乘客获得关于未来的事件的指示。例如关于紧急车辆的靠近，使得可通过驾驶员进行调整的操作。

该方法的所述设计方案提供如下优点，提高在道路交通中的安全性。一方面，救护车辆可以更快速地前进，另一方面可以防止通过救护车辆造成的交通事故。

至少部分自动化的车辆尤其也可以理解成机器人，如物流和/或工业机器人。移动式的园艺工具、如至少部分自动化地运行的割草机等也属于所述定义。

至少部分自动化的车辆也可以为其他移动式机器人，例如为如下这样的移动式机器人，所述移动式机器人通过飞行、游泳、潜水或迈步而前进。移动式机器人例如也可以为至少部分自动化的扫地机器人。

尤其地，所述车辆可以基于分类矢量的值而停止和/或完全关断。如果例如基于分类矢量推导出对于生物、尤其人的风险，相应的操控用于提高相应的车辆的运行安全性。在物流、扫地和/或割草机器人的情况下，以所述方式可以一并防止事故，尤其与工人、宠物和儿童的事故。

根据该方法的另一设计方案提出，根据分类矢量的值中的至少一个值，为至少部分自动化的车辆或为驾驶员辅助系统从多个驾驶路线中确定一个驾驶路线。在驾驶员辅助系统的情况下，所述确定涉及对驾驶员的建议。即如果分类矢量的值说明，已识别表征危险情形的声学信号，那么根据当前的交通情形，可以确定一个驾驶路线，所述驾驶路线例如有助于形成自由的通道或者例如可以确定具有减小的速度的驾驶路线。

提出一种计算机程序，所述计算机程序包括指令，所述指令在通过计算机实施程序时推动所述计算机，实施上述方法。

计算机程序包括：以任意的编程语言的程序代码；计算机程序；程序代码的编译版本；固件，借助于所述固件实现程序代码；或还有芯片，所述芯片的功能描绘程序代码。

此外，提出一种机器可读的存储介质，所述存储介质包括指令，所述指令在通过计算机实施时推动所述计算机，实施上述方法。

此外，提出一种机器可读的存储介质，在所述存储介质上存储有计算机程序。

根据本发明提出一种设备，所述设备被设计成，实施上述方法。

设备尤其可以为控制仪器，例如用于至少部分自动化的机器人、尤其用于至少部分自动化的车辆。

根据本发明提出一种用于车辆的驾驶路线的决策系统，所述决策系统被设计用于实施上述方法之一并且根据分类矢量的值从车辆的多个驾驶路线中确定一个驾驶路线。这种决策系统可以设置在至少部分自动化的车辆中和设置在驾驶员辅助系统中使用。

附图说明

本发明的实施例参照图1至2示出并且在下文中进一步地阐述。其中：

图1a示出在不具有特殊信号的情况下频率分量关于时间的次序；

图1b示出在具有跟随信号的情况下频率分量关于时间的次序；

图1c示出在具有Wail信号的情况下频率分量关于时间的次序；

图2示出用于将声学信号分类的方法。

具体实施方式

该实施例以三个不同的在时间上彼此跟随的、描述不同的声学信号的数字音频数据为例示出，根据本发明的方法如何将其分类。

在此，在第一步骤S1中，将在时间上彼此跟随的数字音频数据从时域变换到频域中。示例性地，这可以借助短时傅里叶变换进行。

在为时间上彼此跟随的音频数据的逐步进展的时间区间计算多个频率表达时，将0.2秒的时间窗从时间上彼此跟随的数字音频数据的大约三秒的始端借助于短时傅里叶变换转换成具有例如2048个幅值的频域，从而创建用于所述第一时间窗的频率表达。然后，所述时间窗以0.1秒在时间上继续移动，以便执行另外的短时傅里叶变换并且形成第二频率表达。所述步骤重复直至算法已经达到大致三秒的终端。这引起用于大约三秒的28个频率表达。

频率表达划分成其倍频程，即如下频率范围，在所述频率范围中，范围的终端通过范围的始端的频率的二倍值形成。在每个这种倍频程之内，为每个单个频率表达形成S2确定数量的频率区段。所述确定数量例如可以为12。示例性地，所述频率区段均匀并且并排布置在倍频程中地形成并且包括各个频率表达中的每个频率表达的子集。

例如12个频率区段的值由每个单个频率表达的不同的倍频程的相应的频率区段、即在倍频程之内布置在相同位置处的区段相加S3。因此，然后形成12个相加的频率区段，其中分别形成平均值从而计算S4频率分量。

28个频率表达的这12个频率分量例如作为28×12图像作为输入值传递给分类器，所述分类器据此生成S5分类矢量，该分类矢量的值借助于多个频率表达的频率分量的数量将利用时间上彼此跟随的数字音频数据描述的、表征危险情形的信号分类并且将分类的分类矢量与相应的值相关联。

分类器在该实施例中具有人工神经卷积网，所述人工神经卷积网被设计成和训练成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过生成分类矢量的值来分类。

在此，人工神经卷积网由具有卷积层的两个块的序列构成。

第一块具有如下层：

·补零层（英语为zero-padding layer）；在两个图像方向具有+1的输入的降级（Rückskalierung）

·具有核心数N1（例如N1=16）3×3和步长（英语为stride）1的卷积层，ReLU激活函数

·补零层；在两个图像方向具有+1的输入的降级

·具有核心数N1（例如N1=16）3×3和步长1的卷积层，ReLU激活函数

·大小为2×2和步长为1的最大池化层

·失落层

第二块：

·补零层；在两个图像方向具有+1的输入的降级

·大小为2×2和步长为2的最大池化层

·失落层。

为了将网络模型结构补充完整，包含全连接层和稠密连接的输出层，具有激活函数“Softmax”。失落层随机地抑制神经网络中的一些神经元，以便减小过度拟合的可能性。最后的层具有输出变量，所述输出变量对应于表征类别危险情形的信号的类别的数量。

层（类型）	原始形式	参数#
			补零2d 1	（30,14,1）	0
卷积2d 1	（28,12,16）	160
			补零2d 2	（30,14,16）	0
卷积2d 2	（28,12,16）	2320
			最大池化2d 1	（14,6,16）	0
失落1	（14,6,16）	0
			补零2d 3	（16,8,16）	0
卷积2d 3	（14,6,32）	4640
			补零2d 4	（16,8,32）	0
卷积2d 4	（14,6,32）	9248
			最大池化2d 2	（7,3,32）	0
失落2	（7,3,32）	0
			平坦1	（672）	0
稠密1	（64）	43072
			失落3	（64）	0
输出节点	（类别的数量）	（64+1）×类别的数量

表格1更详细地描述层。

输入是28×12×1图像或张量数据模本

根据本发明的适合的神经网通过如下方式训练：在输入层中将多个频率表达的频率分量的数量作为训练数据提供，并且将神经网的输出数据与期望的分类比较。随后，调制神经网的参数，直至一致性足够精确（英语为superwised lerning）。

图1a至1c示出输入值的示例，所述输入值传递给分类器。横坐标分别为时间轴并且纵坐标说明12个频率分量。相应图的小的子面10、12的黑化与频率分量的值的高度成比例。

图1a示出当没有在音频数据中探测到特殊信号时，频率分量的值。在图1b中，跟随信号根据具有最高幅度10的时间交替的频率分量而清楚可见。图1c示出Yelp特殊信号，其中具有最大幅度12的频率分量时间连续地穿过十二个频率分量中不同的频率分量。清楚可见的是，方法适合于，对出自交通情形的特殊信号进行预处理，使得该图像的分类借助不同的分类器是可能的。

Claims

1.一种用于将在时间上彼此跟随的数字音频数据分类的方法，所述音频数据描述表征危险情形的声学信号，所述方法具有如下步骤：

为在时间上彼此跟随的音频数据的逐步进展的时间区间计算多个频率表达（S1）；

为每个单个频率表达的每个倍频程形成确定数量的频率区段（S2），其中所述频率区段包括单个频率表达的子集；

将每个单个频率表达的倍频程的相应的频率区段相加（S3）；

通过为每个单个频率表达中的各个相加的频率区段形成平均值来计算频率分量（S4）；

借助于分类器和多个频率表达的频率分量的数量来生成分类矢量（S5），其中所述分类器被设计成，将表征危险情形的、利用所属的在时间上彼此跟随的数字音频数据描述的信号借助于多个频率表达的频率分量的所属的数量来分类并且将分类的分类矢量与相应的值相关联。

2.根据权利要求1所述的方法，

其中用于每个单个频率表达的每个倍频程的频率区段的数量的频率区段在倍频程中布置成，使得频率区段至少部分地彼此重叠。

3.根据权利要求1或2所述的方法，

其中对在时间上彼此跟随的数字音频数据关于存在基调和泛音进行分析，并且在为在时间上彼此跟随的音频数据的逐步进展的时间区段计算多个频率表达之前，将音频数据中的所述基调和泛音周围的频带中的频率削弱。

4.根据上述权利要求中任一项所述的方法，

其中为在时间上彼此跟随的音频数据的逐步进展的时间区间计算多个频率表达借助于短时傅里叶变换或小波变换来进行。

5.根据上述权利要求中任一项所述的方法，

其中每个单个频率表达的频率分量在生成所述分类矢量之前被归一化。

6.根据权利要求5所述的方法，

其中将每个单个频率表达的频率分量关于值一来归一化，或者将每个单个频率表达的频率分量借助于直方图均衡法来归一化。

7.根据上述权利要求中任一项所述的方法，

其中所述分类器具有人工神经前馈网，所述人工神经前馈网被设计成并且训练成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过生成分类矢量的值来分类。

8.根据权利要求1至7中任一项所述的方法，

其中所述分类器具有人工神经反馈网，所述人工神经反馈网被设计成并且训练成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过生成分类矢量的值来分类。

9.根据上述权利要求中任一项所述的方法，

其中所述分类器具有人工神经卷积网，所述人工神经卷积网被设计成并且训练成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过生成分类矢量的值来分类。

10.根据权利要求1至7中任一项所述的方法，

其中所述分类器被设计成，借助于将多个频率表达的频率分量的数量与模本的数量逐步地比较，将表征危险情形的信号分类，并且根据比较的结果将分类矢量与不同的值相关联。

11.根据权利要求1至7中任一项所述的方法，

其中所述分类器具有预先分类器和主分类器，并且所述预先分类器被设计成，将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量来进行识别，并且所述主分类器被设计成，如果所述预先分类器已经在时间上彼此跟随的数字音频数据中识别表征危险情形的信号，则将利用在时间上彼此跟随的数字音频数据描述的、表征危险情形的信号借助于多个频率表达的频率分量的数量通过分类矢量的值来分类。

12.根据上述权利要求中任一项所述的方法，

其中根据所述分类矢量的值中的至少一个值，发出用于操控至少部分自动化的车辆的操控信号和/或用于警告车辆乘客的警告信号。

13.一种设备，

所述设备被设计成，执行根据权利要求1至12中任一项所述的方法。

14.一种计算机程序，

所述计算机程序包括指令，所述指令在通过计算机实施程序时推动所述计算机，实施根据权利要求1至12中任一项所述的方法。

15.一种机器可读的存储器介质，

在所述机器可读的存储器介质上存储有根据权利要求14所述的计算机程序。