[go: up one dir, main page]

CN111445914B - 可拆解和再编辑音频信号的处理方法及装置 - Google Patents

可拆解和再编辑音频信号的处理方法及装置 Download PDF

Info

Publication number
CN111445914B
CN111445914B CN202010209390.9A CN202010209390A CN111445914B CN 111445914 B CN111445914 B CN 111445914B CN 202010209390 A CN202010209390 A CN 202010209390A CN 111445914 B CN111445914 B CN 111445914B
Authority
CN
China
Prior art keywords
audio
auxiliary data
track
input
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010209390.9A
Other languages
English (en)
Other versions
CN111445914A (zh
Inventor
潘兴德
黄旭
谭敏强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wavarts Technologies Co ltd
Original Assignee
Wavarts Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wavarts Technologies Co ltd filed Critical Wavarts Technologies Co ltd
Priority to CN202010209390.9A priority Critical patent/CN111445914B/zh
Publication of CN111445914A publication Critical patent/CN111445914A/zh
Priority to PCT/CN2020/140722 priority patent/WO2021190039A1/zh
Application granted granted Critical
Publication of CN111445914B publication Critical patent/CN111445914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种可拆解和再编辑音频信号的处理方法及装置,涉及数字信号处理和音频制作技术领域,解决了在保证压缩音频能够完整、正确解码的情况下,不能用一个物理设备完成从原始信号输入到压缩声音信号输出的全部生产流程,从而需要额外的物理设备及传输过程的技术问题,其技术方案要点是音频输入模块输入音频信号,辅助数据添加模块为任意音轨添加辅助数据;音频编辑模块对任意音轨进行添加、删除或替换生成新的音轨集合,音频编码模块则对音轨、辅助数据进行编码得到压缩声音信号。能够用一个物理设备完成从原始信号输入到压缩声音信号输出的全部生产流程,并对任意音轨进行添加、删除、替换等操作。

Description

可拆解和再编辑音频信号的处理方法及装置
技术领域
本公开涉及数字信号处理和音频制作技术领域,尤其涉及一种可拆解和再编辑音频信号的处理方法及装置。
背景技术
音频技术经过多年发展,立体声、5.1、7.1环绕声等系统已经获得了广泛的应用,但这些系统因缺乏声音的高度信息,最多只能呈现二维的声音。在真实的世界中,全景声(也称三维声)是声音最真实的呈现和表达方式,无论自然界、艺术领域或视听娱乐领域,全景声都是未来的发展趋势。
全景声有时也被称为三维声、沉浸声,全景声信号一般分为音频数据和辅助数据。音频数据可以是单声道或多声道音频信号,如单声道、立体声、4.0、5.1、7.1、9.1、11.1、13.1、22.2等声道以及上述声道类型的组合,如7.1声道信号+4.0声道信号+6个立体声信号;辅助数据一般用于定义音频数据的空间位置或渲染方式,能够提升音频数据的呈现效果,比如三维定位信息能使音频的空间感、沉浸感更强,而音效(如均衡器、混响等)处理信息则能使音频更加多元化,丰富听觉体验。有时,也将一个音频数据及其辅助数据统一称为声音对象,将没有辅助数据的音频数据称为声床。目前已经商用的典型全景声技术可以参考三维全景声国家标准AVS2-P3(GB/T33475.3)、国际标准MPEG-H(ISO/IEC 23008-3)、Dolby Atmos和WANOS等。
在全景声信号中,音频数据可以是单声道信号、立体声信号、单层多声道信号、多层多声道信号(即多个声道信号组合,分布在不同高度平面)等。例如,有些全景声信号采用中间层及顶层的两层平面(如5.1.4声道就是5.1和4.0两种声道音频信号的组合,5.1声道在中间层,4.0声道在顶层),有些全景声信号则采用三层平面等;有些全景声信号只有多层音频数据,但没有辅助数据,例如SMPTE的22.2三维声系统和AURO 9.1系统等;有些全景声信号则既有多层多声道信号,也有辅助数据,例如MPEG-H、Dolby Atmos、WANOS和DTS:X系统。当然,全景声信号也可以全部是单声道或立体声信号和辅助数据。
全景声音格式和AAC、AC3、MP3等格式一样,也属于压缩音频格式。目前在制作压缩音频信号时普遍采用两类制作工具:
第一类是数字音频工作站(Digital Audio Workstation,DAW,比如Pro Tools、Nuendo、Cubase、Logic Pro、Adobe Audition等),这些软件广泛应用于电影和音乐的制作,能够使用专业的音频插件,制作出高质量的音频信号。
第二类是一些音视频应用软件,如K歌、短视频、配音软件等等。这些软件广泛深入大众生活,以潜移默化的方式改变着人们的日常生活和工作。这类音视频应用软件支持常规音频格式(包括PCM格式,以及mp3、aac、wma、ac3等目前常用的压缩音频格式)的编辑制作,同时能够支持音频信号的二次创作(如多人合唱、合奏,以及接力/协同制作一部作品等),具有很强的娱乐性和互动性。
音频信号的制作方法如图1所示,其具体步骤如下:
101:添加音频数据(以下简称音轨),输入来源为录音的音频信号或导入常规格式音频文件,如果输入的是音频文件则将其解码成PCM数据,添加完成后记作音轨集合B;
102:添加辅助数据。对于DAW,每个音轨可以配置一个或多个辅助数据;对于K歌、短视频等软件,可以给人声添加一个辅助数据。添加完成后记作辅助数据集合E0;
103:进行编辑制作,对音轨集合B中的任意音轨和辅助数据集合E0中的任意辅助数据进行编辑制作,包括添加、删除、替换操作;步骤101至103可以选择性进行或重复进行,并且无先后顺序,制作完成后生成音轨集合B'和辅助数据集合E0';
104:将制作后的音轨和辅助数据编码成压缩音频信号S0'。如果输出格式是AAC、AC3等常规格式,则在制作工程中将辅助数据集合E0'应用到集合B',生成纯音轨集合B”,并将B”编码生成压缩音频文件;如果输出格式为全景声格式则将音轨集合B'和辅助数据集合E0'传输至专用全景声编码设备进行全景声编码,生成全景声信号。
步骤101至104能够制作出高质量的音频信号,但是仍然存在一些不足:
(1)如果输出信号是全景声格式,则在编码时需要两台物理设备或软件系统才能完成,迄今还没有用单一软件/设备同时实现编辑和编码的案例。且音轨和辅助数据是分开传输的,音轨使用音频协议(如MADI、AES等),辅助数据使用网络协议(如TCP/IP等),所以还要考虑音频数据和网络数据的延时、同步等问题,流程较复杂。
(2)如果输出信号是全景声格式,目前只能在PC端进行制作,而且对PC配置要求较高,还没有在K歌、短视频、配音软件等交互性应用中实现全景声编辑制作的案例。
(3)进一步的,DAW只能作为专业的制作系统,并输出制作结果,且输出的声音信号是经过缩混的,多种声音元素混合在一个PCM中,无法分离。短视频、K歌等民用软件只能对已经缩混成型的音频信号做添加或简单的加工,无法去除特定的声音元素。
(4)在互联网应用中,有时需要将输出的压缩音频信号S0'作为新的输入信号,并在S0'基础上进行临时修改或二次创作。此时,S0'中的各成分无法拆解并分别执行添加、删除、替换等编辑操作,只能将S0'当做整体来进行编辑制作,无法去除或替换特定的声音成分,更无法修改特定声音成分的音效。例如,对于一首摇滚乐,现有的DAW通常将吉他、贝斯、鼓、键盘和人声等声部缩混到2个或5.1制式的PCM声道中,并编码输出。编码后的摇滚乐即使解码,也无法再分离吉他、贝斯、鼓、键盘和人声等声部,更不允许对其中特定的声部做删除、替换,也不允许去除或修改原来添加到部分或全部作品上的音效,如混响、EQ、压限等。唯一能做的,就是在原来摇滚乐作品的基础上,再增加声部,或者对原来制作好的摇滚乐,做整体的音效处理。
综上所述,迄今还没有一个独立的物理设备(或软件或方法),能够实现如下功能:
(1)能够将声音的解码、音轨的编辑制作、辅助数据(含音效)的编辑制作和编码在一个物理设备(或软件)中完成,而不需要额外的物理设备(或软件)和数据传输;
(2)能够在任何时间、地点,由任何人将每个声音成分独立编码、编辑和解码,而不与其他声音成分混合在一起;
(3)能够在任何时间、地点,由任何人将单个声音成分或部分声音成分或全部声音成分的空间信息、渲染信息、增益、混响、均衡等辅助数据任意解码、编辑和编码,而不与其他声音信息混合在一起无法分离;
(4)能够实现在各种设备,如DAW、K歌软件、视频软件、配音软件等应用中兼容,即由任何人(专业及业务人士),在任何时间和任何地点,任意的解码、编辑、编码和分享同一个声音作品。
发明内容
本公开提供了一种可拆解和再编辑音频信号的处理方法及装置,其技术目的是在保证音频能够完整、正确解码的情况下,能够用用一个物理设备完成从原始信号输入到信号输出的全部生产流程,无需额外的物理设备及传输过程;在解码时能够将码流中包含的每个音轨和辅助数据完全分离,并对任意音轨和辅助数据进行添加、删除、替换等操作或三种操作的任意组合。本公开提供了一种可拆解和再编辑音频信号的处理方法及装置可以实现如下功能:
1.能够将声音的解码、音轨的编辑制作、辅助数据(含音效)的编辑制作和编码在一个物理设备(或软件)中完成,而不需要额外的物理设备(或软件)和数据传输;
2.能够在任何时间、地点,由任何人将每个声音成分独立编码、编辑和解码,而不与其他声音成分混合在一起;
3.能够在任何时间、地点,由任何人将单个声音成分或部分声音成分或全部声音成分的空间信息、渲染信息、增益、混响、均衡等辅助数据任意解码、编辑和编码,而不与其他声音信息混合在一起无法分离;
4.能够实现在各种设备(如DAW、K歌软件、视频软件、配音软件等应用)中实现兼容,即由任何人(专业及业务人士),在任何时间和任何地点,使用本公开方法或装置可任意的解码、编辑、编码和分享同一个声音作品。
本公开的上述技术目的是通过以下技术方案得以实现的:
一种可拆解和再编辑音频信号的处理方法,包括:
输入m1个PCM信号,m1大于0,则m1个所述PCM信号即为音轨集合C1,则C1={C1i},0≤i≤m1-1;
对所述音轨集合C1进行添加、删除或替换或三种方式的任意组合,生成新的音轨集合C1';
为所述音轨集合C1'至少添加一组辅助数据,得到辅助数据集合E1';
对所述音轨集合C1'和辅助数据集合E1'进行编码得到压缩声音信号Sq'。
进一步地,包括:
输入m2个辅助数据,m2大于0,则有辅助数据集合E1={E1j},0≤j≤m2-1;
对所述音轨集合C1'和辅助数据集合E1以及E1'进行编码得到压缩声音信号Sq”。
进一步地,包括:
输入n3个PCM信号和n4个辅助数据,n3和n4均大于0,则有音轨集合为C3={C3k},0≤k≤n3-1,辅助数据集合则为E3={E3t},0≤t≤n4-1;
对于所述音轨集合C3进行添加、删除或替换或三种方式的任意组合,生成新的音轨集合C3';
对所述辅助数据集合E3进行添加、删除或替换或三种方式的任意组合,得到辅助数据集合E3';
对所述音轨集合C3'和辅助数据集合E3'进行编码得到压缩声音信号Sq”'。
进一步地,输入的PCM信号可以部分或全部来自录音设备输入或本地存储或网络输入或三种输入的任意组合。
进一步地,本地存储或网络输入的PCM信号可经过压缩音频信号解码获得。
进一步地,辅助数据可通过压缩音频信号解码获得。
进一步地,所述辅助数据可以是音轨的缩混方案、空间位置信息、空间轨迹信息、混响参数、均衡器参数等。
进一步地,所述辅助数据可以作用于音轨集合的全部音轨或部分音轨。
进一步地,所述辅助数据可以是固定不变的,也可以随着时间变化。
一种可拆解和再编辑音频信号的处理装置,包括:
音频输入模块,包括PCM输入单元,所述PCM输入单元输入m1个PCM信号,m1大于0,则m1个所述PCM信号即为音轨集合C1,则C1={C1i},0≤i≤m1-1;
音频编辑模块,包括音轨编辑单元,所述音轨编辑单元对所述音轨集合C1进行添加、删除或替换或三种方式的任意组合,生成新的音轨集合C1';
辅助数据添加模块,为所述音轨集合C1'至少添加一组辅助数据,得到辅助数据集合E1';
音频编码模块,对所述音轨集合C1'和辅助数据集合E1'进行编码得到压缩声音信号Sq'。
进一步地,所述音频输入模块还包括辅助数据输入单元,所述辅助数据输入单元输入m2个辅助数据,m2大于0,则有辅助数据集合E1={E1j},0≤j≤m2-1;
所述音频编码模块对所述音轨集合C1'和辅助数据集合E1以及E1'进行编码得到压缩声音信号Sq”。
进一步地,所述音频编辑模块还包括辅助数据编辑单元,所述辅助数据编辑单元对所述辅助数据集合进行添加、删除或替换或三种方式的任意组合,得到新的辅助数据的集合。
进一步地,所述PCM输入单元输入的PCM信号可以部分或全部来自录音设备输入或本地存储或网络输入或三种输入的任意组合。
进一步地,该装置还包括解码模块,所述解码模块包括音频解码单元,本地存储或网络输入的PCM信号可通过所述音频解码单元解码压缩音频信号获得。
进一步地,所述解码模块还包括辅助数据解码单元,辅助数据通过所述辅助数据解码单元解码压缩音频信号获得。
本公开的有益效果在于:本公开所述的音频信号的处理方法及装置,音频输入模块输入音频信号,辅助数据添加模块能为音轨添加辅助数据;音频编辑模块对任意音轨或辅助数据进行添加、删除或替换或三种方式的任意组合,从而生成新的音轨集合和辅助数据集合,音频编码模块则对音轨、辅助数据进行编码得到压缩声音信号。
能够用一个物理设备完成从原始信号输入到压缩声音信号输出的全部生产流程,无需额外的物理设备及传输过程;并对任意音轨和辅助数据进行添加、删除、替换等操作或三种操作的任意组合。
附图说明
图1为现有音频制作方法流程图;
图2为本公开方法实施例一流程图;
图3为本公开方法实施例二、实施例三流程图;
图4为本公开装置实施例一示意图;
图5为本公开装置实施例二示意图;
图6为本公开装置实施例三示意图。
具体实施方式
下面将结合附图对本公开技术方案进行详细说明。
在本公开的描述中,需要理解的是,所述的PCM(Pulse-code modulation,脉冲编码调制)音轨数据是独立的声音成分,而不是混合在一起无法拆解的声音成分。即所述的PCM音轨数据是独立声部或乐器或人声,不是几个声部或乐器或人声混合在一起无法拆解的。所述的PCM音轨数据可以为录音、输入、解码等获得的独立声音成分,如吉他、贝斯、鼓、键盘、人声、小提琴等乐器、声部的独立成分或其组合的PCM数据。作为本发明的的特例,所述的PCM音轨数据也允许混合在一起无法拆解的声音成分作为输入,但此种情况将只能对混合在一起无法拆解的声音成分做统一的音轨编辑和音效编辑,而不能对该PCM音轨数据中的成分再拆解和分别处理。
实施例一:为编辑后的音轨添加共享辅助数据。
本发明提出的可拆解和再编辑音频信号的处理方法和装置,能够对输入音轨进行添加、删除、替换等编辑操作,并对全部音轨或部分音轨添加一个或多个共享辅助数据,如图2所示,包括如下步骤:
(301)输入m个PCM音轨数据,输入后将现有音轨总数记作x,所有音轨记作音轨集合C[0,...,x-1],m大于等于1。输入的音轨数据可以部分或全部来自录音设备输入、本地存储、网络输入或三种输入的任意组合。
(302)编辑制作:对现有音轨进行添加、删除、替换操作,并始终保持x的值等同于当前音轨数量,将制作后的音轨集合记作C[0,...,x-1],音轨的添加操作同步骤(301);
(303)同时可以对制作后音轨集合C'中的y个音轨添加n个辅助数据,记作辅助数据集合E'[0,...,n-1],表示E'中的每一个辅助数据都同时作用在y个音轨上,即E'由y个音轨共享;n≥0,1≤y≤x;
音轨的添加、删除、替换操作以及辅助数据的添加等操作均可选择性进行以及重复进行,并且无先后顺序。
(304)音频编码:将音轨集合C'及其对应的辅助数据集合E'共同编码成压缩音频信号S',编码技术可参考三维全景声国家标准AVS2-P3(GB/T33475.3)、国际标准MPEG-H(ISO/IEC 23008-3)、Dolby Atmos和WANOS等。
实施例二:输入音轨和辅助数据,并在编辑制作时添加、删除、替换多种类型的辅助数据。
本发明提出的可拆解和再编辑音频信号的处理方法和装置,能够在实施例1的基础上,对辅助数据进行添加、删除、替换等编辑操作,并且能够编辑多种类型的辅助数据,如图3所示,包括如下步骤:
(401)输入数据,包括:
(401.1)添加音频信号:添加的音频信号可以部分或全部来自录音设备输入、本地存储、网络输入或三种输入的任意组合;对于本地存储和网络输入,音频格式可以是PCM信号、压缩音频信号或两种格式的任意组合。若添加的音频信号中包含m3个PCM录音音轨、m4个本地导入的PCM信号、m5个本地导入的压缩音频信号以及m6个网络压缩音频信号,则将m5个本地压缩音频信号解码成m5'个PCM信号、m6个网络压缩音频信号解码成m6'个PCM信号,并将现有音轨总数记作x,所有音轨记作音轨集合C[0,...,x-1]。m3、m4、m5、m6均大于等于0,m3+m4+m5+m6≥1,m5'≥m5,m6'≥m6,x=m3+m4+m5'+m6';本地压缩音频信号和网络压缩音频信号的音频格式包括但不限于AAC、AC3、MP3、WANOS、Atmos等,解码技术可参考AAC(ISO/IEC 13818-7)、AC3(ATSC A/52)、MP3、三维全景声国家标准AVS2-P3(GB/T 33475.3)、国际标准MPEG-H(ISO/IEC 23008-3)、Dolby Atmos和WANOS等。
(401.2)添加辅助数据。为现有音轨添加辅助数据,记作集合E。辅助数据和音轨对应,可以作用在单个音轨上(如均衡器、混响、空间信息等),也可以同时作用在多个音轨上(如缩混、自动增益等);从音轨的角度,每个音轨可以拥有一个或多个辅助数据,多个音轨可以同时共享一个或多个辅助数据;单个音轨上的音效以及多个音轨共享的音效可以同时存在并任意组合。
对于单个音轨上的辅助数据,具体操作是:为现有音轨集合C中的任意音轨添加m个辅助数据,并按照音轨来划分,记作辅助数据集合E4[0,...,m-1],表示每一个音轨C[i]对应的辅助数据是E4[i][0,...,ei-1],ei表示第i个音轨的当前辅助数据数量。对于多个音轨共享的辅助数据,具体操作是:为集合C中的y个音轨添加n个辅助数据,记作E5[0,...,n-1],表示E5中的每一个辅助数据都同时作用在y个音轨上,即由y个音轨共享。m≥0,n≥0,m+n≥1,ei≥0(ei=0时表示第i个音轨上没有辅助数据),0≤i<x,1≤y≤x(y=x时表示E5中的辅助数据作用在C中的全部音轨上,1≤y<x时表示E5中的辅助数据作用在C中的部分音轨上),E=E4+E5。
(402)编辑制作
对现有音轨进行添加、删除、替换操作,并始终保持x的值等同于当前音轨数量,将制作后的音轨集合记作C'[0...x-1];音轨的添加操作同步骤(401.1);
对现有辅助数据进行添加、删除、替换操作,并始终保持ei的值等同于第i个音轨的辅助数据数量,将制作后的辅助数据集合记作E'[0...x-1],辅助数据的添加操作同步骤(401.2);
音轨和辅助数据的添加、删除、替换操作均可选择性进行以及重复进行,并且无先后顺序。
(403)音频编码。将音轨集合C'及其对应的辅助数据集合E'共同编码成压缩音频信号S'。编码技术可参考三维全景声国家标准AVS2-P3(GB/T33475.3)、国际标准MPEG-H(ISO/IEC 23008-3)和DolbyAtmos等。
实施例三:输入的音频信号中包含辅助数据,并能够对输出的音频信号进行二次制作。
本发明提出的可拆解和再编辑音频信号的处理方法和装置,可以为每个音轨添加辅助数据,并且可以将已制作的音频信号(如实施例二的最终输出信号S')作为输入来源进行二次制作,同样如图3所示,包括如下步骤:
(501)输入m7个包含辅助数据的压缩音频信号。将m7个音频信号解码(解码技术可参考三维全景声国家标准AVS2-P3(GB/T33475.3)、国际标准MPEG-H(ISO/IEC 23008-3)、Dolby Atmos和WANOS等),将其包含的音轨数据和辅助数据完全分离,生成m8个PCM音轨以及m9个辅助数据。将m8个音轨记作集合C[0,...,m8-1];将m9个辅助数据按照音轨划分,记作集合E[0,...,m8-1],表示m9个辅助数据和m8个音轨对应,第i个音轨对应的辅助数据是E[i][0,...,ei-1];1≤m7≤m8,0≤i<m8,ei≥0(ei=0时表示第i个音轨上没有辅助数据),m9>0,Σei=m9;
将当前音轨数量记作x,则此时x=m8;
(502)在音轨集合C和辅助数据集合E的基础上进行编辑制作,包括但不限于:
对现有音轨进行添加、删除、替换操作。并始终保持:x的值等同于当前音轨数量;C中的内容是当前所有音轨。
对现有辅助数据进行添加、删除、替换操作,并始终保持:ei的值等同于第i个音轨的辅助数据数量;E中内容是当前每个音轨对应的辅助数据。辅助数据除(401.2)所述特点之外,还可以随着时间变化(比如空间位置信息,参考国家标准GB/T33475.3、Dolby Atmos等)或固定不变(比如均衡器参数)。
将制作后的音轨集合记作C'[0,...,x-1],辅助数据集合记作E'[0,...,x-1]。
添加、删除、替换操作均可选择性进行以及重复进行,并且无先后顺序。
(503)音频编码。将音轨集合C'及其对应的辅助数据集合E'共同编码成压缩音频信号S'。编码时,可将固定的辅助数据和随时间变化的辅助数据进行不同处理,具体可参考三维全景声国家标准AVS2-P3(GB/T33475.3)、国际标准MPEG-H(ISO/IEC 23008-3)和DolbyAtmos等。
(504)二次制作。若对S'进行临时修改或二次制作(比如多人合唱/合奏、多人接力/协同完成一部作品等),则以S'作为信号输入来源,重复步骤(501)至(503),直至制作完毕,由(503)输出最终的压缩音频信号。
每个音轨可以添加一个或多个辅助数据,因为音轨可以没有辅助数据,可以有一个辅助数据,也可以有多个辅助数据,意即辅助数据集合E1'实际为音轨集合C1'中所有音轨包含的辅助数据的集合,一般而言,没有辅助数据的音轨称之为音床,有辅助数据的音轨称之为声音对象。
对音轨及其辅助进行添加、删除或替换后,声音对象和音床都有可能改变,改变后的声音对象中的音轨和音床就组成新的音轨集合,改变后的声音对象中的所有辅助数据则组成新的辅助数据集合,亦即对改变后的声音对象和音床进行编码得到压缩声音信号。
图4为本装置实施例一示意图,该装置包括音频输入模块、音频编辑模块、辅助数据添加模块和音频编码模块,音频输入模块包括PCM输入单元,该PCM输入单元输入PCM信号,例如,输入m1个PCM信号,m1大于0,则该m1个PCM信号即为音轨集合C1,有C1={C1i},0≤i≤m1-1。
音频编辑模块包括音轨编辑单元,该音轨编辑单元对音轨集合C1进行添加、删除或替换或三种方式的任意组合,生成新的音轨集合C1';辅助数据添加模块为音轨集合C1'至少添加一组辅助数据,得到辅助数据集合E1';音频编码模块对音轨集合C1'和辅助数据集合E1'进行编码得到压缩声音信号Sq'。
图5为本装置实施例二的示意图,在装置实施例一的基础上,音频输入模块还包括辅助数据输入单元,该辅助数据输入单元输入辅助数据集合E1,E1可以是C1中若干个音轨共享的一组辅助数据,也可以是C1中不同音轨各自添加的辅助数据的集合,最后音频编码模块对C1'、E1和E1'进行编码得到压缩声音信号Sq”。
图6为本装置实施例三的示意图,音频输入模块还包括压缩信号输入单元,压缩信号输入后由解码模块进行解码。解码模块又包括音频解码单元和辅助数据解码单元,若输入信号为压缩音频信号(如本地存储或网络输入),则音频解码单元可将该输入信号解码,得到对应的PCM数据;若输入的压缩信号中还包含辅助数据,则辅助数据解码单元可将该输入信号解码,获得该辅助数据。
音频编辑模块还包括辅助数据编辑单元,该辅助数据编辑单元对辅助数据集合进行添加、删除或替换或三种方式的任意组合,得到新的辅助数据的集合。
作为具体实施例地,音频编码模块的输出输入到音频输入模块。
作为具体实施例地,输入的PCM信号可以部分或全部来自录音设备输入或本地存储或网络输入或三种输入的任意组合。
作为具体实施例地,音频输入模块输入的音频信号的声道数包括单声道、立体声、4.0声道、5.1声道、7.1声道、9.1声道、11.1声道、13.1声道、22.2声道以及上述声道种类的任意组合形式。
作为具体实施例地,辅助数据可以是音轨的缩混方案、空间位置信息、空间轨迹信息、混响参数、均衡器参数等。
作为具体实施例地,辅助数据可以作用于音轨集合的全部音轨或部分音轨。
作为具体实施例地,辅助数据添加模块添加辅助数据与否,不影响本公开的实施。
以上为本公开示范性实施例,本公开的保护范围由权利要求书及其等效物限定。

Claims (11)

1.一种可拆解和再编辑音频信号的处理方法,其特征在于,包括:
输入m1个PCM信号,m1大于0,则m1个所述PCM信号即为音轨集合C1,则C1={C1i},0≤i≤m1-1;
对所述音轨集合C1进行添加、删除或替换或三种方式的任意组合,生成新的音轨集合C1';
为所述音轨集合C1'至少添加一组辅助数据,得到辅助数据集合E1';
对所述音轨集合C1'和辅助数据集合E1'进行编码得到压缩声音信号Sq';
本地存储或网络输入的PCM信号经过压缩音频信号解码获得;
辅助数据通过压缩音频信号解码获得。
2.如权利要求1所述的可拆解和再编辑音频信号的处理方法,其特征在于,包括:
输入m2个辅助数据,m2大于0,则有辅助数据集合E1={E1j},0≤j≤m2-1;
对所述音轨集合C1'和辅助数据集合E1以及E1'进行编码得到压缩声音信号Sq”。
3.如权利要求2所述的可拆解和再编辑音频信号的处理方法,其特征在于,包括:
输入n3个PCM信号和n4个辅助数据,n3和n4均大于0,则有音轨集合为C3={C3k},0≤k≤n3-1,辅助数据集合则为E3={E3t},0≤t≤n4-1;
对于所述音轨集合C3进行添加、删除或替换或三种方式的任意组合,生成新的音轨集合C3';
对所述辅助数据集合E3进行添加、删除或替换或三种方式的任意组合,得到辅助数据集合E3';
对所述音轨集合C3'和辅助数据集合E3'进行编码得到压缩声音信号Sq”'。
4.如权利要求1-3任一所述的可拆解和再编辑音频信号的处理方法,其特征在于,输入的PCM信号部分或全部来自录音设备输入或本地存储或网络输入或三种输入的任意组合。
5.如权利要求1-3任一所述的可拆解和再编辑音频信号的处理方法,其特征在于,所述辅助数据是音轨的缩混方案、空间位置信息、空间轨迹信息、混响参数、均衡器参数。
6.如权利要求1-3任一所述的可拆解和再编辑音频信号的处理方法,其特征在于,所述辅助数据作用于音轨集合的全部音轨或部分音轨。
7.如权利要求1-3任一所述的可拆解和再编辑音频信号的处理方法,其特征在于,所述辅助数据是固定不变的或随着时间变化。
8.一种可拆解和再编辑音频信号的处理装置,其特征在于,包括:
音频输入模块,包括PCM输入单元,所述PCM输入单元输入m1个PCM信号,m1大于0,则m1个所述PCM信号即为音轨集合C1,则C1={C1i},0≤i≤m1-1;
音频编辑模块,包括音轨编辑单元,所述音轨编辑单元对所述音轨集合C1进行添加、删除或替换或三种方式的任意组合,生成新的音轨集合C1';
辅助数据添加模块,为所述音轨集合C1'至少添加一组辅助数据,得到辅助数据集合E1';
音频编码模块,对所述音轨集合C1'和辅助数据集合E1'进行编码得到压缩声音信号Sq';
该装置还包括解码模块,所述解码模块包括音频解码单元,本地存储或网络输入的PCM信号通过所述音频解码单元解码压缩音频信号获得;
所述解码模块还包括辅助数据解码单元,辅助数据通过所述辅助数据解码单元解码压缩音频信号获得。
9.如权利要求8所述的可拆解和再编辑音频信号的处理装置,其特征在于,所述音频输入模块还包括辅助数据输入单元,所述辅助数据输入单元输入m2个辅助数据,m2大于0,则有辅助数据集合E1={E1j},0≤j≤m2-1;
所述音频编码模块对所述音轨集合C1'和辅助数据集合E1以及E1'进行编码得到压缩声音信号Sq”。
10.如权利要求9所述的可拆解和再编辑音频信号的处理装置,其特征在于,所述音频编辑模块还包括辅助数据编辑单元,所述辅助数据编辑单元对所述辅助数据集合进行添加、删除或替换或三种方式的任意组合,得到新的辅助数据的集合。
11.如权利要求8-10任一所述的可拆解和再编辑音频信号的处理装置,其特征在于,所述PCM输入单元输入的PCM信号部分或全部来自录音设备输入或本地存储或网络输入或三种输入的任意组合。
CN202010209390.9A 2020-03-23 2020-03-23 可拆解和再编辑音频信号的处理方法及装置 Active CN111445914B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010209390.9A CN111445914B (zh) 2020-03-23 2020-03-23 可拆解和再编辑音频信号的处理方法及装置
PCT/CN2020/140722 WO2021190039A1 (zh) 2020-03-23 2020-12-29 可拆解和再编辑音频信号的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010209390.9A CN111445914B (zh) 2020-03-23 2020-03-23 可拆解和再编辑音频信号的处理方法及装置

Publications (2)

Publication Number Publication Date
CN111445914A CN111445914A (zh) 2020-07-24
CN111445914B true CN111445914B (zh) 2023-10-17

Family

ID=71650637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010209390.9A Active CN111445914B (zh) 2020-03-23 2020-03-23 可拆解和再编辑音频信号的处理方法及装置

Country Status (2)

Country Link
CN (1) CN111445914B (zh)
WO (1) WO2021190039A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445914B (zh) * 2020-03-23 2023-10-17 全景声科技南京有限公司 可拆解和再编辑音频信号的处理方法及装置
CN113691860B (zh) * 2021-07-19 2023-12-08 北京全景声信息科技有限公司 一种ugc媒体内容的生成方法、装置、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136022A (zh) * 2006-09-01 2008-03-05 李筑 资源信息的全景制作和展示系统
JP2008225232A (ja) * 2007-03-14 2008-09-25 Crimson Technology Inc 信号処理方法および音声コンテンツ配信方法
WO2009093421A1 (ja) * 2008-01-21 2009-07-30 Panasonic Corporation 音響再生装置
CN102682776A (zh) * 2012-05-28 2012-09-19 深圳市茁壮网络股份有限公司 一种音频数据的处理方法和服务器
CN105336348A (zh) * 2015-11-16 2016-02-17 合一网络技术(北京)有限公司 视频编辑中多音频轨道的处理系统及方法
CN107094277A (zh) * 2016-02-18 2017-08-25 谷歌公司 用于在虚拟扬声器阵列上渲染音频的信号处理方法和系统
CN108550369A (zh) * 2018-04-14 2018-09-18 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029377A (ja) * 2002-06-26 2004-01-29 Namco Ltd 圧縮データ処理装置、方法および圧縮データ処理プログラム
JP4311541B2 (ja) * 2003-10-06 2009-08-12 アルパイン株式会社 オーディオ信号圧縮装置
US9916836B2 (en) * 2015-03-23 2018-03-13 Microsoft Technology Licensing, Llc Replacing an encoded audio output signal
CN108550377B (zh) * 2018-03-15 2020-06-19 北京雷石天地电子技术有限公司 一种音轨快速切换的方法及系统
CN111445914B (zh) * 2020-03-23 2023-10-17 全景声科技南京有限公司 可拆解和再编辑音频信号的处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136022A (zh) * 2006-09-01 2008-03-05 李筑 资源信息的全景制作和展示系统
JP2008225232A (ja) * 2007-03-14 2008-09-25 Crimson Technology Inc 信号処理方法および音声コンテンツ配信方法
WO2009093421A1 (ja) * 2008-01-21 2009-07-30 Panasonic Corporation 音響再生装置
CN102682776A (zh) * 2012-05-28 2012-09-19 深圳市茁壮网络股份有限公司 一种音频数据的处理方法和服务器
CN105336348A (zh) * 2015-11-16 2016-02-17 合一网络技术(北京)有限公司 视频编辑中多音频轨道的处理系统及方法
CN107094277A (zh) * 2016-02-18 2017-08-25 谷歌公司 用于在虚拟扬声器阵列上渲染音频的信号处理方法和系统
CN108550369A (zh) * 2018-04-14 2018-09-18 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法

Also Published As

Publication number Publication date
WO2021190039A1 (zh) 2021-09-30
CN111445914A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN102800320B (zh) 多对象音频信号的附加信息比特流产生方法和装置
CN101617360B (zh) 用于编码和解码具有各种声道的多对象音频信号的设备和方法
TWI573131B (zh) 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
JP5467105B2 (ja) オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法
EP2974010B1 (en) Automatic multi-channel music mix from multiple audio stems
US7590249B2 (en) Object-based three-dimensional audio system and method of controlling the same
TW201238279A (en) Semantic audio track mixer
KR20200074243A (ko) 인코딩된 오디오 메타데이터-기반 등화
CN111445914B (zh) 可拆解和再编辑音频信号的处理方法及装置
Kalliris et al. Media management, sound editing and mixing
Marchand et al. DReaM: a novel system for joint source separation and multi-track coding
US20250247661A1 (en) Stem-based Audio Processing for Reproduction of Audio on Consumer Devices
CN108550369A (zh) 一种可变长度的全景声信号编解码方法
DeLouise et al. Nonfiction Sound and Story for Film and Video: A Practical Guide for Filmmakers and Digital Content Creators
CN111462767B (zh) 音频信号的增量编码方法及装置
KR101092663B1 (ko) 실감 객체 오디오 재생 및 생성 장치
Marchand et al. Informed Source Separation for Stereo Unmixing--An Open Source Implementation
Hsu A Study of Innovative Strategies for Popular Music Incorporating Reality Technology: Cases Study of Music in Spatial Audio
KR20100048269A (ko) 멀티채널 오디오파일 포맷을 이용한 어학학습용 멀티채널 오디오파일 제작 및 그 플레이어
Richard et al. Linear mixing models for active listening of music productions in realistic studio conditions
HK1215340A1 (zh) 混音方法及系统
HK1215340B (zh) 混音方法及系统
HK1195612B (zh) 三维音频音轨的编码及再现

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant