KR102871167B1

KR102871167B1 - 딥페이크 음악 판별 장치 및 방법

Info

Publication number: KR102871167B1
Application number: KR1020240129928A
Authority: KR
Inventors: 정여름; 서영민
Original assignee: 주식회사 브레인데크
Priority date: 2024-09-25
Filing date: 2024-09-25
Publication date: 2025-10-16
Anticipated expiration: 2044-09-25

Abstract

본 발명에 따른 딥페이크 음악 판별 장치는, 오디오 데이터를 입력받는 입력부; 상기 오디오 데이터로부터 음향 특징을 추출하는 특징 추출부; 상기 음향 특징으로부터, 상기 오디오 데이터에 포함된 음성이 음성 분리 처리된 것인 확률인 음성 분리 확률을 획득하는 음성 분리 탐지부; 상기 오디오 데이터에 포함된 음성이 신경 보코더를 통해 생성된 것인 확률인 신경 보코더 확률을 획득하는 신경 보코더 탐지부; 및 상기 음성 분리 확률 및 상기 신경 보코더 확률을 이용하여 상기 오디오 데이터의 딥페이크 여부를 판별하는 딥페이크 판별부를 포함하는 것을 특징으로 한다.

Description

딥페이크 음악 판별 장치 및 방법{Apparatus and method for detecting deepfake music}

본 발명은 딥페이크 음악 판별 장치 및 방법에 관한 것으로, 보다 상세하게는 음성과 반주를 포함하는 오디오 데이터에 대하여 딥페이크 여부를 판별하는 딥페이크 음악 판별 장치 및 방법에 관한 것이다.

인공지능 기술이 발전함에 따라 이를 이용한 딥페이크 기술 또한 나날이 정교해지고 있다. 최근 글로벌 스트리밍 플랫폼 스포티파이(Spotify)에 미국의 유명 가수 드레이크(Drake)와 더 위켄드(The Weeknd)의 목소리를 이용한 인공지능 생성 곡이 상당한 스트리밍 수와 조회수를 기록한 사건은 이 기술의 잠재적인 위험성을 여실히 보여주었다. 이는 장난이나 단순한 사기의 차원을 넘어 심각한 저작권 침해 문제를 야기할 수 있음을 보여준다.

그러나 음성 관련된 딥페이크 탐지에 대한 연구는 여전히 제한적이며, 음악 산업에서의 저작권 보호를 위한 노래 목소리의 딥페이크 탐지 방법론은 미흡한 실정이다.

He,Boxin et.al, Data Augmentation for Monaural Singing Voice Separation Based on Variational Autoencoder-Generative Adversarial Network, Multimedia and Expo (ICME), 2019 IEEE International Conference on, IEEE, Jul. 2019, Vol.2019, no.7, pp.1354-1359

본 발명이 해결하고자 하는 기술적 과제는, 음성(보컬)과 반주를 포함하는 오디오 데이터에 대하여 딥페이크 여부를 효과적으로 판별할 수 있는 딥페이크 음악 판별 장치 및 방법을 제공하는 데 있다.

본 발명의 해결하고자 하는 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 딥페이크 음악 판별 장치는, 오디오 데이터를 입력받는 입력부; 상기 오디오 데이터로부터 음향 특징을 추출하는 특징 추출부; 상기 음향 특징으로부터, 상기 오디오 데이터에 포함된 음성이 음성 분리 처리된 것인 확률인 음성 분리 확률을 획득하는 음성 분리 탐지부; 상기 오디오 데이터에 포함된 음성이 신경 보코더를 통해 생성된 것인 확률인 신경 보코더 확률을 획득하는 신경 보코더 탐지부; 및 상기 음성 분리 확률 및 상기 신경 보코더 확률을 이용하여 상기 오디오 데이터의 딥페이크 여부를 판별하는 딥페이크 판별부를 포함하는 것을 특징으로 한다.

상기 음향 특징은, 스펙트럼 포락선 특징, 시간적 역학 특징, 피치 및 고조파 특징, 및 성도 특징을 포함할 수 있다.

상기 스펙트럼 포락선 특징은 MFCC(Mel-Frequency Cepstral Coefficients), 스펙트럼 중심, 스펙트럼 평탄도, 및 스펙트럼 롤오프를 포함하고, 상기 시간적 역학 특징은 MFCC의 델타 및 델타-델타, 스펙트럼 플럭스, 및 제로 크로싱 비율을 포함하고, 상기 피치 및 고조파 특징은 기본 주파수, 고조파 대 잡음비, 및 크로마 특징을 포함하고, 상기 성도 특징은 포먼트 주파수, 포먼트 대역폭, 지터, 및 쉬머(shimmer)를 포함할 수 있다.

상기 음성 분리 탐지부는, 변분오토인코더-적대적 생성 신경망 모델 및 음성 분리 확률 산출부를 포함하고, 상기 변분오토인코더-적대적 생성 신경망 모델은 인코더, 디코더 및 판별자로 구성되고, 상기 인코더에 상기 음향 특징이 입력되어 상기 디코더로부터 복원된 음향 특징이 출력되며, 상기 음성 분리 확률 산출부는 상기 입력되는 음향 특징과 상기 복원된 음향 특징 간의 복원 오차를 이용하여 상기 음성 분리 확률을 산출할 수 있다.

상기 변분오토인코더-적대적 생성 신경망 모델은 음성 분리 처리되지 않은 오디오 데이터를 이용하여 학습된 것일 수 있다.

상기 음성 분리 확률 산출부는 상기 입력되는 음향 특징과 상기 복원된 음향 특징 간의 코사인 유사도를 상기 음성 분리 확률로서 산출할 수 있다.

상기 신경 보코더 탐지부는, 상기 오디오 데이터로부터 음성을 분리하는 음성 분리부; 상기 음성으로부터 음향 특징을 추출하는 특징 추출부; 및 상기 음향 특징으로부터 상기 신경 보코더 확률을 출력하는 신경 보코더 탐지 모델을 포함하고, 상기 신경 보코더 탐지 모델은 오리지널 음성의 음향 특징과 신경 보코더를 통해 생성된 음성의 음향 특징을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것일 수 있다.

상기 딥페이크 판별부는, 다층 퍼셉트론으로 구성되며 상기 음성 분리 확률 및 상기 신경 보코더 확률로부터 딥페이크 확률을 출력하는 딥페이크 판별 모델을 포함하고, 상기 딥페이크 확률이 소정 임계값 이상이면 상기 오디오 데이터를 딥페이크로 판별하며, 상기 딥페이크 판별 모델은 오리지널 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률, 및 딥페이크된 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것일 수 있다.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 딥페이크 음악 판별 방법은, 오디오 데이터를 입력받는 단계; 상기 오디오 데이터로부터 음향 특징을 추출하는 단계; 상기 음향 특징으로부터, 상기 오디오 데이터에 포함된 음성이 음성 분리 처리된 것인 확률인 음성 분리 확률을 획득하는 단계; 상기 오디오 데이터에 포함된 음성이 신경 보코더를 통해 생성된 것인 확률인 신경 보코더 확률을 획득하는 단계; 및 상기 음성 분리 확률 및 상기 신경 보코더 확률을 이용하여 상기 오디오 데이터의 딥페이크 여부를 판별하는 단계를 포함하는 것을 특징으로 한다.

상기 음성 분리 확률을 획득하는 단계는, 인코더, 디코더 및 판별자로 구성되는 변분오토인코더-적대적 생성 신경망 모델을 이용하여 상기 음성 분리 확률을 획득하되, 상기 인코더에 상기 음향 특징을 입력하여 상기 디코더로부터 복원된 음향 특징을 획득하고, 상기 입력되는 음향 특징과 상기 복원된 음향 특징 간의 복원 오차를 이용하여 상기 음성 분리 확률을 산출할 수 있다.

상기 음성 분리 확률을 획득하는 단계는, 상기 입력되는 음향 특징과 상기 복원된 음향 특징 간의 코사인 유사도를 상기 음성 분리 확률로서 산출할 수 있다.

상기 신경 보코더 확률을 획득하는 단계는, 상기 오디오 데이터로부터 음성을 분리하는 단계; 상기 음성으로부터 음향 특징을 추출하는 단계; 및 상기 음향 특징으로부터 신경 보코더 탐지 모델을 통해 상기 신경 보코더 확률을 획득하는 단계를 포함하고, 상기 신경 보코더 탐지 모델은 오리지널 음성의 음향 특징과 신경 보코더를 통해 생성된 음성의 음향 특징을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것일 수 있다.

상기 딥페이크 여부를 판별하는 단계는, 다층 퍼셉트론으로 구성되며 상기 음성 분리 확률 및 상기 신경 보코더 확률로부터 딥페이크 확률을 출력하는 딥페이크 판별 모델을 이용하고, 상기 딥페이크 확률이 소정 임계값 이상이면 상기 오디오 데이터를 딥페이크로 판별하며, 상기 딥페이크 판별 모델은 오리지널 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률, 및 딥페이크된 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것일 수 있다.

상기된 본 발명에 의하면, 음성(보컬)과 반주를 포함하는 오디오 데이터에 대하여 딥페이크 여부를 효과적으로 판별할 수 있다.

본 발명의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 딥페이크 음악을 생성하는 장치의 일반적인 구성을 나타낸다.
도 2는 본 발명의 일 실시예에 따른 딥페이크 음악 판별 장치의 구성을 나타낸다.
도 3은 음성 분리 탐지부(130)의 구체적인 구성을 나타낸다.
도 4는 신경 보코더 탐지부(140)의 구체적인 구성을 나타낸다.
도 5는 딥페이크 판별 모델의 일 예를 나타낸다.
도 6은 본 발명의 일 실시예에 따른 딥페이크 음악 판별 방법의 흐름도를 나타낸다.

이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.

도 1은 딥페이크 음악을 생성하는 장치의 일반적인 구성을 나타낸다.

딥페이크 음악을 생성하는 장치는 음성 분리부(10), 특징 추출부(20), 특징 변환부(30), 신경 보코더(40), 및 오디오 결합부(50)를 포함할 수 있다.

음성 분리부(10)는 음성(보컬)과 반주를 포함하는 오디오 데이터로부터 오디오 소스 분리(Audio Source Separation) 기술을 이용하여 음성과 반주를 분리한다.

특징 추출부(10)는 음성으로부터 음향 특징을 추출한다. 음향 특징으로는 주로 스펙트로그램 및 멜스펙트로그램이 사용된다.

특징 변환부(30)는 인공지능 모델을 이용하여 음향 특징을 다른 사람의 음향 특징으로 변환한다.

신경 보코더(40)는 신경망 모델을 이용하여 음향 특징으로부터 음성 오디오 파형을 생성한다.

오디오 결합부(50)는 음성 오디오 파형과 반주를 결합하여, 딥페이크 음악을 생성한다.

위로부터 알 수 있듯이, 딥페이크 음악을 생성하기 위해서는 오디오 소스 분리 기술을 이용한 음성 분리 처리와 신경 보코더를 이용한 음성 오디오 파형 생성이 요구된다.

본 발명은 음성 분리 처리와 신경 보코더 처리 과정에서 아티팩트(artifact)가 발생하는 것에 착안하여, 오디오 데이터에 포함된 음성이 음성 분리 처리된 것인지 및 신경 보코더를 통해 생성된 것인지를 탐지함으로써 오디오 데이터의 딥페이크 여부를 판별한다.

도 2는 본 발명의 일 실시예에 따른 딥페이크 음악 판별 장치의 구성을 나타낸다.

본 발명의 실시예에 따른 딥페이크 음악 판별 장치는 입력부(110), 특징 추출부(120), 음성 분리 탐지부(130), 신경 보코더 탐지부(140), 딥페이크 판별부(150), 및 출력부(160)를 포함한다.

입력부(110)는 오디오 데이터를 입력받는다. 오디오 데이터는 음성과 반주를 포함할 수 있다.

특징 추출부(120)는 오디오 데이터로부터 음향 특징을 추출한다. 음향 특징은 스펙트럼 포락선 특징(spectral envelope features), 시간적 역학 특징(Temporal Dynamics Features), 피치 및 고조파 특징(Pitch and Harmonic Features), 및 성도 특징(Vocal Tract Features)을 포함할 수 있다.

스펙트럼 포락선 특징은 주파수 스펙트럼의 모양과 특성을 포착하며, 오디오 소스 분리 혹은 음성 변환 중 발생하는 스펙트럼 분포의 부자연스러운 변화를 감지할 수 있다. 스펙트럼 포락선 특징은 MFCC(Mel-Frequency Cepstral Coefficients), 스펙트럼 중심(spectral centroid), 스펙트럼 평탄도(spectral flatness), 및 스펙트럼 롤오프(spectral rolloff)를 포함할 수 있다. MFCC는 멜 스케일에서 스펙트럼 포락선을 나타내는 계수이다. 스펙트럼 중심은 스펙트럼의 질량 중심을 의미한다. 스펙트럼 평탄도는 스펙트럼 중심을 기준으로 확산되는 정도의 값을 나타낸다. 스펙트럼 롤오프는 스펙트럼 에너지의 특정 비율을 차지하는 주파수를 의미한다.

시간적 역학 특징은 시간에 따라 스펙트럼 특성이 어떻게 변하는지를 포착하며, 오디오 소스 분리 혹은 음성 변환으로 인한 부자연스러운 부분이나 시간적 불일치를 감지할 수 있다. 시간적 역학 특징은 MFCC의 델타 및 델타-델타, 스펙트럼 플럭스(spectral flux), 및 제로 크로싱 비율(zero crossing rate)을 포함할 수 있다. MFCC의 델타는 프레임 간 변화를 포착하는 MFCC의 도함수이며, 델타-델타는 스펙트럼 변화의 가속도를 포착한다. 스펙트럼 플럭스는 프레임마다 스펙트럼이 얼마나 빠르게 변화하는지를 측정한다. 제로 크로싱 비율은 신호가 양수에서 음수로 또는 그 반대로 바뀌는 비율을 의미한다.

피치 및 고조파 특징은 시간에 따라 기본 주파수 및 고조파 구조와 관련된 특성을 포착하며, 음성 변환 시 부자연스러운 피치 변화 또는 고조파 왜곡을 감지한다. 피치 및 고조파 특징은 기본 주파수(F0; fundamental frequency), 고조파 대 잡음비(HNR; harmonic-noise ratio), 및 크로마 특징(chroma features)을 포함할 수 있다. 기본 주파수는 소리의 인지된 피치를 의미한다. 고조파 대 잡음비는 신호의 고조파 대 잡음 에너지의 비율을 의미한다. 크로마 특징은 같은 등급의 피치가 하나의 요소에 매핑되는 스펙트럼 에너지의 12차원 표현이다.

성도 특징은 성대 모양과 관련된 특성을 포착하며, 음성 변환 중 발생할 수 있는 부자연스러운 포먼트 변화나 음성 품질의 불일치를 감지한다. 성도 특징은 포먼트 주파수(formant frequencies), 포먼트 대역폭(formant bandwidth), 지터(jitter), 및 쉬머(shimmer)를 포함할 수 있다. 포먼트 주파수는 성대의 공명 주파수로 F1, F2, F3, F4를 사용한다. 포먼트 대역폭은 포먼트 피크(peek)의 폭을 나타낸다. 지터는 기본 주파수의 주기별 변화를 나타낸다. 쉬머는 진폭의 사이클 간 변화를 나타낸다.

특징 추출부(120)는 위와 같이 추출된 음향 특징들을 수직 결합할 수 있다.

음성 분리 탐지부(130)는, 음향 특징으로부터, 오디오 데이터에 포함된 음성이 음성 분리 처리된 것인 확률인 음성 분리 확률을 획득한다.

도 3은 음성 분리 탐지부(130)의 구체적인 구성을 나타낸다.

음성 분리 탐지부(130)는 변분오토인코더-적대적 생성 신경망(VAE-GAN) 모델(132)과, 음성 분리 확률을 산출하는 음성 분리 확률 산출부(134)로 구성될 수 있다.

VAE-GAN 모델(132)은 인코더, 디코더(생성자) 및 판별자로 구성된다. VAE-GAN 모델은 VAE 모델과 GAN 모델이 디코더(생성자)를 공유하는 구조이다.

인코더와 디코더는 변분오토인코더(VAE)를 구성한다. 변분오토인코더는 주어진 데이터를 바탕으로 데이터의 분포를 학습하고, 이를 바탕으로 데이터를 생성하는 모델로, 복잡한 데이터의 분포를 학습하고자 할 때 효과적이다. 인코더는 음향 특징을 압축하여 잠재 표현(Latent Representation)을 생성하며, 디코더는 잠재 표현을 복원하여 복원된 음향 특징을 출력한다. 인코더는 CNN-RNN 기반 모델로, CNN 층은 음향 특징을 압축하며, 이것을 RNN 층에 전달하여 잠재 공간으로 매핑하는 역할을 한다. 변분오토인코더는 데이터의 분포를 학습하기 때문에 주어진 학습 데이터 뿐만 아니라 다른 형태의 데이터에도 강건하다는 특징이 있다. 따라서 변분오토인코더는 다양한 종류의 장르를 가지고 있는 음악의 특수성을 고려할 때 학습되지 않은 장르의 음악에도 강건성을 가질 수 있다.

디코더(생성자)와 판별자는 적대적 생성 신경망(GAN)을 구성한다. 적대적 생성 신경망은, 인공 신경망을 사용하여 실제 데이터와 유사한 가짜 데이터를 생성하는 모델인 생성자(Generator)와, 입력 데이터가 실제인지 가짜인지 판별하는 판별자(Discriminator)로 구성된다. 판별자는 다층 퍼셉트론(Multi-Layer Perceptron)을 이용하여 0에서 1 사이의 확률값을 출력한다. 판별자는 입력되는 음향 특징이 인코더에 입력되는 오리지널 음향 특징인지, 디코더를 통해 복원된 음향 특징인지 판별한다. 적대적 생성 신경망의 판별자는 생성자(디코더)에 의해 복원된 음향 특징을 판별하는 방법을 학습하여, 생성자의 복원 기능에 대하여 손실함수의 값으로 작동함으로써 잠재 표현에 대한 학습 강건성을 강화한다.

VAE-GAN 모델(132)은 음성 분리 처리되지 않은, 즉 딥페이크가 아닌 오리지널 오디오 데이터를 이용하여 학습된 것일 수 있다. 따라서 오리지널 오디오 데이터의 경우, 인코더에 입력되는 음향 특징과 디코더를 통해 복원된 음향 특징 간의 복원 오차가 매우 작을 것이다. 그러나 음성 분리 처리를 거친 오디오 데이터의 경우, 음성 분리 처리 과정에서 아티팩트가 발생하므로, 인코더에 입력되는 음향 특징과 디코더를 통해 복원된 음향 특징 간의 복원 오차가 비교적 크게 나타날 것이다.

따라서 음성 분리 확률 산출부(134)는 인코더에 입력되는 음향 특징과 디코더를 통해 복원된 음향 특징 간의 복원 오차를 이용하여 음성 분리 확률을 산출할 수 있다. 구체적으로, 음성 분리 확률 산출부(134)는 인코더에 입력되는 음향 특징과 디코더를 통해 복원된 음향 특징 간의 코사인 유사도를 음성 분리 확률로서 산출할 수 있다. 상기 코사인 유사도는 다음 수학식에 의해 산출될 수 있다.

여기서, A는 인코더에 입력되는 음향 특징을, B는 디코더를 통해 복원된 음향 특징을 나타낸다.

다시 도 2를 참조하면, 신경 보코더 탐지부(140)는 오디오 데이터에 포함된 음성이 신경 보코더를 통해 생성된 것인 확률인 신경 보코더 확률을 획득한다.

도 4는 신경 보코더 탐지부(140)의 구체적인 구성을 나타낸다.

신경 보코더 탐지부(140)는, 음성 분리부(142), 특징 추출부(144), 신경 보코더 탐지 모델(146)을 포함할 수 있다.

음성 분리부(142)는 오디오 데이터로부터 오디오 소스 분리(Audio Source Separation) 기술을 이용하여 음성을 분리한다.

특징 추출부(144)는 음성으로부터 음향 특징을 추출한다. 특징 추출부(144)에 의해 추출되는 음향 특징들은 전술한 특징 추출부(120)와 동일하므로, 구체적인 설명은 생략하기로 한다.

신경 보코더 탐지 모델(146)은 음향 특징으로부터 오디오 데이터에 포함된 음성이 신경 보코더를 통해 생성된 것인 확률인 신경 보코더 확률을 출력한다. 신경 보코더 탐지 모델(146)은 CNN 모델로, 오리지널 음성의 음향 특징과 신경 보코더를 통해 생성된 음성의 음향 특징을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것일 수 있다. 즉, 오리지널 음성의 음향 특징과 신경 보코더를 통해 생성된 음성의 음향 특징을 각각 레이블링한 학습 데이터를 수집하여, 수집된 학습 데이터로 신경 보코더 탐지 모델(146)을 학습시킬 수 있다.

다시 도 2를 참조하면, 딥페이크 판별부(150)는 음성 분리 탐지부(130)로부터의 음성 분리 확률 및 신경 보코더 탐지부(140)로부터의 신경 보코더 확률을 이용하여 오디오 데이터의 딥페이크 여부를 판별한다.

딥페이크 판별부(150)는, 다층 퍼셉트론으로 구성되며 음성 분리 확률 및 신경 보코더 확률로부터 딥페이크 확률을 출력하는 딥페이크 판별 모델을 포함할 수 있다.

도 5는 딥페이크 판별 모델의 일 예를 나타낸다. 딥페이크 판별 모델은 입력층을 통해 음성 분리 확률과 신경 보코더 확률을 입력받고, 은닉층을 거쳐 출력층을 통해 딥페이크 확률을 출력한다. 딥페이크 판별 모델은, 오리지널 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률, 및 딥페이크된 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것일 수 있다. 즉, 오리지널 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률과, 딥페이크된 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률을 각각 레이블링한 학습 데이터를 수집하여, 수집된 학습 데이터로 딥페이크 판별 모델을 학습시킬 수 있다. 딥페이크 판별 모델은 음성 분리 확률 및 신경 보코더 확률을 입력받고, 이진 교차 엔트로피 손실 함수를 이용하여 훈련될 수 있다. 딥페이크 판별 모델은 시그모이드 함수를 이용하여 0과 1 사이의 확률 값을 출력하고, 사전에 설정된 임계치를 기준으로 분류를 수행하여 손실 함수를 업데이트할 수 있다.

딥페이크 판별부(150)는 딥페이크 판별 모델을 통해 출력되는 딥페이크 확률이 소정 임계값 이상이면 오디오 데이터를 딥페이크로 판별할 수 있다.

출력부(160)는 딥페이크 판별부(150)의 딥페이크 판별 결과를 해당 딥페이크 확률과 함께 표시할 수 있다.

도 6은 본 발명의 일 실시예에 따른 딥페이크 음악 판별 방법의 흐름도를 나타낸다. 본 실시예에 따른 딥페이크 음악 판별 방법은 전술한 딥페이크 음악 판별 장치에서 처리되는 단계들로 이루어진다. 따라서, 이하 생략된 내용이라 하더라도 딥페이크 음악 판별 장치에 관하여 이상에서 기술된 내용은 본 실시예에 따른 딥페이크 음악 판별 방법에도 적용된다.

610단계에서, 입력부(110)는 음성과 반주를 포함하는 오디오 데이터를 입력받는다.

620단계에서, 특징 추출부(120)는 오디오 데이터로부터 음향 특징을 추출한다.

630단계에서, 음성 분리 탐지부(130)는, 음향 특징으로부터, 오디오 데이터에 포함된 음성이 음성 분리 처리된 것인 확률인 음성 분리 확률을 획득한다.

630단계에서, 음성 분리 탐지부(130)는, 인코더, 디코더 및 판별자로 구성되는 변분오토인코더-적대적 생성 신경망 모델을 이용하여 음성 분리 확률을 획득할 수 있다. 구체적으로, 음성 분리 탐지부(130)는, 인코더에 음향 특징을 입력하여 디코더로부터 복원된 음향 특징을 획득하고, 인코더에 입력되는 음향 특징과 복원된 음향 특징 간의 복원 오차를 이용하여 음성 분리 확률을 산출할 수 있다. 상기 변분오토인코더-적대적 생성 신경망 모델은 음성 분리 처리되지 않은 오디오 데이터를 이용하여 학습된 것일 수 있다. 음성 분리 탐지부(130)는, 인코더에 입력되는 음향 특징과 복원된 음향 특징 간의 코사인 유사도를 음성 분리 확률로서 산출할 수 있다.

640단계에서, 신경 보코더 탐지부(140)는 오디오 데이터에 포함된 음성이 신경 보코더를 통해 생성된 것인 확률인 신경 보코더 확률을 획득한다.

640단계는, 오디오 데이터로부터 음성을 분리하는 단계, 음성으로부터 음향 특징을 추출하는 단계, 및 음향 특징으로부터 신경 보코더 탐지 모델을 통해 상기 신경 보코더 확률을 획득하는 단계를 포함할 수 있다. 여기서 상기 신경 보코더 탐지 모델은, 오리지널 음성의 음향 특징과 신경 보코더를 통해 생성된 음성의 음향 특징을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것일 수 있다.

650단계에서, 딥페이크 판별부(150)는 음성 분리 확률 및 신경 보코더 확률을 이용하여 오디오 데이터의 딥페이크 여부를 판별한다. 딥페이크 판별부(150)는, 다층 퍼셉트론으로 구성되며 음성 분리 확률 및 신경 보코더 확률로부터 딥페이크 확률을 출력하는 딥페이크 판별 모델을 이용하여, 딥페이크 확률이 소정 임계값 이상이면 오디오 데이터를 딥페이크로 판별할 수 있다. 여기서 상기 딥페이크 판별 모델은, 오리지널 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률, 및 딥페이크된 오디오 데이터의 음성 분리 확률 및 신경 보코더 확률을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것일 수 있다.

660단계에서, 출력부(160)는 딥페이크 판별 결과를 해당 딥페이크 확률과 함께 표시한다.

본 발명의 실시예들에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.

본 발명의 실시예들은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 집적 회로 구성들을 채용할 수 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 실시예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.

실시예에서 설명하는 특정 실행들은 일 실시예들로서, 어떠한 방법으로도 실시 예의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

오디오 데이터를 입력받는 입력부;
상기 오디오 데이터로부터 음향 특징을 추출하는 특징 추출부;
변분오토인코더-적대적 생성 신경망 모델로서, 인코더, 디코더 및 판별자(discriminator)로 구성되고, 상기 인코더에 상기 음향 특징이 입력되어 상기 디코더로부터 복원된 음향 특징이 출력되며, 상기 인코더에 입력되는 음향 특징 또는 상기 디코더로부터 복원된 음향 특징은 상기 판별자에 입력되고, 상기 판별자는 상기 판별자에 입력되는 음향 특징이 상기 인코더에 입력되는 음향 특징인지 상기 디코더로부터 복원된 음향 특징인지 판별하고, 상기 변분오토인코더-적대적 생성 신경망 모델은 음성 분리 처리되지 않은 오디오 데이터로부터 추출된 음향 특징을 이용하여 학습된 것인, 변분오토인코더-적대적 생성 신경망 모델;
상기 인코더에 입력되는 음향 특징과 상기 복원된 음향 특징 간의 코사인 유사도를 산출하는 코사인 유사도 산출부;
상기 오디오 데이터에 포함된 음성이 신경 보코더를 통해 생성된 것인 확률인 신경 보코더 확률을 획득하는 신경 보코더 탐지부로서,
상기 오디오 데이터로부터 음성을 분리하는 음성 분리부;
상기 음성으로부터 음향 특징을 추출하는 특징 추출부; 및
상기 음향 특징으로부터 상기 신경 보코더 확률을 출력하는 신경 보코더 탐지 모델을 포함하고,
상기 신경 보코더 탐지 모델은, CNN 모델로서, 오리지널 음성의 음향 특징과 신경 보코더를 통해 생성된 음성의 음향 특징을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것인,
신경 보코더 탐지부; 및
상기 코사인 유사도 및 상기 신경 보코더 확률을 이용하여 상기 오디오 데이터의 딥페이크 여부를 판별하는 딥페이크 판별부로서, 다층 퍼셉트론으로 구성되며 상기 코사인 유사도 및 상기 신경 보코더 확률로부터 상기 오디오 데이터가 딥페이크된 것인 확률인 딥페이크 확률을 출력하는 딥페이크 판별 모델을 이용하여, 상기 딥페이크 확률이 소정 임계값 이상이면 상기 오디오 데이터를 딥페이크로 판별하는 딥페이크 판별부를 포함하고,
상기 딥페이크 판별 모델은 오리지널 오디오 데이터의 상기 코사인 유사도 및 상기 신경 보코더 확률, 및 딥페이크된 오디오 데이터의 상기 코사인 유사도 및 상기 신경 보코더 확률을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것을 특징으로 하는 딥페이크 음악 판별 장치.
제1항에 있어서,
상기 음향 특징은, 스펙트럼 포락선 특징, 시간적 역학 특징, 피치 및 고조파 특징, 및 성도 특징을 포함하는 것을 특징으로 하는 딥페이크 음악 판별 장치.
제2항에 있어서,
상기 스펙트럼 포락선 특징은 MFCC(Mel-Frequency Cepstral Coefficients), 스펙트럼 중심, 스펙트럼 평탄도, 및 스펙트럼 롤오프를 포함하고,
상기 시간적 역학 특징은 MFCC의 델타 및 델타-델타, 스펙트럼 플럭스, 및 제로 크로싱 비율을 포함하고,
상기 피치 및 고조파 특징은 기본 주파수, 고조파 대 잡음비, 및 크로마 특징을 포함하고,
상기 성도 특징은 포먼트 주파수, 포먼트 대역폭, 지터, 및 쉬머(shimmer)를 포함하는 것을 특징으로 하는 딥페이크 음악 판별 장치.
삭제
삭제
삭제
삭제
삭제
컴퓨터에 의해 수행되는 딥페이크 음악 판별 방법으로서,
오디오 데이터를 입력받는 단계;
상기 오디오 데이터로부터 음향 특징을 추출하는 단계;
변분오토인코더-적대적 생성 신경망 모델로서, 인코더, 디코더 및 판별자(discriminator)로 구성되고, 상기 인코더에 상기 음향 특징이 입력되어 상기 디코더로부터 복원된 음향 특징이 출력되며, 상기 인코더에 입력되는 음향 특징 또는 상기 디코더로부터 복원된 음향 특징은 상기 판별자에 입력되고, 상기 판별자는 상기 판별자에 입력되는 음향 특징이 상기 인코더에 입력되는 음향 특징인지 상기 디코더로부터 복원된 음향 특징인지 판별하고, 상기 변분오토인코더-적대적 생성 신경망 모델은 음성 분리 처리되지 않은 오디오 데이터로부터 추출된 음향 특징을 이용하여 학습된 것인, 변분오토인코더-적대적 생성 신경망 모델을 이용하여, 상기 인코더에 상기 음향 특징을 입력하여 상기 디코더로부터 복원된 음향 특징을 획득하고, 상기 인코더에 입력되는 음향 특징과 상기 복원된 음향 특징 간의 코사인 유사도를 산출하는 단계;
상기 오디오 데이터에 포함된 음성이 신경 보코더를 통해 생성된 것인 확률인 신경 보코더 확률을 획득하는 단계로서,
상기 오디오 데이터로부터 음성을 분리하는 단계;
상기 음성으로부터 음향 특징을 추출하는 단계; 및
상기 음향 특징으로부터 신경 보코더 탐지 모델을 통해 상기 신경 보코더 확률을 획득하는 단계를 포함하고,
상기 신경 보코더 탐지 모델은, CNN 모델로서, 오리지널 음성의 음향 특징과 신경 보코더를 통해 생성된 음성의 음향 특징을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것인,
신경 보코더 확률 획득 단계; 및
상기 코사인 유사도 및 상기 신경 보코더 확률을 이용하여 상기 오디오 데이터의 딥페이크 여부를 판별하는 단계로서, 다층 퍼셉트론으로 구성되며 상기 코사인 유사도 및 상기 신경 보코더 확률로부터 상기 오디오 데이터가 딥페이크된 것인 확률인 딥페이크 확률을 출력하는 딥페이크 판별 모델을 이용하여, 상기 딥페이크 확률이 소정 임계값 이상이면 상기 오디오 데이터를 딥페이크로 판별하는 딥페이크 여부 판별 단계를 포함하고,
상기 딥페이크 판별 모델은 오리지널 오디오 데이터의 상기 코사인 유사도 및 상기 신경 보코더 확률, 및 딥페이크된 오디오 데이터의 상기 코사인 유사도 및 상기 신경 보코더 확률을 포함하는 레이블된 학습 데이터를 이용하여 학습된 것을 특징으로 하는 딥페이크 음악 판별 방법.
제9항에 있어서,
상기 음향 특징은, 스펙트럼 포락선 특징, 시간적 역학 특징, 피치 및 고조파 특징, 및 성도 특징을 포함하는 것을 특징으로 하는 딥페이크 음악 판별 방법.
제10항에 있어서,
상기 스펙트럼 포락선 특징은 MFCC(Mel-Frequency Cepstral Coefficients), 스펙트럼 중심, 스펙트럼 평탄도, 및 스펙트럼 롤오프를 포함하고,
상기 시간적 역학 특징은 MFCC의 델타 및 델타-델타, 스펙트럼 플럭스, 및 제로 크로싱 비율을 포함하고,
상기 피치 및 고조파 특징은 기본 주파수, 고조파 대 잡음비, 및 크로마 특징을 포함하고,
상기 성도 특징은 포먼트 주파수, 포먼트 대역폭, 지터, 및 쉬머(shimmer)를 포함하는 것을 특징으로 하는 딥페이크 음악 판별 방법.
삭제
삭제
삭제
삭제
삭제