[go: up one dir, main page]

KR100803206B1 - 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법 - Google Patents

오디오 지문 생성과 오디오 데이터 검색 장치 및 방법 Download PDF

Info

Publication number
KR100803206B1
KR100803206B1 KR20050108070A KR20050108070A KR100803206B1 KR 100803206 B1 KR100803206 B1 KR 100803206B1 KR 20050108070 A KR20050108070 A KR 20050108070A KR 20050108070 A KR20050108070 A KR 20050108070A KR 100803206 B1 KR100803206 B1 KR 100803206B1
Authority
KR
South Korea
Prior art keywords
modulation spectrum
ppf
mdct coefficients
audio
audio fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR20050108070A
Other languages
English (en)
Other versions
KR20070050631A (ko
Inventor
김형국
쉬얀얀
엄기완
주선
김지연
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR20050108070A priority Critical patent/KR100803206B1/ko
Priority to US11/598,134 priority patent/US8380518B2/en
Publication of KR20070050631A publication Critical patent/KR20070050631A/ko
Application granted granted Critical
Publication of KR100803206B1 publication Critical patent/KR100803206B1/ko
Priority to US13/742,858 priority patent/US9589283B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0276Advertisement creation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

오디오 지문 생성과 오디오 데이터 검색 장치 및 방법이 개시된다. 본 발명에 의한 오디오 지문 생성 장치는, 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 계수 추출부, 추출된 MDCT 계수들에서 잡음환경에 강인한 MDCT 계수를 선택하는 계수 선택부, 선택된 MDCT 계수를 퓨리에 변환하여 변조 스펙트럼을 생성하는 스펙트럼 생성부 및 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 비트화부를 포함하는 것을 특징으로 한다.
본 발명에 의하면, 다양한 환경에서 녹음된 오디오 데이터를 정확하고 빠르게 검색할 수 있는 효과를 거둘 수 있다. 그리고, MP 3 기반의 요소를 이용하므로 MP3 어플리케이션에 다양하게 적용될 수 있는 효과를 거둘 수 있다. 또한, 음악 무드 분류, 음악 장르 분류와 같은 오디오 데이터의 분류에 이용할 수 있고, 스포츠 동영상에서 특정 이벤트를 추출하는 데 사용되는 등 다양한 분야에 적용될 수 있는 효과를 거둘 수 있다.

Description

오디오 지문 생성과 오디오 데이터 검색 장치 및 방법{Apparatus and method for generating audio fingerprint and searching audio data}
도 1는 본 발명에 의한 오디오 데이터 검색 장치의 일 실시예를 블록도로 도시한 것이다.
도 2는 본 발명에 의한 오디오 데이터 검색 장치의 다른 일 실시예를 블록도로 도시한 것이다.
도 3은 본 발명에 의한 오디오 지문 생성 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 4는 본 발명에 의한 오디오 지문 생성 방법에 대한 다른 일 실시예를 흐름도로 도시한 것이다.
도 5는 본 발명에 의한 오디오 데이터 검색 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
〈도면의 주요 부호에 대한 간단한 설명〉
100: 오디오 지문 생성부 110: 계수 추출부
120: 계수 선택부 130: 변조 스펙트럼 생성부
140: 비트화부 200: 오디오 데이터 검색부
210: 해싱 검색부 220: 지문 계산부
230: 정보 저장부 240: 정보 제공부
본 발명은 오디오 지문(audio fingerprint)에 관한 것으로, 보다 상세하게는 오디오 데이터에서 잡음환경에 강인한 변조 스펙트럼을 추출하여 오디오 지문을 생성하고, 생성된 오디오 지문을 이용하여 오디오 데이터를 검색하는 장치 및 방법에 관한 것이다.
사용자가 라디오, 텔레비전, 오디오 등의 출력장치로부터 출력되는 음악에 대한 정보를 실시간으로 제공받기 위하여 오디오 지문 인식 기술을 이용한다.
필립스(Philips)사의 오디오 지문 검색 방법을 살펴보면 다음과 같다. 먼저, 5kHz 표본화 비율(sampling rate)로 이루어진 오디오 신호를 0.37s 길이의 프레임으로 나누고, 각 프레임으로부터 11.6ms만큼 이동한 후 퓨리에 변환을 이용하여 전력 스펙트럼을 생성한다. 여기서 퓨리에 변환 밴드는 300Hz와 2kHz 영역에서 대수의 형태로 분포된 33개의 중첩되지 않은 주파수 밴드로 분리된다. 다음으로 각 대수의 서브 밴드에서 전력 스펙트럼의 합을 계산하여 에너지를 산출한다. 그리고 프레임 축과 주파수 축에 의하여 에너지의 차를 계산하고, 그 계산된 에너지 차를 비트화한 후 해싱 방법에 의하여 인덱싱한다. 그러나 이러한 필립스사의 오디오 지문 검색 방법은 추출하는 요소가 잡음에 영향을 많이 받으므로 잡음환경에서 녹음된 오디오 데이터에 대해서 검색 성능이 떨어지고, 다양한 환경에 적용하기 어려운 문제점을 갖는다.
또한, 프라운호퍼(Fraunhofer)사의 오디오 지문 검색 방법을 살펴보면 다음과 같다. 먼저, 필립스사의 방식과 유사한 방식으로 오디오 신호를 이용하여 소정의 방식에 의해 전력 스펙트럼을 생성한다. 여기서 퓨리에 변환 밴드는 250Hz와 4kHz 영역에서 1/4 옥타브(octave) 주파수 밴드로 분리된다. 각 분리된 옥타브 주파수 밴드에서 스펙트럼의 평면도(spectral flatness)와 스펙트럼의 크레스트 지수(spectral crest measure)를 추출하여 오디오 지문을 검색한다. 그러나 프라운호퍼사의 오디오 지문 검색 방법은 잡음환경에 강인하지 못하고, 통계적인(statistical) 방식과 벡터 양자화(vector quantization) 방식을 이용하므로 정확도가 낮으며, 검색 속도가 느린 문제점을 갖는다.
본 발명이 이루고자 하는 기술적 과제는, 오디오 데이터에서 잡음환경에 강인한 변조 스펙트럼을 추출하여 오디오 지문을 생성하고, 생성된 오디오 지문을 이용하여 오디오 데이터를 검색하는 장치 및 방법을 제공하는 것이다.
상기의 과제를 이루기 위한 본 발명에 의한 오디오 지문 생성 장치는 다음과 같은 두 가지 방식을 개시한다.
첫 번째 방식의 오디오 지문 생성 장치는, 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 계수 추출부, 상기 추출된 MDCT 계수들에서 잡음환경에 강인한 MDCT 계수를 선택하는 계수 선택부, 상기 선택된 MDCT 계수를 퓨리에 변환하여 변조 스펙트럼을 생성하는 변조 스펙트럼 생성부 및 상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 비트화부를 포함하는 것을 특징으로 한다.
두 번째 방식의 오디오 지문 생성 장치는, 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 계수 추출부, 상기 추출된 MDCT 계수로부터 PPF 서브 밴드를 합성하는 합성부, 상기 합성된 PPF 서브 밴드에서 잡음환경에 강인한 PPF 서브 밴드를 선택하는 밴드 선택부, 상기 선택된 PPF 서브 밴드를 퓨리에 변환하여 변조 스펙트럼을 생성하는 변조 스펙트럼 생성부 및 상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 비트화부를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 오디오 데이터 검색 장치는, 오디오 데이터를 오디오 지문으로 변환하여 저장하는 오디오 지문 저장부, 상기 저장된 오디오 지문에 대응하는 해싱 값을 저장하는 해싱 테이블, 상기 생성된 오디오 지문에서 인덱싱 비트를 추출하여 해싱 값을 생성하는 해싱값 생성부, 상기 해싱 테이블에서 상기 생성된 해싱 값에 매칭되는 해싱 값을 검색하는 테이블 검색부, 상기 생성된 오디오 지문과 상기 검색된 해싱 값에 대응하는 오디오 지문의 BER을 계산하는 BER 계산부, 상기 계산된 BER과 임계값을 비교하는 비교부 및 상기 비교된 결과에 따라 오디오 지문을 검출하는 오디오 지문 검출부를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 오디오 지문 생성 방법은 다음과 같은 두 가지 방식을 개시한다.
첫 번째 방식의 오디오 지문 생성 방법은, 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 단계, 상기 추출된 MDCT 계수들에서 잡음환경에 강인한 MDCT 계수를 선택하는 단계, 상기 선택된 MDCT 계수를 처리하여 변조 스펙트럼을 생성하는 단계 및 상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 단계를 포함하는 것을 특징으로 한다.
두 번째 방식의 오디오 지문 생성 방법은, 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 단계, 상기 추출된 MDCT 계수로부터 PPF 서브 밴드를 합성하는 단계, 상기 합성된 PPF 서브 밴드에서 잡음환경에 강인한 PPF 서브 밴드를 선택하는 단계, 상기 선택된 PPF 서브 밴드를 퓨리에 변환하여 변조 스펙트럼을 생성하는 단계 및 상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 단계를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 오디오 지문 데이터 검색 방법은, 상기 생성된 오디오 지문에서 인덱싱 비트를 추출하여 해싱 값을 생성하는 단계, 오디오 지문에 대응하는 해싱 값을 저장하는 해싱 테이블에서 상기 생성된 해싱 값에 매칭되는 해싱 값을 검색하는 단계, 상기 생성된 오디오 지문과 상기 검색된 해싱 값에 대응하는 오디오 지문의 BER을 계산하는 단계, 상기 계산된 BER과 임계값을 비교하는 단계 및 상기 비교된 결과에 따라 오디오 지문을 검출하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법에 대해 상세히 설명한다.
도 1은 본 발명에 의한 오디오 데이터 검색 장치의 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 지문 검색 장치는 오디오 지문 생성부(100) 및 오디오 데이터 검색부(200)를 포함하여 이루어진다.
오디오 지문 생성부(100)는 사용자가 라디오, 텔레비전, 오디오 등의 출력 장치로부터 출력되는 소리를 입력 받아 핸드폰, 컴퓨터 등과 같은 디지털 녹음 장치에 의하여 생성한 오디오 데이터를 오디오 지문으로 생성한다.
상기 오디오 지문 생성부(100)는 계수 추출부(110), 계수 선택부(120), 변조 스펙트럼 생성부(130) 및 비트화부(140)를 포함하여 이루어진다.
계수 추출부(110)는 MP3 방식에 의하여 인코드된 오디오 데이터를 압축영역에서 부분적으로 디코딩(partial decoding)하여 576 MDCT 계수 M(n,l)들을 추출한다. 여기서, MDCT(Modified Discreted Cosine Transform)는 576 샘플을 일시에 시간영역 신호로부터 주파수영역 신호로 변환하는 방식이고, n은 프레임 인덱스이며, l은 0 이상 575 이하인 정수에 해당하는 MDCT의 서브 밴드 인덱스이다.
계수 선택부(120)는 계수 추출부(110)에서 추출된 576 MDCT 계수들에서 잡음환경에 강인한 MDCT 계수 M(n,k)를 선택한다. 여기서, k는 l 이하인 정수로서 계수 추출부(110)에서 선택된 MDCT의 서브 밴드 인덱스이다.
계수 선택부(120)에서 선택되는 잡음환경에 강인한 MDCT 계수는 잡음환경에 영향을 크게 받지 않은 안정적이고 낮은 비트 에러(bit error)를 갖는 계수를 말한다. 예를 들어, 낮은 주파수 영역에 해당하는 MDCT 계수가 잡음환경에 강인하다. 실험된 결과에 따르면, 첫 번째 MDCT 계수가 가장 안정적이고 가장 낮은 비트 에러를 갖으며, 비트 에러를 측정한 결과 낮은 주파수 영역에 해당하는 MDCT 계수가 잡음환경에 강인하므로, 계수 선택부(120)는 낮은 주파수 영역에 해당하는 MDCT 계수를 선택하는 것이 바람직하다.
또한, 계수 선택부(120)는 오디오 지문의 데이터 크기에 따라 선택할 MDCT 계수의 개수를 설정한다.
변조 스펙트럼 생성부(130)는 계수 선택부(120)에서 선택된 MDCT 계수 M(n,k)들로부터 이산 퓨리에 변환(DFT, Discrete Fourier Transformation)을 이용하여 변조 스펙트럼(Modulation Spectrum)을 다음과 같은 수학식에 의해 생성한다.
Figure 112005065034917-pat00001
여기서, 이고, q는 변조 주파수(modulation frequency)이다.
여기서, 타임 시프트(time shift) t를 이용하여 이산 퓨리에 변환을 함으로써 변조 스펙트럼은 3개의 변수를 포함하는 4차원의 형태인 다음과 같은 수학식으로 표현된다.
또한, 변조 스펙트럼 생성부(130)에서 선택된 MDCT에 퓨리에 변환을 이용함 으로써 MDCT 에서 판별하기 어려운 반복적인 템포(tempo) 정보를 용이하게 판별할 수 있다.
Figure 112005065034917-pat00003
여기서, t는 타임 인덱스(time index)이다.
또한, 변조 스펙트럼 생성부(130)는 오디오 지문의 데이터 크기에 따라 선택할 변조 주파수의 개수를 설정하고, 오디오 데이터의 길이에 따라 퓨리에 변환의 크기 N을 결정하는 것이 바람직하다.
비트화부(140)는 변조 스펙트럼 생성부(130)에서 생성된 변조 스펙트럼을 다음과 같은 수학식에 의해 양자화하여 오디오 지문을 생성한다.
Figure 112005065034917-pat00004
검색부(200)는 비트화부(140)에서 생성된 오디오 지문에 대응하는 오디오 데이터를 검색하여 사용자에게 검색된 오디오 데이터에 관한 정보를 제공한다.
상기 오디오 데이터 검색부(200)는 해싱 검색부(210), 지문 검색부(220), 정보 저장부(230) 및 정보 제공부(240)를 포함하여 이루어진다.
해싱 검색부(210)는 해싱값 생성부(211), 테이블 검색부(212) 및 해싱 테이블(213)을 포함하여 이루어진다.
해싱값 생성부(211)는 비트화부(140)에서 생성된 오디오 지문에서 연속적으로 비트 에러가 없는 인덱싱 비트(indexing bit)를 추출하여 해싱 함수(hashing function)에 의하여 해싱 값(hashing value)을 생성한다.
해싱 테이블(213, hashing table)은 오디오 지문 저장부(221)에서 각 오디오 지문이 저장된 주소 및 정보 저장부(230)에서 각 오디오 데이터에 관한 정보가 저장된 주소에 대응하는 해싱 값을 저장한다.
테이블 검색부(212)는 해싱값 생성부(211)에서 생성된 해싱 값에 매칭되는 해싱 값을 해싱 테이블(213)에서 검색하고, BER 계산부(222)로 검색된 후보 오디오 지문을 출력한다.
지문 검색부(220)는 오디오 지문 저장부(221), BER 계산부(222), 비교부(223), 오디오 지문 검출부(224) 및 임계값 조절부(225)를 포함하여 이루어진다.
오디오 지문 저장부(221)는 오디오 데이터를 오디오 지문으로 변환하여 저장한다.
BER 계산부(222)는 테이블 검색부(212)에서 출력된 후보 오디오 지문과 비트화부(140)에서 생성된 오디오 지문의 BER(Bit Error Ratio)를 해밍 거리(Hamming Distance)에 의해 계산한다.
비교부(223)는 기 설정된 임계값과 BER 계산부(222)에서 계산된 BER을 비교하고, 비교된 결과를 오디오 지문 검출부(224)로 출력한다.
오디오 지문 검출부(224)는 비교부(223)에서 출력된 결과에 응답하여 소정의 임계값 보다 작은 BER을 갖는 오디오 지문을 검출한다.
임계값 조절부(225)는 오디오 지문 검출부(224)에서 검출된 결과에 응답하여 임계값을 조절한다. 여기서, 임계값 조절부(225)는 비교부(223)에서 초기 비교 수행시 느슨하게 적용되는 임계값을 오디오 지문 검출부(224)에서 검출된 결과에 따라 점차 엄격하게 조절한다. 임계값 조절부(225)에서 임계값을 조절함에 따라 오디오 지문 검출부(224)는 1개의 오디오 지문만이 검출될 때까지 반복하여 수행한다.
정보 저장부(230)는 오디오 지문 저장부(221)에 대응하는 오디오 데이터에 관한 정보를 저장한다.
정보 제공부(240)는 오디오 지문 검출부(224)에서 검출된 오디오 지문에 대응하는 오디오 데이터와 관련된 정보를 정보 저장부(230)로부터 독출하여 사용자에게 제공한다. 여기서 오디오 데이터와 관련된 정보는 곡명, 가수, 작곡가, 작사가 및 재생시간 등을 말한다.
도 2는 본 발명에 의한 오디오 데이터 검색 장치의 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 지문 검색 장치는 오디오 지문 생성부(400), 검색부(200) 및 정보 제공부(300)를 포함하여 이루어진다.
오디오 지문 생성부(400)는 사용자가 라디오, 텔레비전, 오디오 등의 출력 장치로부터 출력되는 소리를 입력 받아 핸드폰, 컴퓨터 등과 같은 디지털 녹음 장치에 의하여 생성한 오디오 데이터를 오디오 지문으로 생성한다.
상기 오디오 지문 생성부(400)는 계수 추출부(410), 합성부(420), 밴드 선택부(430), 변조 스펙트럼 생성부(440) 및 비트화부(450)를 포함하여 이루어진다.
계수 추출부(410)는 MP3 방식에 의하여 인코드된 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 576 MDCT 계수들을 추출한다.
합성부(420)는 계수 추출부(110)에서 추출된 576 MDCT 계수들에서 잡음환경에 강인한 32 PPF 서브 밴드 S(n,p)를 합성한다. 여기서, PPF(Polyphase Filter)는 주파수 분할 방식에서 32밴드로 분할하여 막대한 연산량을 처리하는 데 사용되는 방식이고, n은 프레임 인덱스이며, p는 0 이상 31 이하인 정수에 해당하는 주파수 인덱스이다.
밴드 선택부(430)는 합성부(420)에서 합성된 PPF 서브 밴드에서 잡음환경에 강인한 PPF 서브 밴드 S(n,o)를 선택한다. 여기서, o는 p 미만인 정수에 해당하는 선택된 PPF 서브 밴드 인덱스이다.
또한, 밴드 선택부(430)에서 선택되는 잡음환경에 강인한 PPF 서브 밴드는 잡음환경에 영향을 크게 받지 않은 안정적이고 낮은 비트 에러를 갖는 것을 말한다. 예를 들어, 잡음환경에 강인한 PPF 서브 밴드에는 낮은 주파수 영역에 해당하는 PPF 서브 밴드가 있다. 실험된 결과에 따르면, 첫 번째 PPF 서브 밴드가 가장 안정적이므로, 밴드 선택부(430)는 낮은 주파수 영역에 해당하는 PPF 서브 밴드를 선택하는 것이 바람직하다.
밴드 선택부(430)는 오디오 지문의 데이터 크기에 따라 선택할 서브 밴드의 개수를 설정한다.
변조 스펙트럼 생성부(440)는 밴드 선택부(430)에서 선택된 PPF 서브 밴드 S(n,o)들로부터 이산 퓨리에 변환을 이용하여 변조 스펙트럼을 다음과 같은 수학식에 의해 생성한다.
Figure 112005065034917-pat00005
여기서,
Figure 112005065034917-pat00006
이고, q는 변조 주파수이다.
여기서, 타임 시프트 t를 이용하여 이산 퓨리에 변환을 함으로써 변조 스펙트럼은 3개의 변수를 포함하는 4차원의 형태인 다음과 같은 수학식으로 표현된다.
Figure 112005065034917-pat00007
여기서, t는 타임 인덱스이다.
변조 스펙트럼 생성부(440)에서 퓨리에 변환을 이용함으로써 PPF에서 판별하기 어려운 반복적인 템포(tempo) 정보를 용이하게 판별할 수 있다.
또한, 변조 스펙트럼 생성부(440)는 오디오 지문의 데이터 크기에 따라 선택할 변조 주파수의 개수를 설정하고, 오디오 데이터의 길이에 따라 퓨리에 변환의 크기 N을 결정하는 것이 바람직하다.
비트화부(450)는 변조 스펙트럼 생성부(440)에서 생성된 변조 스펙트럼을 다음과 같은 수학식에 의해 양자화하여 오디오 지문을 생성한다.
Figure 112005065034917-pat00008
오디오 데이터 검색부(200)는 도 1에서 전술한 바와 같이 동일하게 동작한다.
도 3은 본 발명에 의한 오디오 지문 생성 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, MP3 방식에 의하여 인코드된 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 576 MDCT 계수 M(n,l)들을 추출한다(제400단계). 여기서 n은 MDCT의 프레임 인덱스이고, l은 0 이상 575 이하인 정수에 해당하는 MDCT의 서브 밴드 인덱스이다.
제400단계에서 추출된 576 MDCT 계수들에서 잡음환경에 강인한 MDCT 계수 M(n,k)를 선택한다(제410단계). 여기서, k는 l 이하인 정수로서 제400단계에서 선택된 MDCT의 서브 밴드 인덱스이다.
제410단계에서 선택되는 잡음환경에 강인한 MDCT 계수는 잡음환경에 영향을 크게 받지 않은 안정적이고 낮은 비트 에러를 갖는 것을 말한다. 예를 들어, 잡음환경에 강인한 MDCT 계수에는 낮은 주파수 영역에 해당하는 계수가 있다. 실험된 결과에 따르면, 첫 번째 MDCT 계수가 가장 안정적이고 가장 낮은 비트 에러를 갖으며, 비트 에러를 측정한 결과 낮은 주파수 영역에 해당하는 MDCT 계수가 잡음환경에 강인하므로, 제410단계에서는 낮은 주파수 영역에 해당하는 MDCT 계수를 선택하는 것이 바람직하다.
또한, 제410단계에서는 오디오 지문의 데이터 크기에 따라 선택할 MDCT 계수의 개수를 설정한다.
제410단계에서 선택된 MDCT 계수 M(n,k)들로부터 이산 퓨리에 변환을 이용하여 변조 스펙트럼을 다음과 같은 수학식에 의해 생성한다(제420단계).
Figure 112005065034917-pat00009
여기서,
Figure 112005065034917-pat00010
이고, q는 변조 주파수이다.
여기서, 타임 시프트 t를 이용하여 이산 퓨리에 변환을 함으로써 변조 스펙트럼은 3개의 변수를 포함하는 4차원의 형태인 다음과 같은 수학식으로 표현된다.
Figure 112005065034917-pat00011
여기서, t는 타임 인덱스이다.
제420단계에서 퓨리에 변환을 이용함으로써 MDCT에서 판별하기 어려운 반복적인 템포(tempo) 정보를 용이하게 판별할 수 있다.
제420단계에서는 오디오 지문의 데이터 크기에 따라 선택할 변조 주파수의 개수를 설정하고, 오디오 데이터의 길이에 따라 퓨리에 변환의 크기 N을 결정하는 것이 바람직하다.
제420단계에서 생성된 변조 스펙트럼을 다음과 같은 수학식에 의해 양자화하여 오디오 지문을 생성한다(제430단계).
Figure 112005065034917-pat00012
도 4는 본 발명에 의한 오디오 지문 생성 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, MP3 방식에 의하여 인코드된 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 576 MDCT 계수들을 추출한다(제500단계).
제500단계에서 추출된 576 MDCT 계수들에서 잡음환경에 강인한 32 PPF 서브 밴드 S(n,p)를 합성한다(제510단계). 여기서, n은 프레임 인덱스이고, p는 0 이상 31 이하인 정수에 해당하는 주파수 인덱스이다.
제510단계에서 합성된 PPF 서브 밴드에서 잡음환경에 강인한 PPF 서브 밴드 S(n,o)를 선택한다(제520단계). 여기서, o는 p 미만인 정수에 해당하는 선택된 PPF 서브 밴드 인덱스이다.
또한, 제520단계에서 선택되는 잡음환경에 강인한 PPF 서브 밴드는 잡음환경에 영향을 크게 받지 않은 안정적이고 낮은 비트 에러를 갖는 것을 말한다. 예를 들어, 잡음환경에 강인한 PPF 서브 밴드에는 낮은 주파수 영역에 해당하는 PPF 서브 밴드가 있다. 실험된 결과에 따르면, 첫 번째 PPF 서브 밴드가 가장 안정적이므로, 제520단계에서는 낮은 주파수 영역에 해당하는 PPF 서브 밴드를 선택하는 것이 바람직하다.
제520단계에서는 오디오 지문의 데이터 크기에 따라 선택할 서브 밴드의 개수를 설정한다.
제520단계에서 선택된 PPF 서브 밴드 S(n,o)들로부터 이산 퓨리에 변환을 이용하여 변조 스펙트럼을 다음과 같은 수학식에 의해 생성한다(제530단계).
Figure 112005065034917-pat00013
여기서,
Figure 112005065034917-pat00014
이고, q는 변조 주파수이다.
여기서, 타임 시프트 t를 이용하여 이산 퓨리에 변환을 함으로써 변조 스펙트럼은 3개의 변수를 포함하는 4차원의 형태인 다음과 같은 수학식으로 표현된다.
Figure 112005065034917-pat00015
여기서, t는 타임 인덱스이다.
제530단계에서 퓨리에 변환을 이용함으로써 PPF에서 판별하기 어려운 반복적인 템포(tempo) 정보를 용이하게 판별할 수 있다.
또한, 제530단계에서는 오디오 지문의 데이터 크기에 따라 선택할 변조 주파수의 개수를 설정하고, 오디오 데이터의 길이에 따라 이용할 퓨리에 변환의 크기 N을 결정하는 것이 바람직하다.
제530단계에서 생성된 변조 스펙트럼을 다음과 같은 수학식에 의해 양자화하여 오디오 지문을 생성한다(제540단계).
Figure 112005065034917-pat00016
도 5는 본 발명에 의한 오디오 데이터 검색 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 도 3의 제430단계 또는 도 4의 제540단계에서 생성된 오디오 지문에서 연속적으로 비트 에러가 없는 인덱싱 비트를 추출하여 해싱 함수에 의하여 해싱 값 을 생성한다(제600단계).
제600단계에서 생성된 해싱 값에 매칭되는 해싱 값을 해싱 테이블에서 검색하여 검색된 후보 오디오 지문들을 출력한다(제610단계). 여기서, 해싱 테이블은 저장매체에서 오디오 지문이 저장된 주소 및 오디오 데이터에 관한 정보가 저장된 주소에 대응하는 해싱 값을 저장한다.
제610단계에서 출력된 후보 오디오 지문들과 도 3의 제430단계 또는 도 4의 제540단계에서 생성된 오디오 지문의 BER를 해밍 거리에 의해 계산한다(제620단계).
제620단계에서 계산된 BER과 기 설정된 임계값을 비교한다(제630단계).
제630단계에서 임계값 보다 작은 BER을 갖는 오디오 지문을 검출한다(제640단계).
제640단계에서 1개의 오디오 지문만이 검출되어 오디오 지문 검색이 완료되었는지 여부를 판단한다(제650단계).
만일 제650단계에서 오디오 지문 검색이 완료되지 않았다고 판단되면, 임계값을 조절한다(제660단계). 여기서, 제660단계에서는 제630단계에서 처음 비교 수행시 느슨하게 적용되는 임계값을 제640단계에서 추출된 결과에 따라 점차 엄격하게 조절한다.
제660단계에서 조절된 임계값과 제640단계에서 검출된 오디오 지문에 대하여 제620단계에서 계산된 BER을 비교한다(제630단계).
만일 제650단계에서 오디오 지문 검색이 완료되었다고 판단되면, 제640단계 에서 검출된 오디오 지문에 대응하는 오디오 데이터와 관련된 정보를 오디오 데이터 베이스로부터 독출하여 사용자에게 제공한다. 여기서 오디오 데이터와 관련된 정보는 곡명, 가수, 작곡가, 작사가, 재생시간 등을 말한다.
본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있다.
이러한 본원 발명인 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법은 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.
본 발명에 의한 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법에 의하면, 오디오 데이터에서 잡음환경에 강인한 변조 스펙트럼을 추출하여 오디오 지문을 생성하고, 생성된 오디오 지문을 이용하여 오디오 데이터를 검색한다.
이렇게 함으로써 다양한 환경에서 녹음된 오디오 데이터를 정확하고 빠르게 검색할 수 있는 효과를 거둘 수 있다. 그리고, MP 3 기반의 요소를 이용하므로 MP3 어플리케이션에 다양하게 적용될 수 있는 효과를 거둘 수 있다. 또한, 음악 무드 분류, 음악 장르 분류와 같은 오디오 데이터의 분류에 이용할 수 있고, 스포츠 동영상에서 특정 이벤트를 추출하는 데 사용되는 등 다양한 분야에 적용될 수 있는 효과를 거둘 수 있다.

Claims (37)

  1. 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 계수 추출부;
    상기 추출된 MDCT 계수들에서 안정적이고 낮은 비트 에러를 갖는 MDCT 계수를 선택하는 계수 선택부;
    상기 선택된 MDCT 계수를 처리하여 변조 스펙트럼을 생성하는 변조 스펙트럼 생성부; 및
    상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 비트화부를 포함하는 것을 특징으로 하는 오디오 지문 생성 장치.
  2. 삭제
  3. 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 계수 추출부;
    상기 추출된 MDCT 계수들에서 낮은 주파수 영역에 해당하는 MDCT 계수를 선택하는 계수 선택부;
    상기 선택된 MDCT 계수를 처리하여 변조 스펙트럼을 생성하는 변조 스펙트럼 생성부; 및
    상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 비트화부를 포함하는 것을 특징으로 하는 오디오 지문 생성 장치.
  4. 제1항 또는 제3항에 있어서, 상기 계수 선택부는
    상기 오디오 지문의 데이터 크기에 따라 선택할 MDCT 계수의 개수를 설정하는 것을 특징으로 하는 오디오 지문 생성 장치.
  5. 제1항 또는 제3항에 있어서, 상기 변조 스펙트럼 생성부는
    상기 선택된 MDCT 계수를 퓨리에 변환하여 변조 스펙트럼을 생성하는 것을 특징으로 하는 오디오 지문 생성 장치.
  6. 제5항에 있어서, 상기 변조 스펙트럼 생성부는
    상기 오디오 지문의 데이터 크기에 따라 선택할 변조 주파수의 개수를 설정하는 것을 특징으로 하는 오디오 지문 생성 장치.
  7. 제5항에 있어서, 상기 변조 스펙트럼 생성부는
    상기 오디오 데이터의 길이에 따라 퓨리에 변환의 크기를 결정하는 것을 특징으로 하는 오디오 지문 생성 장치.
  8. 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 계수 추출부;
    상기 추출된 MDCT 계수로부터 PPF 서브 밴드를 합성하는 합성부;
    상기 합성된 PPF 서브 밴드에서 안정적이고 낮은 비트 에러를 갖는 PPF 서브 밴드를 선택하는 밴드 선택부;
    상기 선택된 PPF 서브 밴드를 처리하여 변조 스펙트럼을 생성하는 변조 스펙트럼 생성부; 및
    상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 비트화부를 포함하는 것을 특징으로 하는 오디오 지문 생성 장치.
  9. 삭제
  10. 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 계수 추출부;
    상기 추출된 MDCT 계수로부터 PPF 서브 밴드를 합성하는 합성부;
    상기 합성된 PPF 서브 밴드에서 낮은 주파수 영역에 해당하는 PPF 서브 밴드를 선택하는 밴드 선택부;
    상기 선택된 PPF 서브 밴드를 처리하여 변조 스펙트럼을 생성하는 변조 스펙트럼 생성부; 및
    상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 비트화부를 포함하는 것을 특징으로 하는 오디오 지문 생성 장치.
  11. 제8항 또는 제10항에 있어서, 상기 밴드 선택부는
    상기 오디오 지문의 데이터 크기에 따라 선택할 PPF 서브 밴드의 개수를 설정하는 것을 특징으로 하는 오디오 지문 생성 장치.
  12. 제8항 또는 제10항에 있어서, 상기 변조 스펙트럼 생성부는
    상기 선택된 PPF 서브 밴드를 퓨리에 변환하여 변조 스펙트럼을 생성하는 것을 특징으로 하는 오디오 지문 생성 장치.
  13. 제12항에 있어서, 상기 변조 스펙트럼 생성부는
    상기 오디오 지문의 데이터 크기에 따라 선택할 변조 주파수의 개수를 설정하는 것을 특징으로 하는 오디오 지문 생성 장치.
  14. 제12항에 있어서, 상기 변조 스펙트럼 생성부는
    상기 오디오 데이터의 길이에 따라 퓨리에 변환의 크기를 결정하는 것을 특징으로 하는 오디오 지문 생성 장치.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 단계;
    상기 추출된 MDCT 계수들에서 안정적이고 낮은 비트 에러를 갖는 MDCT 계수를 선택하는 단계;
    상기 선택된 MDCT 계수를 처리하여 변조 스펙트럼을 생성하는 단계; 및
    상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 지문 생성 방법.
  20. 삭제
  21. 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 단계;
    상기 추출된 MDCT 계수들에서 낮은 주파수 영역에 해당하는 MDCT 계수를 선택하는 단계;
    상기 선택된 MDCT 계수를 처리하여 변조 스펙트럼을 생성하는 단계; 및
    상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 지문 생성 방법.
  22. 제19항 또는 제21항에 있어서, 상기 선택하는 단계는
    상기 오디오 지문의 데이터 크기에 따라 선택할 MDCT 계수의 개수를 설정하는 것을 특징으로 하는 오디오 지문 생성 방법.
  23. 제19항 또는 제21항에 있어서, 상기 생성하는 단계는
    상기 선택된 MDCT 계수를 퓨리에 변환하여 변조 스펙트럼을 생성하는 것을 특징으로 하는 오디오 지문 생성 방법.
  24. 제23항에 있어서, 상기 생성하는 단계는
    상기 오디오 지문의 데이터 크기에 따라 선택할 변조 주파수의 개수를 설정하는 것을 특징으로 하는 오디오 지문 생성 방법.
  25. 제23항에 있어서, 상기 생성하는 단계는
    상기 오디오 데이터의 길이에 따라 퓨리에 변환의 크기를 결정하는 것을 특징으로 하는 오디오 지문 생성 방법.
  26. 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 단계;
    상기 추출된 MDCT 계수로부터 PPF 서브 밴드를 합성하는 단계;
    상기 합성된 PPF 서브 밴드에서 안정적이고 낮은 비트 에러를 갖는 PPF 서브 밴드를 선택하는 단계;
    상기 선택된 PPF 서브 밴드를 처리하여 변조 스펙트럼을 생성하는 단계; 및
    상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 지문 생성 방법.
  27. 삭제
  28. 오디오 데이터를 압축영역에서 부분적으로 디코딩하여 MDCT 계수들을 추출하는 단계;
    상기 추출된 MDCT 계수로부터 PPF 서브 밴드를 합성하는 단계;
    상기 합성된 PPF 서브 밴드에서 낮은 주파수 영역에 해당하는 PPF 서브 밴드를 선택하는 단계;
    상기 선택된 PPF 서브 밴드를 처리하여 변조 스펙트럼을 생성하는 단계; 및
    상기 생성된 변조 스펙트럼을 양자화하여 오디오 지문을 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 지문 생성 방법.
  29. 제26항 또는 제28항에 있어서, 상기 선택하는 단계는
    상기 오디오 지문의 데이터 크기에 따라 상기 선택할 PPF 서브 밴드의 개수를 설정하는 것을 특징으로 하는 오디오 지문 생성 방법.
  30. 제26항 또는 제28항에 있어서, 상기 생성하는 단계는
    상기 선택된 PPF 서브 밴드를 퓨리에 변환하여 변조 스펙트럼을 생성하는 것을 특징으로 하는 오디오 지문 생성 방법.
  31. 제30항에 있어서, 상기 생성하는 단계는
    상기 오디오 지문의 데이터 크기에 따라 선택할 변조 주파수의 개수를 설정하는 것을 특징으로 하는 오디오 지문 생성 방법.
  32. 제30항에 있어서, 상기 생성하는 단계는
    상기 오디오 데이터의 길이에 따라 상기 이용할 퓨리에 변환의 크기를 결정하는 것을 특징으로 하는 오디오 지문 생성 방법.
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 제19항, 제21항, 제26항 또는 제28항 중 어느 한 항에 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR20050108070A 2005-11-11 2005-11-11 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법 Expired - Fee Related KR100803206B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR20050108070A KR100803206B1 (ko) 2005-11-11 2005-11-11 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
US11/598,134 US8380518B2 (en) 2005-11-11 2006-11-13 Device, method, and medium for generating audio fingerprint and retrieving audio data
US13/742,858 US9589283B2 (en) 2005-11-11 2013-01-16 Device, method, and medium for generating audio fingerprint and retrieving audio data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20050108070A KR100803206B1 (ko) 2005-11-11 2005-11-11 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20070050631A KR20070050631A (ko) 2007-05-16
KR100803206B1 true KR100803206B1 (ko) 2008-02-14

Family

ID=38041988

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20050108070A Expired - Fee Related KR100803206B1 (ko) 2005-11-11 2005-11-11 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법

Country Status (2)

Country Link
US (2) US8380518B2 (ko)
KR (1) KR100803206B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882439A (zh) * 2010-06-10 2010-11-10 复旦大学 一种基于Zernike矩的压缩域音频指纹方法

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100030838A1 (en) * 1998-08-27 2010-02-04 Beepcard Ltd. Method to use acoustic signals for computer communications
IL127569A0 (en) 1998-09-16 1999-10-28 Comsense Technologies Ltd Interactive toys
US6607136B1 (en) 1998-09-16 2003-08-19 Beepcard Inc. Physical presence digital authentication system
CA2345745A1 (en) 1998-10-02 2000-04-13 Comsense Technologies, Ltd. Card for interaction with a computer
US8019609B2 (en) 1999-10-04 2011-09-13 Dialware Inc. Sonic/ultrasonic authentication method
US9219708B2 (en) 2001-03-22 2015-12-22 DialwareInc. Method and system for remotely authenticating identification devices
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US9256904B1 (en) 2008-08-14 2016-02-09 Experian Information Solutions, Inc. Multi-bureau credit file freeze and unfreeze
US8533848B2 (en) * 2009-02-18 2013-09-10 Korea Advanced Institute Of Science And Technology Method and system for producing multimedia fingerprint based on quantum hashing
US8050251B2 (en) * 2009-04-10 2011-11-01 Barracuda Networks, Inc. VPN optimization by defragmentation and deduplication apparatus and method
WO2010135623A1 (en) * 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
US8489774B2 (en) * 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
US8805723B2 (en) * 2009-05-27 2014-08-12 Iviu Technologies, Llc Acoustically transmitting a resource identifier in multiple concurrent segments
KR101615262B1 (ko) 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
KR101411780B1 (ko) 2009-10-20 2014-06-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 이전의 디코딩된 스펙트럼 값들의 그룹의 검출을 이용하는 오디오 인코더, 오디오 디코더, 오디오 정보를 인코딩하기 위한 방법, 오디오 정보를 디코딩하기 위한 방법 및 컴퓨터 프로그램
ES2532203T3 (es) 2010-01-12 2015-03-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, decodificador de audio, método para codificar y decodificar una información de audio y programa de computación que obtiene un valor de contexto de sub-región basado en una norma de valores espectrales previamente decodificados
US20120136701A1 (en) * 2010-11-26 2012-05-31 Rohan Relan Method and system for faciliating interactive commercials in real time
TWI581250B (zh) * 2010-12-03 2017-05-01 杜比實驗室特許公司 利用多媒體處理節點之適應性處理技術
US8586847B2 (en) * 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
US9684715B1 (en) * 2012-03-08 2017-06-20 Google Inc. Audio identification using ordinal transformation
US10971191B2 (en) * 2012-12-12 2021-04-06 Smule, Inc. Coordinated audiovisual montage from selected crowd-sourced content with alignment to audio baseline
US9055376B1 (en) * 2013-03-08 2015-06-09 Google Inc. Classifying music by genre using discrete cosine transforms
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
US9286902B2 (en) 2013-12-16 2016-03-15 Gracenote, Inc. Audio fingerprinting
NL2012567B1 (en) 2014-04-04 2016-03-08 Teletrax B V Method and device for generating improved fingerprints.
RU2606567C2 (ru) * 2015-02-16 2017-01-10 Общество С Ограниченной Ответственностью "Яндекс" Способ сравнения первого входящего аудиотрека с индексированным аудиотреком
US9558272B2 (en) 2014-08-14 2017-01-31 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
WO2016024171A1 (en) 2014-08-14 2016-02-18 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints
WO2016175564A1 (ko) * 2015-04-27 2016-11-03 삼성전자 주식회사 오디오 컨텐츠 인식 방법 및 장치
WO2018020313A1 (en) * 2016-07-28 2018-02-01 Essilor International Eyeglasses-matching tool
CN106708990B (zh) * 2016-12-15 2020-04-24 腾讯音乐娱乐(深圳)有限公司 一种音乐片段提取方法和设备
CN108268572B (zh) * 2017-01-04 2020-09-08 北京酷我科技有限公司 一种歌曲同步方法及系统
CN109871463B (zh) * 2019-03-06 2024-04-09 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、电子设备及存储介质
US11269976B2 (en) * 2019-03-20 2022-03-08 Saudi Arabian Oil Company Apparatus and method for watermarking a call signal
CN110136744B (zh) * 2019-05-24 2021-03-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频指纹生成方法、设备及存储介质
CN110517671B (zh) * 2019-08-30 2022-04-05 腾讯音乐娱乐科技(深圳)有限公司 一种音频信息的评估方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030059085A (ko) * 2000-07-31 2003-07-07 샤잠 엔터테인먼트 리미티드 오디오 데이터베이스에서의 검색 방법
WO2003091990A1 (en) 2002-04-25 2003-11-06 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
US20060149552A1 (en) 2004-12-30 2006-07-06 Aec One Stop Group, Inc. Methods and Apparatus for Audio Recognition
US20070055500A1 (en) 2005-09-01 2007-03-08 Sergiy Bilobrov Extraction and matching of characteristic fingerprints from audio signals

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947571B1 (en) * 1999-05-19 2005-09-20 Digimarc Corporation Cell phones with optical capabilities, and related applications
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6963975B1 (en) * 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
EP1362485B1 (en) * 2001-02-12 2008-08-13 Gracenote, Inc. Generating and matching hashes of multimedia content
US6973574B2 (en) * 2001-04-24 2005-12-06 Microsoft Corp. Recognizer of audio-content in digital signals
WO2003067466A2 (en) * 2002-02-05 2003-08-14 Koninklijke Philips Electronics N.V. Efficient storage of fingerprints
US7110338B2 (en) * 2002-08-06 2006-09-19 Matsushita Electric Industrial Co., Ltd. Apparatus and method for fingerprinting digital media
AU2003264774A1 (en) * 2002-11-01 2004-05-25 Koninklijke Philips Electronics N.V. Improved audio data fingerprint searching
KR20050086470A (ko) * 2002-11-12 2005-08-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 멀티미디어 컨텐츠를 핑거프린트하는 방법
EP1457889A1 (en) * 2003-03-13 2004-09-15 Koninklijke Philips Electronics N.V. Improved fingerprint matching method and system
JP2007528144A (ja) * 2003-07-11 2007-10-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア信号おいてトリガーマーカとして機能するフィンガープリントを生成及び検出する方法及び装置
US20050044561A1 (en) * 2003-08-20 2005-02-24 Gotuit Audio, Inc. Methods and apparatus for identifying program segments by detecting duplicate signal patterns
EP2408126A1 (en) * 2004-02-19 2012-01-18 Landmark Digital Services LLC Method and apparatus for identification of broadcast source
US20060212897A1 (en) * 2005-03-18 2006-09-21 Microsoft Corporation System and method for utilizing the content of audio/video files to select advertising content for display
US7573868B2 (en) * 2005-06-24 2009-08-11 Microsoft Corporation Audio/video synchronization using audio hashing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030059085A (ko) * 2000-07-31 2003-07-07 샤잠 엔터테인먼트 리미티드 오디오 데이터베이스에서의 검색 방법
WO2003091990A1 (en) 2002-04-25 2003-11-06 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
US20060149552A1 (en) 2004-12-30 2006-07-06 Aec One Stop Group, Inc. Methods and Apparatus for Audio Recognition
US20070055500A1 (en) 2005-09-01 2007-03-08 Sergiy Bilobrov Extraction and matching of characteristic fingerprints from audio signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Haitsma, J. et al. 'Robust Audio Hashing for Content Identification' In: Proceedings of International Workshop on Content-Based Multimedia Indexing (CBMI'01), 2001. pp. 117-125.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882439A (zh) * 2010-06-10 2010-11-10 复旦大学 一种基于Zernike矩的压缩域音频指纹方法

Also Published As

Publication number Publication date
KR20070050631A (ko) 2007-05-16
US20130132210A1 (en) 2013-05-23
US8380518B2 (en) 2013-02-19
US20070112565A1 (en) 2007-05-17
US9589283B2 (en) 2017-03-07

Similar Documents

Publication Publication Date Title
KR100803206B1 (ko) 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
KR100774585B1 (ko) 변조 스펙트럼을 이용한 음악 정보 검색 방법 및 그 장치
CN103999150B (zh) 媒体数据中的低复杂度重复检测
EP2659480B1 (en) Repetition detection in media data
AU2005266546B2 (en) Device and method for robustly classifying audio signals, method for establishing and operating audio signal database and a computer program
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
Allamanche et al. Content-based Identification of Audio Material Using MPEG-7 Low Level Description.
US7081581B2 (en) Method and device for characterizing a signal and method and device for producing an indexed signal
KR100659672B1 (ko) 핑거프린트를 생성하는 방법과 장치 및 오디오 신호를 식별하는 방법과 장치
Seo et al. Audio fingerprinting based on normalized spectral subband moments
KR100717387B1 (ko) 유사곡 검색 방법 및 그 장치
Tzanetakis et al. Sound analysis using MPEG compressed audio
KR20050046815A (ko) 지문 추출
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP2000101439A (ja) 情報処理装置および方法、情報記録装置および方法、記録媒体、並びに提供媒体
CN103810236A (zh) 音乐信息搜索方法及其设备
Kim et al. Robust audio fingerprinting using peak-pair-based hash of non-repeating foreground audio in a real environment
KR20140061214A (ko) 음악 정보 검색 방법 및 그 장치
Li et al. Robust audio identification for MP3 popular music
Yin et al. Robust online music identification using spectral entropy in the compressed domain
Gruhne Robust audio identification for commercial applications
Li et al. Using Low-Order Auditory Zernike Moments for Robust Music Identification in the Compressed Domain
Linn Audio Fingerprinting based on Wavelet Spectral Entropy
HK1106863B (en) Apparatus and method for robust classification of audio signals, and method for establishing and operating an audio-signal database

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

T11-X000 Administrative time limit extension requested

St.27 status event code: U-3-3-T10-T11-oth-X000

AMND Amendment
E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

E90F Notification of reason for final refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

AMND Amendment
P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

E601 Decision to refuse application
E801 Decision on dismissal of amendment
PE0601 Decision on rejection of patent

St.27 status event code: N-2-6-B10-B15-exm-PE0601

PE0801 Dismissal of amendment

St.27 status event code: A-2-2-P10-P12-nap-PE0801

J201 Request for trial against refusal decision
PJ0201 Trial against decision of rejection

St.27 status event code: A-3-3-V10-V11-apl-PJ0201

AMND Amendment
E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PB0901 Examination by re-examination before a trial

St.27 status event code: A-6-3-E10-E12-rex-PB0901

B701 Decision to grant
PB0701 Decision of registration after re-examination before a trial

St.27 status event code: A-3-4-F10-F13-rex-PB0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

G170 Re-publication after modification of scope of protection [patent]
PG1701 Publication of correction

St.27 status event code: A-5-5-P10-P19-oth-PG1701

Patent document republication publication date: 20080421

Republication note text: Request for Correction Notice (Document Request)

Gazette number: 1008032060000

Gazette reference publication date: 20080214

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 5

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 6

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 6

FPAY Annual fee payment

Payment date: 20140128

Year of fee payment: 7

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 7

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 8

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 8

FPAY Annual fee payment

Payment date: 20160128

Year of fee payment: 9

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 9

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

FPAY Annual fee payment

Payment date: 20170125

Year of fee payment: 10

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 10

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

St.27 status event code: A-4-4-U10-U13-oth-PC1903

Not in force date: 20180205

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

PC1903 Unpaid annual fee

St.27 status event code: N-4-6-H10-H13-oth-PC1903

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20180205

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000