KR102700003B1

KR102700003B1 - 전자 장치 및 그 제어 방법

Info

Publication number: KR102700003B1
Application number: KR1020180119946A
Authority: KR
Inventors: 김민수; 장태권; 박재현
Original assignee: 삼성전자주식회사
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2024-08-29
Anticipated expiration: 2038-10-08
Also published as: US20200112771A1; CN112806022A; EP3818720A1; EP3818720A4; WO2020076014A1; US11184679B2; KR20200040097A

Abstract

전자 장치 및 그 제어 방법이 개시된다. 본 발명에 따른 전자 장치의 제어 방법은, 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠를 획득하는 단계, 멀티미디어 컨텐츠와 관련된 정보를 획득하는 단계, 복수의 영상 프레임에 포함된 오브젝트 중 획득된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택하는 단계, 획득된 정보에 기초하여 선택된 적어도 하나의 영상 프레임에 대한 디스크립션(description) 정보를 생성하는 단계 및 생성된 디스크립션 정보를 바탕으로 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 단계를 포함한다. 이에 따라, 전자 장치는 멀티미디어 컨텐츠에 대해서 보다 정교한 장면 분석을 위한 디스크립션 정보를 생성할 수 있다.

Description

전자 장치 및 그 제어 방법{Electronic apparatus and method for controlling the electronicy apparatus}

본 발명은 전자 장치 및 그 제어 방법에 관한 것으로써, 보다 상세하게는 멀티미디어 컨텐츠를 분석하여 사용자가 요청한 장면과 관련된 영상을 제공하기 위한 전자 장치 및 그 제어 방법에 관한 것이다.

전자 장치의 통신 기술 및 사용자 인터페이스가 발전함에 따라, 사용자는 장소 및 시간에 제약 없이 필요한 정보를 쉽게 전자 장치를 통하여 제공 받을 수 있다.

예를 들어, 스마트 TV 와 같이 전자 장치는 사용자가 요청한 멀티미디어 컨텐츠 전체를 출력할 뿐만 아니라, 멀티미디어 컨텐츠 전체 구간에서 사용자 의도에 적합한 구간을 검색하고, 검색된 구간의 영상만을 선별하여 출력할 수 있다.

이를 위해, 종래의 전자 장치는 딥러닝 기반의 인공 지능 모델을 이용하여 컨텐츠를 구성하는 복수의 영상 프레임에 대한 장면 분석을 수행하여 사용자 의도에 적합한 장면을 포함하는 구간의 영상을 제공한다.

그러나, 딥러닝 기반의 인공 지능 모델만을 이용할 경우, 멀티미디어 컨텐츠 상에서 사용자 의도와 다른 부적합한 장면을 포함하는 구간 혹은 불필요한 장면을 포함하는 구간에 대한 검색 결과를 제공하는 문제가 있다.

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로서, 본 발명의 목적은 전자 장치에서 멀티미디어 컨텐츠에 대해서 보다 정교한 장면 분석을 위한 디스크립션 정보를 생성하도록 함을 목적으로 한다.

나아가, 본 발명은 생성된 멀티미디어 컨텐츠의 디스크립션 정보에 기초하여 사용자 의도에 적합하고 정교한 검색 결과를 제공하도록 함을 목적으로 한다.

이상과 같은 목적을 달성하기 위한 전자 장치의 제어 방법은, 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠를 획득하는 단계, 상기 멀티미디어 컨텐츠와 관련된 정보를 획득하는 단계, 상기 복수의 영상 프레임에 포함된 오브젝트 중 상기 획득된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택하는 단계, 상기 획득된 정보에 기초하여 상기 선택된 적어도 하나의 영상 프레임에 대한 디스크립션(description) 정보를 생성하는 단계 및 상기 생성된 디스크립션 정보를 바탕으로 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 단계를 포함한다.

그리고, 상기 정보는, 상기 멀티미디어 컨텐츠에 대한 EPG 정보, 상기 멀티미디어 컨텐츠와 관련된 웹 정보 및 SNS 정보와, 상기 멀티미디어 컨텐츠와 관련하여 상기 전자 장치에 저장된 메타 데이터 중 적어도 하나를 포함할 수 있다.

또한, 상기 선택하는 단계는, 상기 복수의 영상 프레임 중 제1 영상 프레임에서 상기 정보에 포함된 복수의 키워드 중 제1 키워드와 관련된 제1 오브젝트가 검출되면, 상기 제1 영상 프레임을 선택하고, 상기 제1 영상 프레임 이후 연속된 영상 프레임 중 상기 제1 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택할 수 있다.

그리고, 상기 선택하는 단계는, 상기 제1 영상 프레임 이후 연속된 제2 영상 프레임에서 상기 제1 오브젝트가 검출되면, 상기 제2 영상 프레임을 선택하고, 상기 제2 영상 프레임에서 상기 제1 오브젝트가 검출되지 않으면, 상기 정보에 포함된 복수의 키워드 중 제2 키워드와 관련된 제2 오브젝트가 상기 제2 영상 프레임에 존재하는지 여부에 따라 상기 제2 영상 프레임을 선택할 수 있다.

또한, 상기 생성하는 단계는, 오브젝트 인식을 위한 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제1 영상 프레임 및 상기 정보에 포함된 키워드를 입력하여 상기 제1 영상 프레임에 대한 디스크립션 정보를 생성하고, 상기 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제2 영상 프레임 및 상기 정보에 포함된 키워드를 입력하여 상기 제2 영상 프레임에 대한 디스크립션 정보를 생성할 수 있다.

그리고, 상기 디스크립션 정보는, 상기 선택된 영상 프레임에 포함된 오브젝트를 묘사하는 복수의 텍스트들을 관계 그래프 형식으로 나타낸 정보일 수 있다.

또한, 상기 획득하는 단계는, 상기 제1 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 및 상기 제2 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 상기 연관된 적어도 하나의 텍스트를 결합하여 상기 멀티미디어 컨텐츠에 대한 관계 그래프를 생성할 수 있다.

그리고, 상기 멀티미디어 컨텐츠에 대한 사용자 명령이 입력되면, 상기 사용자 명령에 포함된 텍스트와 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보에 포함된 텍스트를 비교하여 상기 사용자 명령과 연관된 장면 컨텐츠를 생성하여 출력하는 단계를 더 포함할 수 있다.

또한, 상기 적어도 하나의 영상 프레임을 선택하는 단계는, 상기 복수의 영상 프레임 각각을 분석하여 화면 전환이 발생한 시점의 영상 프레임을 선택하는 단계 및 상기 화면 전환이 발생한 시점의 영상 프레임 각각을 대표 프레임으로 결정하는 단계, 상기 복수의 대표 프레임 중 상기 정보에 포함된 키워드와 관련된 오브젝트를 포함하는 적어도 하나의 대표 프레임을 키 프레임으로 결정하는 단계 및 상기 키 프레임으로 결정된 영상 프레임을 포함하는 구간 내 포함된 영상 프레임을 선택하는 단계를 포함할 수 있다.

그리고, 상기 구간은, 상기 키 프레임으로 결정된 영상 프레임과, 상기 키 프레임으로 결정된 영상 프레임 이후 연속된 영상 프레임 중 대표 프레임으로 결정된 영상 프레임 이전의 영상 프레임을 포함할 수 있다.

한편, 본 발명의 또다른 실시 예에 따르면, 전자 장치는 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠 및 상기 멀티미디어 컨텐츠와 관련된 정보를 획득하고, 상기 복수의 영상 프레임이 포함된 오브젝트 중 상기 획득된 정보와 관련된 오브젝트를 포함하는 영상 프레임을 선택하며, 상기 획득된 정보에 기초하여 상기 선택된 적어도 하나의 영상 프레임에 대한 디스크립션(description) 정보를 생성하고, 상기 생성된 디스크립션 정보를 바탕으로 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 프로세서를 포함한다.

또한, 상기 프로세서는, 상기 복수의 영상 프레임 중 제1 영상 프레임에서 상기 정보에 포함된 복수의 키워드 중 제1 키워드와 관련된 제1 오브젝트가 검출되면, 상기 제1 영상 프레임을 선택하고, 상기 제1 영상 프레임 이후 연속된 영상 프레임 중 상기 제1 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택할 수 있다.

그리고, 상기 프로세서는, 상기 제1 영상 프레임 이후 연속된 제2 영상 프레임에서 상기 제1 오브젝트가 검출되면, 상기 제2 영상 프레임을 선택하고, 상기 제2 영상 프레임에서 상기 제1 오브젝트가 검출되지 않으면, 상기 정보에 포함된 복수의 키워드 중 제2 키워드와 관련된 제2 오브젝트가 상기 제2 영상 프레임에 존재하는지 여부에 따라 상기 제2 영상 프레임을 선택할 수 있다.

또한, 상기 프로세서는, 오브젝트 인식을 위한 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제1 영상 프레임 및 상기 정보에 포함된 키워드를 입력하여 상기 제1 영상 프레임에 대한 디스크립션 정보를 생성하고, 상기 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제2 영상 프레임 및 상기 정보에 포함된 키워드를 입력하여 상기 제2 영상 프레임에 대한 디스크립션 정보를 생성할 수 있다.

또한, 상기 프로세서는, 상기 제1 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 및 상기 제2 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 상기 연관된 적어도 하나의 텍스트를 결합하여 상기 멀티미디어 컨텐츠에 대한 관계 그래프를 생성할 수 있다.

그리고, 입력부 및 출력부를 더 포함하며, 상기 프로세서는, 상기 입력부를 통해 상기 멀티미디어 컨텐츠에 대한 사용자 명령이 입력되면, 상기 사용자 명령에 포함된 텍스트와 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보에 포함된 텍스트를 비교하여 상기 사용자 명령과 연관된 장면 컨텐츠를 생성하고, 상기 생성된 장면 컨텐츠를 출력하도록 상기 출력부를 제어할 수 있다.

또한, 상기 프로세서는, 상기 복수의 영상 프레임 각각을 분석하여 화면 전환이 발생한 시점의 영상 프레임을 선택하고, 상기 화면 전환이 발생한 시점의 영상 프레임 각각을 대표 프레임으로 결정한 후, 상기 복수의 대표 프레임 중 상기 정보에 포함된 키워드와 관련된 오브젝트를 포함하는 적어도 하나의 대표 프레임을 키 프레임으로 결정하며, 상기 복수의 대표 프레임 중 상기 정보에 포함된 키워드와 관련된 오브젝트를 포함하는 적어도 하나의 대표 프레임을 키 프레임으로 결정하고, 상기 키 프레임으로 결정된 영상 프레임을 포함하는 구간 내 포함된 영상 프레임을 선택할 수 있다.

그리고, 상기 구간은 상기 키 프레임으로 결정된 영상 프레임과, 상기 키 프레임으로 결정된 영상 프레임 이후 연속된 영상 프레임 중 대표 프레임으로 결정된 영상 프레임 이전의 영상 프레임을 포함할 수 있다.

한편, 본 발명의 또다른 실시 예에 따르면, 전자 장치와 결합되어 하기의 단계를 실행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체는 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠를 획득하는 단계, 상기 멀티미디어 컨텐츠와 관련된 정보를 획득하는 단계, 상기 복수의 영상 프레임에 포함된 오브젝트 중 상기 획득된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택하는 단계, 상기 획득된 정보에 기초하여 상기 선택된 적어도 하나의 영상 프레임에 대한 디스크립션(description) 정보를 생성하는 단계 및 상기 생성된 디스크립션 정보를 바탕으로 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 단계를 포함한다.

이상과 같이, 본 발명에 따르면, 전자 장치는 멀티미디어 컨텐츠에 대해서 보다 정교한 장면 분석을 위한 디스크립션 정보를 생성할 수 있다. 나아가, 본 발명에 따른 전자 장치는 생성된 멀티미디어 컨텐츠의 디스크립션 정보에 기초하여 사용자 의도에 적합하고 정교한 검색 결과를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 전자 장치의 블록도,
도 2는 본 발명의 일 실시예에 따른 전자 장치의 세부 블록도,
도 3은 본 발명의 일 실시예에 따른 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성하기 위한 각종 모듈을 저장하는 저장부의 블록도,
도 4는 본 발명의 일 실시예에 따른 전자 장치에서 사용자 명령과 연관된 장면 컨텐츠를 제공하는 방법의 흐름도,
도 5는 본 발명의 또다른 실시예에 따른 전자 장치에서 인공지능 서버와 연동하여 사용자 명령과 연관된 장면 컨텐츠를 제공하는 방법의 흐름도,
도 6은 본 발명의 또다른 실시예에 따른 전자 장치에서 전자 장치를 제어하는 음성인식장치와 연동하여 사용자 명령과 연관된 장면 컨텐츠를 제공하는 방법의 흐름도,
도 7은 본 발명의 일 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠와 관련된 정보에 기초하여 멀티미디어 컨텐츠에 포함된 복수의 영상 프레임 중 제1 영상 프레임에 포함된 오브젝트를 검출하는 예시도,
도 8은 본 발명의 일 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠와 관련된 정보에 기초하여 제1 영상 프레임에 대한 디스크립션 정보를 생성하는 예시도,
도 9a 내지 도 9b는 본 발명의 일 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성하는 예시도,
도 10a 및 도 10b는 본 발명의 또다른 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성하는 예시도,
도 11a 및 도 11b는 본 발명의 일 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠에 대한 디스크립션 정보에 기초하여 사용자 명령과 연관된 장면 컨텐츠를 제공하는 제1 예시도,
도 12는 본 발명의 또다른 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠에 대한 디스크립션 정보에 기초하여 사용자 명령과 연관된 장면 컨텐츠를 제공하는 제2 예시도,
도 13은 본 발명의 일 실시예에 따른 인공지능 학습모델을 업데이트하고 이용하는 전자 장치의 프로세서의 세부 블록도,
도 14a는 본 발명의 일 실시예에 따른 학습부 및 획득부의 세부 블록도,
도 14b는 본 발명의 일 실시예에 따른 전자 장치 및 외부 서버가 서로 연동하여 데이터를 학습하고 판단하는 예시도,
도 15는 본 발명의 일 실시예에 따른 전자 장치에 입력된 사용자 발화 음성 명령을 인식하는 지능형 서버에 대한 블록도이다.

이하, 본 문서의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 부프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 문서의 다양한 실시예들에 따른 전자 장치는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

다른 실시예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 드론(drone), 금융 기관의 ATM, 상점의 POS(point of sales), 또는 사물 인터넷 장치 (예: 전구, 각종 센서, 스프링클러 장치, 화재 경보기, 온도조절기, 가로등, 토스터, 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.

본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

도 1은 본 발명의 일 실시예에 따른 전자 장치의 블록도이다.

도 1에 도시된 바와 같이, 전자 장치(100)는 입력부(110), 출력부(120) 및 프로세서(130)를 포함한다.

입력부(110)는 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠를 입력받는다.

출력부(120)는 입력부(110)를 통해 외부로부터 입력된 멀티미디어 컨텐츠 혹은 후술한 저장부(170)에 저장된 멀티미디어 컨텐츠의 영상 및 오디오 데이터를 출력한다.

프로세서(130)는 입력부(110)를 통해 입력되거나 기저장된 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠가 획득되면, 해당 멀티미디어 컨텐츠와 관련된 정보를 획득한다.

여기서, 메타데이터 컨텐츠 관련 정보는 멀티미디어 컨텐츠에 대한 EPG(Electronic Program Guid) 정보, 멀티미디어 컨텐츠와 관련된 웹 정보 및 SNS(Social Network Service) 정보와, 멀티미디어 컨텐츠와 관련하여 전자 장치(100)에 저장된 메타 데이터 중 적어도 하나를 포함할 수 있다.

이 같은 멀티미디어 컨텐츠 및 멀티미디어 컨텐츠와 관련된 정보가 획득되면, 프로세서(130)는 복수의 영상 프레임 중 적어도 하나의 영상 프레임을 선택한다.

이후, 프로세서(130)는 해당 멀티미디어 컨텐츠와 관련하여 획득한 정보에 기초하여 기선택된 적어도 하나의 영상 프레임에 대한 디스크립션(description) 정보를 생성한다.

이후, 프로세서(130)는 적어도 하나의 영상 프레임과 관련하여 생성된 디스크립션 정보를 바탕으로 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득한다.

여기서, 디스크립션 정보는 영상 프레임에 포함된 오브젝트를 묘사하는 복수의 텍스트들을 관계 그래프 형식으로 나타낸 정보가 될 수 있다.

한편, 프로세서(130)는 다음과 같은 실시예를 통해 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임 중 적어도 하나의 영상 프레임을 선택할 수 있다.

일 실시예에 따라, 프로세서(130)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 오브젝트 중 해당 멀티미디어 컨텐츠와 관련하여 획득된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택할 수 있다.

구체적으로, 프로세서(130)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임 중 제1 영상 프레임에서 기획득된 정보에 포함된 키워드 중 제1 키워드와 관련된 제1 오브젝트가 검출되면, 제1 영상 프레임을 선택한다.

보다 구체적으로, 프로세서(130)는 오브젝트 인식 알고리즘을 이용하여 멀티미디어 컨텐츠와 관련하여 획득된 정보에 포함된 키워드 중 제1 키워드와 관련된 제1 오브젝트가 제1 영상 프레임에 존재하는지 여부를 판단한다. 여기서, 오브젝트 인식 알고리즘은 공지된 기술이므로 상세한 설명을 생략하도록 한다.

판단 결과, 제1 키워드와 관련된 제1 오브젝트가 제1 영상 프레임에 존재하면, 프로세서(130)는 제1 영상 프레임 이후 연속된 영상 프레임 내 포함된 오브젝트를 트래킹(tracking)하여 제1 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택할 수 있다.

보다 구체적으로, 프로세서(130)는 제1 키워드와 관련된 제1 오브젝트를 포함하는 제1 영상 프레임 이후 연속된 제2 영상 프레임에 포함된 오브젝트를 트래킹하여 제1 오브젝트가 있는지 여부를 판단한다. 판단 결과, 제2 영상 프레임에 제1 오브젝트가 검출되면, 프로세서(130)는 제2 영상 프레임을 선택한다.

한편, 프로세서(130)는 제2 영상 프레임에서 제1 오브젝트가 검출되지 않으면, 기획득한 정보에 포함된 키워드 중 제2 키워드와 관련된 제2 오브젝트가 제2 영상 프레임에 존재하는지 여부에 따라 제2 영상 프레임을 선택할 수 있다.

이후, 프로세서(130)는 오브젝트 인식을 위한 인공지능 모델에 기선택된 적어도 하나의 영상 프레임 중 제1 영상 프레임 및 기획득한 정보에 포함된 키워드를 입력하여 제1 영상 프레임에 대한 디스크립션 정보를 생성한다.

또한, 프로세서(130)는 인공지능 모델에 기선택된 적어도 하나의 영상 프레임 중 제2 영상 프레임 및 기획득한 정보에 포함된 키워드를 입력하여 제2 영상 프레임에 대한 디스크립션 정보를 생성한다.

전술한 바와 같이, 디스크립션 정보는 영상 프레임에 포함된 오브젝트를 묘사하는 복수의 텍스트들을 관계 그래프 형식으로 나타낸 정보가 될 수 있다.

따라서, 프로세서(130)는 전술한 바와 같이, 기선택된 적어도 하나의 영상 프레임 중 제1 및 제2 영상 프레임에 대한 디스크립션 정보가 생성되면, 각각의 디스크립션 정보에 포함된 텍스트에 기초하여 멀티미디어 컨텐츠에 대한 관계 그래프를 생성할 수 있다.

구체적으로, 프로세서(130)는 제1 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 및 제2 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 연관된 적어도 하나의 텍스트를 결합하여 멀티미디어 컨텐츠에 대한 관계 그래프를 생성하고, 생성된 관계 그래프를 멀티미디어 컨텐츠에 대한 디스크립션 정보로 획득할 수 있다.

또다른 실시예에 따라, 프로세서(130)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임 각각을 분석하여 화면 전환이 발생한 시점의 영상 프레임을 선택한다.

구체적으로, 프로세서(130)는 화면 전환 분석 알고리즘을 이용하여 기획득한 멀티미디어 컨텐츠의 화면 전환을 분석하여 복수의 구간 각각에 대한 복수의 대표 프레임을 결정한다.

예를 들어, 프로세서(130)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임의 픽셀값을 비교하여 화면 전환 여부를 판단하는 화면 전환 분석 알고리즘을 이용할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 프로세서(130)는 공지된 다양한 화면 전환 분석 알고리즘을 이용하여 화면 전환 여부를 판단할 수 있다.

이후, 프로세서(130)는 화면 전환이 발생한 시점의 영상 프레임 각각을 대표 프레임으로 결정한다. 이후, 프로세서(130)는 기결정된 복수의 대표 프레임 중 해당 멀티미디어 컨텐츠와 관련하여 기획득한 정보에 포함된 키워드와 관련된 오브젝트를 포함하는 적어도 하나의 대표 프레임을 키 프레임으로 결정하고, 키 프레임으로 결정된 영상 프레임을 포함하는 구간 내 포함된 영상 프레임을 선택할 수 있다.

여기서, 구간은 키 프레임으로 결정된 영상 프레임과, 키 프레임으로 결정된 영상 프레임 이후 연속된 영상 프레임 중 대표 프레임으로 결정된 영상 프레임 이전의 영상 프레임을 포함할 수 있다.

복수의 구간 각각에 대한 복수의 대표 프레임이 결정되면, 프로세서(130)는 멀티미디어 컨텐츠와 관련하여 획득된 정보에 포함된 키워드에 기초하여 복수의 대표 프레임 중 적어도 하나의 대표 프레임을 키 프레임으로 결정한다.

여기서, 키 프레임은 복수의 대표 프레임 중 멀티미디어 컨텐츠와 관련하여 획득된 정보에 포함된 키워드와 매칭되는 오브젝트를 포함하는 영상 프레임이 될 수 있다.

전술한 바와 같이, 프로세서(130)는 오브젝트 인식 알고리즘을 이용하여 복수의 대표 프레임 중 멀티미디어 컨텐츠와 관련하여 획득된 정보에 포함된 키워드와 연관된 오브젝트를 포함하는 적어도 하나의 대표 프레임을 선택하고, 선택된 적어도 하나의 대표 프레임을 키 프레임으로 결정할 수 있다.

멀티미디어 컨텐츠를 구성하는 복수의 구간 중 적어도 하나의 구간에 대응되는 키 프레임이 결정되면, 프로세서(130)는 다음과 같은 실시예를 통해 키 프레임에 해당하는 영상 프레임을 포함하는 적어도 하나의 구간에 대한 디스크립션 정보를 생성할 수 있다.

실시예에 따라, 프로세서(130)는 키 프레임에 해당하는 영상 프레임을 포함하는 적어도 하나의 구간 중 제1 구간에 포함된 영상 프레임 각각과, 기획득된 정보에 포함된 키워드를 오브젝트 인식을 위한 인공지능 모델에 입력하여 제1 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 생성한다. 이후, 프로세서(130)는 제1 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 결합하여 제1 구간의 디스크립션 정보를 획득한다.

마찬가지로, 프로세서(130)는 키 프레임에 해당하는 영상 프레임을 포함하는 적어도 하나의 구간 중 제2 구간에 포함된 영상 프레임 각각과, 기획득된 정보에 포함된 키워드를 오브젝트 인식을 위한 인공지능 모델에 입력하여 제2 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 생성한다. 이후, 프로세서(130)는 제2 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 결합하여 제2 구간의 디스크립션 정보를 획득한다.

이 같은, 디스크립션 정보는 전술한 바와 같이, 영상 프레임에 포함된 오브젝트를 묘사하는 복수의 텍스트들을 관계 그래프 형식으로 나타낸 정보가 될 수 있다.

전술한 실시예를 통해 제1 및 제2 구간의 디스크립션 정보가 획득되면, 프로세서(130)는 획득한 제1 및 제2 구간의 디스크립션 정보에 기초하여 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득할 수 있다.

구체적으로, 프로세서(130)는 제1 구간의 디스크립션 정보에 포함된 복수의 텍스트 및 제2 구간의 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 연관된 적어도 하나의 텍스트를 결합하여 멀티미디어 컨텐츠에 대한 관계 그래프를 생성한다. 따라서, 프로세서(130)는 제1 및 제2 구간의 디스크립션 정보에 기초하여 생성된 멀티미디어 컨텐츠에 대한 관계 그래프를 해당 멀티미디어 컨텐츠의 디스크립션 정보로 획득할 수 있다. 전술한 다양한 실시예를 통해 멀티미디어 컨텐츠에 대한 디스크립션 정보가 생성된 상태에서 해당 멀티미디어 컨텐츠에 대한 사용자 명령이 입력되면, 프로세서(130)는 해당 멀티미디어 컨텐츠에 대한 디스크립션 정보에 기초하여 사용자 명령과 연관된 장면 컨텐츠를 생성할 수 있다.

구체적으로, 프로세서(130)는 사용자 명령이 입력되면, 입력된 사용자 명령에 대응하는 멀티미디어 컨텐츠에 대한 디스크립션 정보에 포함된 텍스트와 사용자 명령에 포함된 텍스트를 비교하여 사용자 명령과 연관된 장면 컨텐츠를 생성할 수 있다. 이후, 프로세서(130)는 생성된 장면 컨텐츠를 출력하도록 출력부(120)를 제어한다. 이에 따라, 출력부(120)는 사용자 명령과 관련하여 생성된 장면 컨텐츠를 영상 및 오디오 데이터 중 적어도 하나로 출력할 수 있다.

지금까지, 컨텐츠를 분석하여 해당 컨텐츠에 대한 요약 정보를 생성하고, 생성된 컨텐츠에 대한 요약 정보에 기초하여 사용자 명령과 관련된 요약 컨텐츠를 제공하는 전자 장치(100)의 각 구성에 대해서 상세히 설명하였다.

이하에서는, 본 발명에 따른 전자 장치(100)의 세부 구성에 대해서 상세히 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 전자 장치의 세부 블록도이다.

전술한 전자 장치(100)는 스마트 TV, 스마트 폰, 테블릿 PC 등과 같은 다양한 스마트 기기가 될 수 있다.

한편, 전술한 입력부(110)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임을 입력받을 뿐만 아니라, 다양한 사용자 명령을 입력받아 프로세서(130)로 전달할 수 있다.

이를 위해, 입력부(110)는 마이크(111), 조작부(112), 터치 입력부(113) 및 사용자 입력부(114)를 포함할 수 있다.

마이크(111)는 사용자의 음성 명령을 입력받으며, 조작부(112)는 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad)로 구현될 수 있다.

그리고, 터치 입력부(113)는 후술할 디스플레이부(121)가 터치 스크린 형태로 구현될 경우, 디스플레이부(121)와 상호 레어어 구조를 이루는 터치 패드로 구현될 수 있다. 이 경우, 터치 입력부(113)는 디스플레이부(121)를 통해 디스플레이된 다양한 어플리케이션 관련 아이콘에 대한 선택 명령을 입력받을 수 있다.

사용자 입력부(114)는 원격 제어 장치와 같은 적어도 하나의 주변 기기(미도시)로부터 전자 장치(100)의 동작을 제어하기 위한 IR 신호 혹은 RF 신호를 입력받을 수 있다.

그리고, 출력부(120)는 도 2에 도시된 바와 같이, 디스플레이부(121) 및 오디오 출력부(122)를 포함할 수 있다.

디스플레이부(121)는 영상 처리부(미도시)에서 영상 처리된 멀티미디어 컨텐츠의 영상 데이터를 출력한다. 또한, 디스플레이부(121)는 후술할 저장부(170)에 저장된 복수의 어플리케이션 각각을 실행하기 위한 아이콘을 포함하는 실행 화면을 디스플레이하거나 혹은 전자 장치(100)의 동작을 제어하기 위한 다양한 UI 화면을 디스플레이할 수 있다.

이 같은 디스플레이부(121)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 등으로 구현될 수 있다.

또한, 디스플레이부(121)는 플렉서블 디스플레이(flexible display)의 형태로 전자 장치(100)의 전면 영역 및, 측면 영역 및 후면 영역 중 적어도 하나에 결합될 수도 있다.

플렉서블 디스플레이는 종이처럼 얇고 유연한 기판을 통해 손상 없이 휘거나 구부리거나 말 수 있는 것을 특징으로 할 수 있다. 이러한 플렉서블 디스플레이는 일반적으로 사용되는 유리 기판뿐 아니라 플라스틱 기판을 사용하여 제조될 수도 있다. 플라스틱 기판을 사용하는 경우, 기판의 손상을 방지하기 위해서 기존의 제조 프로세서를 사용하지 않고 저온 제조 프로세서를 사용하여 형성될 수 있다. 또한, 플렉서블 액정을 싸고 있는 유리 기판을 플라스틱 필름으로 대체하여, 접고 펼 수 있는 유연성을 부여할 수 있다. 이러한 플렉서블 디스플레이는 얇고 가벼울 뿐만 아니라 충격에도 강하며, 또한 휘거나 굽힐 수 있고 다양한 형태로 제작이 가능하다는 장점을 갖고 있다.

오디오 출력부(122)는 멀티미디어 컨텐츠의 오디오 데이터를 출력한다. 구체적으로, 오디오 출력부(122)는 오디오 처리부(미도시)에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 오디오 출력부(122)는 스피커로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.

한편, 전자 장치(100)는 전술한 입력부(110), 출력부(120) 및 프로세서(130) 구성 외에 도 2에 도시된 바와 같이, 통신부(140), 촬영부(150), 감지부(160) 및 저장부(170)를 더 포함할 수 있다.

통신부(140)는 스마트 TV, 스마트 폰, 태블릿 PC 등의 주변 기기(미도시), 컨텐츠 서버(미도시) 등과 데이터 통신을 수행한다. 특히, 통신부(140)는 인공지능 모델이 별도의 인공지능 서버(200)에 저장된 경우, 전술한 바와 같은 사용자 명령과 연관된 장면 컨텐츠를 인공지능 서버(200)로부터 수신할 수 있다.

이 같은 통신부(140)는 근거리 통신 모듈(141), 무선 랜 모듈 등의 무선 통신 모듈(142)과, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), IEEE(Institute of Electrical and Eletronics Engineers) 1394 등의 유선 통신 모듈 중 적어도 하나를 포함하는 커넥터(143)를 포함할 수 있다.

근거리 통신 모듈(141)은 전자 장치(100)와 근거리에 위치한 주변 기기, 인공지능 서버(200) 등과 무선으로 근거리 통신을 수행하는 구성이다. 이 같은 근거리 통신 모듈(141)은 블루투스(bluetooth)모듈, 적외선 통신(IrDA, infrared data association)모듈, NFC(Near Field Communication)모듈, 와이파이(WIFI)모듈, 지그비(Zigbee) 모듈 중 적어도 하나를 포함할 수 있다.

무선 통신 모듈(142)은 IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

이처럼 통신부(140)는 상술한 다양한 근거리 통신 방식에 의해 구현될 수 있고, 필요에 따라 본 명세서에 언급되지 않은 다른 통신 기술을 채용할 수 있다.

한편, 커넥터(143)는 USB 2.0, USB 3.0, HDMI, IEEE 1394 등 다양한 소스 장치와의 인터페이스를 제공하는 구성이다. 이 같은 커넥터(143)는 프로세서(130)의 제어 명령에 따라 커넥터(143)에 연결된 유선 케이블을 통해 컨텐츠 서버(미도시)로부터 전송된 멀티미디어 컨텐츠 관련 데이터를 수신하거나, 기저장된 멀티미디어 컨텐츠 관련 데이터를 외부 기록 매체로 전송할 수 있다. 또한, 커넥터(143)는 커넥터(143)와 물리적으로 연결된 유선 케이블을 통해 전원 소스로부터 전원을 입력받을 수 있다.

촬영부(150)는 전자 장치(100)의 외부 환경을 촬영하는 카메라로 구현될 수 있다. 이 경우, 촬영부(150)는 영상이 투과되는 렌즈(미도시) 및 렌즈를 통해 투과된 영상을 감지하는 이미지 센서(미도시)를 포함할 수 있다. 이미지 센서(이미지)는 CCD이미지 센서 또는 CMOS 이미지 센서로 구현될 수 있다. 촬영부(150)를 통해 획득된 영상 데이터는 영상 처리부(미도시)에서 처리될 수 있다.

감지부(160)는 전자 장치(100)의 모션을 감지한다. 이 같은 감지부(160)는 가속도 센서, 지자기 센서 및 자이로 센서 등을 포함할 수 있으며, 이 같은 다양한 센서를 이용하여 전자 장치(100)의 모션을 감지할 수 있다.

가속도 센서(Accelerometer Sensor)는 이동하는 전자 장치(100)의 가속도나 충격의 세기를 측정하는 센서로써, 스마트 폰, 테블릿 PC와 같은 전자 장치 뿐만 아니라, 자동차, 기차, 비행기 등과 같은 각종 운송 수단 및 로봇 등의 제어 시스템에 이용되는 필수적인 센서이다.

지자기 센서(Magnetic Sensor)는 지구 자기장을 이용하여 방위각을 탐지할 수 있는 전자 나침판으로써, 위치 추적, 3D 영상 게임 등에 사용되거나, 스마트 폰, 무전기, GPS, PDA, 네비게이션 항법 장치 등에 사용되는 센서이다.

자이로 센서(Gyroscope Sensor)는 기존의 가속도 센서에 각각 회전을 넣어 6축 방향을 인식하여 하여 좀더 세밀하고 정밀한 동작을 인식할 수 있도록 도와주는 센서이다.

저장부(170)는 전술한 바와 같이, 멀티미디어 컨텐츠 및 멀티미디어 컨텐츠에 대한 디스크립션 정보를 저장한다. 뿐만 아니라, 저장부(170)는 멀티미디어 컨텐츠에 대한 디스크립션 정보 생성을 위한 각종 모듈을 저장할 수 있다.

또한, 저장부(170)는 전자 장치(100)의 동작을 제어하기 위한 운용 프로그램을 더 저장할 수 있다.

여기서, 운용 프로그램은 전자 장치(100)가 턴 온(Turn On)되는 경우, 저장부(170)에서 읽혀지고, 컴파일되어 전자 장치(100)의 각 구성을 동작시키는 프로그램이 될 수 있다. 이 같은 저장부(170)는 후술할 롬(ROM)(132), 램(RAM)(133) 또는 전자 장치(100)에 탈착/장착 가능한 메모리 카드(예, SD 카드, 메모리 스틱), 비휘발성 메모리, 휘발성 메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 중 적어도 하나로 구현될 수 있다.

한편, 전술한 프로세서(130)는 전자 장치(100)의 동작을 전반적으로 제어하거나, 혹은 전자 장치(100)의 전반적인 동작을 제어할 수 있도록 하는 처리 장치가 될 수 있다.

이 같은 프로세서(130)는 CPU(131), ROM(132), RAM(133) 및 GPU(134)를 포함할 수 있으며, CPU(131), ROM(132), RAM(133) 및 GPU(134)는 버스(135)를 통해 서로 연결될 수 있다.

CPU(131)는 저장부(170)를 액세스하여, 저장부(170)에 저장된 OS를 이용하여 부팅을 수행한다. 또한 CPU(131)는 저장부(170)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.

GPU(134)는 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 디스플레이 화면을 생성한다. 구체적으로, GPU(134)는 수신된 제어 명령에 기초하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산하고, 연상된 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 디스플레이 화면을 생성한다.

ROM(132)은 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, CPU(131)는 ROM(132)에 저장된 명령어에 따라 저장부(170)에 저장된 OS를 RAM(133)에 복사하고, OS를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU(131)는 저장부(170)에 저장된 각종 프로그램을 RAM(133)에 복사하고, RAM(133)에 복사된 프로그램을 실행시켜 각종 동작을 수행한다.

이 같은 프로세서(130)는 전술한 각 구성들과 결합되어 단일칩 시스템(System-on-a-chip 또는 System on chip, SOC, SoC)으로 구현될 수 있다.

도 3은 본 발명의 일 실시예에 따른 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성하기 위한 각종 모듈을 저장하는 저장부의 블록도이다.

도 3에 도시된 바와 같이, 저장부(170)는 화면 분석 모듈(171), 키워드 추출 모듈(172), 영상 프레임 선택 모듈(173), 디스크립션 정보 생성 모듈(174) 및 음성 인식 모듈(175)을 포함할 수 있다.

키워드 추출 모듈(172)은 멀티미디어 컨텐츠와 관련된 정보에 포함된 키워드를 추출하기 위한 모듈이다. 여기서, 멀티미디어 컨텐츠와 관련된 정보는 멀티미디 컨텐츠에 대한 EPG 정보, 해당 멀티미디어 컨텐츠와 관련된 웹 정보 및 SNS 정보와, 멀티미디어 컨텐츠와 관련하여 전자 장치(100)에 저장된 메타 데이터 중 적어도 하나를 포함할 수 있다.

구체적으로, 키워드 추출 모듈(172)은 멀티미디어 컨텐츠에 대한 EPG 정보에 포함된 텍스트, 멀티미디어 컨텐츠와 관련된 웹 정보 및 SNS에 포함된 텍스트 및 멀티미디어 컨텐츠와 관련하여 전자 장치(100)에 저장된 메타 데이터에 포함된 텍스트를 분석하여 핵심이 되는 키워드를 추출한다.

영상 프레임 선택 모듈(173)은 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임 중 키워드 추출 모듈(172)을 통해 추출된 키워드와 연관된 오브젝트를 포함하는 영상 프레임을 선택하는 모듈이다.

디스크립션 정보 생성 모듈(174)은 영상 프레임 선택 모듈(173)을 통해 선택된 적어도 하나의 영상 프레임 각각에 대한 디스크립션 정보를 생성하고, 생성된 디스크립션 정보에 기초하여 멀티미디어 컨텐츠에 대한 전체 디스크립션 정보를 획득하는 모듈이다.

구체적으로, 디스크립션 정보 생성 모듈(174)은 오브젝트 인식을 위한 인공지능 모델에 기선택된 적어도 하나의 영상 프레임 및 멀티미디어 컨텐츠와 관련된 정보로부터 추출된 키워드를 입력하여 기선택된 적어도 하나의 영상 프레임 각각에 대한 디스크립션 정보를 생성한다.

이후, 디스크립션 정보 생성 모듈(174)은 적어도 하나의 영상 프레임 각각에 대한 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 연관된 적어도 하나의 텍스트를 결합하여 멀티미디어 컨텐츠에 대한 관계 그래프를 나타내는 디스크립션 정보를 획득할 수 있다. 화면 분석 모듈(171)은 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임을 분석하여 화면 전환이 발생한 시점의 영상 프레임을 선택하는 모듈이다.

구체적으로, 화면 분석 모듈(171)은 화면 전환 분석 알고리즘을 이용하여 복수의 영상 프레임 중 화면 전환이 이루어진 시점의 영상 프레임을 판단하고, 판단된 영상 프레임을 대표 프레임으로 결정한다.

멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임으로부터 적어도 하나의 대표 프레임이 결정되면, 화면 분석 모듈(171)은 결정된 적어도 하나의 대표 프레임과, 적어도 하나의 대표 프레임과 연관된 영상 프레임을 동일 구간으로 분류한다.

구체적으로, 화면 분석 모듈(171)은 컨텐츠를 구성하는 복수의 영상 프레임 중 적어도 하나의 영상 프레임이 대표 프레임으로 결정되면, 기결정된 대표 프레임 중 제1 대표 프레임과, 제1 대표 프레임 이후 연속된 영상 프레임들 중 제2 대표 프레임 이전의 영상 프레임까지의 구간을 동일 구간으로 판단할 수 있다.

이 경우, 영상 프레임 결정 모듈(173)은 화면 분석 모듈(171)을 통해 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임으로부터 결정된 대표 프레임 중 적어도 하나의 대표 프레임을 키 프레임으로 결정할 수 있다.

구체적으로, 영상 프레임 결정 모듈(173)은 기결정된 적어도 하나의 대표 프레임 중 키워드 추출 모듈(172)을 통해 추출된 키워드와 연관된 대표 프레임을 키 프레임으로 결정한다.

예를 들어, 멀티미디어 컨텐츠로부터 3 개의 대표 프레임(이하 제1 내지 제3 대표 프레임이라 함)이 결정되고, 해당 멀티미디어 컨텐츠와 관련하여 'xxx'의 키워드가 추출될 수 있다. 이 경우, 영상 프레임 결정 모듈(173)은 기결정된 제1 내지 제3 대표 프레임 중 'xxx'의 키워드와 연관된 대표 프레임을 키 프레임으로 결정할 수 있다.

영상 프레임 결정 모듈(173)을 통해 키 프레임이 결정되면, 요약 정보 생성 모듈(174)은 키 프레임으로 결정된 대표 프레임을 포함하는 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 생성하고, 생성된 디스크립션 정보에 기초하여 멀티미디어 컨텐츠의 전체에 대한 디스크립션 정보를 생성할 수 있다.

예를 들어, 멀티미디어 컨텐츠를 구성하는 복수의 구간 중 제1 및 제2 구간이 키 프레임으로 결정된 대표 프레임을 포함할 수 있다.

이 경우, 멀티미디어 정보 생성 모듈(174)은 오브젝트 인식을 위한 인공지능 모델에 멀티미디어 컨텐츠와 관련하여 추출된 키워드 및 제1 구간에 포함된 영상 프레임 각각을 입력하여 제1 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 획득한다.

또한, 디스크립션 정보 생성 모듈(174)은 오브젝트 인식을 위한 인공지능 모델에 해당 멀티미디어 컨텐츠와 관련하여 추출된 키워드 및 제2 구간에 포함된 영상 프레임 각각을 입력하여 제2 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 획득한다.

이후, 디스크립션정보 생성 모듈(174)은 제1 및 제2 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 결합하여 해당 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성할 수 있다.

구체적으로, 디스크립션 정보 생성 모듈(174)은 제1 구간에 포함된 영상 프레임별 요약 정보에 포함된 복수의 텍스트 및 제2 구간에 포함된 영상 프레임별 요약 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 연관된 적어도 하나의 텍스트를 결합하여 해당 멀티미디어 컨텐츠에 대한 관계 그래프를 나타내는 디스크립션 정보를 생성할 수 있다.

음성 인식 모듈(175)은 입력부(110)를 통해 사용자 명령이 입력되면, 입력된 사용자 명령을 전자 장치(100)에서 인식할 수 있는 언어로 변환한다.

여기서, 사용자 명령은 사용자의 발화 음성 명령이 될 수 있다.

따라서, 음성 인식 모듈(175)은 사용자의 발화 음성 명령이 입력되면, STT(Speech to Text) 알고리즘을 이용하여 입력된 발화 음성 명령을 텍스트로 변환하고, 텍스트로 변환된 발화 음성을 분석하여 사용자의 발화 의도를 파악할 수 있다.

이 같은 사용자의 발화 음성을 인식하는 동작은 하기에서 보다 상세히 설명하도록 한다.

한편, 프로세서(130)는 전술한 바와 같이, 저장부(170)에 저장된 각종 모듈을 이용하여 기획득한 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성하고, 사용자 명령이 입력되면, 입력된 사용자 명령을 인식하여 기생성된 멀티미디어 컨텐츠에 대한 디스크립션 정보로부터 사용자 명령과 관련된 장면 컨텐츠를 출력하도록 출력부(120)를 제어할 수 있다.

지금까지, 본 발명에 따른 전자 장치(100)에서 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성하고, 생성된 멀티미디어 컨텐츠에 대한 디스크립션 정보에 기초하여 사용자 명령과 관련된 장면 컨텐츠를 제공하기 위한 구성 및 동작에 대해서 상세히 설명하였다.

이하에서는, 본 발명에 따른 전자 장치(100)에서 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성하고, 생성된 멀티미디어 컨텐츠에 대한 디스크립션 정보에 기초하여 사용자 명령과 관련된 장면 컨텐츠를 제공하기 위한 방법에 대해서 상세히 설명하도록 한다.

도 4는 본 발명의 일 실시예에 따른 전자 장치에서 사용자 명령과 연관된 장면 컨텐츠를 제공하는 방법의 흐름도이다.

도 4에 도시된 바와 같이, 전자 장치(100)는 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠 및 멀티미디어 컨텐츠와 관련된 정보를 획득한다(S410,S420).

여기서, 멀티미디어 컨텐츠와 관련된 정보는 해당 멀티미디어 컨텐츠에 대한 EPG(Electronic Program Guid) 정보, 멀티미디어 컨텐츠와 관련된 웹 정보 및 SNS(Social Network Service) 정보와, 멀티미디어 컨텐츠와 관련하여 전자 장치(100)에 저장된 메타 데이터 중 적어도 하나를 포함할 수 있다.

이후, 전자 장치(100)는 복수의 영상 프레임 중 기획득한 정보와 관련된 적어도 하나의 영상 프레임을 선택한다(S430). 이후 전자 장치(100)는 기획득한 정보에 기초하여 선택된 적어도 하나의 영상 프레임에 대한 디스크립션 정보를 생성한다(S440). 이후, 전자 장치(100)는 선택된 적어도 하나의 영상 프레임과 관련하여 생성된 디스크립션 정보를 바탕으로 기획득한 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득한다.(S450).

구체적으로, 전술한 단계 S430에서 전자 장치(100)는 다음과 같은 실시예를 통해 복수의 영상 프레임 중 적어도 하나의 영상 프레임을 선택할 수 있다.

일 실시예에 따라, 전자 장치(100)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 오브젝트 중 해당 멀티미디어 컨텐츠와 관련하여 획득된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택할 수 있다.

구체적으로, 전자 장치(100)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임 중 제1 영상 프레임에서 기획득된 정보에 포함된 키워드 중 제1 키워드와 관련된 제1 오브젝트가 검출되면, 제1 영상 프레임을 선택한다.

이후, 전자 장치(100)는 제1 키워드와 관련된 제1 오브젝트를 포함하는 제1 영상 프레임 이후 연속된 제2 영상 프레임에 포함된 오브젝트를 트래킹하여 제1 오브젝트가 있는지 여부를 판단한다. 판단 결과, 제2 영상 프레임에 제1 오브젝트가 검출되면, 전자 장치(100)는 제2 영상 프레임을 선택한다.

한편, 전자 장치(100)는 제2 영상 프레임에서 제1 오브젝트가 검출되지 않으면, 기획득한 정보에 포함된 키워드 중 제2 키워드와 관련된 제2 오브젝트가 제2 영상 프레임에 존재하는지 여부에 따라 제2 영상 프레임을 선택할 수 있다.

이후, 전자 장치(100)는 오브젝트 인식을 위한 인공지능 모델에 기선택된 적어도 하나의 영상 프레임 중 제1 영상 프레임 및 기획득한 정보에 포함된 키워드를 입력하여 제1 영상 프레임에 대한 디스크립션 정보를 생성한다.

또한, 전자 장치(100)는 인공지능 모델에 기선택된 적어도 하나의 영상 프레임 중 제2 영상 프레임 및 기획득한 정보에 포함된 키워드를 입력하여 제2 영상 프레임에 대한 디스크립션 정보를 생성한다.

이 같이, 제1 및 제2 영상 프레임 각각에 대한 디스크립션 정보가 생성되면, 전자 장치(100)는 각각의 디스크립션 정보에 포함된 텍스트에 기초하여 멀티미디어 컨텐츠에 대한 관계 그래프를 생성한다.

구체적으로, 전자 장치(100)는 제1 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 및 제2 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 연관된 적어도 하나의 텍스트를 결합하여 멀티미디어 컨텐츠에 대한 관계 그래프를 생성하고, 생성된 관계 그래프를 멀티미디어 컨텐츠에 대한 디스크립션 정보로 획득할 수 있다.

또다른 실시예에 따라, 전자 장치(100)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임 각각을 분석하여 화면 전환이 발생한 시점의 영상 프레임을 선택한다.

구체적으로, 전자 장치(100)는 화면 전환 분석 알고리즘을 이용하여 기획득한 멀티미디어 컨텐츠의 화면 전환을 분석하여 복수의 구간 각각에 대한 복수의 대표 프레임을 결정한다.

화면 전환 분석 알고리즘은 복수의 영상 프레임 각각을 분석하여 화면 전환 발생 여부를 판단하기 위한 알고리즘으로써, 이 같은 화면 전환 분석 알고리즘은 공지된 기술이므로 본 발명에서는 상세한 설명을 생략하도록 한다.

이후, 전자 장치(100)는 기결정된 복수의 대표 프레임 중 해당 멀티미디어 컨텐츠와 관련하여 기획득한 정보에 포함된 키워드와 관련된 오브젝트를 포함하는 적어도 하나의 대표 프레임을 키 프레임으로 결정하고, 키 프레임으로 결정된 영상 프레임을 포함하는 구간 내 포함된 영상 프레임을 선택할 수 있다.

복수의 구간 각각에 대한 복수의 대표 프레임이 결정되면, 전자 장치(100)는 기획득한 멀티미디어 컨텐츠와 관련하여 획득된 정보에 포함된 키워드에 기초하여 복수의 대표 프레임 중 적어도 하나의 대표 프레임을 키 프레임으로 결정한다.

전술한 바와 같이, 전자 장치(100)는 오브젝트 인식 알고리즘을 이용하여 복수의 대표 프레임 중 멀티미디어 컨텐츠와 관련하여 획득된 정보에 포함된 키워드와 연관된 오브젝트를 포함하는 적어도 하나의 대표 프레임을 선택하고, 선택된 적어도 하나의 대표 프레임을 키 프레임으로 결정할 수 있다.

멀티미디어 컨텐츠를 구성하는 복수의 구간 중 적어도 하나의 구간에 대응되는 키 프레임이 결정되면, 전자 장치(100)는 키 프레임에 해당하는 영상 프레임을 포함하는 적어도 하나의 구간에 대한 디스크립션 정보를 생성할 수 있다.

구체적으로, 전자 장치(100)는 키 프레임에 해당하는 영상 프레임을 포함하는 적어도 하나의 구간 중 제1 구간에 포함된 영상 프레임 각각과, 기획득된 정보에 포함된 키워드를 오브젝트 인식을 위한 인공지능 모델에 입력하여 제1 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 생성한다. 이후, 전자 장치(100)는 제1 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 결합하여 제1 구간의 디스크립션 정보를 획득한다.

마찬가지로, 전자 장치(100)는 키 프레임에 해당하는 영상 프레임을 포함하는 적어도 하나의 구간 중 제2 구간에 포함된 영상 프레임 각각과, 기획득된 정보에 포함된 키워드를 오브젝트 인식을 위한 인공지능 모델에 입력하여 제2 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 획득한다. 이후, 전자 장치(100)는 제2 구간에 포함된 영상 프레임 각각에 대한 디스크립션 정보를 결합하여 제2 구간의 디스크립션 정보를 획득한다.

이후, 전자 장치(100)는 제1 구간의 디스크립션 정보에 포함된 복수의 텍스트 및 제2 구간의 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 연관된 적어도 하나의 텍스트를 결합하여 해당 멀티미디어 컨텐츠에 대한 관계 그래프를 생성한다. 따라서, 전자 장치(100)는 제1 및 제2 구간의 디스크립션 정보에 기초하여 생성된 멀티미디어 컨텐츠에 대한 관계 그래프를 해당 멀티미디어 컨텐츠의 디스크립션 정보로 획득할 수 있다.

이 같은 일련의 수행 동작을 통해 멀티미디어 컨텐츠에 대한 디스크립션 정보가 생성된 상태에서 해당 멀티미디어 컨텐츠에 대한 사용자 명령이 수신되면, 전자 장치(100)는 멀티미디어 컨텐츠에 대한 디스크립션 정보에 기초하여 사용자 명령과 연관된 장면 컨텐츠를 생성하고, 생성된 장면 컨텐츠를 출력한다(S460,S470).

도 5는 본 발명의 또다른 실시예에 따른 전자 장치에서 인공지능 서버와 연동하여 사용자 명령과 연관된 장면 컨텐츠를 제공하는 방법의 흐름도이다.

도 5에 도시된 바와 같이, 인공지능 서버(200)는 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠 및 멀티미디어 컨텐츠와 관련된 정보를 획득한다(S510,S515).

이후, 인공지능 서버(200)는 획득한 정보에 포함된 키워드를 이용하여 복수의 영상 프레임 중 적어도 하나의 영상 프레임을 선택한다(S520).

그러나, 본 발명은 이에 한정되지 않으며, 인공지능 서버(200)는 전자 장치(100)로부터 디스크립션 정보 생성을 위한 요청 정보가 수신되면, 수신된 요청 정보에 대응하는 멀티미디어 컨텐츠 및 해당 멀티미디어 컨텐츠와 관련된 정보를 외부 서버(미도시) 및 전자 장치(100) 중 적어도 하나로부터 수신한다. 이후, 인공지능 서버(200)는 멀티미디어 컨텐츠에 대한 정보에 포함된 키워드에 기초하여 멀티미디어 컨텐츠에 포함된 복수의 영상 프레임 중 적어도 하나의 영상 프레임을 선택할 수 있다.

이후, 인공지능 서버(200)는 선택된 적어도 하나의 영상 프레임에 대한 디스크립션 정보를 생성하고, 생성된 적어도 하나의 영상 프레임에 대한 디스크립션 정보를 이용하여 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득한다(S525,S530).멀티미디어 컨텐츠와 관련된 정보는 멀티미디어 컨텐츠에 대한 EPG(Electronic Program Guid) 정보, 해당 멀티미디어 컨텐츠와 관련된 웹 정보 및 SNS(Social Network Service) 정보와, 해당 멀티미디어 컨텐츠와 관련하여 전자 장치(100)에 저장된 메타 데이터 중 적어도 하나를 포함할 수 있다.

한편, 인공지능 서버(200)에서 전술한 단계 S520 내지 단계 S530를 통해 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 방법은 도 4의 전자 장치(100)에서 수행되는 방법과 동일하므로 상세한 설명을 생략하도록 한다.

한편, 전자 장치(100)는 멀티미디어 컨텐츠에 대한 사용자 명령이 전자 장치(100) 내에 구비된 마이크(111)를 통해 입력되면, 해당 사용자 명령을 텍스트로 변환하여 인공지능 서버(200)로 전송한다(S535,S540).

인공지능 서버(200)는 전자 장치(10)로부터 멀티미디어 컨텐츠에 대한 사용자 명령으로부터 변환된 텍스트가 수신되면, 수신된 텍스트와 사용자가 요청한 멀티미디어 컨텐츠에 대한 디스크립션 정보에 포함된 텍스트를 비교하여 사용자 명령과 연관된 장면 컨텐츠를 생성하고, 생성된 장면 컨텐츠를 전자 장치(100)로 전송한다(S545,S550).

이에 따라, 전자 장치(100)는 인공지능 서버(200)로부터 수신된 사용자 명령과 연관된 장면 컨텐츠를 영상 및 오디오 데이터 중 적어도 하나의 형태로 출력한다(S560).

도 6은 본 발명의 또다른 실시예에 따른 전자 장치에서 전자 장치를 제어하는 음성인식장치와 연동하여 사용자 명령과 연관된 장면 컨텐츠를 제공하는 방법의 흐름도이다.

도 6에 도시된 바와 같이, 음성인식장치(400)는 사용자 음성 명령을 입력받고, 입력된 사용자 음성 명령에 대응하는 제어 명령을 전송하여 전자 장치(100)의 동작을 제어하는 제어 장치가 될 수 있다. 이 같은 음성인식장치(400)는 원격제어장치이거나 AI 스피커 등이 될 수 있다.

이 같은 음성인식장치(400)와 연동하는 전자 장치(100)는 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠 및 멀티미디어 컨텐츠와 관련된 정보를 획득한다(S610,S615).

이후, 전자 장치(100)는 획득한 정보에 포함된 키워드를 이용하여 복수의 영상 프레임 중 적어도 하나의 영상 프레임을 선택한다(S520).

그러나, 본 발명은 이에 한정되지 않으며, 전자 장치(100)는 음성인식장치(400)로부터 디스크립션 정보 생성을 위한 요청 정보가 수신되면, 수신된 요청 정보에 대응하는 멀티미디어 컨텐츠 및 해당 멀티미디어 컨텐츠와 관련된 정보를 외부 서버(미도시)로부터 수신하거나 혹은 전자 장치(100) 내에 기저장된 복수의 데이터들로부터 획득할 수 있다. 이후, 전자 장치(100)는 획득된 멀티미디어 컨텐츠에 대한 정보에 포함된 키워드에 기초하여 해당 멀티미디어 컨텐츠에 포함된 복수의 영상 프레임 중 적어도 하나의 영상 프레임을 선택할 수 있다.

이후, 전자 장치(100)는 선택된 적어도 하나의 영상 프레임에 대한 디스크립션 정보를 생성하고, 생성된 적어도 하나의 영상 프레임에 대한 디스크립션 정보를 이용하여 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득한다(S625,S630).

여기서, 멀티미디어 컨텐츠와 관련된 정보는 멀티미디어 컨텐츠에 대한 EPG(Electronic Program Guid) 정보, 해당 멀티미디어 컨텐츠와 관련된 웹 정보 및 SNS(Social Network Service) 정보와, 해당 멀티미디어 컨텐츠와 관련하여 전자 장치(100)에 저장된 메타 데이터 중 적어도 하나를 포함할 수 있다.

한편, 전자 장치(100)에서 전술한 단계 S620 내지 단계 S630을 통해 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 방법은 도 4에서 상세히 설명하였으므로, 이하에서는 상세한 설명을 생략하도록 한다.

한편, 음성인식장치(400)는 멀티미디어 컨텐츠에 대한 사용자 명령이 입력되면, 입력된 사용자 명령을 텍스트로 변환하여 전자 장치(100)로 전송한다(S635,640). 여기서, 사용자 명령을 사용자의 발화 음성 명령이 될 수 있다.

전자 장치(100)는 음성인식장치(400)로부터 멀티미디어 컨텐츠에 대한 사용자 명령으로부터 변환된 텍스트가 수신되면, 수신된 텍스트와 사용자가 요청한 멀티미디어 컨텐츠에 대한 디스크립션 정보에 포함된 텍스트를 비교하여 사용자 명령과 연관된 장면 컨텐츠를 생성하고, 생성된 장면 컨텐츠를 출력한다 (S645,S650).

이하에서는, 본 발명에 따른 전자 장치(100)는 멀티미디어 컨텐츠에 포함된 복수의 영상 프레임 중 선택된 영상 프레임에 대한 디스크립션 정보를 생성하는 동작에 대해서 상세히 설명하도록 한다.

도 7은 본 발명의 일 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠와 관련된 정보에 기초하여 멀티미디어 컨텐츠에 포함된 복수의 영상 프레임 중 제1 영상 프레임에 포함된 오브젝트를 검출하는 예시도이며, 도 8은 본 발명의 일 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠와 관련된 정보에 기초하여 제1 영상 프레임에 대한 디스크립션 정보를 생성하는 예시도이다.

도 7에 도시된 바와 같이, 전자 장치(100)는 멀티미디어 컨텐츠와 관련된 정보에 포함된 키워드를 이용하여 멀티미디어 컨텐츠에 포함된 복수의 영상 프레임 중 제1 영상 프레임(700)에 포함된 복수의 오브젝트를 검출할 수 있다.

예를 들어, 멀티미디어 컨텐츠는 해변가에서 다양한 익스트림 스포츠를 즐기는 사람에 대한 장면 및 각 장면을 묘사하는 텍스트 정보를 포함할 수 있다.

이 경우, 전자 장치(100)는 해당 멀티미디어 컨텐츠와 관련된 텍스트 정보로부터 복수의 키워드를 추출하고, 추출된 키워드를 이용하여 해당 멀티미디어 컨텐츠에 포함된 복수의 영상 프레임 중 제1 영상 프레임(700)에 포함된 복수의 오브젝트를 검출할 수 있다.

도시된 바와 같이, 전자 장치(100)는 해당 멀티미디어 컨텐츠와 관련된 텍스트 정보로부터 추출된 키워드에 기초하여 제1 영상 프레임(700)에 포함된 오브젝트 중 제1 키워드(710)인 "man"와 관련된 제1 오브젝트, 제2 키워드(720)인 "surfboard"와 관련된 제2 오브젝트 및 제3 키워드(740)인 "wave"와 관련된 제3 오브젝트를 검출할 수 있다.

또한, 전자 장치(100)는 해당 멀티미디어 컨텐츠와 관련된 텍스트 정보로부터 추출된 키워드 중 기검출된 제1 및 제2 오브젝트 간의 연관 관계를 나타내는 제4 키워드(730)인 "holding" 및 제1 및 제3 오브젝트 간의 연관 관계를 나타내는 제5 키워드(750)인 "on"을 획득할 수 있다.

이 같이, 제1 영상 프레임(700)으로부터 제1 내지 제3 키워드(710,720,740) 각각에 대한 제1 내지 제3 오브젝트 및 제1 내지 제3 오브젝트 간의 연관 관계를 나타내는 제4 및 제5 키워드(730,750)가 획득되면, 전자 장치(100)는 제1 내지 제5 키워드(710~750)를 이용하여 관계 그래프를 생성한다.

구체적으로, 전자 장치(100)는 제1, 제3 및 제5 키워드(710,740,750)를 이용하여 제1 및 제3 오브젝트를 묘사하는 관계 그래프(이하 제1 관계 그래프라 함)를 생성하고, 제1, 제2 및 제4 키워드(710,720,730)를 이용하여 제1 및 제2 오브젝트를 묘사하는 관계 그래프(이하 제2 관계 그래프라 함)를 생성할 수 있다.

보다 구체적으로, 도 8에 도시된 바와 같이, 전자 장치(100)는 제1 및 제3 오브젝트를 묘사하는 제1 관계 그래프의 제1 노드(710')에 제1 키워드(710)인 "man"을 배치하고, 제3 노드(740')에 제3 키워드(740)인 "wave"를 배치한다.

그리고, 전자 장치(100)는 제1 관계 그래프의 제1 및 제3 노드(710',740') 사이에 위치하는 제2 노드(750')에 제1 및 제3 노드(710',740')에 각각 배치된 "man"과 "wave"를 연결하는 제5 키워드(750)인 "on"을 배치한다.

따라서, 전자 장치(100)는 제1 및 제3 오브젝트를 묘사하는 제1 관계 그래프를 생성할 수 있다.

그리고, 전자 장치(100)는 제1 및 제2 오브젝트를 묘사하는 제2 관계 그래프의 제1 노드(710')에 제1 키워드(710)인 "man"을 배치하고, 제3 노드(720')에 제2 키워드(720)인 "surfbord"를 배치한다.

그리고, 전자 장치(100)는 제2 관계 그래프의 제1 및 제3 노드(710',720') 사이에 위치하는 제2 노드(730')에 제1 및 제3 노드(710',720')에 각각 배치된 "man"과 "surfbord"를 연결하는 제4 키워드(730)인 "holding"을 배치한다.

따라서, 전자 장치(100)는 제1 및 제2 오브젝트를 묘사하는 제2 관계 그래프를 생성할 수 있다.

이 같이, 제1 및 제3 오브젝트를 묘사하는 제1 관계 그래프와, 제1 및 제2 오브젝트를 묘사하는 제2 관계 그래프가 생성되면, 전자 장치(100)는 제1 및 제2 관계 그래프 각각을 구성하는 노드 상에 포함된 키워드를 이용하여 연관된 키워드를 포함하는 노드를 연결하여 제1 영상 프레임(700)에 대한 관계 그래프를 생성할 수 있다.

도시된 바와 같이, 제1 및 제2 관계 그래프를 구성하는 제1 노드(710')는 동일한 키워드를 포함할 수 있다.

이 경우, 전자 장치(100)는 제1 및 제2 관계 그래프를 구성하는 각각의 노드 중 제1 노드(710')를 공통 노드로 처리하고, 공통 노드로 처리된 제1 노드(710')에 제1 및 제2 관계 그래프를 구성하는 나머지 노드들을 각각을 연결하여 제1 영상 프레임(700)에 포함된 제1 내지 제3 오브젝트를 묘사하는 관계 그래프를 생성할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 전자 장치(100)는 제1 및 제2 관계 그래프를 구성하는 각각의 노드 중 제1 노드(710')를 서로 연관되도록 처리하여 제1 영상 프레임(700)에 포함된 제1 내지 제3 오브젝트를 묘사하는 관계 그래프를 생성할 수 있다.

한편, 전자 장치(100)는 상술한 실시예를 통해 멀티미디어 컨텐츠에 포함된 복수의 영상 프레임 중 적어도 하나의 영상 프레임에 대한 관계 그래프가 생성되면, 적어도 하나의 영상 프레임별로 생성된 관계 그래프에 포함된 텍스트에 기초하여 해당 멀티미디어 컨텐츠에 대한 전체 관계 그래프를 생성할 수 있다.

따라서, 전자 장치(100)는 멀티미디어 컨텐츠와 관련하여 생성된 전체 관계 그래프를 멀티미디어 컨텐츠에 대한 디스크립션 정보로 획득할 수 있다.

이하에서는, 본 발명에 따른 전자 장치(100)에서 획득한 멀티미디어 컨텐츠에 대한 디스크립션 정보 생성 및 생성된 멀티미디어 컨텐츠에 대한 디스크립션 정보에 기초하여 사용자 명령과 연관된 장면 컨텐츠를 제공하는 동작에 대해서 보다 상세히 설명하도록 한다.

도 9a 내지 도 9b는 본 발명의 일 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성하는 예시도이다.

도 9a에 도시된 바와 같이, 전자 장치(100)는 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠(900) 및 멀티미디어 컨텐츠(900)와 관련된 정보에 포함된 복수의 키워드(10)를 획득한다.

이후, 전자 장치(100)는 멀티미디어 컨텐츠(900)에 포함된 복수의 영상 프레임 중 획득된 키워드(10)와 관련된 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택한다.

도시된 바와 같이, 전자 장치(100)는 멀티미디어 컨텐츠(900)에 포함된 복수의 영상 프레임 중 획득된 키워드(10)와 관련된 오브젝트를 포함하는 영상 프레임(이하 제1 내지 제6 영상 프레임이라 함)(910~960)을 선택할 수 있다.

예를 들어, 제2 영상 프레임(920)에 획득된 키워드(10) 중 "aaa 선수"와 관련된 제1 오브젝트를 포함할 수 있다. 이 경우, 전자 장치(100)는 제2 영상 프레임(920)을 선택한다. 이후, 전자 장치(100)는 제2 영상 프레임(920) 이후 연속된 영상 프레임 내 포함된 오브젝트를 트래킹 하여 제2 영상 프레임(920)에 포함된 제1 오브젝트가 있는지 여부를 판단한다. 판단 결과, 제2 영상 프레임(920) 이후 연속된 제3 내지 제5 영상 프레임(930~950)에 제1 오브젝트가 검출되면, 전자 장치(100)는 제3 내지 제5 영상 프레임(930~950)를 선택한다.

한편, 제5 영상 프레임(950) 이후 연속된 제6 영상 프레임(960)은 제1 오브젝트를 포함하지 않고, 획득된 키워드(10) 중 "패널티킥"과 관련된 제2 오브젝트를 포함할 수 있다.

이 경우, 전자 장치(100)는 "패널티킥"과 관련된 제2 오브젝트를 포함하는 제6 영상 프레임(960)을 선택한다. 이후, 전자 장치(100)는 제6 영상 프레임(960) 이후 연속된 영상 프레임 내 포함된 오브젝트를 트래킹 하여 제2 오브젝트가 있는지 여부를 판단한다. 판단 결과, 제6 영상 프레임(960) 이후 연속된 영상 프레임 내 제2 오브젝트가 검출되지 않으면, 전자 장치(100)는 제6 영상 프레임(960) 이후 연속된 영상 프레임에 획득된 키워드(10) 중 "패널티킥"을 제외한 나머지 키워드와 관련된 오브젝트를 포함하는지 여부를 판단한다.

판단 결과, 제6 영상 프레임(960) 이후 연속된 영상 프레임에 획득된 키워드(10) 중 "패널티킥"을 제외한 나머지 키워드와 관련된 오브젝트를 포함하지 않는 것으로 판단되면, 전자 장치(100)는 제6 영상 프레임(960) 이후 연속된 영상 프레임을 선택하지 않는다.

이 같은 예를 통해, 전자 장치(100)는 멀티미디어 컨텐츠(900)에 포함된 복수의 영상 프레임 중 획득된 정보에 포함된 키워드와 관련된 제1 내지 제6 영상 프레임(910~960)을 선택할 수 있다.

키워드(10)와 관련된 오브젝트를 포함하는 제1 내지 제6 영상 프레임(910~960)이 선택되면, 전자 장치(100)는 해당 키워드(10)를 이용하여 복수의 영상 프레임 중 기선택된 제1 내지 제6 영상 프레임(910~960) 각각에 대한 디스크립션 정보를 생성한다.

선택된 제1 내지 제6 영상 프레임(910~960) 각각에 대한 디스크립션 정보를 생성하는 동작은 도 7 및 도 8을 통해 상세히 설명하였으므로, 이하에서는 상세한 설명을 생략하도록 한다.

제1 내지 제6 영상 프레임(910~960) 각각에 대한 디스크립션 정보가 생성되면, 전자 장치(100)는 제1 내지 제6 영상 프레임(910~960) 각각에 대한 디스크립션 정보에 포함된 텍스트를 비교하여 연관된 텍스트를 결합한다.

여기서, 제1 내지 제6 영상 프레임(910~960) 각각에 대한 디스크립션 정보는 제1 내지 제6 영상 프레임(910~960) 각각에 포함된 오브젝트를 묘사하는 복수의 텍스트들을 관계 그래프 형식으로 나타낸 정보이다.

따라서, 전자 장치(100)는 제1 내지 제6 영상 프레임(910~960) 각각에 대한 관계 그래프를 구성하는 복수의 텍스트들을 비교하여 관련된 텍스트를 결합하여 멀티미디어 컨텐츠(900)에 대한 전체 관계 그래프를 생성한다.

예를 들어, 도 9b에 도시된 바와 같이, 기선택된 제1 내지 제6 영상 프레임(910~960) 중 제4 및 제5 영상 프레임(940,950) 각각에는 "aaa 선수" 키워드와 관련된 제1 오브젝트(940-1,950-1)를 포함할 수 있다.

이 경우, 전자 장치(100)는 제4 영상 프레임(940)에 대한 관계 그래프(940')를 구성하는 복수의 텍스트 및 제5 영상 프레임(940,950)에 대한 관계 그래프(950')를 구성하는 복수의 텍스트 중 연관된 "aaa 선수"에 대한 텍스트를 결합한다.

즉, 전자 장치(100)는 제4 영상 프레임(940)에 대한 관계 그래프(940')를 구성하는 복수의 텍스트 중 "aaa 선수"에 대한 텍스트가 위치하는 a 노드와 제5 영상 프레임(950)에 대한 관계 그래프(950')를 구성하는 복수의 텍스트 중 "aaa 선수"에 대한 텍스트가 위치하는 b 노드를 연결한다.

이 같은 예를 통해, 전자 장치(100)는 제1 내지 제6 영상 프레임(910~960) 각각에 대한 관계 그래프를 구성하는 복수의 텍스트 중 서로 연관된 텍스트가 위치하는 노드를 연결한다.

따라서, 전자 장치(100)는 멀티미디어 컨텐츠(900)에 대한 전체 관계 그래프를 생성할 수 있으며, 이 같은 멀티미디어 컨텐츠(900)에 대한 전체 관계 그래프를 해당 멀티미디어 컨텐츠(900)에 대한 디스크립션 정보로 획득할 수 있다.

도 10a 및 도 10b는 본 발명의 또다른 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠에 대한 디스크립션 정보를 생성하는 예시도이다.

도 9에서 설명한 바와 같이, 전자 장치(100)는 복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠(900) 및 멀티미디어 컨텐츠(900)와 관련된 정보에 포함된 복수의 키워드(10)를 획득한다.

이 같은 멀티미디어 컨텐츠(900) 및 멀티미디어 컨텐츠(900)와 관련된 복수의 키워드(10)가 획득되면, 전자 장치(100)는 획득된 멀티미디어 컨텐츠(900)에 포함된 복수의 영상 프레임을 분석하여 화면 전환이 발생한 영상 프레임을 대표 프레임으로 결정한다.

구체적으로, 도 10a에 도시된 바와 같이, 전자 장치(100)는 멀티미디어 컨텐츠(900)에 포함된 복수의 영상 프레임 중 시작 프레임인 제1 영상 프레임(1010)을 제1 대표 프레임으로 결정할 수 있다. 이후, 전자 장치(100)는 제1 영상 프레임(1010) 이후 연속된 영상 프레임에 대한 장면 분석을 수행하여 화면 전환이 발생한 영상 프레임이 있는지 여부를 판단한다.

도시된 바와 같이, 제1 영상 프레임(1010) 이후 연속된 영상 프레임들 중 제2 영상 프레임(1020)이 화면 전환이 발생한 영상 프레임인 것으로 판단되면, 전자 장치(100)는 화면 전환이 발생한 것으로 판단된 제2 영상 프레임(1020)을 제2 대표 프레임으로 결정할 수 있다.

이 같은 실시예를 통해, 전자 장치(100)는 멀티미디어 컨텐츠(900)를 구성하는 복수의 영상 프레임 중 화면 전환이 발생한 것으로 판단된 제1 내지 제6 영상 프레임(1010~1060)을 각 구간의 대표 프레임으로 결정할 수 있다.

예를 들어, 도 10b에 도시된 바와 같이, 전자 장치(100)는 대표 프레임으로 결정된 제4 영상 프레임(1040)과, 제4 영상 프레임(1040) 이후 연속된 영상 프레임 중 대표 프레임으로 결정된 제5 영상 프레임(1050) 이전의 영상 프레임(1041)을 동일한 구간으로 결정한다.

이 같이 멀티미디어 컨텐츠(900)에 포함된 영상 프레임 중 대표 프레임으로 결정된 제1 내지 제6 영상 프레임(1010~1060)이 각각에 대한 구간이 결정되면, 전자 장치(100)는 기획득된 키워드(10)를 이용하여 대표 프레임으로 결정된 제1 내지 제6 영상 프레임(1010~1060) 중 적어도 하나를 키 프레임을 결정한다.

도시된 바와 같이, 멀티미디어 컨텐츠(900)와 관련된 정보에 포함된 키워드(10)는 "xxx 리그, A팀, B팀, aaa 선수, bbb 선수, 골, 페널티킥, 슛"을 포함할 수 있다.

따라서, 전자 장치(100)는 도 10a에서 설명한 바와 같이 멀티미디어 컨텐츠(900)를 구성하는 복수의 영상 프레임 중 제1 내지 제6 영상 프레임(1010~1060)이 대표 프레임으로 결정되면, 대표 프레임으로 결정된 제1 내지 제6 영상 프레임(1010~1060) 중 멀티미디어 컨텐츠(900)와 관련하여 획득된 키워드(10)와 연관된 영상 프레임을 키 프레임으로 결정한다. 이후, 전자 장치(100)는 키 프레임으로 결정된 영상 프레임을 포함하는 구간에 대한 디스크립션 정보를 생성한다.

예를 들어, 대표 프레임으로 결정된 제1 내지 제6 영상 프레임(1010~1060) 중 제4 및 제5 영상 프레임(1040,1050)이 키 프레임으로 결정될 수 있다. 이 경우, 전자 장치(100)는 키 프레임으로 결정된 제4 영상 프레임(1040) 및 제4 영상 프레임 이후 연속된 영상 프레임(1041)을 포함하는 제1 구간(1040A)에 대한 디스크리션 정보를 생성한다. 또한, 전자 장치(100)는 키 프레임으로 결정된 제5 영상 프레임(1050) 및 제5 영상 프레임 이후 연속된 영상 프레임(1051)을 포함하는 제2 구간(1050A)에 대한 디스크립션 정보를 생성한다.

구체적으로, 전자 장치(100)는 기획득된 키워드(10)를 이용하여 제1 구간(1040A)에 포함된 제4 영상 프레임(1040) 및 연속된 영상 프레임(1041) 각각에 대한 디스크립션 정보를 생성한다. 또한, 전자 장치(100)는 기획득된 키워드(10)를 이용하여 제2 구간(1050A)에 포함된 제5 영상 프레임(1050) 및 연속된 영상 프레임(1051) 각각에 대한 디스크립션 정보를 생성한다.

영상 프레임에 대한 디스크립션 정보를 생성하는 동작은 도 7 및 도 8을 통해 상세히 설명하였으므로, 이하에서는 상세한 설명을 생략하도록 한다.

제1 및 제2 구간(1040A, 1050A) 각각에 포함된 영상 프레임에 대한 디스크립션 정보가 생성되면, 전자 장치(100)는 제1 및 제2 구간(1040A, 1050A) 각각에 포함된 영상 프레임에 대한 디스크립션 정보에 포함된 텍스트에 기초하여 제1 및 제2 구간(1040A, 1050A) 각각에 대한 디스크립션 정보를 생성할 수 있다.

구체적으로, 전자 장치(100)는 제1 구간(1040A)에 포함된 제4 영상 프레임에(1040) 및 연속된 영상 프레임(10401) 각각에 대한 디스크립션 정보에 포함된 텍스트를 비교하여 연관된 텍스트를 결합한다.

여기서, 제4 영상 프레임에(1040) 및 연속된 영상 프레임(10401) 각각에 대한 디스크립션 정보는 제4 영상 프레임에(1040) 및 연속된 영상 프레임(10401) 각각에 포함된 오브젝트를 묘사하는 복수의 텍스트들을 관계 그래프 형식으로 나타낸 정보이다.

따라서, 전자 장치(100)는 제4 영상 프레임에(1040) 및 연속된 영상 프레임(10401) 각각에 대한 관계 그래프를 구성하는 복수의 텍스트들을 비교하여 관련된 텍스트를 결합하여 제1 구간(1040A)에 대한 관계 그래프를 생성할 수 있다.

전술한 실시예를 통해 제1 및 제2 구간(1040A, 1050A)에 대한 관계 그래프가 생성되면, 전자 장치(100)는 제1 및 제2 구간(1040A, 1050A)에 대한 관계 그래프를 이용하여 멀티미디어 컨텐츠(900)에 대한 디스크립션 정보를 획득할 수 있다.

따라서, 전자 장치(100)는 멀티미디어 컨텐츠(900)에 대한 전체 관계 그래프를 생성할 수 있으며, 이 같은 멀티미디어 컨텐츠(900)에 대한 전체 관계 그래프를 해당 멀티미디어 컨텐츠(100)에 대한 디스크립션 정보로 획득할 수 있다.

구체적으로, 전자 장치(100)는 제1 및 제2 구간(1040A, 1050A) 각각에 대한 디스크립션 정보에 포함된 텍스트를 비교하여 연관된 텍스트를 결합하여 멀티미디어 컨텐츠(900)에 대한 디스크립션 정보를 획득할 수 있다.

즉, 전자 장치(100)는 제1 및 제2 구간(1040A, 1050A) 각각에 대한 디스크립션 정보에 포함된 복수의 텍스트들을 비교하여 관련된 텍스트를 결합하여 멀티미디어 컨텐츠(900)에 대한 전체 관계 그래프를 생성하고, 생성된 멀티미디어 컨텐츠(900)에 대한 전체 관계 그래프를 멀티미디어 컨텐츠(900)에 대한 디스크립션 정보로 획득할 수 있다.

도 11a 및 도 11b는 본 발명의 일 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠에 대한 디스크립션 정보에 기초하여 사용자 명령과 연관된 장면 컨텐츠를 제공하는 제1 예시도이다.

전자 장치(100)는 입력부(110)를 통해 사용자 명령(1100)이 입력받을 수 있다. 여기서, 사용자 명령(1100)은 사용자의 발화 음성 명령이 될 수 있다.

사용자 명령(1100)은 입력부(110) 뿐만 아니라, 전술한 바와 같이, 전자 장치(100)를 제어하는 음성인식장치(400)를 통해 수신될 수 있다.

이 같은 사용자 명령(1100)이 입력되면, 전자 장치(100)는 입력된 사용자 명령(1100)에 포함된 텍스트와 사용자가 요청한 멀티미디어 컨텐츠과 관련하여 생성된 디스크립션 정보에 포함된 텍스트를 비교하여 사용자 명령(1100)과 관련된 장면 컨텐츠를 생성하여 출력한다.

구체적으로, 도 11a에 도시된 바와 같이, 전자 장치(100)는 "aaa 선수가 골 넣는 장면 보여줘 "라는 사용자의 제1 발화 음성 명령(1110)을 입력받을 수 있다.

이 같은 사용자의 제1 발화 음성 명령(1110)이 입력되면, 전자 장치(100)는 입력된 제1 발화 음성 명령(1110)으로부터 변환된 텍스트를 획득한다.

이후, 전자 장치(100)는 사용자의 제1 발화 음성 명령(1110)으로부터 변환된 텍스트와 사용자가 요청한 멀티미디어 컨텐츠와 관련하여 생성된 디스크립션 정보를 나타내는 관계 그래프에 포함된 텍스트를 비교한다. 즉, 전자 장치(100)는 사용자의 제1 발화 음성 명령(1110)으로부터 변환된 텍스트와 관계 그래프(1130)를 구성하는 복수의 노드 상에 포함된 텍스트를 비교한다.

이후, 전자 장치(100)는 관계 그래프(1130)를 구성하는 복수의 노드 중 사용자의 제1 발화 음성 명령(1110)으로부터 획득한 텍스트와 연관된 텍스트를 포함하는 노드를 판단한다.

예를 들어, 관계 그래프(1130)를 구성하는 복수의 노드 중 a 노드는 사용자의 제1 발화 음성 명령(1110)으로부터 획득한 텍스트 중 '골' 텍스트와 연관된 텍스트를 포함할 수 있다.

즉, 관계 그래프(1130)를 구성하는 복수의 노드 중 a 노드는 사용자의 제1 발화 음성 명령(1110)으로부터 획득한 "aaa 선수, 골"에 대한 텍스트와 연관된 노드가 될 수 있다.

이 경우, 전자 장치(100)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임 중 a 노드에 대응하는 영상 프레임 및 a 노드에 대응하는 영상 프레임을 포함하는 제1 구간(1110')을 선택한다.

실시예에 따라, 멀티미디어 컨텐츠에 대한 관계 그래프(1130)를 구성하는 각각의 노드는 해당 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 대한 시간 정보를 포함할 수 있다.

따라서, 전자 장치(100)는 제1 발화 음성 명령(1110)으로부터 변환된 텍스트 중 '골' 텍스트와 연관된 텍스트를 포함하는 a 노드에 대한 시간 정보(42:01)에 기초하여 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임 중 a 노드에 포함된 시간 정보(42:01)에 대응하여 출력되는 영상 프레임을 선택한다.

이후, 전자 장치(100)는 선택된 영상 프레임을 포함하는 제1 구간(1110')을 선택하고, 선택된 제1 구간(1110')을 제1 발화 음성 명령(1110)과 연관된 장면 컨텐츠로 생성한다.

이후, 전자 장치(100)는 도 11b에 도시된 바와 같이, 제1 발화 음성 명령(1110)과 관련하여 선택된 제1 구간(1110')에 대한 장면 컨텐츠를 화면상에 출력할 수 있다.

한편, 전자 장치(100)는 "aaa 선수 활약상 보여줘"라는 사용자의 제2 발화 음성 명령(1120)을 입력받을 수 있다.

이 같은 사용자의 제2 발화 음성 명령(1120)이 입력되면, 전자 장치(100)는 입력된 제2 발화 음성 명령(1120)으로부터 변환된 텍스트를 획득한다.

이후, 전자 장치(100)는 사용자의 제2 발화 음성 명령(1120)으로부터 획득한 텍스트와 관계 그래프(1130)를 구성하는 복수의 노드 상에 포함된 텍스트를 비교하여 제2 발화 음성 명령(1120)으로부터 변환된 텍스트와 연관된 텍스트를 포함하는 노드를 판단한다.

예를 들어, 관계 그래프(1130)를 구성하는 복수의 노드 중 b 노드는 사용자의 제2 발화 음성 명령(1130)으로부터 변환된 텍스트 중 '활약상' 텍스트와 연관된 텍스트를 포함할 수 있다.

즉, 관계 그래프(1130)를 구성하는 복수의 노드 중 b 노드는 사용자의 제2 발화 음성 명령(1120)으로부터 획득한 "aaa 선수, 활약상"에 대한 텍스트와 연관된 노드가 될 수 있다.

이 경우, 전자 장치(100)는 제2 발화 음성 명령(1120)으로부터 변환된 텍스트 중 '활약상' 텍스트와 연관된 텍스트를 포함하는 b 노드에 포함된 시간 정보(28:30)에 기초하여 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임 중 b 노드에 포함된 시간 정보(28:30)에 대응하여 출력되는 영상 프레임을 포함하는 제2 구간(1120')을 선택할 수 있다.

이후, 전자 장치(100)는 선택된 제2 구간 (1120')에 포함된 영상 프레임을 제2 발화 음성 명령(1120)과 연관된 장면 컨텐츠로 생성한다. 이후, 전자 장치(100)는 도 11b에 도시된 바와 같이, 제2 발화 음성 명령(1120)과 관련하여 선택된 제2 구간(1120')에 대한 장면 컨텐츠를 화면상에 출력할 수 있다.

도 12는 본 발명의 또다른 실시예에 따른 전자 장치에서 멀티미디어 컨텐츠에 대한 디스크립션 정보에 기초하여 사용자 명령과 연관된 장면 컨텐츠를 제공하는 제2 예시도이다.

도 12에 도시된 바와 같이, 전자 장치(100')는 스마트 폰과 같은 디스플레이 장치가 될 수 있다. 이 같은 전자 장치(100')는 정지영상 및 동영상을 포함하는 갤러리 컨텐츠를 저장할 수 있다. 또한, 전자 장치(100')는 전술한 실시예를 통해 갤러리 컨텐츠와 관련하여 획득된 디스크립션 정보를 저장할 수 있다.

구체적으로, 전자 장치(100')는 사용자 명령에 따라 갤러리 컨텐츠를 디스플레이를 위한 갤러리 어플리케이션을 실행한다. 이 같이, 갤러리 컨텐츠를 디스플레이 하기 위한 갤러리 어플리케이션의 실행 화면이 디스플레이된 상태에서, 전자 장치(100')는 사용자의 발화 음성 명령(1200)을 입력받을 수 있다.

예를 들어, 전자 장치(100')는 "갤러리에서 바로셀로나 여행 사진 보여줘"라는 사용자의 제1 발화 음성 명령(1210)을 입력받을 수 있다.

이 같은 사용자의 제1 발화 음성 명령(1210)이 입력되면, 전자 장치(100')는 입력된 제1 발화 음성 명령(1210)으로부터 변환된 텍스트를 획득한다.

이후, 전자 장치(100')는 사용자의 제1 발화 음성 명령(1210)으로부터 변환된 텍스트와 사용자가 요청한 갤러리 컨텐츠에 대한 디스크립션 정보를 나타내는 관계 그래프(1230)에 포함된 텍스트를 비교한다. 즉, 전자 장치(100')는 사용자의 제1 발화 음성 명령(1210)으로부터 변환된 텍스트와 관계 그래프(1230)를 구성하는 복수의 노드 상에 포함된 텍스트를 비교한다.

이후, 전자 장치(100')는 관계 그래프(1230)를 구성하는 복수의 노드 중 사용자의 제1 발화 음성 명령(1210)으로부터 획득한 텍스트와 연관된 텍스트를 포함하는 노드를 판단한다.

예를 들어, 관계 그래프(1230)를 구성하는 복수의 노드 중 a 노드는 사용자의 제1 발화 음성 명령(1210)으로부터 획득한 텍스트 중 '바로셀로나' 텍스트와 연관된 텍스트를 포함할 수 있다.

이 경우, 전자 장치(100')는 갤러리 컨텐츠에 포함된 정지 영상 및 동영상 중 a 노드에 대응하는 정지 영상 및 동영상(1210')을 선택한다.

실시예에 따라, 갤러리 컨텐츠에 대한 관계 그래프(1130)를 구성하는 각각의 노드는 해당 갤러리 컨텐츠에 포함된 정지 영상 및 동영상이 생성된 시점의 시간 정보를 포함할 수 있다.

따라서, 전자 장치(100')는 제1 발화 음성 명령(1210)으로부터 변환된 텍스트 중 '바로셀로나' 텍스트와 연관된 텍스트를 포함하는 a 노드에 대한 시간 정보에 기초하여 갤러리 컨텐츠에 포함된 정지 영상 및 동영상 중 a 노드에 대응하는 정지 영상 및 동영상을 선택할 수 있다.

이후, 전자 장치(100')는 갤러리 컨텐츠에 포함된 정지 영상 및 동영상 중 a 노드에 대응하는 정지 영상 및 동영상만을 화면상에 출력할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 전자 장치(100')는 갤러리 컨텐츠에 대한 실행 화면을 a 노드에 대응하는 정지 영상 및 동영상이 위치한 지점으로 이동시켜 디스플레이 할 수 있다.

한편, 전자 장치(100')는 "아들 나오는 동영상 보여줘"라는 사용자의 제2 발화 음성 명령(1220)을 입력받을 수 있다.

이 같은 사용자의 제2 발화 음성 명령(1220)이 입력되면, 전자 장치(100')는 입력된 제2 발화 음성 명령(1220)으로부터 변환된 텍스트를 획득한다.

이후, 전자 장치(100')는 사용자의 제2 발화 음성 명령(1220)으로부터 획득한 텍스트와 관계 그래프(1230)를 구성하는 복수의 노드 상에 포함된 텍스트를 비교하여 제2 발화 음성 명령(1220)으로부터 변환된 텍스트와 연관된 텍스트를 포함하는 노드를 판단한다.

예를 들어, 관계 그래프(1230)를 구성하는 복수의 노드 중 b 노드는 사용자의 제2 발화 음성 명령(1220)으로부터 변환된 텍스트 중 '아들' 및 '동영상'과 연관된 텍스트를 포함할 수 있다.

이 경우, 전자 장치(100')는 갤러리 컨텐츠에 포함된 정지 영상 및 동영상 중 b 노드에 대응하는 동영상(1220'-1)을 선택한다.

즉, 전자 장치(100')는 사용자의 제2 발화 음성 명령(1220)에 따라, 갤러리 컨텐츠에서 '아들' 과 관련된 정지 영상 및 동영상을 포함하는 갤러리 컨텐츠(1220') 중 '동영상(1220'-1)만을 선택할 수 있다.

이후, 전자 장치(100')는 갤러리 컨텐츠에 포함된 정지 영상 및 동영상 중 b 노드에 대응하는 동영상(1220'-1)만을 화면상에 출력할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 전자 장치(100')는 갤러리 컨텐츠에 대한 실행 화면을 b 노드에 대응하는 동영상(1220'-1)이 위치한 지점으로 이동시켜 디스플레이 할 수 있다.이하에서는, 본 발명에 따른 프로세서(130)에서 인공지능 학습 모델을 업데이트하고 이용하기 위한 동작에 대해서 상세히 설명하도록 한다.

도 13은 본 발명의 일 실시예에 따른 인공지능 학습모델을 업데이트하고 이용하는 전자 장치의 프로세서의 세부 블록도이다.

도 13에 도시된 바와 같이, 프로세서(1300)는 학습부(1310) 및 획득부(1320) 중 적어도 하나를 더 포함할 수 있다.

이 같은 프로세서(1300)는 도 1 및 도 2의 전자 장치(100)의 프로세서(130) 또는 데이터 학습 서버(미도시)의 프로세서에 대응될 수 있다.

학습부(1310)는 학습 데이터를 이용하여 전자 장치(100)에 입력된 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 복수의 오브젝트를 인식하기 위한 모델(이하 제1 모델이라 함)을 생성 또는 학습시킬 수 있다.

뿐만 아니라, 학습부(1310)는 사용자 음성에 대한 키워드를 획득하기 위한 모델(이하 제2 모델이라 함)을 생성 또는 학습시킬 수 있다. 이 같은 학습부(1310)는 수집된 학습 데이터를 이용하여 인식 기준을 갖는 학습된 모델을 생성할 수 있다.

일 예로, 학습부(1310)는 전자 장치(100)에 입력된 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임을 입력 데이터로 사용하여 해당 영상 프레임에 포함된 복수의 오브젝트에 대한 정보를 획득하기 위한 제1 모델을 생성, 학습 또는 갱신시킬 수 있다.

또한, 학습부(1310)는 멀티미디어 컨텐츠에 대한 EPG 정보, 해당 컨텐츠와 관련된 웹 정보 및 SNS 정보, 전자 장치(100)에 기저장된 멀티미디어 컨텐츠에 대한 메타 데이터, 복수의 오브젝트에 대한 정보, 사용자 정보 및 사용자 음성을 입력 데이터로 사용하여 멀티미디어 컨텐츠의 디스크립션 정보를 생성하는데 이용되는 키워드를 획득하기 위한 제2 모델을 생성, 학습 또는 갱신시킬 수 있다.

획득부(1320)는 소정의 데이터를 학습된 모델의 입력 데이터로 사용하여, 다양한 정보를 획득할 수 있다.

일 예로, 획득부(1320)는 입력된 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임을 학습된 제1 모델의 입력 데이터로 사용하여 해당 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 복수의 오브젝트에 대한 정보를 획득(또는, 인식, 추정)할 수 있다.

또한, 획득부(1320)는 멀티미디어 컨텐츠에 대한 EPG 정보, 해당 컨텐츠와 관련된 웹 정보 및 SNS 정보, 전자 장치(100)에 기저장된 멀티미디어 컨텐츠에 대한 메타 데이터, 복수의 오브젝트에 대한 정보, 사용자 정보 및 사용자 음성을 학습된 제2 모델의 입력 데이터로 사용하여 멀티미디어 컨텐츠의 디스크립션 정보를 생성하는데 이용되는 키워드를 획득(또는 추정, 추론, 인식)할 수 있다.

학습부(1310)의 적어도 일부 및 획득부(1320)의 적어도 일부는, 소프트웨어 모듈로 구현되거나 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 학습부(1310) 및 획득부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다. 이때, 인공 지능을 위한 전용 하드웨어 칩은 확률 연산에 특화된 전용 프로세서로서, 기존의 범용 프로세서보다 병렬처리 성능이 높아 기계 학습과 같은 인공 지능 분야의 연산 작업을 빠르게 처리할 수 있다.

학습부(1310) 및 획득부(1320)가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

이 경우, 학습부(1310) 및 획득부(1320)는 하나의 전자 장치(100)에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 학습부(1310) 및 획득부(1320) 중 하나는 전자 장치(100)에 포함되고, 나머지 하나는 외부의 서버(미도시)에 포함될 수 있다. 또한, 학습부(1310) 및 획득부(1320)는 유선 또는 무선으로 통하여, 학습부(1310)가 구축한 모델 정보를 획득부(1320)로 제공할 수도 있고, 학습부(1310)로 입력된 데이터가 추가 학습 데이터로서 학습부(1310)로 제공될 수도 있다.

도 14a는 본 발명의 일 실시예에 따른 학습부 및 획득부의 세부 블록도이다.

도 14a의 (a)에 도시된 바와 같이, 학습부(1310)는 학습 데이터 획득부(1311) 및 모델 학습부(1314)를 포함할 수 있다. 또한, 학습부(1310)는 학습 데이터 전처리부(1312), 학습 데이터 선택부(1313) 및 모델 평가부(1315) 중 적어도 하나를 선택적으로 더 포함할 수 있다.

학습 데이터 획득부(1311)는 제1 모델 및 제2 모델에 필요한 학습 데이터를 획득할 수 있다. 실시예에 따라, 학습 데이터 획득부(311)는 영상 데이터, 복수의 오브젝트에 대한 정보, 사용자 정보, 사용자 음성 등을 학습 데이터로서 획득할 수 있다. 학습 데이터는 학습부(1310) 또는 학습부(1310)의 제조사가 수집 또는 테스트한 데이터가 될 수도 있다.

모델 학습부(1314)는 학습 데이터를 이용하여, 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 오브젝트를 어떻게 인식할지에 관한 기준을 갖도록 학습시킬 수 있다. 예로, 모델 학습부(1314)는 학습 데이터 중 적어도 일부를 판단 기준으로 이용하는 지도 학습(supervised learning)을 통하여, 인공지능 학습 모델을 학습시킬 수 있다. 또는, 모델 학습부(1314)는, 예를 들어, 별다른 지도 없이 학습 데이터를 이용하여 스스로 학습함으로써, 상황의 판단을 위한 판단 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 인공지능 모델을 학습시킬 수 있다.

또한, 모델 학습부(1314)는 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 인공지능 학습 모델을 학습시킬 수 있다. 또한, 모델 학습부(814)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 인공지능 학습 모델을 학습시킬 수 있다

모델 학습부(1314)는 미리 구축된 인공지능 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 인공지능 학습 모델을 학습할 인공지능 학습 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입별로 기 분류되어 있을 수 있으며, 인공지능 모델은 데이터의 타입별로 미리 구축되어 있을 수 있다.

예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기분류되어 있을 수 있다.

인공지능 학습 모델이 학습되면, 모델 학습부(1314)는 학습된 인공지능 학습 모델을 저장할 수 있다. 이 경우, 모델 학습부(1314)는 학습된 인공지능 학습 모델을 전자 장치(100)의 저장부(170)에 저장할 수 있다. 또는, 모델 학습부(1314)는 학습된 인공지능 학습 모델을 전자 장치(100)와 유선 또는 무선 네트워크로 연결되는 서버(예를 들어, 인공지능 서버(200))의 메모리에 저장할 수도 있다.

학습부(1310)는 인공지능 학습 모델의 인식 결과를 향상시키거나, 인공지능 학습 모델의 생성에 필요한 자원 또는 시간을 절약하기 위하여, 학습 데이터 전처리부(1312) 및 학습 데이터 선택부(1313)를 더 포함할 수도 있다.

학습 데이터 전처리부(1312)는 오브젝트에 대한 정보 획득 및 키워드 생성을 위한 학습에 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 학습 데이터 전처리부(1312)는 모델 학습부(1314)가 오브젝트에 대한 정보를 획득하기 위하여 획득된 데이터를 이용할 수 있도록, 해당 데이터를 기설정된 포맷으로 가공할 수 있다.

학습 데이터 선택부(1313)는 학습 데이터 획득부(1311)에서 획득된 데이터 또는 학습 데이터 전처리부(1312)에서 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 학습 데이터는 모델 학습부(1314)에 제공될 수 있다.

학습 데이터 선택부(1313)는 기설정된 선별 기준에 따라, 획득되거나 전처리된 데이터 중에서 학습에 필요한 학습 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1313)는 모델 학습부(1314)에 의한 학습에 의해 기설정된 선별 기준에 따라 학습 데이터를 선택할 수도 있다.

학습부(1310)는 인공지능 학습 모델의 인식 결과를 향상시키기 위하여, 모델 평가부(1315)를 더 포함할 수도 있다.

모델 평가부(1315)는 인공지능 학습 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1314)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인공지능 모델을 평가하기 위한 기정의된 데이터일 수 있다.

예를 들어, 모델 평가부(1315)는 평가 데이터에 대한 학습된 인공지능 학습 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다.

한편, 학습된 인공지능 학습 모델이 복수 개가 존재하는 경우, 모델 평가부(1315)는 각각의 학습된 인공지능 학습 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 인공지능 학습 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 학습 모델이 복수 개인 경우, 모델 평가부(1315)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 학습 모델을 최종 인공지능 학습 모델로서 결정할 수 있다.

한편, 획득부(1320)는 도 13a의 (b)에 도시된 바와 같이, 입력 데이터 획득부(1321) 및 제공부(1324)를 포함할 수 있다.

또한, 획득부(1320)는 입력 데이터 전처리부(1322), 입력 데이터 선택부(1323) 및 모델 갱신부(1325) 중 적어도 하나를 선택적으로 더 포함할 수 있다.

입력 데이터 획득부(1321)는 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 오브젝트에 대한 정보를 획득하기 위해 필요한 데이터를 획득할 수 있다.

제공부(1324)는 입력 데이터 획득부(1321)에서 획득된 입력 데이터를 입력 값으로 학습된 인공지능 학습 모델에 적용하여 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 오브젝트에 대한 정보를 획득할 수 있다.

이 같은 제공부(1324)는 후술할 입력 데이터 전처리부(1322) 또는 입력 데이터 선택부(1323)에 의해 선택된 데이터를 입력 값으로 인공지능 학습 모델에 적용하여 인식 결과를 획득할 수 있다. 인식 결과는 인공지능 학습 모델에 의해 결정될 수 있다.

일 실시예로, 제공부(1324)는 입력 데이터 획득부(1321)에서 획득한 영상 관련 데이터를 학습된 제1 모델에 적용하여 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 오브젝트에 대한 정보를 획득(또는, 추정)할 수 있다.

또 다른 예로, 제공부(1324)는 입력 데이터 획득부(1321)에서 획득한 오브젝트에 대한 정보, 사용자 정보 및 사용자 음성 등을 학습된 제2 모델에 적용하여 사용자 음성에 대응되는 오브젝트에 대한 키워드를 획득(또는, 추정)할 수 있다.

획득부(1320)는 인공지능 학습 모델의 인식 결과를 향상시키거나, 인식 결과의 제공을 위한 자원 또는 시간을 절약하기 위하여, 입력 데이터 전처리부(1322) 및 입력 데이터 선택부(1323)를 더 포함할 수도 있다.

입력 데이터 전처리부(1322)는 제1 및 제2 모델에 입력되기 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 입력 데이터 전처리부(1322)는 제공부(1324)가 오브젝트에 대한 정보 획득 및 키워드 생성을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기정의된 포맷으로 가공할 수 있다.

입력 데이터 선택부(1323)는 입력 데이터 획득부(1321)에서 획득된 데이터 또는 입력 데이터 전처리부(1322)에서 전처리된 데이터 중에서 상황 판단에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 제공부(1324)에게 제공될 수 있다. 입력 데이터 선택부(1323)는 상황 판단을 위한 기설정된 선별 기준에 따라, 획득되거나 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 입력 데이터 선택부(1323)는 모델 학습부(1314)에 의한 학습에 의해 기설정된 선별 기준에 따라 데이터를 선택할 수도 있다.

모델 갱신부(1325)는 제공부(1324)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 인공지능 모델이 갱신되도록 제어할 수 있다.

예를 들어, 모델 갱신부(1325)는 제공부(1324)에 의해 제공되는 인식 결과를 모델 학습부(1314)에게 제공함으로써, 모델 학습부(1314)가 인공지능 학습 모델을 추가 학습 또는 갱신하도록 요청할 수 있다.

도 14b는 본 발명의 일 실시예에 따른 전자 장치 및 외부 서버가 서로 연동하여 데이터를 학습하고 판단하는 예시도이다.

도 14b에 도시된 바와 같이, 외부의 서버(S)는 영상을 구성하는 복수의 프레임에 포함된 복수의 오브젝트에 대한 정보를 획득한다. 뿐만 아니라, 외부의 서버(S)는 사용자 음성에 대응되는 오브젝트에 대한 키워드를 획득하기 위한 기준을 학습할 수 있다.

전자 장치(A)는 서버(S)에 의한 학습 결과에 기초하여 생성된 모델들을 이용하여 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 복수의 오브젝트에 대한 정보를 획득할 뿐만 아니라, 오브젝트에 대한 다양한 키워드를 획득할 수 있다.

이 경우, 서버(S)의 모델 학습부(814)는 도 13에 도시된 학습부(1310)의 기능을 수행할 수 있다. 서버(S)의 모델 학습부(1314)는 제1 및 제2 모델에 대한 판단 기준(혹은, 인식 기준)을 학습할 수 있다.

또한, 전자 장치(A)의 제공부(1324)는 입력 데이터 선택부(1323)에 의해 선택된 데이터를 서버(S)에 의해 생성된 인공지능 학습 모델에 적용하여 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 오브젝트에 대한 정보를 획득할 뿐만 아니라, 오브젝트에 대한 다양한 키워드를 획득할 수 있다.

또한, 전자 장치(A)의 제공부(1324)는 서버(S)에 의해 생성된 인공지능 학습 모델을 서버(S)로부터 수신하고, 수신된 인공지능 학습 모델을 이용하여 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 오브젝트에 대한 정보를 획득할 뿐만 아니라, 오브젝트에 대한 다양한 키워드를 획득할 수 있다.

지금까지, 본 발명에 따른 전자 장치(100)에서 인공지능 학습 모델을 이용하여 멀티미디어 컨텐츠를 구성하는 복수의 영상 프레임에 포함된 오브젝트를 판단하는 동작에 대해서 상세히 설명하였다.

이하에서는, 전자 장치(100)에 입력된 사용자 발화 음성 명령을 인식하는 동작에 대해서 설명하도록 한다.

도 15는 본 발명의 일 실시예에 따른 전자 장치에 입력된 사용자 발화 음성 명령을 인식하는 지능형 서버에 대한 블록도이다.

도 15에 도시된 바와 같이, 지능형 서버(300)는 자동 음성 인식(automatic speech recognition)(ASR) 모듈(310), 자연어 이해(natural language understanding)(NLU) 모듈(320), 패스 플래너(path planner) 모듈(330), 대화 매니저(dialogue manager)(DM) 모듈(340), 자연어 생성(natural language generator)(NLG) 모듈(350) 또는 텍스트 음성 변환(text to speech)(TTS) 모듈(360)을 포함할 수 있다.

지능형 서버(300)의 자연어 이해 모듈(320) 또는 패스 플래너 모듈(230)은 패스 룰(path rule)을 생성할 수 있다.

일 실시 예에 따르면, 자동 음성 인식(automatic speech recognition)(ASR) 모듈(310)은 전자 장치(100)로부터 수신된 사용자 발화 음성 명령을 텍스트 데이터로 변환할 수 있다.

일 실시 예에 따르면, 자동 음성 인식 모듈(310)은 전자 장치(100)로부터 수신된 사용자 발화 음성 명령을 텍스트 데이터로 변환할 수 있다. 예를 들어, 자동 음성 인식 모듈(310)은 발화 인식 모듈을 포함할 수 있다. 여기서, 발화 인식 모듈은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 예를 들어, 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 발화 인식 모듈은 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 발화음성을 텍스트 데이터로 변환할 수 있다. 음향 모델 및 언어 모델에 대한 정보는, 예를 들어, 자동 음성 인식 데이터베이스(automatic speech recognition database)(ASR DB)(311)에 저장될 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)은 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자 발화 의도를 파악할 수 있다. 문법적 분석은 사용자 발화 음성 명령을 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다. 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 자연어 이해 모듈(320)은 사용자 발화 음성 명령이 어느 도메인(domain), 의도(intent) 또는 의도를 표현하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))를 얻을 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)은 도메인(domain), 의도(intend) 및 의도를 파악하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))로 나누어진 매칭 규칙을 이용하여 사용자의 발화 의도 및 파라미터를 결정할 수 있다. 예를 들어, 하나의 도메인(예: 알람)은 복수의 의도(예: 알람 설정, 알람 해제 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예: 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 매칭 규칙은 자연어 인식 데이터베이스(natural language understanding database)(NLU DB)(321)에 저장될 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)은 형태소, 구 등의 언어적 특징(예: 문법적 요소)을 이용하여 사용자 발화 음성 명령으로부터 추출된 단어의 의미를 파악하고, 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 발화 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈(320)은 각각의 도메인 및 의도에 사용자 발화 음성 명령에서 추출된 단어가 얼마나 포함되어 있는 지를 계산하여 사용자 발화 의도를 결정할 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)은 의도를 파악하는데 기초가 된 단어를 이용하여 사용자 발화 음성 명령의 파라미터를 결정할 수 있다. 일 실시 예에 따르면, 자연어 이해 모듈(320)은 사용자 발화 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터베이스(321)를 이용하여 사용자의 발화 의도를 결정할 수 있다.

또다른 실시 예에 따르면, 자연어 이해 모듈(320)은 개인화 언어 모델(personal language model)(PLM)을 이용하여 사용자의 발화 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈(320)은 개인화된 정보(예: 연락처 리스트, 음악 리스트)를 이용하여 사용자의 발화 의도를 결정할 수 있다. 개인화 언어 모델은, 예를 들어, 자연어 인식 데이터베이스(321)에 저장될 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)뿐만 아니라 자동 음성 인식 모듈(310)도 자연어 인식 데이터베이스(321)에 저장된 개인화 언어 모델을 참고하여 사용자의 발화 음성 명령을 인식할 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)은 사용자 발화 의도 및 파라미터에 기초하여 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(320)은 사용자 발화 의도에 기초하여 실행될 앱을 선택하고, 선택된 앱에서 수행될 동작을 결정할 수 있다. 자연어 이해 모듈(320)은 결정된 동작에 대응되는 파라미터를 결정하여 패스 룰을 생성할 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)에 의해 생성된 패스 룰은 실행될 앱, 앱에서 실행될 동작 및 동작을 실행하는데 필요한 파라미터에 대한 정보를 포함할 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)은 사용자 발화 의도 및 파라미터를 기반으로 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(320)은 패스 플래너 모듈(330)로부터 전자 장치(100)에 대응되는 패스 룰 셋을 수신하고, 사용자 발화 의도 및 파라미터를 수신된 패스 룰 셋에 맵핑하여 패스 룰을 결정할 수 있다.

또다른 실시 예에 따르면, 자연어 이해 모듈(320)은 사용자 발화 의도 및 파라미터에 기초하여 실행될 앱, 앱에서 실행될 동작 및 동작을 실행하는데 필요한 파라미터를 결정하여 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(320)은 전자 장치(100)의 정보를 이용하여 상기 실행될 앱 및 상기 앱에서 실행될 동작을 사용자 발화 의도에 따라 온톨로지(ontology) 또는 그래프 모델(graph model) 형태로 배열하여 패스 룰을 생성할 수 있다. 생성된 패스 룰은, 예를 들어, 패스 플래너 모듈(330)를 통해 패스 룰 데이터베이스(path rule database)(PR DB)(331)에 저장될 수 있다. 그리고, 생성된 패스 룰은 데이터베이스(331)의 패스 룰 셋에 추가될 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)은 생성된 복수의 패스 룰 중 적어도 하나의 패스 룰을 선택할 수 있다. 예를 들어, 자연어 이해 모듈(320)은 복수의 패스 룰 최적의 패스 룰을 선택할 수 있다. 또다른 예를 들어, 자연어 이해 모듈(320)은 사용자 발화 음성 명령에 기초하여 일부 동작만이 특정된 경우 복수의 패스 룰을 선택할 수 있다. 자연어 이해 모듈(320)은 사용자의 추가 발화 음성 명령에 의해 상기 복수의 패스 룰 중 하나의 패스 룰을 결정할 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320)은 사용자 발화 음성 명령에 대한 요청으로 패스 룰을 전자 장치(100)로 송신할 수 있다. 예를 들어, 자연어 이해 모듈(320)은 사용자 발화 음성 명령에 대응되는 하나의 패스 룰을 전자 장치(100)로 송신할 수 있다.

또다른 예를 들어, 자연어 이해 모듈(320)은 사용자 발화 음성 명령에 대응되는 복수의 패스 룰을 전자 장치(100)로 송신할 수 있다. 여기서, 복수의 패스 룰은, 예를 들어, 사용자 발화 음성 명령에 기초하여 일부 동작만이 특정된 경우 자연어 이해 모듈(320)에 의해 생성될 수 있다.

일 실시 예에 따르면, 패스 플래너 모듈(330)은 복수의 패스 룰 중 적어도 하나의 패스 룰을 선택할 수 있다.

일 실시 예에 따르면, 패스 플래너 모듈(330)은 자연어 이해 모듈(320)로 복수의 패스 룰을 포함하는 패스 룰 셋을 전달할 수 있다. 상기 패스 룰 셋의 복수의 패스 룰은 패스 플래너 모듈(330)에 연결된 패스 룰 데이터베이스(331)에 테이블 형태로 저장될 수 있다. 예를 들어, 패스 플래너 모듈(330)은 전자 장치(100)의 정보(예: OS 정보, 앱 정보)에 대응되는 패스 룰 셋을 자연어 이해 모듈(320)로 전달할 수 있다. 여기서, 패스 룰 데이터베이스(331)에 저장된 테이블은, 예를 들어, 도메인 또는 도메인의 버전 별로 저장될 수 있다.

일 실시 예에 따르면, 패스 플래너 모듈(330)은 패스 룰 셋에서 하나의 패스 룰, 또는 복수의 패스 룰을 선택하여 자연어 이해 모듈(320)로 전달할 수 있다. 예를 들어, 패스 플래너 모듈(330)은 사용자의 발화 의도 및 파라미터를 전자 장치(100)에 대응되는 패스 룰 셋에 매칭하여 하나의 패스 룰, 또는 복수의 패스 룰을 선택하여 자연어 이해 모듈(320)로 전달할 수 있다.

일 실시 예에 따르면, 패스 플래너 모듈(330)은 사용자 발화 의도 및 파라미터를 이용하여 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 예를 들어, 패스 플래너 모듈(330)은 사용자 발화 의도 및 파라미터에 기초하여 실행될 앱 및 해당 앱에서 실행될 동작을 결정하여 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다.

일 실시 예에 따르면, 패스 플래너 모듈(330)은 기생성된 패스 룰을 패스 룰 데이터베이스(331)에 저장할 수 있다.

일 실시 예에 따르면, 패스 플래너 모듈(330)은 자연어 이해 모듈(320)에서 생성된 패스 룰을 패스 룰 데이터베이스(331)에 저장할 수 있다. 이 같이, 생성된 패스 룰은 패스 룰 데이터베이스(331)에 저장된 패스 룰 셋에 추가될 수 있다.

일 실시 예에 따르면, 패스 룰 데이터베이스(331)에 저장된 테이블에는 복수의 패스 룰 또는 복수의 패스 룰 셋을 포함할 수 있다. 복수의 패스 룰 또는 복수의 패스 룰 셋은 각 패스 룰을 수행하는 장치의 종류, 버전, 타입, 또는 특성을 반영할 수 있다.

일 실시 예에 따르면, 대화 매니저 모듈(340)은 자연어 이해 모듈(320)에 의해 파악된 사용자의 발화 의도가 명확한지 여부를 판단할 수 있다. 예를 들어, 대화 매니저 모듈(340)은 파라미터의 정보가 충분하지 여부에 기초하여 사용자의 발화 의도가 명확한지 여부를 판단할 수 있다. 대화 매니저 모듈(340)는 자연어 이해 모듈(320)에서 파악된 파라미터가 태스크를 수행하는데 충분한지 여부를 판단할 수 있다.

일 실시 예에 따르면, 대화 매니저 모듈(340)는 사용자의 발화 의도가 명확하지 않은 경우 사용자에게 필요한 정보를 요청하는 피드백을 수행할 수 있다. 예를 들어, 대화 매니저 모듈(340)는 사용자의 발화 의도를 파악하기 위한 파라미터에 대한 정보를 요청하는 피드백을 수행할 수 있다.

일 실시 예에 따르면, 대화 매니저 모듈(340)은 멀티미디어 컨텐츠 제공(content provider) 모듈을 포함할 수 있다. 여기서, 멀티미디어 컨텐츠 제공 모듈은 자연어 이해 모듈(320)에서 파악된 의도 및 파라미터에 기초하여 동작을 수행할 수 있는 경우, 사용자 발화 음성 명령에 대응되는 태스크를 수행한 결과를 생성할 수 있다.

일 실시 예에 따르면, 대화 매니저 모듈(340)은 사용자 발화 음성 명령에 대한 응답으로 멀티미디어 컨텐츠 제공 모듈에서 생성된 결과를 전자 장치(100)로 송신할 수 있다.

일 실시 예에 따르면, 자연어 생성 모듈(NLG 모듈)(350)은 지정된 정보를 텍스트 형태로 변경할 수 있다. 여기서, 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 그리고, 지정된 정보는, 예를 들어, 추가 입력에 대한 정보, 사용자 발화 음성 명령에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 발화 음성 명령을 안내하는 정보(예: 사용자 입력에 대한 피드백 정보)일 수 있다. 그리고, 텍스트 형태로 변경된 정보는 전자 장치(100)로 송신되어 디스플레이에 표시되거나, 텍스트 음성 변환 모듈(TTS 모듈)(360)로 송신되어 음성 형태로 변경될 수 있다.

일 실시 예에 따르면, 텍스트 음성 변환 모듈(TTS 모듈)(360)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. 텍스트 음성 변환 모듈(360)은 자연어 생성 모듈(350)로부터 텍스트 형태의 정보를 수신하고, 수신된 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 전자 장치(100)로 송신할 수 있다. 전자 장치(100)는 송신된 음성 형태의 정보를 스피커로 출력할 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(320), 패스 플래너 모듈(330) 및 대화 매니저 모듈(340)은 하나의 모듈로 구현될 수 있다. 예를 들어, 자연어 이해 모듈(320), 패스 플래너 모듈(330) 및 대화 매니저 모듈(340)은 하나의 모듈로 구현되어 사용자의 발화 의도 및 파라미터를 결정하고, 결정된 사용자의 발화 의도 및 파라미터에 대응되는 응답(예: 패스 룰)을 생성할 수 있다. 이에 따라, 생성된 응답은 전자 장치(100)로 송신될 수 있다.

본 개시의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

100 : 전자 장치 110 : 입력부
120 : 출력부 130,1300 : 프로세서
140 : 통신부 150 : 촬영부
160 : 감지부 170 : 저장부
171 : 화면 분석 모듈 172 : 키워드 추출 모듈
173 : 키 프레임 결정 모듈 174 : 요약 정보 생성 모듈
175 : 음성 인식 모듈 200 : 인공지능 서버
300 : 지능형 서버 310 : 자동 음성 인식 모듈
320: 자연어 이해 모듈 330: 패스 플래너 모듈
331: 패스 룰 데이터베이스 340: 대화 매니저 모듈
350: 자연어 생성 모듈 360: 텍스트 음성 변환 모듈
400 : 음성인식장치 810 : 학습부
820 : 획득부

Claims

전자 장치의 제어 방법에 있어서,
복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠를 획득하는 단계;
상기 멀티미디어 컨텐츠와 관련된 정보를 획득하는 단계;
상기 복수의 영상 프레임에 포함된 오브젝트 중 상기 획득된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택하는 단계;
오브젝트 인식을 위한 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제1 영상 프레임 및 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 키워드를 입력하여 상기 제1 영상 프레임에 대한 디스크립션(description) 정보를 생성하는 단계;
상기 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제2 영상 프레임 및 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 키워드를 입력하여 상기 제2 영상 프레임에 대한 디스크립션 정보를 생성하는 단계; 및
상기 생성된 상기 제1 영상 프레임에 대한 디스크립션 정보 및 상기 제2 영상 프레임에 대한 디스크립션 정보를 바탕으로 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 단계;
를 포함하며,
상기 디스크립션 정보는,
상기 선택된 영상 프레임에 포함된 오브젝트를 묘사하는 복수의 텍스트들을 관계 그래프 형식으로 나타낸 정보인 것을 특징으로 하고,
상기 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 단계는,
상기 제1 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 및 상기 제2 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 상기 연관된 적어도 하나의 텍스트를 결합하여 상기 멀티미디어 컨텐츠에 대한 관계 그래프를 생성하는 것을 특징으로 하는 제어 방법.
제 1 항에 있어서,
상기 멀티미디어 컨텐츠와 관련된 정보는,
상기 멀티미디어 컨텐츠에 대한 EPG 정보, 상기 멀티미디어 컨텐츠와 관련된 웹 정보 및 SNS 정보와, 상기 멀티미디어 컨텐츠와 관련하여 상기 전자 장치에 저장된 메타 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 제어 방법.
제 1 항에 있어서,
상기 선택하는 단계는,
상기 복수의 영상 프레임 중 상기 제1 영상 프레임에서 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 복수의 키워드 중 제1 키워드와 관련된 제1 오브젝트가 검출되면, 상기 제1 영상 프레임을 선택하고,
상기 제1 영상 프레임 이후 연속된 영상 프레임 중 상기 제1 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택하는 것을 특징으로 하는 제어 방법.
제 3 항에 있어서,
상기 선택하는 단계는,
상기 제1 영상 프레임 이후 연속된 상기 제2 영상 프레임에서 상기 제1 오브젝트가 검출되면, 상기 제2 영상 프레임을 선택하고,
상기 제2 영상 프레임에서 상기 제1 오브젝트가 검출되지 않으면, 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 복수의 키워드 중 제2 키워드와 관련된 제2 오브젝트가 상기 제2 영상 프레임에 존재하는지 여부에 따라 상기 제2 영상 프레임을 선택하는 것을 특징으로 하는 제어 방법.
삭제
삭제
삭제
제 1 항에 있어서,
상기 멀티미디어 컨텐츠에 대한 사용자 명령이 입력되면, 상기 사용자 명령에 포함된 텍스트와 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보에 포함된 텍스트를 비교하여 상기 사용자 명령과 연관된 장면 컨텐츠를 생성하여 출력하는 단계;
를 더 포함하는 것을 특징으로 하는 제어 방법.
제 1 항에 있어서,
상기 적어도 하나의 영상 프레임을 선택하는 단계는,
상기 복수의 영상 프레임 각각을 분석하여 화면 전환이 발생한 시점의 영상 프레임을 선택하는 단계; 및
상기 화면 전환이 발생한 시점의 영상 프레임 각각을 대표 프레임으로 결정하는 단계;
상기 복수의 대표 프레임 중 상기 획득된 멀티미디어 컨텐츠와 관련된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 대표 프레임을 키 프레임으로 결정하는 단계; 및
상기 키 프레임으로 결정된 영상 프레임을 포함하는 구간 내 포함된 영상 프레임을 선택하는 단계;
를 포함하는 것을 특징으로 하는 제어 방법.
삭제
전자 장치에 있어서,
복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠 및 상기 멀티미디어 컨텐츠와 관련된 정보를 획득하고,
상기 복수의 영상 프레임이 포함된 오브젝트 중 상기 획득된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택하며,
오브젝트 인식을 위한 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제1 영상 프레임 및 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 키워드를 입력하여 상기 제1 영상 프레임에 대한 디스크립션 정보(description)를 생성하고,
상기 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제2 영상 프레임 및 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 키워드를 입력하여 상기 제2 영상 프레임에 대한 디스크립션 정보를 생성하고,
상기 생성된 상기 제1 영상 프레임에 대한 디스크립션 정보 및 상기 제2 영상 프레임에 대한 디스크립션 정보를 바탕으로 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 프로세서;
를 포함하며,
상기 디스크립션 정보는,
상기 선택된 영상 프레임에 포함된 오브젝트를 묘사하는 복수의 텍스트들을 관계 그래프 형식으로 나타낸 정보이고,
상기 프로세서는,
상기 제1 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 및 상기 제2 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 상기 연관된 적어도 하나의 텍스트를 결합하여 상기 멀티미디어 컨텐츠에 대한 관계 그래프를 생성하는 것을 특징으로 하는 전자 장치.
제 11 항에 있어서,
상기 멀티미디어 컨텐츠와 관련된 정보는,
상기 멀티미디어 컨텐츠에 대한 EPG 정보, 상기 멀티미디어 컨텐츠와 관련된 웹 정보 및 SNS 정보와, 상기 멀티미디어 컨텐츠와 관련하여 상기 전자 장치에 저장된 메타 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는 전자 장치.
제 11 항에 있어서,
상기 프로세서는,
상기 복수의 영상 프레임 중 상기 제1 영상 프레임에서 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 복수의 키워드 중 제1 키워드와 관련된 제1 오브젝트가 검출되면, 상기 제1 영상 프레임을 선택하고,
상기 제1 영상 프레임 이후 연속된 영상 프레임 중 상기 제1 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택하는 것을 특징으로 하는 전자 장치.
◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈

제 13 항에 있어서,
상기 프로세서는,
상기 제1 영상 프레임 이후 연속된 상기 제2 영상 프레임에서 상기 제1 오브젝트가 검출되면, 상기 제2 영상 프레임을 선택하고,
상기 제2 영상 프레임에서 상기 제1 오브젝트가 검출되지 않으면, 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 복수의 키워드 중 제2 키워드와 관련된 제2 오브젝트가 상기 제2 영상 프레임에 존재하는지 여부에 따라 상기 제2 영상 프레임을 선택하는 것을 특징으로 하는 전자 장치.
삭제
삭제
삭제
◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈

제 11 항에 있어서,
입력부; 및
출력부;를 더 포함하며,
상기 프로세서는,
상기 입력부를 통해 상기 멀티미디어 컨텐츠에 대한 사용자 명령이 입력되면, 상기 사용자 명령에 포함된 텍스트와 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보에 포함된 텍스트를 비교하여 상기 사용자 명령과 연관된 장면 컨텐츠를 생성하고, 상기 생성된 장면 컨텐츠를 출력하도록 상기 출력부를 제어하는 것을 특징으로 하는 전자 장치.
◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈

제 11 항에 있어서,
상기 프로세서는,
상기 복수의 영상 프레임 각각을 분석하여 화면 전환이 발생한 시점의 영상 프레임을 선택하고,
상기 화면 전환이 발생한 시점의 영상 프레임 각각을 대표 프레임으로 결정한 후, 상기 복수의 대표 프레임 중 상기 획득된 멀티미디어 컨텐츠와 관련된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 대표 프레임을 키 프레임으로 결정하고,
상기 키 프레임으로 결정된 영상 프레임을 포함하는 구간 내 포함된 영상 프레임을 선택하는 것을 특징으로 하는 전자 장치.
삭제
전자 장치와 결합되어 하기의 단계를 실행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체에 있어서,
복수의 영상 프레임을 포함하는 멀티미디어 컨텐츠를 획득하는 단계;
상기 멀티미디어 컨텐츠와 관련된 정보를 획득하는 단계;
상기 복수의 영상 프레임에 포함된 오브젝트 중 상기 획득된 정보와 관련된 오브젝트를 포함하는 적어도 하나의 영상 프레임을 선택하는 단계;
오브젝트 인식을 위한 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제1 영상 프레임 및 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 키워드를 입력하여 상기 제1 영상 프레임에 대한 디스크립션(description) 정보를 생성하는 단계;
상기 인공지능 모델에 상기 선택된 적어도 하나의 영상 프레임 중 제2 영상 프레임 및 상기 획득된 멀티미디어 컨텐츠와 관련된 정보에 포함된 키워드를 입력하여 상기 제2 영상 프레임에 대한 디스크립션 정보를 생성하는 단계; 및
상기 생성된 상기 제1 영상 프레임에 대한 디스크립션 정보 및 상기 제2 영상 프레임에 대한 디스크립션 정보를 바탕으로 상기 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 단계;
를 포함하며,
상기 디스크립션 정보는,
상기 선택된 영상 프레임에 포함된 오브젝트를 묘사하는 복수의 텍스트들을 관계 그래프 형식으로 나타낸 정보인 것을 특징으로 하고,
상기 멀티미디어 컨텐츠에 대한 디스크립션 정보를 획득하는 단계는,
상기 제1 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 및 상기 제2 영상 프레임에 대한 디스크립션 정보에 포함된 복수의 텍스트 중 연관된 적어도 하나의 텍스트가 존재하면, 상기 연관된 적어도 하나의 텍스트를 결합하여 상기 멀티미디어 컨텐츠에 대한 관계 그래프를 생성하는 것을 특징으로 하는 기록 매체.