KR20250002082A - Method and apparatus for speech signal processing - Google Patents
Method and apparatus for speech signal processing Download PDFInfo
- Publication number
- KR20250002082A KR20250002082A KR1020240194611A KR20240194611A KR20250002082A KR 20250002082 A KR20250002082 A KR 20250002082A KR 1020240194611 A KR1020240194611 A KR 1020240194611A KR 20240194611 A KR20240194611 A KR 20240194611A KR 20250002082 A KR20250002082 A KR 20250002082A
- Authority
- KR
- South Korea
- Prior art keywords
- personalized
- information
- server
- voice signal
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Telephonic Communication Services (AREA)
Abstract
음성 신호(speech signal)를 수신하는 단계, 상기 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간을 검출하는 단계, 상기 음성 신호를 서버로 전송하되, 상기 개인화 정보 구간에 포함된 개인 정보는 단어나 문장의 내용을 파악할 수 없는 형태로 변형하여 전송하는 단계, 상기 서버로부터 상기 음성 신호에 대한 데이터 처리 결과를 수신하는 단계 및 상기 서버로부터 수신된 데이터 처리 결과, 상기 개인화 정보 구간에 포함된 개인 정보 및 사용자 별 맞춤형 음성 처리 모델인 개인화 모델을 이용하여 상기 음성 신호를 재처리함으로써 상기 서버로부터 수신된 데이터 처리 결과를 보완하는 단계 및 상기 데이터 처리의 결과를 제공하는 단계를 포함하는, 단말의 음성 신호 처리 방법이 제공된다.A method for processing a speech signal of a terminal is provided, including the steps of receiving a speech signal, detecting a personalized information section including personal information in the speech signal, transmitting the speech signal to a server, wherein the personal information included in the personalized information section is transformed into a form in which the content of words or sentences cannot be identified and transmitted, receiving a data processing result for the speech signal from the server, and reprocessing the speech signal using the data processing result received from the server, the personal information included in the personalized information section, and a personalized model which is a customized voice processing model for each user, thereby supplementing the data processing result received from the server, and providing the result of the data processing.
Description
본 발명은 음성 신호 처리 방법 및 장치에 관한 것으로, 보다 구체적으로 개인화 모델을 이용하면서도 개인 정보를 보호할 수 있는 음성 신호 처리 방법 및 장치에 관한 것이다.The present invention relates to a voice signal processing method and device, and more specifically, to a voice signal processing method and device capable of protecting personal information while utilizing a personalized model.
음성 인식(speech recognition)은 사용자의 음성을 입력 받아 문자로 변환하는 기술이다. 이러한 과정을 자동으로 수행한다고 하여 자동 음성 인식(Automatic Speech Recognition, 이하 ASR)이라고 부르기도 한다. 근래에 들어 스마트 폰이나 TV 등의 기기에서 키보드 입력을 대체하기 위한 인터페이스 기술로써 널리 확산되고 있다. 언어 이해(Natural Language Understanding, 이하 NLU)는 음성 인식의 인식 결과로부터 사용자 발화의 의미를 추출하는 기술이다. 단순히 사용자의 음성을 인식하는 것이 아니라 보다 높은 수준의 사용자 음성의 분석을 수행하여 음성의 의미를 보다 정확하게 파악할 수 있다. Speech recognition is a technology that converts a user's voice into text. Since this process is performed automatically, it is also called Automatic Speech Recognition (ASR). Recently, it has been widely spread as an interface technology to replace keyboard input in devices such as smartphones and TVs. Natural Language Understanding (NLU) is a technology that extracts the meaning of a user's speech from the recognition results of speech recognition. It does not simply recognize the user's voice, but performs a higher level of analysis of the user's voice to more accurately understand the meaning of the voice.
이러한 음성 인식 및 언어 이해 시스템은 일반적으로 음성 신호를 입력받는 클라이언트(Client)와 음성 신호로부터 음성 인식 및 언어 이해를 수행하는 음성 인식 및 언어 이해 엔진(ASR/NLU engine)으로 나눌 수 있으며, 음성 신호 처리 속도를 높이기 위하여 두 개의 모듈은 서로 떨어지도록 디자인 될 수 있다. 이 경우, 프로세싱 능력과 데이터 저장 능력에 제한이 있는 스마트폰이나 TV 등의 디바이스는 클라이언트로, 음성 인식 및 언어 이해 엔진은 높은 연산 능력을 갖는 독립된 서버 형태로 구성이 가능하며, 이 두 모듈은 네트워크를 통하여 연결된다. 사용자와 가까운 곳에 위치하는 디바이스는 음성 신호를 입력 받는 역할을 수행하고, 데이터 처리 속도가 빠른 서버는 음성 인식 및 언어 이해를 수행하는 역할을 수행하는 것이다. 다른 형태의 구성으로는 서버 외에 디바이스 내부에도 음성 인식 및 언어 이해 엔진을 장치하여, 두 개의 음성 인식 및 언어 이해 엔진이 서로 협조하여 음성 인식 및 언어 이해를 수행 하는 구성이 있을 수 있다. These speech recognition and language understanding systems can generally be divided into a client that inputs a speech signal and an ASR/NLU engine that performs speech recognition and language understanding from the speech signal. In order to increase the speed of speech signal processing, the two modules can be designed to be separated from each other. In this case, a device such as a smartphone or TV with limited processing and data storage capabilities can be configured as a client, and the speech recognition and language understanding engine can be configured as an independent server with high computational capabilities. The two modules are connected via a network. The device located close to the user performs the role of receiving a speech signal, and the server with a fast data processing speed performs the role of performing speech recognition and language understanding. Another configuration may include a configuration in which a speech recognition and language understanding engine is installed inside the device in addition to the server, so that the two speech recognition and language understanding engines cooperate with each other to perform speech recognition and language understanding.
이러한 음성 인식 및 언어 이해 시스템의 성능을 높이기 위한 방법 중 하나로, 사용자 별로 데이터를 수집하여 사용자별 모델을 생성하는 방법이 있다. 이러한 사용자별 모델을 개인화 모델(personalized model)이라고 하고, 이러한 방법을 개인화 모델링(personalized modeling)이라고 한다. 개인화 모델은 특정 개인에 대한 맞춤형 모델의 생성이 가능하기 때문에 불특정 다수를 위해 만들어진 일반 모델(General model) 에 비하여 더 높은 성능을 가지는 것이 일반적이다.One way to improve the performance of these speech recognition and language understanding systems is to collect data for each user and create a user-specific model. This user-specific model is called a personalized model, and this method is called personalized modeling. Since personalized models can create customized models for specific individuals, they generally have higher performance than general models created for an unspecified number of people.
다만, 개인화 모델링을 사용하는 경우, 개인화 모델을 생성하기 위하여 사용자의 개인 정보를 이용해야 하는데 개인 정보의 전송 및 처리 과정에서 정보 보호의 문제점이 발생할 수 있고, 이를 해결하기 위하여 암호화 기술이 적용되는 경우, 처리 속도가 느려진다는 문제점이 발생할 수 있다.However, when using personalized modeling, the user's personal information must be used to create a personalized model, and problems with information protection may arise during the transmission and processing of personal information. If encryption technology is applied to resolve this, the processing speed may slow down.
개시된 실시예는 개인화 모델을 이용하면서도 개인 정보를 보호할 수 있는 음성 신호 처리 방법 및 장치를 제공한다. The disclosed embodiments provide a method and device for processing voice signals that can protect personal information while utilizing a personalized model.
구체적으로, 개시된 실시예에서는 개인화 정보 구간 및 일반 정보 구간을 단말과 서버에 나누어 처리하는 음성 신호 처리 방법 및 장치를 제공한다. Specifically, the disclosed embodiment provides a voice signal processing method and device that divides a personalized information section and a general information section into a terminal and a server for processing.
또한, 개시된 실시예에서는 서버에서 처리한 음성 신호에 대하여 단말이 개인화 모델을 이용하여 다시 처리하는 음성 신호 처리 방법 및 장치를 제공한다.In addition, the disclosed embodiment provides a voice signal processing method and device in which a terminal reprocesses a voice signal processed by a server using a personalized model.
또한, 개시된 실시예에서는 ID 기반의 개인화 모델을 이용하는 음성 신호 처리 방법 및 장치를 제공한다.In addition, the disclosed embodiment provides a voice signal processing method and device using an ID-based personalized model.
개시된 실시예에 따른 단말의 음성 신호 처리 방법은, 음성 신호(speech signal)를 수신하는 단계; 상기 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간(personalized information section)을 검출하는 단계; 상기 음성 신호 중 상기 개인화 정보 구간에 대응하는 음성 신호에 대하여 상기 개인 정보를 기반으로 생성된 개인화 모델(personalized model)을 이용하여 데이터 처리하는 단계; 및 서버로부터 상기 개인화 정보 구간 이외의 구간인 일반 정보 구간(general information section)에 대응하는 음성 신호에 대하여 데이터 처리한 결과를 수신하는 단계를 포함한다. A method for processing a speech signal of a terminal according to the disclosed embodiment includes: receiving a speech signal; detecting a personalized information section including personal information from the speech signal; performing data processing on a speech signal corresponding to the personalized information section from the speech signal using a personalized model generated based on the personal information; and receiving a result of data processing on a speech signal corresponding to a general information section other than the personalized information section from a server.
또한, 상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 생성하여 상기 서버로 전송하는 단계를 더 포함할 수 있다. In addition, the method may further include a step of generating voice section information for the personalized information section and the general information section and transmitting the generated voice section information to the server.
또한, 상기 음성 구간 정보는, 상기 음성 신호 중 상기 개인화 정보 구간 및 상기 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹(marking)한 구간 마킹 정보를 포함할 수 있다. In addition, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment of the voice signal.
또한, 상기 서버로부터 상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 수신하는 단계를 더 포함할 수 있다. In addition, the method may further include a step of receiving voice section information for the personalized information section and the general information section from the server.
또한, 상기 서버로부터 수신한 상기 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과는, 상기 서버가 일반 모델을 이용하여 상기 일반 정보 구간에 대응하는 음성 신호를 처리한 결과일 수 있다. In addition, the result of data processing for the voice signal corresponding to the general information section received from the server may be the result of the server processing the voice signal corresponding to the general information section using a general model.
개시된 실시예에 따른 서버의 음성 신호 처리 방법은, 음성 신호를 수신하는 단계; 상기 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간을 검출하는 단계; 상기 음성 신호 중 상기 개인화 정보 구간 이외의 구간인 일반 정보 구간에 대응하는 음성 신호에 대하여 일반 모델을 이용하여 데이터 처리하는 단계; 및 상기 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과를 단말로 전송하는 단계를 포함한다. A voice signal processing method of a server according to the disclosed embodiment comprises the steps of: receiving a voice signal; detecting a personalized information section including personal information from the voice signal; performing data processing using a general model for a voice signal corresponding to a general information section other than the personalized information section from the voice signal; and transmitting a result of data processing for the voice signal corresponding to the general information section to a terminal.
또한, 상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 생성하여 상기 단말로 전송하는 단계를 더 포함할 수 있다. In addition, the method may further include a step of generating voice section information for the personalized information section and the general information section and transmitting the same to the terminal.
또한, 상기 음성 구간 정보는, 상기 음성 신호 중 상기 개인화 정보 구간 및 상기 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹(marking)한 구간 마킹 정보를 포함할 수 있다. In addition, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment of the voice signal.
또한, 상기 단말로부터 상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 수신하는 단계를 더 포함할 수 있다. In addition, the method may further include a step of receiving voice section information for the personalized information section and the general information section from the terminal.
개시된 다른 실시예에 따른 단말의 음성 신호 처리 방법은, 음성 신호를 수신하는 단계; 서버로부터 상기 음성 신호에 대하여 일반 모델을 이용하여 데이터 처리한 결과를 수신하는 단계; 및 상기 음성 신호에 대하여 개인 정보를 기반으로 생성된 개인화 모델 및 상기 데이터 처리 결과를 이용하여 데이터 처리하는 단계를 포함한다. A method for processing a voice signal of a terminal according to another disclosed embodiment comprises the steps of: receiving a voice signal; receiving a result of data processing using a general model for the voice signal from a server; and processing data using a personalized model generated based on personal information and the result of the data processing for the voice signal.
또한, 상기 음성 신호에 대하여 상기 데이터 처리 결과 및 개인 정보를 기반으로 생성된 개인화 모델을 이용하여 데이터 처리를 수행하는 단계는, 상기 개인 정보를 포함하는 개인화 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리를 수행하는 단계를 포함할 수 있다. In addition, the step of performing data processing using a personalized model generated based on the data processing result and personal information for the voice signal may include a step of performing data processing for a voice signal corresponding to a personalized information section including the personal information.
또한, 상기 음성 신호 중 상기 개인화 정보 구간을 검출하는 단계를 더 포함할 수 있다. In addition, the method may further include a step of detecting the personalized information section from the voice signal.
또한, 상기 서버로부터 상기 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 수신하는 단계를 더 포함할 수 있다. In addition, the method may further include a step of receiving voice segment information for the personalized information segment and the general information segment from the server.
또한, 상기 음성 구간 정보는, 상기 음성 신호 중 상기 개인화 정보 구간 및 상기 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹(marking)한 구간 마킹 정보를 포함할 수 있다. In addition, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment of the voice signal.
또한, 상기 개인화 모델은, 개인화 음성 인식 모델(personalized speech recognition model), 언어 이해 모델(personalized natural language understanding model) 및 개인화 렉시컬 모델(personalized lexical model) 중 적어도 하나 이상의 모델일 수 있다. Additionally, the personalized model may be at least one of a personalized speech recognition model, a personalized natural language understanding model, and a personalized lexical model.
개시된 또다른 실시예에 따른 단말의 음성 신호 처리 방법은, 개인 정보 에 ID를 매핑시켜 매핑 테이블을 생성하는 단계; 상기 매핑 테이블을 이용하여 ID 기반의 개인화 모델을 생성하는 단계; 상기 ID 기반의 개인화 모델을 서버로 전송하는 단계; 상기 서버로부터 음성 신호에 대하여 상기 ID 기반의 개인화 모델을 이용해 데이터 처리한 결과를 수신하는 단계; 및 상기 데이터 처리 결과 및 상기 매핑 테이블을 이용하여 상기 ID에 대응하는 상기 개인 정보를 복원하는 단계를 포함한다. A method for processing a voice signal of a terminal according to another disclosed embodiment includes: a step of mapping an ID to personal information to create a mapping table; a step of creating an ID-based personalized model using the mapping table; a step of transmitting the ID-based personalized model to a server; a step of receiving a result of data processing using the ID-based personalized model for a voice signal from the server; and a step of restoring the personal information corresponding to the ID using the result of the data processing and the mapping table.
또한, 상기 매핑 테이블을 이용하여 ID 기반의 개인화 모델을 생성하는 단계는, 상기 개인 정보에 매핑된 ID를 음향에 매핑된 ID인 음향 단위 ID로 나타내는 단계를 포함하는 것을 특징으로 하는 단계를 포함할 수 있다. In addition, the step of generating an ID-based personalized model using the mapping table may include a step characterized by including a step of representing an ID mapped to the personal information as an acoustic unit ID, which is an ID mapped to sound.
또한, 상기 음향 단위 ID는, 상기 서버와 합의에 따라 상기 음향에 매핑된 ID일 수 있다. Additionally, the sound unit ID may be an ID mapped to the sound according to an agreement with the server.
또한, 상기 개인 정보로부터 생성되는 부가 정보에 ID를 매핑시켜 상기 매핑 테이블을 생성하는 단계를 더 포함할 수 있다. In addition, the method may further include a step of creating a mapping table by mapping an ID to additional information generated from the personal information.
개시된 또다른 실시예에 따른 서버의 음성 신호 처리 방법은, 단말로부터 ID 기반의 개인화 모델을 수신하는 단계; 음성 신호를 수신하는 단계; 상기 음성 신호에 대하여 상기 ID 기반의 개인화 모델을 이용하여 데이터 처리하는 단계; 및 상기 데이터 처리 결과를 상기 단말로 전송하는 단계를 포함한다. A voice signal processing method of a server according to another disclosed embodiment comprises the steps of: receiving an ID-based personalized model from a terminal; receiving a voice signal; performing data processing on the voice signal using the ID-based personalized model; and transmitting a result of the data processing to the terminal.
또한, 상기 음성 신호에 대하여 상기 ID 기반의 개인화 모델을 이용하여 데이터 처리하는 단계는, 상기 단말과 합의에 따라 음향에 매핑된 ID인 음향 단위 ID를 이용하여 개인 정보에 매핑된 ID를 나타내는 단계를 포함할 수 있다. In addition, the step of processing data using the ID-based personalized model for the voice signal may include a step of indicating an ID mapped to personal information using an acoustic unit ID, which is an ID mapped to sound according to an agreement with the terminal.
개시된 실시예에 따른 단말은, 음성을 수신하는 수신부; 서버와 통신을 수행하는 통신부; 및 음성 신호를 수신하고, 상기 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간을 검출하며, 상기 음성 신호 중 상기 개인화 정보 구간에 대응하는 음성 신호에 대하여 상기 개인 정보를 기반으로 생성된 개인화 모델을 이용하여 데이터 처리하고, 상기 서버로부터 상기 개인화 정보 구간 이외의 구간인 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과를 수신하도록 제어하는 제어부를 포함한다. A terminal according to the disclosed embodiment includes a receiving unit for receiving a voice; a communication unit for communicating with a server; and a control unit for receiving a voice signal, detecting a personalized information section including personal information from the voice signal, performing data processing on a voice signal corresponding to the personalized information section among the voice signals using a personalized model generated based on the personal information, and receiving a result of data processing on a voice signal corresponding to a general information section other than the personalized information section from the server.
또한, 상기 제어부는, 상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 생성하여 상기 서버로 전송하도록 제어할 수 있다. In addition, the control unit can control to generate voice section information for the personalized information section and the general information section and transmit it to the server.
또한, 상기 음성 구간 정보는, 상기 음성 신호 중 상기 개인화 정보 구간 및 상기 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. Additionally, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment of the voice signal.
또한, 상기 제어부는, 상기 서버로부터 상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 수신하도록 제어할 수 있다. Additionally, the control unit can control to receive voice section information for the personalized information section and the general information section from the server.
또한, 상기 서버로부터 수신한 상기 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과는, 상기 서버가 일반 모델을 이용하여 상기 일반 정보 구간에 대응하는 음성 신호를 처리한 결과일 수 있다. In addition, the result of data processing for the voice signal corresponding to the general information section received from the server may be the result of the server processing the voice signal corresponding to the general information section using a general model.
개시된 실시예에 따른 서버는, 음성을 수신하는 수신부; 단말과 통신을 수행하는 통신부; 및 음성 신호를 수신하고, 상기 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간을 검출하며, 상기 음성 신호 중 상기 개인화 정보 구간 이외의 구간인 일반 정보 구간에 대응하는 음성 신호에 대하여 일반 모델을 이용하여 데이터 처리하고, 상기 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과를 상기 단말로 전송하도록 제어하는 제어부를 포함할 수 있다. A server according to the disclosed embodiment may include a receiving unit for receiving a voice; a communication unit for communicating with a terminal; and a control unit for receiving a voice signal, detecting a personalized information section including personal information from the voice signal, performing data processing on a voice signal corresponding to a general information section other than the personalized information section among the voice signals using a general model, and controlling transmission of a result of data processing on the voice signal corresponding to the general information section to the terminal.
또한, 상기 제어부는, 상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 생성하여 상기 단말로 전송하도록 제어할 수 있다. In addition, the control unit can control to generate voice section information for the personalized information section and the general information section and transmit it to the terminal.
또한, 상기 음성 구간 정보는, 상기 음성 신호 중 상기 개인화 정보 구간 및 상기 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. Additionally, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment of the voice signal.
또한, 상기 제어부는, 상기 단말로부터 상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 수신하도록 제어할 수 있다. In addition, the control unit can control to receive voice section information for the personalized information section and the general information section from the terminal.
개시된 다른 실시예에 따른 단말은, 서버와 통신을 수행하는 통신부; 및 상기 서버로부터 상기 음성 신호에 대하여 일반 모델을 이용하여 데이터 처리한 결과를 수신하고, 상기 음성 신호에 대하여 상기 데이터 처리 결과 및 개인 정보를 기반으로 생성된 개인화 모델을 이용하여 데이터 처리하도록 제어하는 제어부를 포함한다. A terminal according to another disclosed embodiment includes a communication unit that performs communication with a server; and a control unit that receives a result of data processing using a general model for the voice signal from the server, and controls data processing using a personalized model generated based on the result of the data processing and personal information for the voice signal.
또한, 상기 제어부는, 상기 음성 신호에 대하여 상기 데이터 처리 결과 및 개인 정보를 기반으로 생성된 개인화 모델을 이용하여 데이터 처리를 수행 시, 상기 개인 정보를 포함하는 개인화 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리를 수행하도록 제어할 수 있다. In addition, the control unit can control to perform data processing on a voice signal corresponding to a personalized information section including the personal information when performing data processing using a personalized model generated based on the data processing result and personal information for the voice signal.
또한, 상기 제어부는, 상기 음성 신호 중 상기 개인화 정보 구간을 검출하도록 제어할 수 있다. Additionally, the control unit can control to detect the personalized information section among the voice signal.
또한, 상기 제어부는, 상기 서버로부터 상기 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 수신하도록 제어할 수 있다. Additionally, the control unit can control to receive voice section information for the personalized information section and the general information section from the server.
또한, 상기 음성 구간 정보는, 상기 음성 신호 중 상기 개인화 정보 구간 및 상기 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. Additionally, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment of the voice signal.
또한, 상기 개인화 모델은, 개인화 음성 인식 모델, 언어 이해 모델 및 개인화 렉시컬 모델 중 적어도 하나 이상의 모델일 수 있다. Additionally, the personalized model may be at least one of a personalized speech recognition model, a language understanding model, and a personalized lexical model.
개시된 또다른 실시예에 따른 단말은, 음성 신호를 수신하는 수신부: 서버와 통신을 수행하는 통신부; 및 개인 정보에 ID를 대응시켜 매핑 테이블을 생성하고, 상기 매핑 테이블을 이용하여 ID 기반의 개인화 모델을 생성하며, 상기 ID 기반의 개인화 모델을 상기 서버로 전송하고, 상기 서버로부터 음성 신호에 대하여 상기 ID 기반의 개인화 모델을 이용해 데이터 처리한 결과를 수신하며, 상기 데이터 처리 결과 및 상기 매핑 테이블을 이용하여 상기 ID에 대응하는 상기 개인 정보를 복원하도록 제어하는 제어부를 포함한다. A terminal according to another disclosed embodiment includes a receiving unit for receiving a voice signal; a communication unit for communicating with a server; and a control unit for generating a mapping table by matching an ID to personal information, generating an ID-based personalized model using the mapping table, transmitting the ID-based personalized model to the server, receiving a result of data processing using the ID-based personalized model for a voice signal from the server, and controlling the restoration of the personal information corresponding to the ID using the data processing result and the mapping table.
또한, 상기 제어부는, 상기 매핑 테이블을 이용하여 ID 기반의 개인화 모델을 생성 시, 상기 개인 정보에 매핑된 ID를 음향에 매핑된 ID인 음향 단위 ID로 나타내도록 제어할 수 있다. In addition, the control unit can control, when generating an ID-based personalized model using the mapping table, to display the ID mapped to the personal information as an acoustic unit ID, which is an ID mapped to sound.
또한, 상기 음향 단위 ID는, 상기 서버와 합의에 따라 상기 음향에 매핑된 ID일 수 있다. Additionally, the sound unit ID may be an ID mapped to the sound according to an agreement with the server.
또한, 상기 제어부는, 상기 개인 정보로부터 생성되는 부가 정보에 ID를 매핑시켜 상기 매핑 테이블을 생성하도록 제어할 수 있다. In addition, the control unit can control to generate the mapping table by mapping an ID to additional information generated from the personal information.
**
*개시된 또다른 실시예에 따른 서버는, 음성 신호를 수신하는 수신부; 단말과 통신을 수행하는 통신부; 및 단말로부터 ID 기반의 개인화 모델을 수신하고, 음성 신호를 수신하며, 상기 음성 신호에 대하여 상기 ID 기반의 개인화 모델을 이용하여 데이터 처리하고, 상기 데이터 처리 결과를 상기 단말로 전송하도록 제어할 수 있다. *A server according to another disclosed embodiment comprises: a receiving unit for receiving a voice signal; a communication unit for communicating with a terminal; and a control unit for receiving an ID-based personalized model from the terminal, receiving a voice signal, performing data processing on the voice signal using the ID-based personalized model, and transmitting the data processing result to the terminal.
또한, 상기 제어부는, 상기 단말과 합의에 따라 음향에 매핑된 ID인 음향 단위 ID를 이용하여 개인 정보에 매핑된 ID를 나타내도록 제어할 수 있다.In addition, the control unit can control to display an ID mapped to personal information using an audio unit ID, which is an ID mapped to sound according to an agreement with the terminal.
도 1은 개시된 실시예에 따른 단말의 내부 구성을 나타내는 블록도이다.
도 2는 개시된 실시예에 따른 서버의 내부 구성을 나타내는 블록도이다.
도 3은 도 1에서 도시하는 단말의 내부 구성을 보다 상세히 나타내는 블록도이다.
도 4는 도 2에서 도시하는 서버의 내부 구성을 보다 상세히 나타내는 블록도이다.
도 5는 개시된 실시예에 따른 단말의 음성 처리 방법을 나타내는 순서도이다.
도 6은 개시된 실시예에 따른 서버의 음성 처리 방법을 나타내는 순서도이다.
도 7은 개인화 정보 구간과 일반 정보 구간을 설명하는 도면이다.
도 8은 개시된 실시예에 따른 단말과 서버의 구체적인 동작 과정의 예시를 나타내는 순서도이다.
도 9는 개시된 다른 실시예에 따른 단말의 음성 처리 방법을 나타내는 순서도이다.
도 10은 개시된 다른 실시예에 따른 서버의 음성 처리 방법을 나타내는 순서도이다.
도 11은 개시된 다른 실시예에 따른 단말과 서버의 구체적인 동작 과정의 예시를 나타내는 순서도이다.
도 12는 개시된 또다른 실시예에 따른 단말의 내부 구성을 나타내는 블록도이다.
도 13은 개시된 또다른 실시예에 따른 서버의 내부 구성을 보다 상세히 나타내는 블록도이다.
도 14는 도 12에서 도시하는 단말의 내부 구성을 보다 상세히 나타내는 블록도이다.
도 15는 도 13에서 도시하는 단말의 내부 구성을 보다 상세히 나타내는 블록도이다.
도 16은 개시된 또다른 실시예에 따른 단말의 음성 처리 방법을 나타내는 순서도이다.
도 17은 개시된 또다른 실시예에 따른 서버의 음성 처리 방법을 나타내는 순서도이다.
도 18은 개인 정보를 나타내는 도면이다.
도 19는 개인 정보를 발음 기호 별로 나타내는 도면이다.
도 20은 개인 정보를 ID에 매핑시킨 매핑 테이블을 나타내는 도면이다.
도 21은 개인 정보의 발음 기호를 ID에 매핑시킨 매핑 테이블을 나타내는 도면이다.
도 22는 개인 정보 ID를 발음 기호 ID로 나타내는 도면이다.
도 23은 개시된 다른 실시예에 따른 단말과 서버의 구체적인 동작 과정의 예시를 나타내는 순서도이다.FIG. 1 is a block diagram showing the internal configuration of a terminal according to the disclosed embodiment.
FIG. 2 is a block diagram showing the internal configuration of a server according to the disclosed embodiment.
Figure 3 is a block diagram showing the internal configuration of the terminal illustrated in Figure 1 in more detail.
Figure 4 is a block diagram showing the internal configuration of the server illustrated in Figure 2 in more detail.
FIG. 5 is a flowchart showing a voice processing method of a terminal according to the disclosed embodiment.
FIG. 6 is a flowchart showing a voice processing method of a server according to the disclosed embodiment.
Figure 7 is a diagram explaining the personalized information section and the general information section.
FIG. 8 is a flowchart showing an example of a specific operation process of a terminal and a server according to the disclosed embodiment.
FIG. 9 is a flowchart showing a voice processing method of a terminal according to another disclosed embodiment.
FIG. 10 is a flowchart showing a voice processing method of a server according to another disclosed embodiment.
FIG. 11 is a flowchart showing an example of a specific operation process of a terminal and a server according to another disclosed embodiment.
FIG. 12 is a block diagram showing the internal configuration of a terminal according to another disclosed embodiment.
FIG. 13 is a block diagram illustrating in more detail the internal configuration of a server according to another disclosed embodiment.
Figure 14 is a block diagram showing the internal configuration of the terminal illustrated in Figure 12 in more detail.
Figure 15 is a block diagram showing the internal configuration of the terminal illustrated in Figure 13 in more detail.
FIG. 16 is a flowchart showing a voice processing method of a terminal according to another disclosed embodiment.
FIG. 17 is a flowchart showing a voice processing method of a server according to another disclosed embodiment.
Figure 18 is a diagram showing personal information.
Figure 19 is a diagram showing personal information by pronunciation symbol.
Figure 20 is a diagram showing a mapping table that maps personal information to an ID.
Figure 21 is a diagram showing a mapping table that maps pronunciation symbols of personal information to IDs.
Figure 22 is a diagram showing a personal information ID as a pronunciation symbol ID.
FIG. 23 is a flowchart showing an example of a specific operation process of a terminal and a server according to another disclosed embodiment.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 개시된 실시예는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 개시된 실시예의 개시가 완전하도록 하고, 개시된 실시예가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 개시된 실시예는 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.The advantages and features of the disclosed embodiments, and the methods for achieving them, will become apparent with reference to the embodiments described below together with the accompanying drawings. However, the disclosed embodiments are not limited to the embodiments disclosed below, but may be implemented in various different forms, and the present embodiments are provided only to make the disclosure of the disclosed embodiments complete and to fully inform those skilled in the art of the scope of the invention to which the disclosed embodiments belong, and the disclosed embodiments are defined only by the scope of the claims. Like reference numerals refer to like elements throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.Throughout the specification, when a part is said to be "connected" to another part, this includes not only the case where it is "directly connected" but also the case where it is "electrically connected" with another element in between. Also, throughout the specification, when a part is said to "include" a certain component, this does not mean that other components are excluded, but rather that other components can be included, unless specifically stated otherwise. Also, the term "part" used throughout the specification means software, hardware components such as FPGAs or ASICs, and the "part" performs certain roles. However, the "part" is not limited to software or hardware. The "part" may be configured to be on an addressable storage medium and may be configured to execute one or more processors. Thus, as an example, a "part" may include components such as software components, object-oriented software components, class components, and task components, and processes, functions, attributes, procedures, subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables. The functionality provided within the components and "parts" may be combined into fewer components and "parts" or further separated into additional components and "parts".
아래에서는 첨부한 도면을 참고하여 개시된 실시예의 실시예에 대하여 개시된 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 개시된 실시예는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 개시된 실시예를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.Below, with reference to the attached drawings, the disclosed embodiments are described in detail so that those with ordinary skill in the art to which the disclosed embodiments belong can easily practice them. However, the disclosed embodiments can be implemented in various different forms and are not limited to the embodiments described herein. In addition, in order to clearly describe the disclosed embodiments in the drawings, parts that are not related to the description are omitted.
개시된 실시예에서 사용되는 용어는 개시된 실시예에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 개시된 실시예에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 개시된 실시예의 전반에 걸친 내용을 토대로 정의되어야 한다. The terms used in the disclosed embodiments are selected from commonly used terms that are as much as possible while considering the functions of the disclosed embodiments, but this may vary depending on the intention of engineers working in the field, precedents, the emergence of new technologies, etc. In addition, in certain cases, there are terms arbitrarily selected by the applicant, and in this case, the meanings thereof will be described in detail in the description of the relevant invention. Therefore, the terms used in the disclosed embodiments should be defined based on the meanings of the terms and the overall contents of the disclosed embodiments, rather than simply the names of the terms.
본 명세서에서, 개인화 정보 구간(personalized information section)은 음성 신호 중 직간접적으로 각 개인을 식별할 수 있는 개인 정보를 포함하는 구간을 의미한다. 예를 들어, 음성 신호 중에 사용자 단말의 전화번호부에 저장된 이름, 사용자의 검색 기록, 사용자 위치 정보 등을 포함하는 구간이 개인화 정보 구간에 해당할 수 있다. In this specification, a personalized information section means a section of a voice signal that includes personal information that can directly or indirectly identify each individual. For example, a section of a voice signal that includes a name stored in the phone book of a user terminal, a user's search history, user location information, etc. may correspond to a personalized information section.
본 명세서에서 일반 정보 구간(general information section)은 음성 신호 중 개인 정보가 아닌 일반적인 정보를 포함하는 구간으로, 개인화 정보 구간을 제외한 나머지 구간을 의미한다. 예를 들어, ‘전화해’, ‘밥 먹었어?’ 등과 같이 일반적인 의미를 갖는 문장을 포함하는 구간이 일반 정보 구간에 해당할 수 있다. In this specification, the general information section refers to a section of a voice signal that contains general information, not personal information, and refers to the remaining sections excluding the personalized information section. For example, a section that contains sentences with general meanings, such as “Call me” or “Have you eaten?”, may correspond to the general information section.
본 명세서에서 개인화 모델(personalized model)은, 개인별 특징을 반영한 음성 처리 모델로, 특정 개인에 대한 맞춤형 음성 처리 모델이다. In this specification, a personalized model is a voice processing model that reflects individual characteristics and is a customized voice processing model for a specific individual.
본 명세서에서 일반 모델(general model)은, 일반적인 음성 처리 모델로, 특정 개인이 아닌 불특정인의 음성 처리를 위한 음성 처리 모델이다. In this specification, a general model is a general speech processing model, which is a speech processing model for speech processing of an unspecified person, not a specific individual.
도 1은 개시된 실시예에 따른 단말의 내부 구성을 나타내는 블록도이다.FIG. 1 is a block diagram showing the internal configuration of a terminal according to the disclosed embodiment.
도 1을 참조하면, 개시된 실시예에 따른 단말(100)은 수신부(110), 통신부(130) 및 제어부(150)를 포함한다. Referring to FIG. 1, a terminal (100) according to the disclosed embodiment includes a receiving unit (110), a communication unit (130), and a control unit (150).
수신부(110)는 음성 신호를 수신하는 역할을 수행한다. 수신부(110)는 마이크부, USB 인터페이스부, DVD 인터페이스부 등 다양한 구성 요소를 포함할 수 있다. 예를 들어, 수신부(110)가 마이크부를 포함하는 경우, 단말(100)은 사용자 음성 신호를 마이크부를 통해 직접 수신할 수 있다. 또한, 수신부(110)가 USB 인터페이스부를 포함하는 경우, 단말(100)은 음성 신호 파일을 USB로부터 수신할 수도 있다. 나아가, 통신부(130)를 통해 외부 장치로부터 음성 신호를 수신하는 경우, 통신부(130)가 수신부(110)의 역할을 수행하는 것도 가능하다. The receiving unit (110) performs the role of receiving a voice signal. The receiving unit (110) may include various components such as a microphone unit, a USB interface unit, and a DVD interface unit. For example, if the receiving unit (110) includes a microphone unit, the terminal (100) may directly receive a user voice signal through the microphone unit. In addition, if the receiving unit (110) includes a USB interface unit, the terminal (100) may also receive a voice signal file from a USB. Furthermore, if a voice signal is received from an external device through the communication unit (130), the communication unit (130) may also perform the role of the receiving unit (110).
통신부(130)는 외부 장치와 통신하는 역할을 수행한다. 통신부(130)는 유선 또는 무선으로 네트워크와 연결되어 외부 장치와의 통신을 수행할 수 있다. 개시된 실시예에 따르면, 통신부(130)는 서버와 통신하며 데이터를 송수신할 수 있다. 예를 들어, 통신부(130)는, 근거리 통신 모듈, 이동 통신 모듈, 무선 인터넷 모듈, 유선 인터넷 모듈 등을 포함할 수 있다. 또한, 통신부(130)는 하나 이상의 구성 요소를 포함할 수도 있다. The communication unit (130) performs a role of communicating with an external device. The communication unit (130) can be connected to a network by wire or wirelessly to perform communication with an external device. According to the disclosed embodiment, the communication unit (130) can communicate with a server and transmit and receive data. For example, the communication unit (130) can include a short-range communication module, a mobile communication module, a wireless Internet module, a wired Internet module, etc. In addition, the communication unit (130) can include one or more components.
제어부(150)는 단말(100) 전체의 동작을 제어하며, 수신부(110) 및 통신부(130)를 제어함으로써 음성 신호를 처리할 수 있다. 제어부(150)는 단말(100)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 전자 장치에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 램, 주변기기의 제어를 위한 제어 프로그램이 저장된 롬(ROM) 및 프로세서(Processor)를 포함할 수 있다. 프로세서는 코어(core, 도시되지 아니함)와 GPU(도시되지 아니함)를 통합한 SoC(System On Chip)로 구현될 수 있다. 또한, 프로세서는 복수의 프로세서를 포함할 수 있다. The control unit (150) controls the operation of the entire terminal (100) and can process a voice signal by controlling the receiving unit (110) and the communication unit (130). The control unit (150) can include a RAM that stores signals or data input from the outside of the terminal (100) or is used as a storage area corresponding to various tasks performed in the electronic device, a ROM that stores a control program for controlling peripheral devices, and a processor. The processor can be implemented as a SoC (System On Chip) that integrates a core (not shown) and a GPU (not shown). In addition, the processor can include a plurality of processors.
개시된 실시예에 따른 제어부(150)는 수신부(110)를 통해 음성 신호를 수신하여, 수신한 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간을 검출하고, 개인화 정보 구간에 대응하는 음성 신호에 대하여 개인 정보를 기반으로 생성된 개인화 모델을 이용하여 데이터 처리하며, 통신부(130)를 통해 서버로부터 개인화 정보 구간 이외의 구간인 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과를 수신하도록 제어한다. 이때, 서버로부터 수신한 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과는, 서버가 일반 모델을 이용하여 일반 정보 구간에 대응하는 음성 신호를 처리한 결과일 수 있다. 서버는 높은 연산 능력을 가지는 바, 일반 정보 구간에 대하여 빠른 데이터 처리가 가능하다. The control unit (150) according to the disclosed embodiment receives a voice signal through the receiving unit (110), detects a personalized information section including personal information from the received voice signal, performs data processing on the voice signal corresponding to the personalized information section using a personalized model generated based on the personal information, and controls the communication unit (130) to receive a result of data processing on the voice signal corresponding to the general information section, which is a section other than the personalized information section, from a server. At this time, the result of data processing on the voice signal corresponding to the general information section received from the server may be a result of the server processing the voice signal corresponding to the general information section using a general model. Since the server has high computational capabilities, fast data processing on the general information section is possible.
또한, 제어부(150)는 통신부(130)를 통해 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 생성하여 서버로 전송하도록 제어할 수 있거나, 또는 서버로부터 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 수신하도록 제어할 수도 있다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. In addition, the control unit (150) can control to generate voice segment information for the personalized information segment and the general information segment and transmit it to the server through the communication unit (130), or can control to receive voice segment information for the personalized information segment and the general information segment from the server. Here, the voice segment information can include segment marking information that marks at least one segment among the personalized information segment and the general information segment in the voice signal.
나아가, 제어부(150)는 음성 처리 결과를 사용자에게 출력하도록 제어할 수 있다. Furthermore, the control unit (150) can control the output of the voice processing result to the user.
개시된 실시예에 따르면, 단말(100)은 개인화 정보 구간에 대응하는 음성 신호에 대하여 개인 정보를 기반으로 생성된 개인화 모델을 이용하여 데이터 처리하고, 개인화 정보 구간 이외의 구간인 일반 정보 구간에 대응하는 음성 신호에 대해서는 서버에서 데이터 처리한 결과를 수신하게 된다. 서버는 일반 정보 구간에 대해서만 데이터 처리를 수행하므로, 데이터 처리 과정에 개인화 모델을 사용하지 않는다. 따라서, 서버와 단말(100) 간에는 개인 정보를 포함하는 어떠한 형태의 정보 전송도 일어나지 않고, 그에 따라 서버에는 어떠한 개인 정보도 저장되지 않는다. 결과적으로 개시된 실시예에 따르면, 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다. According to the disclosed embodiment, the terminal (100) performs data processing on a voice signal corresponding to a personalized information section using a personalized model generated based on personal information, and receives a result of data processing from a server on a voice signal corresponding to a general information section other than the personalized information section. Since the server performs data processing only on the general information section, it does not use a personalized model in the data processing process. Accordingly, no form of information transmission including personal information occurs between the server and the terminal (100), and accordingly, no personal information is stored on the server. As a result, according to the disclosed embodiment, it is possible to implement a voice processing system having higher performance and processing speed while fundamentally protecting personal information.
개시된 다른 실시예에 따른 제어부(150)는, 수신부(110)를 통해 음성 신호를 수신하며, 통신부(130)를 통해 서버로부터 음성 신호에 대하여 일반 모델을 이용하여 데이터 처리한 결과를 수신하고, 음성 신호에 대하여 데이터 처리 결과 및 개인 정보를 기반으로 생성된 개인화 모델을 이용하여 데이터 처리하도록 제어한다. 이 경우, 서버(200)는 높은 연산 능력을 가지는 바, 일반 정보 구간에 대하여 빠른 데이터 처리가 가능하다. 또한, 개인화 모델은, 개인화 음성 인식 모델, 언어 이해 모델 및 개인화 렉시컬 모델 중 적어도 하나 이상의 모델일 수 있다. A control unit (150) according to another disclosed embodiment receives a voice signal through a receiving unit (110), receives a result of data processing using a general model for the voice signal from a server through a communication unit (130), and controls data processing using a personalized model generated based on the data processing result and personal information for the voice signal. In this case, since the server (200) has high computational capability, fast data processing is possible for the general information section. In addition, the personalized model may be at least one model from among a personalized voice recognition model, a language understanding model, and a personalized lexical model.
또한, 제어부(150)는, 음성 신호에 대하여 데이터 처리 결과 및 개인 정보를 기반으로 생성된 개인화 모델을 이용하여 데이터 처리를 수행 시, 개인 정보를 포함하는 개인화 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리를 수행하도록 제어할 수 있다. 이때, 제어부(150)는 음성 신호 중 개인화 정보 구간을 검출하도록 제어할 수도 있고, 통신부(130)를 통해 서버로부터 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 수신하도록 제어할 수도 있다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. In addition, the control unit (150) may perform data processing on a voice signal corresponding to a personalized information section including personal information when performing data processing using a personalized model generated based on the data processing result and personal information for the voice signal. At this time, the control unit (150) may perform control to detect a personalized information section in the voice signal, and may perform control to receive voice section information on the personalized information section and the general information section from the server through the communication unit (130). Here, the voice section information may include section marking information that marks at least one section among the personalized information section and the general information section in the voice signal.
개시된 실시예에 따르면, 단말(100)은 서버로부터 음성 신호에 대하여 일반 모델을 이용하여 데이터 처리한 결과를 수신하고, 수신한 음성 신호에 대하여 데이터 처리 결과 및 개인 정보를 기반으로 생성된 개인화 모델을 이용하여 다시 한 번 데이터 처리를 수행한다. 즉, 개인화 모델링을 이용한 음성 처리는 단말(100)에서만 수행되므로, 서버와 단말(100) 간에는 개인 정보를 포함하는 어떠한 형태의 정보 전송도 일어나지 않고, 그에 따라 서버에는 어떠한 개인 정보도 저장되지 않는다. 결과적으로 개시된 실시예에 따르면, 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다. According to the disclosed embodiment, the terminal (100) receives the result of data processing using a general model for a voice signal from the server, and performs data processing again using a personalized model generated based on the data processing result and personal information for the received voice signal. That is, since voice processing using personalized modeling is performed only in the terminal (100), no form of information transmission including personal information occurs between the server and the terminal (100), and accordingly, no personal information is stored in the server. As a result, according to the disclosed embodiment, it is possible to implement a voice processing system having higher performance and processing speed while fundamentally protecting personal information.
도 2는 개시된 실시예에 따른 서버의 내부 구성을 나타내는 블록도이다.FIG. 2 is a block diagram showing the internal configuration of a server according to the disclosed embodiment.
도 2를 참조하면, 개시된 실시예에 따른 서버(200)는 수신부(210), 통신부(230) 및 제어부(250)를 포함한다. Referring to FIG. 2, a server (200) according to the disclosed embodiment includes a receiving unit (210), a communication unit (230), and a control unit (250).
수신부(210)는 음성 신호를 수신하는 역할을 수행한다. 수신부(210)는 USB 인터페이스부, DVD 인터페이스부 등 음성 신호를 다양한 형태로 수신할 수 있는 구성 요소를 포함할 수 있다. 예를 들어, 수신부(210)가 USB 인터페이스를 포함하는 경우, 서버(200)는 음성 신호 파일을 USB로부터 수신할 수 있다. 나아가, 통신부(230)를 통해 외부 장치로부터 음성 신호를 수신하는 경우, 통신부(230)가 수신부(210)의 역할을 수행하는 것도 가능하다. The receiving unit (210) performs the role of receiving a voice signal. The receiving unit (210) may include components that can receive voice signals in various forms, such as a USB interface unit and a DVD interface unit. For example, if the receiving unit (210) includes a USB interface, the server (200) can receive a voice signal file from the USB. Furthermore, if a voice signal is received from an external device through the communication unit (230), the communication unit (230) may also perform the role of the receiving unit (210).
통신부(230)는 외부 장치와 통신하는 역할을 수행한다. 통신부(230)는 유선 또는 무선으로 네트워크와 연결되어 외부 장치와의 통신을 수행할 수 있다. 개시된 실시예에 따르면, 통신부(230)는 단말(100)과 통신하며 데이터를 송수신할 수 있다. 개시된 실시예에 따르면, 통신부(130)는 서버와 통신하며 데이터를 송수신할 수 있다. 예를 들어, 통신부(130)는, 근거리 통신 모듈, 이동 통신 모듈, 무선 인터넷 모듈, 유선 인터넷 모듈 등을 포함할 수 있다. 또한, 통신부(130)는 하나 이상의 구성 요소를 포함할 수도 있다.The communication unit (230) performs a role of communicating with an external device. The communication unit (230) can be connected to a network by wire or wirelessly to perform communication with an external device. According to the disclosed embodiment, the communication unit (230) can communicate with the terminal (100) and transmit and receive data. According to the disclosed embodiment, the communication unit (130) can communicate with a server and transmit and receive data. For example, the communication unit (130) can include a short-range communication module, a mobile communication module, a wireless Internet module, a wired Internet module, etc. In addition, the communication unit (130) can include one or more components.
제어부(250)는 서버(200) 전체의 동작을 제어하며, 수신부(210) 및 통신부(230)를 제어함으로써 음성 신호를 처리할 수 있다. 제어부(250)는 서버(200)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 전자 장치에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 램, 주변기기의 제어를 위한 제어 프로그램이 저장된 롬(ROM) 및 프로세서(Processor)를 포함할 수 있다. 프로세서는 코어(core, 도시되지 아니함)와 GPU(도시되지 아니함)를 통합한 SoC(System On Chip)로 구현될 수 있다. 또한, 프로세서는 복수의 프로세서를 포함할 수 있다.The control unit (250) controls the operation of the entire server (200) and can process a voice signal by controlling the receiving unit (210) and the communication unit (230). The control unit (250) can include a RAM that stores signals or data input from the outside of the server (200) or is used as a storage area corresponding to various tasks performed in an electronic device, a ROM that stores a control program for controlling peripheral devices, and a processor. The processor can be implemented as a SoC (System On Chip) that integrates a core (not shown) and a GPU (not shown). In addition, the processor can include a plurality of processors.
개시된 실시예에 따른 제어부(250)는 수신부(210)를 통해 음성 신호를 수신하여, 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간을 검출하고, 음성 신호 중 개인화 정보 구간 이외의 구간인 일반 정보 구간에 대응하는 음성 신호에 대하여 일반 모델을 이용하여 데이터 처리하며, 통신부(230)를 통해 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과를 단말(100)로 전송하도록 제어한다. The control unit (250) according to the disclosed embodiment receives a voice signal through the receiving unit (210), detects a personalized information section including personal information among the voice signal, performs data processing using a general model for a voice signal corresponding to a general information section other than the personalized information section among the voice signal, and transmits the result of the data processing for the voice signal corresponding to the general information section to the terminal (100) through the communication unit (230).
또한, 제어부(250)는 통신부(230)를 통해 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 생성하여 단말(100)로 전송하거나, 단말(100)로부터 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 수신한다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다.In addition, the control unit (250) generates voice section information for the personalized information section and the general information section through the communication unit (230) and transmits it to the terminal (100), or receives voice section information for the personalized information section and the general information section from the terminal (100). Here, the voice section information may include section marking information that marks at least one section among the personalized information section and the general information section in the voice signal.
개시된 실시예에 따르면, 서버(200)는은 일반 정보 구간에 대응하는 음성 신호에만 데이터 처리를 수행하므로, 데이터 처리 과정에 개인화 모델(171)을 사용하지 않는다. 따라서, 서버와 단말(100) 간에는 개인 정보를 포함하는 어떠한 형태의 정보 전송도 일어나지 않고, 그에 따라 서버에는 어떠한 개인 정보도 저장되지 않는다. 결과적으로 개시된 실시예에 따르면, 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다. According to the disclosed embodiment, the server (200) performs data processing only on a voice signal corresponding to a general information section, and therefore does not use a personalized model (171) in the data processing process. Accordingly, no form of information transmission including personal information occurs between the server and the terminal (100), and accordingly, no personal information is stored in the server. As a result, according to the disclosed embodiment, it is possible to implement a voice processing system having higher performance and processing speed while fundamentally protecting personal information.
개시된 다른 실시예에 따른 제어부(250)는, 수신부(210)를 통해 음성 신호를 수신하여, 음성 신호 중 개인화 정보 구간 이외의 구간인 일반 정보 구간에 대응하는 음성 신호에 대하여 일반 모델을 이용하여 데이터 처리하고, 통신부(230)를 통해 데이터 처리 결과를 단말로 전송한다. 제어부(250)는 음성 신호 중 개인화 음성 구간에 대한 음성 구간 정보를 생성할 수 있고, 생성한 음성 구간 정보를 단말(100)로 전송할 수 있다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다.A control unit (250) according to another disclosed embodiment receives a voice signal through a receiving unit (210), performs data processing on a voice signal corresponding to a general information section other than a personalized information section among the voice signals using a general model, and transmits the data processing result to a terminal through a communication unit (230). The control unit (250) can generate voice section information for a personalized voice section among the voice signals, and transmit the generated voice section information to the terminal (100). Here, the voice section information can include section marking information that marks at least one section among the personalized information section and the general information section among the voice signals.
개시된 실시예에 따르면, 서버(200)는은 수신한 음성 신호에 대하여 일반 모델만을 이용하여 데이터 처리를 수행하므로, 데이터 처리 과정에 개인화 모델(171)을 사용하지 않는다. 따라서, 서버와 단말(100) 간에는 개인 정보를 포함하는 어떠한 형태의 정보 전송도 일어나지 않고, 그에 따라 서버에는 어떠한 개인 정보도 저장되지 않는다. 결과적으로 개시된 실시예에 따르면, 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다. According to the disclosed embodiment, the server (200) performs data processing using only a general model for the received voice signal, and therefore does not use a personalized model (171) in the data processing process. Accordingly, no form of information transmission including personal information occurs between the server and the terminal (100), and accordingly, no personal information is stored in the server. As a result, according to the disclosed embodiment, it is possible to implement a voice processing system having higher performance and processing speed while fundamentally protecting personal information.
도 3은 도 1에서 도시하는 단말의 내부 구성을 보다 상세히 나타내는 블록도이다. 도 3에서는, 도 1과 중복되는 구성 요소에 대한 설명은 생략한다. Fig. 3 is a block diagram showing the internal configuration of the terminal illustrated in Fig. 1 in more detail. In Fig. 3, descriptions of components that overlap with those in Fig. 1 are omitted.
제어부(150)는 음성 처리 엔진(151)을 포함할 수 있다. 개시된 실시예에 따르면, 음성 처리 엔진(151)은 음성 인식 엔진(ASR engine)과 언어 이해 엔진(NLU engine)을 포함할 수 있으며, 수신한 음성 신호를 데이터 처리하여 음성 인식 및 언어 이해를 수행한다. 이때, 음성 인식 엔진과 언어 이해 엔진은 각각 음성 인식 모델과 언어 이해 모델을 이용하여 음성 신호를 처리할 수 있다. The control unit (150) may include a voice processing engine (151). According to the disclosed embodiment, the voice processing engine (151) may include an voice recognition engine (ASR engine) and a language understanding engine (NLU engine), and performs voice recognition and language understanding by data processing a received voice signal. At this time, the voice recognition engine and the language understanding engine may process the voice signal using a voice recognition model and a language understanding model, respectively.
음성 인식 모델은 음향 모델과 언어 모델을 포함할 수 있다. 음향 모델은 음성 신호에 대한 모델로, 수집된 많은 양의 음성 데이터로부터 통계적인 방법을 통하여 생성된다. 언어 모델은 사용자 발화에 대한 문법적 모델로 이 또한 수집된 많은 양의 텍스트 데이터로부터 통계적 학습을 통하여 얻어지는 것이 일반적이다. 언어이해 모델은 사용자 발화에 대한 의미를 나타내는 모델(Semantic model)로 많은 양의 텍스트 데이터로부터 통계적 학습을 하거나, 사용 시나리오를 고려하여 의미 이해 규칙을 작성함으로써 얻어진다.A speech recognition model may include an acoustic model and a language model. The acoustic model is a model for a speech signal, and is generated statistically from a large amount of collected speech data. The language model is a grammatical model for user speech, and is usually obtained through statistical learning from a large amount of collected text data. The language understanding model is a model that represents the meaning of user speech (semantic model), and is obtained by statistical learning from a large amount of text data or by writing semantic understanding rules considering the usage scenario.
단말(100)은 저장부(170)를 더 포함할 수 있다. 저장부(170)는 단말(100)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장부(170)는 휘발성(volatile) 저장 매체 또는 비휘발성(nonvolatile) 저장 매체로 구성될 수 있으며, 양 저장 매체의 조합(combination)으로 구성될 수도 있다. 휘발성 저장 매체로는 RAM, DRAM, SRAM과 같은 반도체 메모리(semiconductor memory)가 포함될 수 있으며, 비휘발성 저장 매체로는 하드 디스크(hard disk), 플래시 낸드 메모리(Flash NAND Memory)가 포함될 수 있다. The terminal (100) may further include a storage unit (170). The storage unit (170) serves to store programs and data required for the operation of the terminal (100). The storage unit (170) may be composed of a volatile storage medium or a nonvolatile storage medium, and may also be composed of a combination of both storage media. The volatile storage medium may include a semiconductor memory such as RAM, DRAM, and SRAM, and the nonvolatile storage medium may include a hard disk and a flash NAND memory.
개시된 실시예에 따르면 저장부(170)에는 개인 정보(172)가 저장될 수 있다. 개인 정보(172)는 직간접적으로 각 개인을 식별할 수 있는 정보로, 단말의 종류에 따라 저장되는 데이터의 종류가 달라질 수 있다. 예를 들어, 모바일 디바이스의 경우에는 연락처, 음악 리스트, 단문 메시지의 내용이나 수신, 발신 내역, 웹 검색 이력을 포함할 수 있고, TV 의 경우에는 개인적인 재생 목록 등이 포함될 수 있다.According to the disclosed embodiment, personal information (172) may be stored in the storage (170). Personal information (172) is information that can directly or indirectly identify each individual, and the type of data stored may vary depending on the type of terminal. For example, in the case of a mobile device, it may include contact information, a music list, the contents of short messages or history of sending and receiving, and web search history, and in the case of a TV, it may include personal playlists, etc.
또한, 저장부(170)에는 개인화 모델(171)이 저장될 수 있다. 개인화 모델(171)은 개인 정보를 이용하여 생성된 개인별 특징을 반영한 음성 처리 모델이다. 저장부(170)에는 개인화된 음성 인식 모델 및/또는 개인화된 언어 이해 모델이 저장될 수 있다. 이러한 개인화된 음성 인식 모델 및/또는 개인화된 언어 이해 모델을 이용하는 경우, 보다 높은 성능을 갖는 음성 처리 시스템을 구현할 수 있다. In addition, a personalized model (171) may be stored in the storage unit (170). The personalized model (171) is a voice processing model that reflects individual characteristics generated using personal information. A personalized voice recognition model and/or a personalized language understanding model may be stored in the storage unit (170). When such a personalized voice recognition model and/or a personalized language understanding model is used, a voice processing system with higher performance can be implemented.
도 4는 도 2에서 도시하는 서버의 내부 구성을 보다 상세히 나타내는 블록도이다. 도 4에서는, 도 2와 중복되는 구성 요소에 대한 설명은 생략한다.Fig. 4 is a block diagram showing the internal configuration of the server illustrated in Fig. 2 in more detail. In Fig. 4, descriptions of components that overlap with those in Fig. 2 are omitted.
제어부(250)는 음성 처리 엔진(251)을 포함할 수 있다. 개시된 실시예에 따르면, 음성 처리 엔진(151)은 음성 인식 엔진(ASR engine)과 언어 이해 엔진(NLU engine)을 포함할 수 있으며, 수신한 음성 신호를 데이터 처리하여 음성 인식 및 언어 이해를 수행한다. 이때, 음성 인식 엔진과 언어 이해 엔진은 각각 음성 인식 모델과 언어 이해 모델을 이용하여 음성 신호를 처리할 수 있다. The control unit (250) may include a voice processing engine (251). According to the disclosed embodiment, the voice processing engine (151) may include an voice recognition engine (ASR engine) and a language understanding engine (NLU engine), and performs voice recognition and language understanding by data processing a received voice signal. At this time, the voice recognition engine and the language understanding engine may process the voice signal using a voice recognition model and a language understanding model, respectively.
서버(200)는 저장부(270)를 더 포함할 수 있다. 저장부(270)는 서버(200)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장부(270)는 휘발성(volatile) 저장 매체 또는 비휘발성(nonvolatile) 저장 매체로 구성될 수 있으며, 양 저장 매체의 조합(combination)으로 구성될 수도 있다. 휘발성 저장 매체로는 RAM, DRAM, SRAM과 같은 반도체 메모리(semiconductor memory)가 포함될 수 있으며, 비휘발성 저장 매체로는 하드 디스크(hard disk), 플래시 낸드 메모리(Flash NAND Memory)가 포함될 수 있다. 개시된 실시예에 따르면 저장부(270)에는 일반 모델(271)이 저장될 수 있다. 일반 모델(271)은 일반적인 음성 처리 모델로, 특정 개인이 아닌 불특정인의 음성 처리를 위한 음성 처리 모델이다. 대용량으로 구성되는 일반 모델(271)은 서버의 높은 연산 능력과 결합하여 사용자의 다양한 언어 표현(대어휘)에 대한 높은 음성 처리 성능을 제공한다. 따라서, 개시된 실시예에 따르면, 저장부(270)에는 어떠한 형태의 개인 정보도 저장되지 않아 개인 정보를 원천적으로 보호하면서도 높은 음성 처리 성능을 제공할 수 있다. The server (200) may further include a storage unit (270). The storage unit (270) stores programs and data required for the operation of the server (200). The storage unit (270) may be configured as a volatile storage medium or a nonvolatile storage medium, and may also be configured as a combination of both storage media. The volatile storage medium may include a semiconductor memory such as RAM, DRAM, and SRAM, and the nonvolatile storage medium may include a hard disk and a flash NAND memory. According to the disclosed embodiment, a general model (271) may be stored in the storage unit (270). The general model (271) is a general voice processing model, and is a voice processing model for voice processing of an unspecified person, not a specific individual. The general model (271) configured with a large capacity provides high voice processing performance for various language expressions (large vocabulary) of the user in combination with the high computational capability of the server. Therefore, according to the disclosed embodiment, no form of personal information is stored in the storage unit (270), thereby providing high voice processing performance while fundamentally protecting personal information.
아래에서 단말(100)과 서버(200)의 동작을 보다 상세하게 설명하도록 한다. Below, the operation of the terminal (100) and server (200) will be described in more detail.
도 5는 개시된 실시예에 따른 단말의 음성 신호 처리 방법을 나타내는 순서도이다. FIG. 5 is a flowchart showing a voice signal processing method of a terminal according to the disclosed embodiment.
먼저, 510 단계에서 단말(100)은 음성 신호를 수신한다. 단말(100)은 다양한 구성 요소를 통해 음성 신호를 수신할 수 있다. 마이크부를 통해 음성 신호를 수신하는 것이 가장 일반적인 형태일 것이지만, USB 인터페이스부 또는 DVD 인터페이스부 등을 통해 음성 신호를 수신할 수도 있다. 나아가, 외부 장치와 통신을 통해 음성 신호를 수신할 수도 있다. 개시된 실시예에 따르면, 단말(100)은 이렇게 수신한 음성 신호를 서버(200)로 전송할 수 있다. First, in step 510, the terminal (100) receives a voice signal. The terminal (100) can receive a voice signal through various components. Receiving a voice signal through a microphone unit would be the most common form, but the voice signal can also be received through a USB interface unit or a DVD interface unit, etc. Furthermore, the voice signal can also be received through communication with an external device. According to the disclosed embodiment, the terminal (100) can transmit the voice signal received in this way to the server (200).
그 후, 520 단계에서 단말(100)은 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간을 검출한다. 개인화 정보 구간은 음성 신호 중 직간접적으로 각 개인을 식별할 수 있는 개인 정보를 포함하는 구간을 의미한다. 예를 들어, 단말(100)은 도 3의 저장부(170)에 저장된 개인 정보(172)를 참조하여 음성 신호 중에 사용자 단말의 전화번호부에 저장된 이름, 사용자의 검색 기록, 사용자 위치 정보 등을 포함하는 구간을 개인화 정보 구간으로 검출할 수 있다. 도 7을 참조하여 설명한다. Thereafter, in step 520, the terminal (100) detects a personalized information section including personal information in the voice signal. The personalized information section refers to a section including personal information that can directly or indirectly identify each individual in the voice signal. For example, the terminal (100) can detect a section including a name stored in the phone book of the user terminal, a user's search history, user location information, etc. in the voice signal as a personalized information section by referring to the personal information (172) stored in the storage unit (170) of FIG. 3. This will be described with reference to FIG. 7.
도 7은 개인화 정보 구간과 일반 정보 구간을 설명하는 도면이다. Figure 7 is a diagram explaining the personalized information section and the general information section.
도 7을 참조하면, ‘홍길동씨 10층 김길동씨에게 전화 부탁드립니다’라는 문장은 9개의 구간으로 구분될 수 있다. 즉, 홍길동(701), 씨(702), 10(703), 층(704), 김길동(705), 씨(706), 에게(707), 전화(708), 부탁드립니다(709) 로 구분될 수 있다. 이러한 구간에 대한 구분 기준은 상황에 따라 다르게 적용될 수 있다. Referring to Figure 7, the sentence ‘Mr. Hong Gil-dong, please call Mr. Kim Gil-dong on the 10th floor’ can be divided into 9 sections. That is, it can be divided into Hong Gil-dong (701), Mr. (702), 10 (703), floor (704), Kim Gil-dong (705), Mr. (706), to (707), phone (708), and please (709). The criteria for division of these sections can be applied differently depending on the situation.
여기서, 홍길동(701)은 사용자를 지칭하는 단어이고, 김길동(705)은 사용자 단말의 전화번호부에 저장된 이름이라고 가정하는 경우, 홍길동(701) 및 김길동(705)에 해당하는 음성 신호 구간은 개인화 구간(710)에 해당한다. 즉, 홍길동(701) 및 김길동(705)은 개인 정보에 해당하고 이러한 개인 정보를 포함하는 구간 701 및 705는 개인화 정보 구간(710)에 해당한다. 단말(100)은 520 단계에서 이와 같이 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간(710)을 검출하는 것이다. Here, assuming that Hong Gil-dong (701) is a word referring to a user and Kim Gil-dong (705) is a name stored in the phone book of the user terminal, the voice signal sections corresponding to Hong Gil-dong (701) and Kim Gil-dong (705) correspond to personalized sections (710). That is, Hong Gil-dong (701) and Kim Gil-dong (705) correspond to personal information, and the sections 701 and 705 including such personal information correspond to personalized information sections (710). The terminal (100) detects the personalized information section (710) including personal information among the voice signals in step 520.
단말(100)은 다양한 방법을 통해 개인화 정보 구간을 검출할 수 있다. 예를 들어, 사전에 포함되어 있지 않은 단어는 개인 정보라고 판단하여 해당 단어가 포함된 음성 구간을 개인화 정보 구간이라고 판단할 수 있다. 다만, 이러한 방법은 하나의 예시에 불과하며, 다양한 개인화 정보 구간을 검출 방법을 이용할 수 있다.The terminal (100) can detect a personalized information section through various methods. For example, a word not included in the dictionary can be determined as personal information, and a voice section including the word can be determined as a personalized information section. However, this method is only one example, and various personalized information section detection methods can be used.
또한, 단말(100)은 위와 같이 검출한 개인화 정보 구간을 이용하여 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 생성하여 서버(200)로 전송할 수 있다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. 즉, 단말(100)은 음성 신호 중 개인화 정보 구간 및/또는 일반 정보 구간에 해당 구간임을 알 수 있는 마킹을 하고, 이러한 구간 마킹 정보를 포함하는 음성 구간 정보를 생성하여 전송할 수 있다. 이렇게 서버(200)로 전송된 음성 구간 정보는, 서버(200)가 음성 신호 중 일반 정보 구간을 확인 및/또는 처리하는데 사용될 수 있다. 서버(200)는 일반 정보 구간으로 마킹된 구간 또는 개인화 정보 구간으로 마킹된 구간을 제외한 나머지 구간을 확인하고 그에 대응하는 음성 신호에 대하여 데이터 처리를 할 수 있다. In addition, the terminal (100) can generate voice segment information for the personalized information segment and the general information segment using the personalized information segment detected as described above and transmit the same to the server (200). Here, the voice segment information can include segment marking information that marks at least one segment among the personalized information segment and the general information segment in the voice signal. That is, the terminal (100) can mark the personalized information segment and/or the general information segment in the voice signal to indicate that it is a corresponding segment, and generate and transmit voice segment information including such segment marking information. The voice segment information transmitted to the server (200) in this way can be used by the server (200) to confirm and/or process the general information segment in the voice signal. The server (200) can confirm the remaining segments excluding the segments marked as the general information segment or the segments marked as the personalized information segment and perform data processing on the voice signal corresponding thereto.
다시 도 5의 설명으로 돌아가면, 530 단계에서 단말(100)은 개인화 정보 구간에 대응하는 음성 신호에 대하여 개인 정보를 기반으로 생성된 개인화 모델(171)을 이용하여 데이터 처리한다. 개인화 모델(171)은, 개인별 특징을 반영한 음성 처리 모델로, 특정 개인에 대한 맞춤형 음성 처리 모델이다. 개인화 모델(171)을 이용하여 음성 신호에 대한 데이터 처리를 수행하는 경우, 불특정 다수를 위해 만들어진 일반 모델(271)에 비하여 더 정확한 음성 처리가 가능하다. 또한, 단말(100)은 개인화 구간에 대응하는 음성 신호에 대하여 직접 개인화 모델(171)을 이용하여 데이터 처리를 수행함으로써, 개인 정보를 포함하는 개인화 모델(171)을 서버와 같은 외부 장치로 전송할 필요가 없고, 따라서, 개인 정보를 원천적으로 보호할 수 있다. Returning to the description of FIG. 5, at step 530, the terminal (100) performs data processing on a voice signal corresponding to a personalized information section using a personalized model (171) generated based on personal information. The personalized model (171) is a voice processing model that reflects individual characteristics and is a customized voice processing model for a specific individual. When performing data processing on a voice signal using the personalized model (171), more accurate voice processing is possible compared to a general model (271) created for an unspecified number of people. In addition, since the terminal (100) performs data processing on a voice signal corresponding to a personalized section directly using the personalized model (171), there is no need to transmit the personalized model (171) including personal information to an external device such as a server, and thus, personal information can be protected at the source.
나아가, 540 단계에서 단말(100)은 서버(200)로부터 개인화 정보 구간 이외의 구간인 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과를 수신한다. 일반 정보 구간은 음성 신호 중 개인 정보가 아닌 일반적인 정보를 포함하는 구간으로, 개인화 정보 구간을 제외한 나머지 구간을 의미한다. 예를 들어, ‘전화해’, ‘밥 먹었어?’ 등과 같이 일반적인 의미를 갖는 문장을 포함하는 구간이 일반 정보 구간에 해당할 수 있다. 도 7을 참조하여 설명한다. Furthermore, at step 540, the terminal (100) receives from the server (200) the result of data processing for a voice signal corresponding to a general information section other than a personalized information section. The general information section is a section of the voice signal that includes general information other than personal information, and refers to the remaining sections excluding the personalized information section. For example, a section including sentences with general meanings such as ‘call me’ or ‘have you eaten?’ may correspond to the general information section. This will be explained with reference to Fig. 7.
위에서 살펴본 것과 같이 도 7에서, ‘홍길동씨 10층 김길동씨에게 전화 부탁드립니다’라는 문장은 9개의 구간으로 구분될 수 있다. As seen above, in Figure 7, the sentence ‘Mr. Hong Gil-dong, please call Mr. Kim Gil-dong on the 10th floor’ can be divided into nine sections.
여기서, 씨(702), 10(703), 층(704), 씨(706), 에게(707), 전화(708), 부탁드립니다(709)는 일반적인 단어들로 이러한 일반적인 정보를 포함하는 구간 702, 703, 704, 706, 707, 708 및 709는 일반 정보 구간(720)에 해당한다. Here, Mr. (702), 10 (703), floor (704), Mr. (706), to (707), phone (708), please (709) are general words, and the sections 702, 703, 704, 706, 707, 708 and 709 containing such general information correspond to the general information section (720).
단말(100)은 540 단계에서 이와 같이 음성 신호 중 일반 정보를 포함하는 일반 정보 구간(720)에 대응하는 음성 신호에 대해서는 직접 데이터 처리를 하지 않고 단말(100)에 비해 높은 연산 능력을 갖는 서버(200)로부터 데이터 처리한 결과를 수신한다. 따라서, 일반 정보 구간(720)에 대응하는 음성 신호에 대해서 빠른 데이터 처리가 가능하다. At step 540, the terminal (100) does not directly process data for a voice signal corresponding to a general information section (720) including general information among voice signals, but receives the result of data processing from a server (200) that has higher computational capabilities than the terminal (100). Therefore, fast data processing is possible for a voice signal corresponding to a general information section (720).
서버(200)로부터 수신한 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과는 서버(200)가 일반 모델(271)을 이용하여 일반 정보 구간에 대응하는 음성 신호를 처리한 결과일 수 있다. 일반 모델(271)은 서버(200)의 높은 연산 능력과 결합하여 사용자의 다양한 언어 표현(대어휘)에 대한 높은 음성 처리 성능을 제공할 수 있다. 또한, 서버(200)는 높은 연산 능력을 가지는 바, 일반 정보 구간에 대하여 빠른 데이터 처리가 가능하다.The result of data processing for a voice signal corresponding to a general information section received from a server (200) may be a result of the server (200) processing a voice signal corresponding to a general information section using a general model (271). The general model (271) can provide high voice processing performance for various language expressions (vocabulary) of a user in combination with the high computational ability of the server (200). In addition, since the server (200) has high computational ability, fast data processing is possible for the general information section.
단말(100)은 서버(200)로부터 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 수신할 수도 있다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. 단말(100)은 자체적으로 개인화 정보 구간을 검출하고 음성 구간 정보를 생성할 수도 있다. 다만, 단말(100)과 서버(200)는 각각 스스로 검출한 개인화 정보 구간 및/또는 일반 정보 구간에 대하여 데이터 처리를 수행할 수 있으므로, 단말(100)에서 검출한 개인화 정보 구간과 서버(200)에서 검출한 개인화 정보 구간이 서로 다른 경우, 데이터 처리에 빠지는 구간이 발생할 수 있다. 따라서, 모든 구간에 대해 빠짐없이 데이터 처리를 수행하기 위하여, 단말(100)과 서버(200)는 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 공유할 수 있다. The terminal (100) may receive voice segment information for the personalized information segment and the general information segment from the server (200). Here, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment in the voice signal. The terminal (100) may also detect the personalized information segment on its own and generate voice segment information. However, since the terminal (100) and the server (200) may perform data processing on the personalized information segment and/or the general information segment detected by themselves, if the personalized information segment detected by the terminal (100) and the personalized information segment detected by the server (200) are different from each other, segments that are missed in data processing may occur. Therefore, in order to perform data processing without omission for all segments, the terminal (100) and the server (200) may share voice segment information for the personalized information segment and the general information segment.
나아가, 단말(100)은 데이터 처리 결과를 사용자에게 출력할 수 있다. Furthermore, the terminal (100) can output the data processing result to the user.
**
*결과적으로 개시된 실시예에 따르면, 개인 정보(172)나 개인화 모델(171)은 서버(200)로 전송함 없이 단말(100)에서 유지하고 단말(100)에서 이러한 개인 정보(172)나 개인화 모델(171)을 이용하여 음성 처리함으로써 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다. *According to the disclosed embodiment, personal information (172) or a personalized model (171) is maintained in the terminal (100) without being transmitted to the server (200), and the terminal (100) performs voice processing using the personal information (172) or the personalized model (171), thereby fundamentally protecting personal information while implementing a voice processing system having higher performance and processing speed.
도 6은 개시된 실시예에 따른 서버의 음성 신호 처리 방법을 나타내는 순서도이다.FIG. 6 is a flowchart showing a voice signal processing method of a server according to the disclosed embodiment.
먼저, 610 단계에서 서버(200)는 음성 신호를 수신한다. 서버(200)는 다양한 구성 요소를 통해 음성 신호를 수신할 수 있다. 단말(100)로부터 음성 신호를 수신하는 것이 가장 일반적인 형태일 것이지만, USB 인터페이스부 또는 DVD 인터페이스부 등을 통해 음성 신호를 수신할 수도 있다. First, in step 610, the server (200) receives a voice signal. The server (200) can receive a voice signal through various components. Receiving a voice signal from a terminal (100) would be the most common form, but the voice signal can also be received through a USB interface unit or a DVD interface unit, etc.
그 후, 620 단계에서 서버(200)는 수신한 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간을 검출한다. 서버(200)는 수신한 음성 신호를 해석하여 개인화 정보 구간을 검출할 수도 있고, 단말(100)로부터 음성 구간 정보를 수신하여 파싱함으로써 개인화 정보 구간을 검출할 수도 있다. 서버(200)는 다양한 방법을 통해 개인화 정보 구간을 검출할 수 있다. 예를 들어, 사전에 포함되어 있지 않은 단어는 개인 정보라고 판단하여 해당 단어가 포함된 음성 구간을 개인화 정보 구간이라고 판단할 수 있다. 다만, 이러한 방법은 하나의 예시에 불과하며, 다양한 개인화 정보 구간을 검출 방법을 이용할 수 있다. Thereafter, in step 620, the server (200) detects a personalized information section including personal information from the received voice signal. The server (200) may detect the personalized information section by interpreting the received voice signal, or may detect the personalized information section by receiving and parsing voice section information from the terminal (100). The server (200) may detect the personalized information section through various methods. For example, a word not included in the dictionary may be determined to be personal information, and a voice section including the word may be determined to be a personalized information section. However, this method is only one example, and various personalized information section detection methods may be used.
개인화 정보 구간 및 일반 구간에 대해서는 위에서 도 7과 함께 설명한 바, 중복하여 설명하지 않는다. The personalized information section and general section have been explained above together with Fig. 7, and will not be explained again.
또한, 서버(200)는 위와 같이 검출한 개인화 정보 구간을 이용하여 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 생성하여 단말(100)로 전송할 수 있다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. 즉, 서버(200)은 음성 신호 중 개인화 정보 구간 및/또는 일반 정보 구간에 해당 구간임을 알 수 있는 마킹을 하고, 이러한 구간 마킹 정보를 포함하는 음성 구간 정보를 생성하여 전송할 수 있다. 이렇게 단말(100)로 전송된 음성 구간 정보는, 단말(100)이 음성 신호 중 개인화 정보 구간을 확인 및/또는 처리하는데 사용될 수 있다. 단말(100)은 일반 정보 구간으로 마킹된 구간 또는 개인화 정보 구간으로 마킹된 구간을 제외한 나머지 구간을 확인하고 그에 대응하는 음성 신호에 대하여 데이터 처리를 할 수 있다. In addition, the server (200) can use the personalized information section detected as described above to generate voice section information for the personalized information section and the general information section and transmit the same to the terminal (100). Here, the voice section information can include section marking information that marks at least one section among the personalized information section and the general information section in the voice signal. That is, the server (200) can mark the personalized information section and/or the general information section in the voice signal to indicate that it is the corresponding section, and generate and transmit voice section information including such section marking information. The voice section information transmitted to the terminal (100) in this way can be used by the terminal (100) to confirm and/or process the personalized information section in the voice signal. The terminal (100) can confirm the remaining sections excluding the sections marked as the general information section or the sections marked as the personalized information section, and perform data processing on the voice signal corresponding thereto.
다음으로, 630 단계에서 서버(200)는 음성 신호 중 개인화 정보 구간 이외의 구간인 일반 정보 구간에 대응하는 음성 신호에 대하여 일반 모델(271)을 이용하여 데이터 처리한다. 일반 모델(271)은 서버의 높은 연산 능력과 결합하여 사용자의 다양한 언어 표현(대어휘)에 대한 높은 음성 처리 성능을 제공할 수 있다. 나아가, 서버(200)는 높은 연산 능력을 가지는 바, 일반 정보 구간에 대하여 빠른 데이터 처리가 가능하다. 또한, 개인 정보를 포함하는 개인화 구간에 대응하는 음성 신호에 대해서는 서버(200)가 처리 하지 않고 개인화 모델(171)을 가지고 있는 단말(100)에서 데이터 처리를 수행하는 바, 개인 정보를 원천적으로 보호할 수 있다. Next, at step 630, the server (200) performs data processing using the general model (271) for the voice signal corresponding to the general information section, which is a section other than the personalized information section among the voice signals. The general model (271) can provide high voice processing performance for various language expressions (vocabulary) of the user in combination with the high computational capability of the server. Furthermore, since the server (200) has high computational capability, fast data processing is possible for the general information section. In addition, since the server (200) does not process the voice signal corresponding to the personalized section including personal information, but performs data processing in the terminal (100) having the personalized model (171), personal information can be fundamentally protected.
나아가, 640 단계에서, 서버(200)는 일반 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리한 결과를 단말로 전송한다. Further, at step 640, the server (200) transmits the result of data processing for the voice signal corresponding to the general information section to the terminal.
서버(200)는 단말(100)로부터 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 수신할 수도 있다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. 서버(200)는 자체적으로 개인화 정보 구간을 검출하고 음성 구간 정보를 생성할 수도 있다. 다만, 단말(100)과 서버(200)는 각각 스스로 검출한 개인화 정보 구간 및/또는 일반 정보 구간에 대하여 데이터 처리를 수행할 수 있으므로, 단말(100)에서 검출한 개인화 정보 구간과 서버(200)에서 검출한 개인화 정보 구간이 서로 다른 경우, 데이터 처리에 빠지는 구간이 발생할 수 있다. 따라서, 모든 구간에 대해 빠짐없이 데이터 처리를 수행하기 위하여, 단말(100)과 서버(200)는 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 공유할 수 있다. The server (200) may receive voice segment information for the personalized information segment and the general information segment from the terminal (100). Here, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment in the voice signal. The server (200) may also detect the personalized information segment on its own and generate voice segment information. However, since the terminal (100) and the server (200) may perform data processing on the personalized information segment and/or the general information segment detected by themselves, if the personalized information segment detected by the terminal (100) and the personalized information segment detected by the server (200) are different from each other, segments that are omitted from data processing may occur. Therefore, in order to perform data processing without omission for all segments, the terminal (100) and the server (200) may share voice segment information for the personalized information segment and the general information segment.
결과적으로 개시된 실시예에 따르면, 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다. As a result, according to the disclosed embodiment, it is possible to implement a voice processing system having higher performance and processing speed while fundamentally protecting personal information.
도 8은 개시된 실시예에 따른 단말과 서버의 구체적인 동작 과정의 예시를 나타내는 순서도이다. FIG. 8 is a flowchart showing an example of a specific operation process of a terminal and a server according to the disclosed embodiment.
먼저, 805 단계에서 단말(100)은 음성 신호를 수신한다. 위에서 설명한 것과 같이 단말(100)은 다양한 구성 요소를 통해 음성 신호를 수신할 수 있다. 마이크부를 통해 음성 신호를 수신하는 것이 가장 일반적인 형태일 것이지만, USB 인터페이스부 또는 DVD 인터페이스부 등을 통해 음성 신호를 수신할 수도 있다. 나아가, 외부 장치와 통신을 통해 음성 신호를 수신할 수도 있다. 그 후, 810 단계에서 단말(100)은 수신한 음성 신호를 서버(200)로 전송할 수 있다. First, in step 805, the terminal (100) receives a voice signal. As described above, the terminal (100) can receive a voice signal through various components. Receiving a voice signal through a microphone unit would be the most common form, but the voice signal can also be received through a USB interface unit or a DVD interface unit. Furthermore, the voice signal can also be received through communication with an external device. Then, in step 810, the terminal (100) can transmit the received voice signal to the server (200).
단말(100)과 서버(200)는 각각 815 단계 및 820 단계에서 음성 신호에 대하여 개인화 음성 구간을 검출한다. 단말(100)과 서버(200)는 다양한 방법을 통해 개인화 정보 구간을 검출할 수 있다. 예를 들어, 사전에 포함되어 있지 않은 단어는 개인 정보라고 판단하여 해당 단어가 포함된 음성 구간을 개인화 정보 구간이라고 판단할 수 있다. 다만, 이러한 방법은 하나의 예시에 불과하며, 다양한 개인화 정보 구간을 검출 방법을 이용할 수 있다.The terminal (100) and the server (200) detect personalized voice sections for the voice signal in steps 815 and 820, respectively. The terminal (100) and the server (200) can detect personalized information sections through various methods. For example, a word not included in the dictionary can be determined to be personal information, and a voice section including the word can be determined to be a personalized information section. However, this method is only one example, and various personalized information section detection methods can be used.
단말(100)은 815 단계에서 검출한 개인화 음성 구간에 대해서는 825 단계로 진행하여 개인화 모델(171)을 기반으로 음성 데이터를 처리하고, 개인화 음성 구간 이외의 일반 정보 구간에 대해서는 830 단계로 진행하여 데이터 처리를 패스(pass)하고 음성 구간 정보를 생성할 수 있다. 서버(200)는 820 단계에서 검출한 개인화 음성 구간에 대해서는 835 단계로 진행하여 데이터 처리를 패스(pass)하고 음성 구간 정보를 생성하며, 개인화 음성 구간 이외의 일반 정보 구간에 대해서는 830 단계로 진행하여 일반 모델(271)을 기반으로 음성 데이터를 처리한다. The terminal (100) may proceed to step 825 to process voice data based on a personalized model (171) for the personalized voice section detected at step 815, and may proceed to step 830 to pass data processing and generate voice section information for general information sections other than the personalized voice section. The server (200) may proceed to step 835 to pass data processing and generate voice section information for the personalized voice section detected at step 820, and may proceed to step 830 to process voice data based on a general model (271) for general information sections other than the personalized voice section.
이러한 과정을 통해 단말(100)은 개인화 구간에 대응하는 음성 신호에 대하여 직접 개인화 모델(171)을 이용하여 데이터 처리를 수행하고, 서버(200)는 높은 연산 능력을 바탕으로 일반 정보 구간에 대응하는 음성 신호에 대하여 일반 모델(271)을 이용하여 데이터 처리함으로써, 개인 정보를 원천적으로 보호하면서도 높은 음성 처리 성능을 구현할 수 있다. Through this process, the terminal (100) performs data processing using a personalization model (171) for a voice signal corresponding to a personalization section, and the server (200) performs data processing using a general model (271) for a voice signal corresponding to a general information section based on high computational capability, thereby implementing high voice processing performance while fundamentally protecting personal information.
그 후, 단말(100) 및 서버(200)는 845 단계 및 850 단계에서 음성 구간 정보 및 데이터 처리 결과를 공유한다. 즉, 서버(200)는 845 단계에서 음성 데이터 처리 결과와 음성 구간 정보를 단말(100)로 전송하고, 단말(100)은 음성 구간 정보를 서버(200)로 전송한다. 도 8에서는 이러한 과정이 845 단계, 850 단계로 도시되어 있으나, 공유 과정에서 단말(100) 또는 서버(200) 어느쪽이 먼저 데이터를 전송하는 것도 무방하다. Thereafter, the terminal (100) and the server (200) share the voice segment information and the data processing result in steps 845 and 850. That is, the server (200) transmits the voice data processing result and the voice segment information to the terminal (100) in step 845, and the terminal (100) transmits the voice segment information to the server (200). In Fig. 8, this process is illustrated as steps 845 and 850, but either the terminal (100) or the server (200) may transmit the data first during the sharing process.
위에서 설명한 것과 같이 단말(100)과 서버(200)는 각각 자체적으로 개인화 정보 구간을 검출하고 음성 구간 정보를 생성할 수도 있다. 다만, 단말(100)과 서버(200)는 각각 스스로 검출한 개인화 정보 구간 및/또는 일반 정보 구간에 대하여 데이터 처리를 수행할 수 있으므로, 단말(100)에서 검출한 개인화 정보 구간과 서버(200)에서 검출한 개인화 정보 구간이 서로 다른 경우, 데이터 처리에 빠지는 구간이 발생할 수 있다. 따라서, 모든 구간에 대해 빠짐없이 데이터 처리를 수행하기 위하여, 단말(100)과 서버(200)는 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 공유할 수 있다. As described above, the terminal (100) and the server (200) can each independently detect a personalized information section and generate voice section information. However, since the terminal (100) and the server (200) can each perform data processing on the personalized information section and/or general information section detected by themselves, if the personalized information section detected by the terminal (100) and the personalized information section detected by the server (200) are different from each other, sections that are omitted from data processing may occur. Therefore, in order to perform data processing without omission on all sections, the terminal (100) and the server (200) can share voice section information on the personalized information section and the general information section.
단말(100)은 855 단계에서 모든 음성 신호 구간에 대하여 데이터 처리가 완료되었는지 판단하여 완료된 경우, 동작을 종료한다. 855 단계에서 데이터 처리가 완료되지 않은 경우, 단말(100)은 865 단계로 진행하여 서버(200)로부터 수신한 음성 구간 정보를 기반으로 처리되지 않은 음성 구간에 대하여 개인화 모델(171)을 이용하여 데이터 처리할 수 있다. 서버(200)는 860 단계에서 모든 음성 신호 구간에 대하여 데이터 처리가 완료되었는지 판단하여 완료된 경우, 동작을 종료한다. 860 단계에서 데이터 처리가 완료되지 않은 경우, 서버(200)는 870 단계로 진행하여 단말(100)로부터 수신한 음성 구간 정보를 기반으로 처리되지 않은 음성 구간에 대하여 개인화 모델(171)을 이용하여 데이터 처리할 수 있다. The terminal (100) determines whether data processing is completed for all voice signal sections at step 855, and if so, terminates the operation. If data processing is not completed at step 855, the terminal (100) proceeds to step 865, and can perform data processing using a personalized model (171) for unprocessed voice sections based on voice section information received from the server (200). The server (200) determines whether data processing is completed for all voice signal sections at step 860, and if so, terminates the operation. If data processing is not completed at step 860, the server (200) proceeds to step 870, and can perform data processing using a personalized model (171) for unprocessed voice sections based on voice section information received from the terminal (100).
도 8에 도시된 것과 같이 815 단계 내지 870 단계의 음성 신호 처리 과정은 단말(100)과 서버(200)에서 병렬적으로 동시에 수행될 수도 있고, 단말(100)과 서버(200)가 번갈아가며 스위칭하여 음성 처리를 수행하는 것도 가능하다. As illustrated in FIG. 8, the voice signal processing steps 815 to 870 may be performed simultaneously and in parallel at the terminal (100) and the server (200), or the terminal (100) and the server (200) may perform voice processing by switching alternately.
단말(100)과 서버(200)가 번갈아가며 스위칭하여 음성 처리를 수행하는 경우, 단말(100)이 개인화 정보 구간에 대응하는 음성 신호에 대하여 개인화 모델(171)을 기반으로 데이터 처리를 수행하다가 일반 정보 구간에 대응하는 음성 신호가 나오는 경우, 음성 구간 정보를 서버(200)로 전송하면, 서버(200)는 단말(100)이 데이터 처리한 음성 신호 다음에 오는 음성 신호부터 일반 모델(271)을 이용하여 음성 처리를 수행할 수도 있다. 그 후, 다시 개인화 정보 구간에 대응하는 음성 신호가 나오는 경우, 지금까지의 데이터 처리 결과와 음성 구간 정보를 단말(100)로 전송하면, 단말(100)은 서버(200)가 데이터 처리한 음성 신호 다음에 오는 음성 신호부터 일반 모델(271)을 이용하여 음성 처리를 수행할 수도 있다.When the terminal (100) and the server (200) perform voice processing by switching alternately, if the terminal (100) performs data processing based on the personalized model (171) for the voice signal corresponding to the personalized information section and then a voice signal corresponding to the general information section is output, if the voice section information is transmitted to the server (200), the server (200) may perform voice processing using the general model (271) starting from the voice signal that follows the voice signal that the terminal (100) processed. Afterwards, if the voice signal corresponding to the personalized information section is output again, if the data processing result up to that point and the voice section information are transmitted to the terminal (100), the terminal (100) may perform voice processing using the general model (271) starting from the voice signal that follows the voice signal that the server (200) processed.
이와 반대로, 서버(200)에서 음성 처리를 시작하는 경우, 서버(200)는 일반 구간에 대응하는 음성 신호에 대하여 일반 모델(271)을 이용하여 음성 처리를 수행하다가 개인화 정보 구간에 대응하는 음성 신호가 나오는 경우, 지금까지의 데이터 처리 결과와 음성 구간 정보를 단말(100)로 전송하면, 단말(100)은 서버(200)가 데이터 처리한 음성 신호 다음에 오는 음성 신호부터 일반 모델(271)을 이용하여 음성 처리를 수행할 수도 있다. Conversely, when voice processing is started in the server (200), the server (200) performs voice processing using the general model (271) for the voice signal corresponding to the general section, and when a voice signal corresponding to the personalized information section is output, if the data processing result up to this point and the voice section information are transmitted to the terminal (100), the terminal (100) can perform voice processing using the general model (271) starting from the voice signal following the voice signal processed by the server (200).
개시된 실시예에 따르면, 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다.According to the disclosed embodiment, a voice processing system having higher performance and processing speed can be implemented while protecting personal information at the source.
도 9는 개시된 다른 실시예에 따른 단말의 음성 처리 방법을 나타내는 순서도이다. FIG. 9 is a flowchart showing a voice processing method of a terminal according to another disclosed embodiment.
먼저, 910 단계에서, 단말(100)은 음성 신호를 수신한다. 단말(100)은 다양한 구성 요소를 통해 음성 신호를 수신할 수 있다. 마이크부를 통해 음성 신호를 수신하는 것이 가장 일반적인 형태일 것이지만, USB 인터페이스부 또는 DVD 인터페이스부 등을 통해 음성 신호를 수신할 수도 있다. 나아가, 외부 장치와 통신을 통해 음성 신호를 수신할 수도 있다. 개시된 실시예에 따르면, 단말(100)은 이렇게 수신한 음성 신호를 서버(200)로 전송할 수 있다. First, in step 910, the terminal (100) receives a voice signal. The terminal (100) can receive a voice signal through various components. Receiving a voice signal through a microphone unit would be the most common form, but the voice signal can also be received through a USB interface unit or a DVD interface unit, etc. Furthermore, the voice signal can also be received through communication with an external device. According to the disclosed embodiment, the terminal (100) can transmit the voice signal received in this way to the server (200).
그 후, 920 단계에서, 단말(100)은 서버(200)로부터 음성 신호에 대하여 일반 모델(271)을 이용하여 데이터 처리한 결과를 수신한다. 즉, 단말(100)은 서버(200)에서 단말(100)과 독립적으로 음성 신호에 대한 데이터 처리를 수행한 결과를 수신하는 것이다. 일반 모델(271)은 서버(200)의 높은 연산 능력과 결합하여 사용자의 다양한 언어 표현(대어휘)에 대한 높은 음성 처리 성능을 제공할 수 있다. 나아가, 서버(200)는 높은 연산 능력을 가지는 바, 일반 정보 구간에 대하여 빠른 데이터 처리가 가능하다.Thereafter, at step 920, the terminal (100) receives the result of data processing for the voice signal using the general model (271) from the server (200). That is, the terminal (100) receives the result of data processing for the voice signal performed independently from the terminal (100) by the server (200). The general model (271) can provide high voice processing performance for various language expressions (vocabulary) of the user in combination with the high computational ability of the server (200). Furthermore, since the server (200) has high computational ability, fast data processing is possible for the general information section.
다음으로 930 단계에서, 단말(100)은 음성 신호에 대하여 개인 정보를 기반으로 생성된 개인화 모델(171) 및 서버(200)로부터 수신한 데이터 처리 결과를 이용하여 데이터 처리한다. 개시된 실시예에 따르면, 단말(100)은 음성 신호에 대해서 개인화 모델(171) 및 서버(200)로부터의 데이터 처리 결과를 이용하여 음성 신호 전체 또는 부분에 대하여 다시 한 번 데이터 처리를 할 수 있다. 위에서 설명한 것과 같이 서버(200)는 일반 모델(271)을 이용하여 데이터 처리를 수행하는 바, 보다 높은 음성 처리 성능을 위하여 개인화 모델(171)을 이용하여 다시 한 번 데이터 처리를 하는 것이다. Next, at step 930, the terminal (100) performs data processing using the personalized model (171) generated based on personal information for the voice signal and the data processing result received from the server (200). According to the disclosed embodiment, the terminal (100) can perform data processing again for all or part of the voice signal using the personalized model (171) and the data processing result from the server (200). As described above, the server (200) performs data processing using the general model (271), and performs data processing again using the personalized model (171) for higher voice processing performance.
이 경우, 단말(100)은 개인 정보를 포함하는 개인화 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리를 수행할 수 있다. 즉, 서버(200)는 높은 연산 능력을 이용하여 일반 정보 구간이나 개인화 정보 구간의 구별없이 음성 신호 전체에 대해서 일반 모델(271)을 이용하여 데이터 처리를 수행한다. 그 후, 개인 정보(172)를 이용하여 처리 성능을 높일 수 있는 개인화 정보 구간에 대해서는 단말(100)에서 개인화 모델을 이용하여 다시 한번 데이터 처리를 반복하는 것이다. 이를 위하여 단말(100)은 음성 신호 중 개인화 정보 구간을 검출할 수 있다. 단말(100)은 다양한 방법을 통해 개인화 정보 구간을 검출할 수 있다. 예를 들어, 사전에 포함되어 있지 않은 단어는 개인 정보라고 판단하여 해당 단어가 포함된 음성 구간을 개인화 정보 구간이라고 판단할 수 있다. 다만, 이러한 방법은 하나의 예시에 불과하며, 다양한 개인화 정보 구간을 검출 방법을 이용할 수 있다. In this case, the terminal (100) can perform data processing on the voice signal corresponding to the personalized information section including personal information. That is, the server (200) uses high computational power to perform data processing on the entire voice signal without distinction between the general information section and the personalized information section using the general model (271). After that, the terminal (100) repeats data processing once again using the personalized model for the personalized information section where processing performance can be improved using the personal information (172). To this end, the terminal (100) can detect the personalized information section in the voice signal. The terminal (100) can detect the personalized information section using various methods. For example, a word not included in the dictionary can be determined as personal information, and a voice section including the word can be determined as a personalized information section. However, this method is only one example, and various personalized information section detection methods can be used.
또는, 단말(100)은 서버(200)로부터 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 수신할 수도 있다. 높은 연산 능력을 갖는 서버(200)에서 생성한 음성 구간 정보를 수신함으로써, 단말(100)의 데이터 처리 부담이 줄어 전체적인 음성 처리 속도를 보다 빠르게 할 수 있다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다. Alternatively, the terminal (100) may receive voice segment information for the personalized information segment and the general information segment from the server (200). By receiving voice segment information generated by the server (200) with high computational capability, the data processing burden of the terminal (100) is reduced, thereby making the overall voice processing speed faster. Here, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment in the voice signal.
개인화 정보 구간 및 일반 정보 구간에 대해서는 위에서 도 7과 함께 설명한 바, 중복하여 설명하지 않는다. The personalized information section and general information section have been explained above together with Fig. 7, and will not be explained again.
여기서 개인화 모델(171)은 개인화 음성 인식 모델(personalized speech recognition model), 언어 이해 모델(personalized natural language understanding model) 및 개인화 렉시컬 모델(personalized lexical model) 중 적어도 하나 이상의 모델일 수 있다. Here, the personalized model (171) may be at least one of a personalized speech recognition model, a personalized natural language understanding model, and a personalized lexical model.
단말(100)이 개인화 음성 인식 모델을 이용하여 음성 신호에 대한 데이터 처리를 수행하는 경우, 단말(100)은 서버(200)로부터 음소, 의사 형태소 또는 단어 단위의 데이터 처리 결과를 수신할 수 있으며, N-best 가설(N-best hypothesis), 래티스(lattice), 컨퓨젼 네트워크(confusion network) 와 같은 멀티 패스(multi-pass) 처리 결과를 수신하여 데이터 처리에 활용할 수 있다. When the terminal (100) performs data processing on a voice signal using a personalized voice recognition model, the terminal (100) can receive data processing results in the form of phonemes, pseudo-morphemes or words from the server (200), and can receive multi-pass processing results such as N-best hypothesis, lattice and confusion network and utilize them for data processing.
단말(100)이 언어 이해 모델을 이용하여 음성 신호에 대한 데이터 처리를 수행하는 경우, 단말(100)은 서버(200)로부터 음소, 의사 형태소 또는 단어 단위의 데이터 처리 결과 및 문장 또는 단어 단위의 신뢰도 점수(confidence score)와 같은 정보를 수신하여 데이터 처리에 활용할 수 있다. 또한, 서버(200)로부터 멀티 패스(multi-pass) 처리 결과를 수신하여 데이터 처리에 활용할 수도 있다. When the terminal (100) performs data processing on a voice signal using a language understanding model, the terminal (100) can receive data processing results in units of phonemes, pseudo-morphemes or words and information such as confidence scores in units of sentences or words from the server (200) and utilize them for data processing. In addition, the terminal can receive multi-pass processing results from the server (200) and utilize them for data processing.
단말(100)이 개인화 렉시컬 모델(personalized lexical model)을 이용하여 음성 신호에 대한 데이터 처리를 수행하는 경우, 단말(100)은 서버(200)로부터 음소, 의사 형태소 또는 단어 단위의 데이터 처리 결과 및 문장 또는 단어 단위의 신뢰도 점수(confidence score)와 같은 정보를 수신하여 데이터 처리에 활용할 수 있다. 또한, 단말(100)은 서버(200)로부터 수신한 데이터 처리 결과와 개인 단어 리스트를 이용하여 데이터 처리를 수행할 수 있으며, 이 경우, 가정(hypothesis)과 개인 단어 간의 음소 단위 비교를 위해 발음 사전을 사용할 수도 있다.When the terminal (100) performs data processing on a voice signal using a personalized lexical model, the terminal (100) can receive from the server (200) data processing results in units of phonemes, pseudomorphemes or words and information such as confidence scores in units of sentences or words and use them for data processing. In addition, the terminal (100) can perform data processing using the data processing results received from the server (200) and a personal word list, and in this case, a pronunciation dictionary can be used for phoneme-by-phone comparison between a hypothesis and personal words.
어떠한 모델을 사용하더라도 개인 정보가 서버(200)로 전송될 필요없이 개인 정보의 활용으로 더욱 정확한 음성 처리가 가능하다. Regardless of the model used, more accurate voice processing is possible by utilizing personal information without the need for personal information to be transmitted to the server (200).
개시된 실시예에 따르면, 개인화 모델링을 이용한 음성 처리는 단말(100)에서만 수행되므로, 서버(200)와 단말(100) 간에는 개인 정보를 포함하는 어떠한 형태의 정보 전송도 일어나지 않고, 그에 따라 서버(200)에는 어떠한 개인 정보도 저장되지 않는다. 따라서, 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다.According to the disclosed embodiment, since voice processing using personalized modeling is performed only in the terminal (100), no form of information transmission including personal information occurs between the server (200) and the terminal (100), and accordingly, no personal information is stored in the server (200). Accordingly, it is possible to implement a voice processing system having higher performance and processing speed while fundamentally protecting personal information.
도 10은 개시된 다른 실시예에 따른 서버의 음성 처리 방법을 나타내는 순서도이다.FIG. 10 is a flowchart showing a voice processing method of a server according to another disclosed embodiment.
먼저, 1010 단계에서 서버(200)는 음성 신호를 수신한다. 서버(200)는 다양한 구성 요소를 통해 음성 신호를 수신할 수 있다. 단말(100)로부터 음성 신호를 수신하는 것이 가장 일반적인 형태일 것이지만, USB 인터페이스부 또는 DVD 인터페이스부 등을 통해 음성 신호를 수신할 수도 있다.First, in step 1010, the server (200) receives a voice signal. The server (200) can receive a voice signal through various components. Receiving a voice signal from a terminal (100) would be the most common form, but the voice signal can also be received through a USB interface unit or a DVD interface unit, etc.
그 후, 1020 단계에서 서버(200)는 수신한 음성 신호에 대하여 일반 모델(271)을 이용하여 데이터 처리한다. 즉 서버(200)는 일반 모델(271)을 이용하여 단말(100)과 독립적으로 음성 신호에 대해 데이터 처리를 수행한다. 일반 모델(271)은 서버(200)의 높은 연산 능력과 결합하여 사용자의 다양한 언어 표현(대어휘)에 대한 높은 음성 처리 성능을 제공할 수 있다. 나아가, 서버(200)는 높은 연산 능력을 가지는 바, 빠른 데이터 처리가 가능하다.After that, in step 1020, the server (200) performs data processing on the received voice signal using the general model (271). That is, the server (200) performs data processing on the voice signal independently from the terminal (100) using the general model (271). The general model (271) can provide high voice processing performance for various language expressions (vocabulary) of the user in combination with the high computational ability of the server (200). Furthermore, since the server (200) has high computational ability, fast data processing is possible.
다음으로, 1030 단계에서 서버(200)는 데이터 처리 결과를 단말(100)로 전송한다. 이 경우, 서버(200)는 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 생성하여 단말(100)로 함께 전송할 수도 있다. 높은 연산 능력을 갖는 서버(200)에서 음성 구간 정보를 생성하여 단말(100)로 전송함으로써, 단말(100)의 데이터 처리 부담을 줄여주어 전체적인 음성 처리 속도를 보다 빠르게 할 수 있다. 여기서, 음성 구간 정보는 음성 신호 중 개인화 정보 구간 및 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹한 구간 마킹 정보를 포함할 수 있다.Next, in step 1030, the server (200) transmits the data processing result to the terminal (100). In this case, the server (200) may generate voice segment information for the personalized information segment and the general information segment and transmit them together to the terminal (100). By generating voice segment information in a server (200) with high computational capability and transmitting it to the terminal (100), the data processing burden of the terminal (100) can be reduced, thereby making the overall voice processing speed faster. Here, the voice segment information may include segment marking information that marks at least one segment among the personalized information segment and the general information segment in the voice signal.
결과적으로 개시된 실시예에 따르면, 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다. As a result, according to the disclosed embodiment, it is possible to implement a voice processing system having higher performance and processing speed while fundamentally protecting personal information.
도 11은 개시된 다른 실시예에 따른 단말과 서버의 구체적인 동작 과정의 예시를 나타내는 순서도이다.FIG. 11 is a flowchart showing an example of a specific operation process of a terminal and a server according to another disclosed embodiment.
먼저, 1110 단계에서 단말(100)은 음성 신호를 수신한다. 위에서 설명한 것과 같이 단말(100)은 다양한 구성 요소를 통해 음성 신호를 수신할 수 있다. 마이크부를 통해 음성 신호를 수신하는 것이 가장 일반적인 형태일 것이지만, USB 인터페이스부 또는 DVD 인터페이스부 등을 통해 음성 신호를 수신할 수도 있다. 나아가, 외부 장치와 통신을 통해 음성 신호를 수신할 수도 있다. 그 후, 1120 단계에서 단말(100)은 수신한 음성 신호를 서버(200)로 전송할 수 있다.First, in step 1110, the terminal (100) receives a voice signal. As described above, the terminal (100) can receive a voice signal through various components. Receiving a voice signal through a microphone unit would be the most common form, but the voice signal can also be received through a USB interface unit or a DVD interface unit. Furthermore, the voice signal can also be received through communication with an external device. Then, in step 1120, the terminal (100) can transmit the received voice signal to the server (200).
1130 단계에서 서버(200)는 수신한 음성 신호에 대하여 일반 모델(271)을 이용하여 데이터 처리한다. 일반 모델(271)은 서버(200)의 높은 연산 능력과 결합하여 사용자의 다양한 언어 표현(대어휘)에 대한 높은 음성 처리 성능을 제공할 수 있다. 나아가, 서버(200)는 높은 연산 능력을 가지는 바, 빠른 데이터 처리가 가능하다.At step 1130, the server (200) processes data using a general model (271) for the received voice signal. The general model (271) can provide high voice processing performance for various language expressions (vocabulary) of the user in combination with the high computational ability of the server (200). Furthermore, since the server (200) has high computational ability, fast data processing is possible.
이때, 서버(200)는 개인화 정보 구간과 일반 정보 구간에 대한 음성 구간 정보를 생성할 수 있다. 높은 연산 능력을 갖는 서버(200)에서 음성 구간 정보를 생성함으로써 단말(100)의 데이터 처리 부담을 줄여주어 전체적인 음성 처리 속도를 보다 빠르게 할 수 있다. At this time, the server (200) can generate voice section information for the personalized information section and the general information section. By generating voice section information in a server (200) with high computational capability, the data processing burden of the terminal (100) can be reduced, thereby making the overall voice processing speed faster.
그 후, 1140 단계에서 서버(200)는 데이터 처리 결과와 음성 구간 정보를 단말(100)로 전송할 수 있다. 단말(100)은 1150 단계에서 음성 신호에 대하여 개인 정보를 기반으로 생성된 개인화 모델(171) 및 수신한 데이터 처리 결과를 이용하여 데이터 처리를 할 수 있다. 즉, 단말(100)은 음성 신호 전체 또는 부분에 대하여 다시 한 번 데이터 처리를 할 수 있다. 보다 높은 음성 처리 성능을 위하여 개인화 모델(171)을 이용하여 다시 한 번 데이터 처리를 하는 것이다. Thereafter, at step 1140, the server (200) can transmit the data processing result and voice section information to the terminal (100). At step 1150, the terminal (100) can perform data processing using the personalized model (171) generated based on personal information for the voice signal and the received data processing result. That is, the terminal (100) can perform data processing again for the entire or part of the voice signal. In order to achieve higher voice processing performance, the data is processed again using the personalized model (171).
이 경우, 단말(100)은 개인화 정보 구간을 검출하여 개인화 정보 구간에 대응하는 음성 신호에 대하여 데이터 처리를 수행할 수 있다. 또한, 단말(100)은 개인화 음성 인식 모델, 언어 이해 모델 및 개인화 렉시컬 모델 중 적어도 하나 이상의 모델을 이용하여 음성 신호에 대한 데이터 처리를 할 수 있다. In this case, the terminal (100) can detect a personalized information section and perform data processing on a voice signal corresponding to the personalized information section. In addition, the terminal (100) can perform data processing on a voice signal using at least one model among a personalized voice recognition model, a language understanding model, and a personalized lexical model.
개시된 실시예에 따르면, 개인화 모델링을 이용한 음성 처리는 단말(100)에서만 수행되므로, 서버(200)와 단말(100) 간에는 개인 정보를 포함하는 어떠한 형태의 정보 전송도 일어나지 않고, 그에 따라 서버(200)에는 어떠한 개인 정보도 저장되지 않는다. 따라서, 개인 정보를 원천적으로 보호하면서도 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다.According to the disclosed embodiment, since voice processing using personalized modeling is performed only in the terminal (100), no form of information transmission including personal information occurs between the server (200) and the terminal (100), and accordingly, no personal information is stored in the server (200). Accordingly, it is possible to implement a voice processing system having higher performance and processing speed while fundamentally protecting personal information.
도 12는 개시된 또다른 실시예에 따른 단말의 내부 구성을 나타내는 블록도이다. FIG. 12 is a block diagram showing the internal configuration of a terminal according to another disclosed embodiment.
도 12를 참조하면, 개시된 또다른 실시예에 따른 단말(1200)은 통신부(1210) 및 제어부(1230)를 포함한다. Referring to FIG. 12, a terminal (1200) according to another disclosed embodiment includes a communication unit (1210) and a control unit (1230).
통신부(1210)는 외부 장치와 통신하는 역할을 수행한다. 통신부(1210)는 유선 또는 무선으로 네트워크와 연결되어 외부 장치와의 통신을 수행할 수 있다. 개시된 실시예에 따르면, 통신부(1210)는 서버와 통신하며 데이터를 송수신할 수 있다. 개시된 실시예에 따르면, 통신부(130)는 서버와 통신하며 데이터를 송수신할 수 있다. 예를 들어, 통신부(130)는, 근거리 통신 모듈, 이동 통신 모듈, 무선 인터넷 모듈, 유선 인터넷 모듈 등을 포함할 수 있다. 또한, 통신부(130)는 하나 이상의 구성 요소를 포함할 수도 있다.The communication unit (1210) performs a role of communicating with an external device. The communication unit (1210) may be connected to a network by wire or wirelessly to perform communication with an external device. According to the disclosed embodiment, the communication unit (1210) may communicate with a server and transmit and receive data. According to the disclosed embodiment, the communication unit (130) may communicate with a server and transmit and receive data. For example, the communication unit (130) may include a short-range communication module, a mobile communication module, a wireless Internet module, a wired Internet module, etc. In addition, the communication unit (130) may include one or more components.
제어부(1230)는 단말(1200) 전체의 동작을 제어하며, 통신부(1210)를 제어함으로써 오디오 신호를 처리할 수 있다. 제어부(1230)는 단말(1200)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 전자 장치에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 램, 주변기기의 제어를 위한 제어 프로그램이 저장된 롬(ROM) 및 프로세서(Processor)를 포함할 수 있다. 프로세서는 코어(core, 도시되지 아니함)와 GPU(도시되지 아니함)를 통합한 SoC(System On Chip)로 구현될 수 있다. 또한, 프로세서는 복수의 프로세서를 포함할 수 있다.The control unit (1230) controls the operation of the entire terminal (1200) and can process audio signals by controlling the communication unit (1210). The control unit (1230) can include a RAM that stores signals or data input from the outside of the terminal (1200) or is used as a storage area corresponding to various tasks performed in the electronic device, a ROM that stores a control program for controlling peripheral devices, and a processor. The processor can be implemented as a SoC (System On Chip) that integrates a core (not shown) and a GPU (not shown). In addition, the processor can include a plurality of processors.
개시된 실시예에 따른 제어부(1230)는 개인 정보에 ID를 대응시켜 매핑 테이블을 생성하고, 매핑 테이블을 이용하여 ID 기반의 개인화 모델을 생성하며, 통신부(1210) 통해 ID 기반의 개인화 모델을 서버로 전송하고, 서버로부터 음성 신호에 대하여 ID 기반의 개인화 모델을 이용해 데이터 처리한 결과를 수신하며, 데이터 처리 결과 및 매핑 테이블을 이용하여 ID에 대응하는 개인 정보를 복원하도록 제어한다. 이때, 제어부(1230)는 개인 정보로부터 생성되는 부가 정보에 ID를 대응시켜 매핑 테이블을 생성할 수도 있다. 이 경우, 제어부(1230)는 서버로부터 부가 정보에 대하여 ID 기반의 개인화 모델을 이용해 데이터 처리한 결과를 수신하며, 데이터 처리 결과 및 매핑 테이블을 이용하여 ID에 대응하는 부가 정보를 복원하도록 제어할 수 있다. The control unit (1230) according to the disclosed embodiment generates a mapping table by associating an ID with personal information, generates an ID-based personalized model by using the mapping table, transmits the ID-based personalized model to a server through the communication unit (1210), receives a result of data processing using the ID-based personalized model for a voice signal from the server, and controls to restore personal information corresponding to the ID by using the data processing result and the mapping table. At this time, the control unit (1230) may also generate a mapping table by associating an ID with additional information generated from the personal information. In this case, the control unit (1230) may control to receive a result of data processing using the ID-based personalized model for the additional information from the server, and restore the additional information corresponding to the ID by using the data processing result and the mapping table.
제어부(1230)는 매핑 테이블을 이용하여 ID 기반의 개인화 모델을 생성 시, 상기 개인 정보에 매핑된 ID를 음향 단위에 매핑된 ID인 음향 단위 ID로 나타낼 수 있다. 여기서 음향 단위 ID는 서버와 합의에 따라 상기 음향 단위에 매핑된 ID일 수 있다. 음향 단위 ID는 발음 기호에 해당하는 음성인식 모델의 특정 부분을 나타내며, 발음 기호와 1 대 1 매핑 되지 않을 수 있다. When the control unit (1230) creates an ID-based personalized model using the mapping table, the ID mapped to the personal information can be expressed as an acoustic unit ID, which is an ID mapped to an acoustic unit. Here, the acoustic unit ID can be an ID mapped to the acoustic unit according to an agreement with the server. The acoustic unit ID represents a specific part of a voice recognition model corresponding to a pronunciation symbol, and may not be mapped 1:1 with the pronunciation symbol.
개시된 실시예에 따르면, 개인 정보 및 개인 정보로부터 생성 되는 부가 정보는 단말에서 직접 부여한 ID로 마스킹하여 개인화 모델을 생성함으로써 외부에 개인화 모델이 노출되더라도 ID로 마스킹 된 개인 정보를 복원하기 어려워 개인 정보를 보호할 수 있다. 또한, 높은 연산 능력을 갖는 서버로 개인화 모델을 전송하여 음성 신호에 대하여 데이터 처리를 함으로써 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다.According to the disclosed embodiment, personal information and additional information generated from the personal information are masked with an ID directly assigned by the terminal to generate a personalized model, so that even if the personalized model is exposed to the outside, it is difficult to restore the personal information masked with the ID, thereby protecting the personal information. In addition, by transmitting the personalized model to a server having high computational capability and performing data processing on the voice signal, a voice processing system having higher performance and processing speed can be implemented.
도 13은 개시된 또다른 실시예에 따른 서버의 내부 구성을 보다 상세히 나타내는 블록도이다.FIG. 13 is a block diagram illustrating in more detail the internal configuration of a server according to another disclosed embodiment.
도 13을 참조하면, 개시된 실시예에 따른 서버(1300)는 수신부(1310), 통신부(1330) 및 제어부(1350)를 포함한다. Referring to FIG. 13, a server (1300) according to the disclosed embodiment includes a receiving unit (1310), a communication unit (1330), and a control unit (1350).
수신부(1310)는 음성 신호를 수신하는 역할을 수행한다. 수신부(1310)는 USB 인터페이스부, DVD 인터페이스부 등 음성 신호를 다양한 형태로 수신할 수 있는 구성 요소를 포함할 수 있다. 예를 들어, 수신부(1310)가 USB 인터페이스를 포함하는 경우, 서버(1300)는 음성 신호 파일을 USB로부터 수신할 수 있다. 나아가, 통신부(1330)를 통해 외부 장치로부터 음성 신호를 수신하는 경우, 통신부(1330)가 수신부(1310)의 역할을 수행하는 것도 가능하다. The receiving unit (1310) performs the role of receiving a voice signal. The receiving unit (1310) may include components that can receive voice signals in various forms, such as a USB interface unit and a DVD interface unit. For example, if the receiving unit (1310) includes a USB interface, the server (1300) can receive a voice signal file from the USB. Furthermore, if a voice signal is received from an external device through the communication unit (1330), the communication unit (1330) may also perform the role of the receiving unit (1310).
통신부(1330)는 외부 장치와 통신하는 역할을 수행한다. 통신부(1330)는 유선 또는 무선으로 네트워크와 연결되어 외부 장치와의 통신을 수행할 수 있다. 개시된 실시예에 따르면, 통신부(1330)는 단말(1200)과 통신하며 데이터를 송수신할 수 있다. 개시된 실시예에 따르면, 통신부(130)는 서버와 통신하며 데이터를 송수신할 수 있다. 예를 들어, 통신부(130)는, 근거리 통신 모듈, 이동 통신 모듈, 무선 인터넷 모듈, 유선 인터넷 모듈 등을 포함할 수 있다. 또한, 통신부(130)는 하나 이상의 구성 요소를 포함할 수도 있다.The communication unit (1330) performs a role of communicating with an external device. The communication unit (1330) may be connected to a network by wire or wirelessly to perform communication with an external device. According to the disclosed embodiment, the communication unit (1330) may communicate with the terminal (1200) and transmit and receive data. According to the disclosed embodiment, the communication unit (130) may communicate with a server and transmit and receive data. For example, the communication unit (130) may include a short-range communication module, a mobile communication module, a wireless Internet module, a wired Internet module, etc. In addition, the communication unit (130) may include one or more components.
제어부(1350)는 서버(1300) 전체의 동작을 제어하며, 수신부(1310) 및 통신부(1330)를 제어함으로써 음성 신호를 처리할 수 있다. 제어부(1350)는 서버(1300)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 전자 장치에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 램, 주변기기의 제어를 위한 제어 프로그램이 저장된 롬(ROM) 및 프로세서(Processor)를 포함할 수 있다. 프로세서는 코어(core, 도시되지 아니함)와 GPU(도시되지 아니함)를 통합한 SoC(System On Chip)로 구현될 수 있다. 또한, 프로세서는 복수의 프로세서를 포함할 수 있다.The control unit (1350) controls the operation of the entire server (1300) and can process a voice signal by controlling the receiving unit (1310) and the communication unit (1330). The control unit (1350) can include a RAM that stores signals or data input from the outside of the server (1300) or is used as a storage area corresponding to various tasks performed in an electronic device, a ROM that stores a control program for controlling peripheral devices, and a processor. The processor can be implemented as a SoC (System On Chip) that integrates a core (not shown) and a GPU (not shown). In addition, the processor can include a plurality of processors.
개시된 실시예에 따른 제어부(1350)는 통신부(1330)를 통해 단말(1200)로부터 ID 기반의 개인화 모델을 수신하고, 수신부(1310)를 통해 음성 신호를 수신하며, 음성 신호에 대하여 ID 기반의 개인화 모델을 이용하여 데이터 처리하고, 통신부(1330)를 통해 데이터 처리 결과를 단말(1200)로 전송하도록 제어한다. The control unit (1350) according to the disclosed embodiment receives an ID-based personalized model from a terminal (1200) through a communication unit (1330), receives a voice signal through a receiving unit (1310), performs data processing on the voice signal using the ID-based personalized model, and controls the transmission of the data processing result to the terminal (1200) through the communication unit (1330).
또한, 제어부(1350)는, 음성 신호에 대하여 ID 기반의 개인화 모델을 이용하여 데이터 처리 시, 단말(1200)과 합의에 따라 음향 단위에 매핑된 ID인 음향 단위 ID를 이용하여 개인 정보에 매핑된 ID를 나타내도록 제어할 수 있다. In addition, the control unit (1350) can control the display of an ID mapped to personal information using an acoustic unit ID, which is an ID mapped to an acoustic unit according to an agreement with the terminal (1200), when processing data using an ID-based personalized model for a voice signal.
개시된 실시예에 따르면, 서버(1300)는 ID 기반의 개인화 모델을 단말(1200)로부터 수신하여, 수신한 ID 기반의 개인화 모델을 기용하여 데이터를 처리함으로써, 외부에 개인화 모델이 노출되더라도 ID로 마스킹 된 개인 정보(1272)를 복원하기 어려워 개인 정보(1272)를 보호할 수 있다. 또한, 높은 연산 능력을 갖는 서버(1300)가 음성 신호에 대하여 데이터 처리를 함으로써 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다.According to the disclosed embodiment, the server (1300) receives an ID-based personalized model from the terminal (1200) and processes data using the received ID-based personalized model, thereby making it difficult to restore personal information (1272) masked by the ID even if the personalized model is exposed to the outside, thereby protecting personal information (1272). In addition, by having the server (1300) with high computational capability perform data processing on a voice signal, a voice processing system with higher performance and processing speed can be implemented.
도 14는 개시된 또다른 실시예에 따른 단말의 내부 구성을 보다 상세히 나타내는 블록도이다. 도 14에서는 도 12와 중복되는 구성 요소에 대한 설명은 생략한다. Fig. 14 is a block diagram showing the internal configuration of a terminal according to another disclosed embodiment in more detail. In Fig. 14, descriptions of components overlapping with Fig. 12 are omitted.
제어부(1230)는 개인화 모델 생성부(1231)를 포함할 수 있다. 개시된 실시예에 따르면, 개인화 모델 생성부(1231)는 저장부(1270)에 포함된 개인 정보(1272)를 기반으로 개인화 모델을 생성할 수 있다. 개인화 모델 생성부(1231)는 개인 정보(1272) 또는 개인 정보(1272)로부터 생성되는 부가 정보에 ID를 대응시켜 매핑 테이블(1273)을 생성하고, 생성된 매핑 테이블(1273)을 이용하여 ID 기반의 개인화 모델을 생성할 수 있다. The control unit (1230) may include a personalized model generation unit (1231). According to the disclosed embodiment, the personalized model generation unit (1231) may generate a personalized model based on personal information (1272) included in the storage unit (1270). The personalized model generation unit (1231) may generate a mapping table (1273) by matching an ID to personal information (1272) or additional information generated from personal information (1272), and may generate an ID-based personalized model using the generated mapping table (1273).
단말(1200)은 수신부(1250)를 더 포함할 수 있다. 수신부(1250)는 음성 신호를 수신하는 역할을 수행한다. 수신부(1250)는 마이크부, USB 인터페이스부, DVD 인터페이스부 등 다양한 구성 요소를 포함할 수 있다. 예를 들어, 수신부(1250)가 마이크부를 포함하는 경우, 단말(1200)은 사용자 음성 신호를 마이크부를 통해 직접 수신할 수 있다. 또한, 수신부(1250)가 USB 인터페이스부를 포함하는 경우, 단말(1200)은 음성 신호 파일을 USB로부터 수신할 수도 있다. 나아가, 통신부(130)를 통해 외부 장치로부터 음성 신호를 수신하는 경우, 통신부(1210)가 수신부(1250)의 역할을 수행하는 것도 가능하다. The terminal (1200) may further include a receiving unit (1250). The receiving unit (1250) performs a role of receiving a voice signal. The receiving unit (1250) may include various components such as a microphone unit, a USB interface unit, and a DVD interface unit. For example, if the receiving unit (1250) includes a microphone unit, the terminal (1200) may directly receive a user voice signal through the microphone unit. In addition, if the receiving unit (1250) includes a USB interface unit, the terminal (1200) may also receive a voice signal file from the USB. Furthermore, if a voice signal is received from an external device through the communication unit (130), the communication unit (1210) may also perform the role of the receiving unit (1250).
단말(1200)은 저장부(1270)를 더 포함할 수 있다. 저장부(1270)는 단말(1200)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장부(1270)는 휘발성(volatile) 저장 매체 또는 비휘발성(nonvolatile) 저장 매체로 구성될 수 있으며, 양 저장 매체의 조합(combination)으로 구성될 수도 있다. 휘발성 저장 매체로는 RAM, DRAM, SRAM과 같은 반도체 메모리(semiconductor memory)가 포함될 수 있으며, 비휘발성 저장 매체로는 하드 디스크(hard disk), 플래시 낸드 메모리(Flash NAND Memory)가 포함될 수 있다. 개시된 실시예에 따르면 저장부(170)에는 개인 정보(1272) 및 매핑 테이블(1273)이 저장될 수 있다. The terminal (1200) may further include a storage unit (1270). The storage unit (1270) serves to store programs and data required for the operation of the terminal (1200). The storage unit (1270) may be composed of a volatile storage medium or a nonvolatile storage medium, and may also be composed of a combination of both storage media. The volatile storage medium may include a semiconductor memory such as RAM, DRAM, and SRAM, and the nonvolatile storage medium may include a hard disk and a flash NAND memory. According to the disclosed embodiment, the storage unit (170) may store personal information (1272) and a mapping table (1273).
개인 정보(1272)는 직간접적으로 각 개인을 식별할 수 있는 정보로, 단말의 종류에 따라 저장되는 데이터의 종류가 달라질 수 있다. 예를 들어, 모바일 디바이스의 경우에는 연락처, 음악 리스트, 단문 메시지의 내용이나 수신, 발신 내역, 웹 검색 이력을 포함할 수 있고, TV 의 경우에는 개인적인 재생 목록 등이 포함될 수 있다.Personal information (1272) is information that can directly or indirectly identify each individual, and the type of data stored may vary depending on the type of terminal. For example, in the case of a mobile device, it may include contact information, music list, content of short messages, history of sending and receiving, and web search history, and in the case of a TV, it may include personal playlists, etc.
매핑 테이블(1273)은 개인 정보(1272) 또는 개인 정보(1272)로부터 생성되는 부가 정보에 대응되는 ID 포함한다. 매핑 테이블(1273)은 개인화 모델 생성부(1231)가 ID 기반의 개인화 모델을 생성하는데 사용된다. 또한, 매핑 테이블(1273)은 ID에 대응하는 개인 정보(1272) 또는 부가 정보를 복원하는 과정에도 사용된다. The mapping table (1273) includes an ID corresponding to personal information (1272) or additional information generated from personal information (1272). The mapping table (1273) is used by the personalization model generation unit (1231) to generate an ID-based personalization model. In addition, the mapping table (1273) is also used in the process of restoring personal information (1272) or additional information corresponding to the ID.
도 15는 도 13에서 도시하는 서버의 내부 구성을 보다 상세히 나타내는 블록도이다.Figure 15 is a block diagram showing the internal configuration of the server illustrated in Figure 13 in more detail.
제어부(1350)는 음성 처리 엔진(1351)을 포함할 수 있다. 개시된 실시예에 따르면, 음성 처리 엔진(1351)은 음성 인식 엔진과 언어 이해 엔진을 포함할 수 있으며, 수신한 음성 신호를 데이터 처리하여 음성 인식 및 언어 이해를 수행한다. 이때, 음성 인식 엔진과 언어 이해 엔진은 각각 음성 인식 모델과 언어 이해 모델을 이용하여 음성 신호를 처리할 수 있다. The control unit (1350) may include a voice processing engine (1351). According to the disclosed embodiment, the voice processing engine (1351) may include a voice recognition engine and a language understanding engine, and performs voice recognition and language understanding by data processing a received voice signal. At this time, the voice recognition engine and the language understanding engine may process the voice signal using a voice recognition model and a language understanding model, respectively.
서버(1300)는 저장부(1370)를 더 포함할 수 있다. 저장부(1370)는 서버(1300)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장부(1370)는 휘발성(volatile) 저장 매체 또는 비휘발성(nonvolatile) 저장 매체로 구성될 수 있으며, 양 저장 매체의 조합(combination)으로 구성될 수도 있다. 휘발성 저장 매체로는 RAM, DRAM, SRAM과 같은 반도체 메모리(semiconductor memory)가 포함될 수 있으며, 비휘발성 저장 매체로는 하드 디스크(hard disk), 플래시 낸드 메모리(Flash NAND Memory)가 포함될 수 있다. The server (1300) may further include a storage unit (1370). The storage unit (1370) serves to store programs and data required for the operation of the server (1300). The storage unit (1370) may be composed of a volatile storage medium or a nonvolatile storage medium, and may also be composed of a combination of both storage media. The volatile storage medium may include a semiconductor memory such as RAM, DRAM, and SRAM, and the nonvolatile storage medium may include a hard disk and a flash NAND memory.
개시된 실시예에 따르면 저장부(1370)에는 개인화 모델(1372) 및 일반 모델(1373)이 저장될 수 있다. 개인화 모델(1372)은 단말(1200)로부터 수신한 ID 기반의 개인화 모델로, 외부에 개인화 모델이 노출되더라도 ID로 마스킹 된 개인 정보(1272)를 복원하기 어려워 개인 정보(1272)를 보호할 수 있다. 일반 모델(271)은 일반적인 음성 처리 모델로, 특정 개인이 아닌 불특정인의 음성 처리를 위한 음성 처리 모델이다. 대용량으로 구성되는 일반 모델(271)은 서버의 높은 연산 능력과 결합하여 사용자의 다양한 언어 표현(대어휘)에 대한 높은 음성 처리 성능을 제공할 수 있다. According to the disclosed embodiment, a storage unit (1370) may store a personalized model (1372) and a general model (1373). The personalized model (1372) is a personalized model based on an ID received from a terminal (1200), and even if the personalized model is exposed to the outside, it is difficult to restore personal information (1272) masked by an ID, thereby protecting the personal information (1272). The general model (271) is a general voice processing model, and is a voice processing model for voice processing of an unspecified person, not a specific individual. The general model (271) configured in a large capacity can provide high voice processing performance for various language expressions (large vocabulary) of the user in combination with the high computational capability of the server.
아래에서 단말(1200)과 서버(1300)의 동작을 보다 상세하게 설명하도록 한다. Below, the operation of the terminal (1200) and server (1300) is described in more detail.
도 16은 개시된 또다른 실시예에 따른 단말의 음성 처리 방법을 나타내는 순서도이다. FIG. 16 is a flowchart showing a voice processing method of a terminal according to another disclosed embodiment.
먼저, 단말(1200)은 1610 단계에서 개인 정보(1272) 에 ID를 대응시켜 매핑 테이블(1273)을 생성한다. 이 경우, 개인 정보(1272)와 함께 개인 정보(1272)로부터 생성되는 부가 정보에 ID를 대응시켜 매핑 테이블(1273)을 생성할 수도 있다. 여기서, 부가 정보는 발음 기호, 발음열 등을 포함할 수 있다. 개시된 실시예에 따르면, 단말(1200)은 개인 정보(1272)의 단어 리스트를 이용하여 발음 사전을 생성하고, 발음 사전을 이용하여 발음 기호와 단어에 대하여 ID를 매핑할 수 있다. 이 경우, 단말(1200)은 임의의 ID를 부여할 수 있다. 도 18 내지 도 20을 참조하여 보다 상세히 설명하도록 한다. First, the terminal (1200) generates a mapping table (1273) by matching an ID to personal information (1272) at step 1610. In this case, the mapping table (1273) may also be generated by matching an ID to additional information generated from the personal information (1272) together with the personal information (1272). Here, the additional information may include pronunciation symbols, pronunciation strings, etc. According to the disclosed embodiment, the terminal (1200) generates a pronunciation dictionary using a word list of the personal information (1272), and maps an ID to a pronunciation symbol and a word using the pronunciation dictionary. In this case, the terminal (1200) may assign an arbitrary ID. This will be described in more detail with reference to FIGS. 18 to 20.
도 18은 개인 정보를 나타내는 도면이다. Figure 18 is a diagram showing personal information.
개인 정보(1272)는 직간접적으로 각 개인을 식별할 수 있는 정보로, 연락처, 음악 리스트, 단문 메시지의 내용이나 수신, 발신 내역, 웹 검색 이력, 재생 목록 등이 이에 해당한다. 도 18을 참조하면, 다양한 형태의 개인 정보가 도시되어 있는데, 연락처 항목에 저장된 이름, 음악 재생 목록에 있는 음악 리스트 또는 가수, 검색 결과 등의 개인 정보(1272)가 저장되어 있음을 알 수 있다. 개시된 실시예에 따르면, 단말(1200)은 이러한 개인 정보(1272)에 ID를 매핑시켜 매핑 테이블을 생성할 수 있다. 도 19를 참조하여 설명하도록 한다. Personal information (1272) is information that can directly or indirectly identify each individual, and includes contact information, music lists, content of short messages or history of sending and receiving text messages, web search history, playlists, etc. Referring to FIG. 18, various forms of personal information are illustrated, and it can be seen that personal information (1272) such as names stored in contact items, music lists or singers in music playlists, and search results are stored. According to the disclosed embodiment, the terminal (1200) can create a mapping table by mapping an ID to such personal information (1272). This will be described with reference to FIG. 19.
도 19는 개인 정보를 ID에 매핑시킨 매핑 테이블을 나타내는 도면이다. Figure 19 is a diagram showing a mapping table that maps personal information to an ID.
도 19를 참조하면, 단말(1200)은 개인 정보(1272)에 포함된 단어인 홍길동, 김길동, 강남스타일, TOXIC, Psy, Galaxy, Note 를 각각 ID 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07 로 매핑시킴으로써 단어 매핑 테이블(1910)을 생성한다. 나아가, 단말(1200)은 개인 정보(1272) 뿐 아니라, 개인 정보(1272)로부터 생성되는 부가 정보에 ID를 대응시켜 매핑 테이블(1273)을 생성할 수도 있다. 이러한 부가 정보는 발음 기호, 발음열 등을 포함할 수 있다. 도 20을 참조하여 설명하도록 한다. Referring to FIG. 19, the terminal (1200) generates a word mapping table (1910) by mapping the words Hong Gil-dong, Kim Gil-dong, Gangnam Style, TOXIC, Psy, Galaxy, and Note included in the personal information (1272) to IDs 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, and 0x07, respectively. Furthermore, the terminal (1200) may generate a mapping table (1273) by matching an ID to additional information generated from the personal information (1272) as well as the personal information (1272). Such additional information may include pronunciation symbols, pronunciation strings, etc. This will be described with reference to FIG. 20.
도 20은 개인 정보를 발음 기호 별로 나타내는 도면이다. Figure 20 is a diagram showing personal information by pronunciation symbol.
개시된 실시예에 따르면, 단말(1200)은 개인 정보(1272)의 단어 리스트를 이용하여 발음 사전(phonetic dictionary, 1910)을 생성할 수 있다. 도 20을 참조하면, 개인 정보(1272) 중 연락처에 저장된 이름인 홍길동은 ‘HH OW NX K IY T OW NX’ 으로 발음 기호를 표시하고 있다. 또한, 음악 리스트에 포함된 강남스타일은 ‘K AA NX N A M ST AI L’로 표시할 수 있다. 단말(1200)은 이와 같이 개인 정보(1272)들을 발음 기호로 표시하여 발음 사전(1910)을 생성할 수 있다. 이때, 단말(1200)은 다양한 형태의 발음 기호를 사용할 수 있다. 위에서 설명한 것과 같이 알파벳을 이용하여 발음을 표시할 수도 있고, 영어 단어의 경우, 영어 발음 기호를 사용하여 발음 사전(2010)을 생성할 수도 있다. 도 20을 참조하면 TOXIC은 ‘t ?: k s ? k’, Galaxy는 ‘g ? l ? k s i ’로 표시한 것과 같이 영어 발음 기호로 개인 정보(1272)를 표시할 수 있다. 단말(1200)은 개인 정보(1272) 뿐 아니라, 발음 기호와 같이 개인 정보(1272)로부터 생성되는 부가 정보에도 ID를 대응시켜 매핑 테이블(1273)을 생성할 수 있다.According to the disclosed embodiment, the terminal (1200) can create a phonetic dictionary (1910) using a word list of personal information (1272). Referring to FIG. 20, Hong Gil-dong, a name stored in a contact among personal information (1272), is displayed as a phonetic symbol as ‘HH OW NX K IY T OW NX’. In addition, Gangnam Style included in the music list can be displayed as ‘K AA NX N A M ST AI L’. The terminal (1200) can create a phonetic dictionary (1910) by displaying personal information (1272) as phonetic symbols in this way. At this time, the terminal (1200) can use various forms of phonetic symbols. As described above, pronunciation can be displayed using alphabets, and in the case of English words, a phonetic dictionary (2010) can be created using English phonetic symbols. Referring to FIG. 20, TOXIC is ‘t ?: k s ? k’, Galaxy can display personal information (1272) in English pronunciation symbols, as indicated by ‘g ? l ? k s i ’. The terminal (1200) can create a mapping table (1273) by associating an ID not only to personal information (1272) but also to additional information generated from personal information (1272), such as pronunciation symbols.
다시 도 16의 설명으로 돌아가면, 단말(1200)은 1620 단계에서 매핑 테이블(1273)을 이용하여 ID 기반의 개인화 모델(1372)을 생성한다. ID 기반의 개인화 모델(1372)은 1610 단계에서 생성한 매핑 테이블(1273)을 이용하여 생성되는 바, 개인 정보(1272) 및 부가 정보는 ID로 마스킹 된다. 개시된 실시예에 따르면, 단말(1200)은 개인화 모델을 생성함으로써 개인 정보(1272) 및 부가 정보에 매핑된 ID를 음향 단위 ID로 나타낼 수 있다. 도 21 및 22를 참조하여 설명하도록 한다. Returning to the description of FIG. 16, the terminal (1200) generates an ID-based personalized model (1372) using the mapping table (1273) at step 1620. The ID-based personalized model (1372) is generated using the mapping table (1273) generated at step 1610, and personal information (1272) and additional information are masked as IDs. According to the disclosed embodiment, the terminal (1200) can express the ID mapped to the personal information (1272) and additional information as an acoustic unit ID by generating the personalized model. This will be described with reference to FIGS. 21 and 22.
도 21은 음향 단위를 ID에 매핑시킨 매핑 테이블을 나타내는 도면이다. Figure 21 is a diagram showing a mapping table that maps sound units to IDs.
음향 단위 ID 는 발음 기호에 해당하는 음성 인식 모델의 특정 부분을 나타낸다. 도 21을 참조하면, 단말(100)는 각 단어에 포함된 발음 기호인 HH, OW, NX, K, IY, L 를 각각 ID 0x101, 0x102, 0x103, 0x104, 0x105, 0x106, … 로 매핑시킴으로써 음향 단위 매핑 테이블(2110)을 생성한다. 개시된 실시예에 따르면, 단말(1200)은 음향에 ID를 매핑 시, 서버(1300)와 합의에 따라 특정 음향에 특정 ID를 매핑할 수 있다. 즉, 단말(1200)이 음향 단위 HH에 매핑한 ID 0x101는 서버(1300)와 사전에 합의된 ID 일 수 있다. 이에 따라, 서버(1300)는 음성 신호를 데이터 처리할 때, 특정 음성 신호, 즉, 특정 음향에 대하여 단말(1200)과 합의된 특정 ID로 대응시킬 수 있다. 단말(1200)과 서버(1300)의 합의 과정은 단말(1200) 또는 서버(1300) 한쪽에서 특정 음향에 매핑되는 ID를 지정하여 상대방에게 통보할 수도 있고, 의견을 교환하며 발음 기호에 ID를 매핑할 수도 있다. 도 20에서는 편의상 발음 기호와 음향 단위 ID가 1 대 1로 매핑되어 있으나, 음향 단위 ID는 발음 기호와 1 대 1 매핑 되지 않을 수도 있다. 예를 들어, 발음 기호 HH 와 OW 를 합친 음향을 하나의 음향 단위로 보아 HH OW 에 하나의 음향 단위 ID를 부여할 수도 있다. The sound unit ID represents a specific part of a speech recognition model corresponding to a pronunciation symbol. Referring to FIG. 21, the terminal (100) generates an sound unit mapping table (2110) by mapping HH, OW, NX, K, IY, L, which are the pronunciation symbols included in each word, to IDs 0x101, 0x102, 0x103, 0x104, 0x105, 0x106, ..., respectively. According to the disclosed embodiment, when mapping an ID to a sound, the terminal (1200) may map a specific ID to a specific sound according to an agreement with the server (1300). That is, the ID 0x101 mapped by the terminal (1200) to the sound unit HH may be an ID agreed upon in advance with the server (1300). Accordingly, when the server (1300) processes a voice signal as data, it can correspond a specific voice signal, i.e., a specific sound, to a specific ID agreed upon with the terminal (1200). The agreement process between the terminal (1200) and the server (1300) can be such that one of the terminals (1200) or the server (1300) can designate an ID mapped to a specific sound and notify the other party of it, or can map the ID to a pronunciation symbol while exchanging opinions. In Fig. 20, for convenience, the pronunciation symbol and the sound unit ID are mapped 1:1, but the sound unit ID may not be mapped 1:1 with the pronunciation symbol. For example, a sound that combines the pronunciation symbols HH and OW can be viewed as a single sound unit, and one sound unit ID can be assigned to HH OW.
도 22는 개인 정보 ID를 음향 단위 ID로 나타내는 도면이다. Figure 22 is a diagram showing a personal information ID as an acoustic unit ID.
단말(1200)은 개인 정보(2210)에 단어 ID(2220)를 매핑할 수 있고, 이러한 개인 정보(2210)의 발음 기호 및 음향 모델을 이용하여 단어 ID(2220)에 음향 단위 ID(2230)를 매핑할 수 있다. 음향 단위 ID 는 발음 기호에 해당하는 음성 인식 모델의 특정 부분을 나타내며, 발음 기호와 1 대 1 매핑 되지 않을 수도 있다. 다만, 여기에서는 편의상 음향 단위 ID와 발음 기호가 1 대 1 매핑됨을 가정하고 설명한다. The terminal (1200) can map a word ID (2220) to personal information (2210), and map an acoustic unit ID (2230) to the word ID (2220) using the pronunciation symbol and acoustic model of the personal information (2210). The acoustic unit ID represents a specific part of a voice recognition model corresponding to a pronunciation symbol, and may not be mapped 1:1 with the pronunciation symbol. However, for convenience, it is assumed and explained herein that the acoustic unit ID and the pronunciation symbol are mapped 1:1.
도 22를 참조하면, 단말(1200)은 개인 정보(1272) ‘홍길동’이라는 단어에 대해서는 임의로 0x01 라는 ID로 매핑하였다. ‘홍길동’ 이라는 단어는 발음 기호 ‘HH OW NX K IY T OW NX’ 로 나타낼 수 있고, 각 발음 기호는 서버(1300)와 합의된 음향 단위 ID 0x101,0x102, 0x103, 0x104, 0x105, 0x106, … 로 매핑 된다. 따라서, ‘홍길동’에 해당하는 0x01 라는 ID는 음향 단위 ID 0x101,0x102, 0x103, 0x104, 0x105, 0x106, … 로 나타낼 수 있다. Referring to FIG. 22, the terminal (1200) arbitrarily mapped the word ‘Hong Gil-dong’, which is personal information (1272), to an ID of 0x01. The word ‘Hong Gil-dong’ can be expressed by the pronunciation symbol ‘HH OW NX K IY T OW NX’, and each pronunciation symbol is mapped to the sound unit IDs 0x101, 0x102, 0x103, 0x104, 0x105, 0x106, … agreed upon with the server (1300). Therefore, the ID 0x01 corresponding to ‘Hong Gil-dong’ can be expressed by the sound unit IDs 0x101, 0x102, 0x103, 0x104, 0x105, 0x106, ….
개시된 실시예에 따르면, 단말(1200)은 단어에 대해서는 임의로 ID를 매핑하고, 해당 단어 ID를 서버와 합의된 음향 단위 ID로 나타낼 수 있다. 이에 따라 개인 정보(1272)는 ID로 마스킹함으로써 개인화 모델이 외부에 노출되더라도 개인 정보(1272)를 보호할 수 있고, 서버(1300)는 합의된 음향 단위 ID를 이용하여 음성 신호에 대한 데이터 처리를 할 수 있다. According to the disclosed embodiment, the terminal (1200) can arbitrarily map an ID to a word and represent the word ID as an acoustic unit ID agreed upon with the server. Accordingly, personal information (1272) can be protected even if the personalized model is exposed to the outside by masking the personal information (1272) with an ID, and the server (1300) can perform data processing on a voice signal using the agreed acoustic unit ID.
다음으로, 단말(1200)은 1630 단계에서 ID 기반의 개인화 모델(1372)을 서버로 전송한다. 위에서 설명한 것과 같이, ID 기반의 개인화 모델(1372)은 도 22에 도시된 단어 ID(2220) 및 음향 단위 ID(2230)를 기초로 생성될 수 있다. 따라서 서버(1300)는 인식할 음성 신호를 수신한 경우 음성 신호를 처리하여 해당 음성 신호의 음향 단위 ID(2230)에 대응하는 단어 ID(2220)를 결과로 출력할 수 있다. 이때, 매핑 테이블(1273)은 서버(1300)에 전송하지 않고 단말(1200)에만 저장함으로써 개인화 모델이 외부에 노출되더라도 개인 정보(1272)를 보호할 수 있다. Next, the terminal (1200) transmits the ID-based personalized model (1372) to the server at step 1630. As described above, the ID-based personalized model (1372) can be generated based on the word ID (2220) and the sound unit ID (2230) illustrated in FIG. 22. Accordingly, when the server (1300) receives a voice signal to be recognized, it can process the voice signal and output the word ID (2220) corresponding to the sound unit ID (2230) of the voice signal as a result. At this time, the mapping table (1273) is not transmitted to the server (1300) but is stored only in the terminal (1200), thereby protecting personal information (1272) even if the personalized model is exposed to the outside.
그 후, 단말(1200)은 1640 단계에서 서버(1300)로부터 음성 신호에 대하여 ID 기반의 개인화 모델(1372)을 이용해 데이터 처리한 결과를 수신한다. 예를 들어 서버에서 ID 기반의 개인화 모델(1372)을 이용해 데이터 처리한 결과는 도 22에 도시된 바와 같은 단어 ID(2220)를 포함할 수 있다. Thereafter, the terminal (1200) receives the result of data processing using the ID-based personalized model (1372) for the voice signal from the server (1300) at step 1640. For example, the result of data processing using the ID-based personalized model (1372) at the server may include a word ID (2220) as illustrated in FIG. 22.
다음, 1650 단계에서 단말(1200)은 서버(1300)로부터 수신한 데이터 처리 결과 및 매핑 테이블(1273)을 이용하여 ID에 대응하는 개인 정보(1272) 또는 부가 정보를 복원한다. 즉, 단말(1200)은 도 22에 도시된 바와 같은 단어 ID(2220)를 서버(1300)로부터 데이터 처리결과로서 수신하면, 저장된 단어 매핑 테이블(1273)을 이용하여 단어 ID(2220)에 대응하는 개인 정보를 복원할 수 있다. 도 20을 참조하면, 단말(1200)은 ID 0x01 를 ‘홍길동’으로 복원할 수 있다. 개시된 실시예에 따르면, 단말(1200)은 ID로 마스킹된 개인 정보(1272)를 매핑 테이블(1273)을 이용하여 복원함으로써 데이터 처리를 완료할 수 있다. 단말(1200)은 개인화 모델(1372)을 생성하여 음성 처리 시스템이 높은 성능을 가질 수 있도록 하고, 실제 데이터 처리는 높은 연산 능력을 갖는 서버(1300)에서 이루어짐으로써 음성 신호를 빠르게 처리할 수 있다. Next, at step 1650, the terminal (1200) restores the personal information (1272) or additional information corresponding to the ID using the data processing result and the mapping table (1273) received from the server (1300). That is, when the terminal (1200) receives the word ID (2220) as shown in FIG. 22 from the server (1300) as the data processing result, the terminal (1200) can restore the personal information corresponding to the word ID (2220) using the stored word mapping table (1273). Referring to FIG. 20, the terminal (1200) can restore the ID 0x01 to ‘Hong Gil-dong.’ According to the disclosed embodiment, the terminal (1200) can complete data processing by restoring the personal information (1272) masked by the ID using the mapping table (1273). The terminal (1200) generates a personalized model (1372) to enable the voice processing system to have high performance, and actual data processing is performed in a server (1300) with high computing power, thereby enabling voice signals to be processed quickly.
나아가, 단말(1200)은 데이터 처리 결과를 사용자에게 출력할 수 있다. Furthermore, the terminal (1200) can output the data processing result to the user.
결과적으로, 개시된 실시예에 따르면, 개인 정보(1272)는 단어나 문장의 내용을 파악할 수 없는 형태로 변형되어 서버(1300)로 전달됨으로써 외부에 개인화 모델이 노출되더라도 ID로 마스킹 된 개인 정보(1272)를 복원하기 어려워 개인 정보(1272)를 보호할 수 있다. 또한, 높은 연산 능력을 갖는 서버로 개인화 모델을 전송하여 음성 신호에 대하여 데이터 처리를 함으로써 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다.As a result, according to the disclosed embodiment, personal information (1272) is transmitted to the server (1300) in a form in which the content of words or sentences cannot be identified, so that even if the personalized model is exposed externally, it is difficult to restore the personal information (1272) masked with an ID, thereby protecting the personal information (1272). In addition, by transmitting the personalized model to a server with high computational capability and performing data processing on the voice signal, a voice processing system with higher performance and processing speed can be implemented.
도 17은 개시된 또다른 실시예에 따른 서버의 음성 처리 방법을 나타내는 순서도이다.FIG. 17 is a flowchart showing a voice processing method of a server according to another disclosed embodiment.
먼저, 서버(1300)는 1710 단계에서 단말(1200)로부터 ID 기반의 개인화 모델(1273)을 수신한다. ID 기반의 개인화 모델(1273)은 개인 정보(1272)에 대한 부분이 ID로 마스킹 되어 있어 외부에 개인화 모델이 노출되더라도 ID로 마스킹 된 개인 정보(1272)를 복원하기 어려워 개인 정보(1272)를 보호할 수 있다.First, the server (1300) receives an ID-based personalized model (1273) from the terminal (1200) at step 1710. The ID-based personalized model (1273) has a portion of personal information (1272) masked with an ID, so that even if the personalized model is exposed externally, it is difficult to restore the personal information (1272) masked with an ID, thereby protecting the personal information (1272).
그 후, 서버(1300)는 1720 단계에서 음성 신호를 수신한다. 서버(200)는 다양한 구성 요소를 통해 음성 신호를 수신할 수 있다. 단말(100)로부터 음성 신호를 수신하는 것이 가장 일반적인 형태일 것이지만, USB 인터페이스부 또는 DVD 인터페이스부 등을 통해 음성 신호를 수신할 수도 있다.After that, the server (1300) receives a voice signal at step 1720. The server (200) can receive a voice signal through various components. Receiving a voice signal from a terminal (100) would be the most common form, but the voice signal can also be received through a USB interface unit or a DVD interface unit, etc.
다음으로, 서버(1300)는 1730 단계에서 음성 신호에 대하여 ID 기반의 개인화 모델(1273)을 이용하여 데이터 처리한다. 이 경우, 서버(1300)는 단말(1200)과 사전 합의에 따라 음향 단위에 매핑된 ID를 이용하여 개인 정보 ID를 나타내도록 제어할 수 있다. 도 21 내지 도 22를 참조하여 설명한다. Next, the server (1300) processes data using an ID-based personalized model (1273) for the voice signal at step 1730. In this case, the server (1300) can control the terminal (1200) to indicate a personal information ID using an ID mapped to an acoustic unit according to a prior agreement. This will be described with reference to FIGS. 21 and 22.
도 21을 참조하면, 서버(1300)가 단말(1200)과의 합의 에 따라 음향 단위에 ID가 매핑되어 있다. 서버(1300)는 ‘홍길동’이라는 음성 신호에 대해서 연속적인 음향의 집합으로 인식한다. 따라서, 음향 ‘HH’에 대해서는 단말(1200)과 사전에 합의된 ID 인 0x101 를 부여하고, 음향 ‘OW’에 대해서는 0x102를 부여하는 방식으로, ‘홍길동’이라는 음성 신호를 음향 단위 ID의 집합인 0x101, 0x102, 0x103, 0x104, 0x105, 0x106, … 으로 나타낼 수 있다. Referring to FIG. 21, the server (1300) maps an ID to an acoustic unit according to an agreement with the terminal (1200). The server (1300) recognizes the voice signal ‘Hong Gil-dong’ as a set of continuous sounds. Accordingly, by assigning 0x101, which is an ID previously agreed upon with the terminal (1200), to the sound ‘HH’ and 0x102 to the sound ‘OW’, the voice signal ‘Hong Gil-dong’ can be expressed as a set of acoustic unit IDs, 0x101, 0x102, 0x103, 0x104, 0x105, 0x106, …
서버(1300)는 단말(1200)로부터 수신한 개인화 모델(1273)에서 이러한 발음 기호 ID 집합에 대응하는 단어 ID를 찾아 대응 시킬 수 있다. 도 22를 참조하면, ‘홍길동’ 이라는 단어에는 0x01 이라는 ID가 매핑되어 있다. 따라서, 서버(1300)는 ‘홍길동’ 이라는 음성 신호를 발음 기호 ID의 집합인 0x101, 0x102, 0x103, 0x104, 0x105, 0x106, … 에 대응하는 0x01 이라는 단어 ID로 나타낼 수 있다. 서버(1300)는 단말(1200)로부터 개인화 모델(1372)을 수신하여 데이터 처리를 함으로써 높은 성능을 가질 수 있고, 또한, 서버(1300)는 높은 연산 능력을 갖는바, 음성 신호를 빠르게 처리할 수 있다.The server (1300) can find and match a word ID corresponding to the set of pronunciation symbol IDs in the personalized model (1273) received from the terminal (1200). Referring to FIG. 22, the word ‘Hong Gil-dong’ is mapped with an ID of 0x01. Accordingly, the server (1300) can represent the voice signal ‘Hong Gil-dong’ as a word ID of 0x01 corresponding to the set of pronunciation symbol IDs of 0x101, 0x102, 0x103, 0x104, 0x105, 0x106, … The server (1300) can have high performance by receiving the personalized model (1372) from the terminal (1200) and performing data processing, and further, since the server (1300) has high computational capability, it can quickly process the voice signal.
나아가, 서버(1300)는 1740 단계에서 데이터 처리 결과를 단말(1200)로 전송한다. Furthermore, the server (1300) transmits the data processing result to the terminal (1200) at step 1740.
결과적으로, 개시된 실시예에 따르면, 개인 정보(1272)는 단어나 문장의 내용을 파악할 수 없는 형태로 변형되어 서버(1300)로 전달됨으로써 외부에 개인화 모델이 노출되더라도 ID로 마스킹 된 개인 정보(1272)를 복원하기 어려워 개인 정보(1272)를 보호할 수 있다. 또한, 높은 연산 능력을 갖는 서버(1300)에서 개인화 모델을 이용하여 음성 신호에 대하여 데이터 처리를 함으로써 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다.As a result, according to the disclosed embodiment, personal information (1272) is transmitted to the server (1300) in a form that cannot be understood as the content of words or sentences, so that even if the personalized model is exposed externally, it is difficult to restore the personal information (1272) masked with an ID, thereby protecting the personal information (1272). In addition, by performing data processing on a voice signal using the personalized model in a server (1300) with high computational capabilities, a voice processing system with higher performance and processing speed can be implemented.
도 23은 개시된 다른 실시예에 따른 단말과 서버의 구체적인 동작 과정의 예시를 나타내는 순서도이다. FIG. 23 is a flowchart showing an example of a specific operation process of a terminal and a server according to another disclosed embodiment.
먼저, 2310 단계에서 단말(1200)은 개인 정보(1272) 에 ID를 대응시켜 매핑 테이블(1273)을 생성한다. 단말(1200)은 개인 정보(1272)의 단어 리스트를 이용하여 발음 사전(1910)을 생성하고, 발음 사전(1910)을 이용하여 발음 기호와 단어에 대하여 ID를 매핑할 수 있다. 이 경우, 단말(1200)은 임의의 ID를 부여할 수 있다. First, in step 2310, the terminal (1200) creates a mapping table (1273) by matching an ID to personal information (1272). The terminal (1200) can create a pronunciation dictionary (1910) using the word list of the personal information (1272) and map the ID to the pronunciation symbol and word using the pronunciation dictionary (1910). In this case, the terminal (1200) can assign an arbitrary ID.
다음으로, 2320 단계에서 단말(1200)은 매핑 테이블(1273)을 이용하여 ID 기반의 개인화 모델(1372)을 생성하여, 2330 단계에서 서버(1300)로 전송한다. 서버(1300)는 2340 단계에서 수신한 ID 기반의 개인화 모델(1372)을 저장부(1370)에 저장한다. ID 기반의 개인화 모델(1372)은 도 22에 도시된 단어 ID(2220) 및 음향 단위 ID(2230)를 기초로 생성될 수 있다.Next, in step 2320, the terminal (1200) generates an ID-based personalized model (1372) using the mapping table (1273), and transmits it to the server (1300) in step 2330. The server (1300) stores the ID-based personalized model (1372) received in step 2340 in the storage unit (1370). The ID-based personalized model (1372) can be generated based on the word ID (2220) and sound unit ID (2230) illustrated in FIG. 22.
그 후, 단말(1200)은 2350 단계에서 음성 신호를 수신하여 2360 단계에서 서버(1300)로 전송한다. 위에서 설명한 것과 같이 단말(100)은 다양한 구성 요소를 통해 음성 신호를 수신할 수 있다. 마이크부를 통해 음성 신호를 수신하는 것이 가장 일반적인 형태일 것이지만, USB 인터페이스부 또는 DVD 인터페이스부 등을 통해 음성 신호를 수신할 수도 있다. 나아가, 외부 장치와 통신을 통해 음성 신호를 수신할 수도 있다.Thereafter, the terminal (1200) receives a voice signal at step 2350 and transmits it to the server (1300) at step 2360. As described above, the terminal (100) can receive a voice signal through various components. Receiving a voice signal through a microphone unit would be the most common form, but the voice signal can also be received through a USB interface unit or a DVD interface unit, etc. Furthermore, the voice signal can also be received through communication with an external device.
서버(1300)는 2370 단계에서 수신한 음성 신호에 대하여 ID 기반의 개인화 모델을 이용하여 데이터 처리하고, 2380 단계에서 데이터 처리 결과를 단말(1200)로 전송한다. 이 경우, 서버(1300)는 개인 정보(1272) 또는 부가 정보에 매핑된 ID를 단말(1200)과 합의에 따라 음향 단위에 매핑된 ID를 이용하여 나타낼 수 있다.The server (1300) processes data using an ID-based personalized model for the voice signal received at step 2370, and transmits the data processing result to the terminal (1200) at step 2380. In this case, the server (1300) may display an ID mapped to personal information (1272) or additional information using an ID mapped to an acoustic unit according to an agreement with the terminal (1200).
그 후, 2390 단계에서 단말(1200)은 데이터 처리 결과 및 매핑 테이블(1273)을 이용하여 ID에 대응하는 개인 정보(1272) 또는 부가 정보를 복원한다. After that, at step 2390, the terminal (1200) restores personal information (1272) or additional information corresponding to the ID using the data processing result and the mapping table (1273).
개시된 실시예에 따르면, 서버(1300)는 ID 기반의 개인화 모델을 단말(1200)로부터 수신하여, 수신한 ID 기반의 개인화 모델을 기용하여 데이터를 처리함으로써, 외부에 개인화 모델이 노출되더라도 ID로 마스킹 된 개인 정보(1272)를 복원하기 어려워 개인 정보(1272)를 보호할 수 있다. 또한, 높은 연산 능력을 갖는 서버(1300)가 음성 신호에 대하여 데이터 처리를 함으로써 보다 높은 성능 및 처리 속도를 갖는 음성 처리 시스템을 구현할 수 있다.According to the disclosed embodiment, the server (1300) receives an ID-based personalized model from the terminal (1200) and processes data using the received ID-based personalized model, thereby making it difficult to restore personal information (1272) masked by the ID even if the personalized model is exposed to the outside, thereby protecting personal information (1272). In addition, by having the server (1300) with high computational capability perform data processing on a voice signal, a voice processing system with higher performance and processing speed can be implemented.
한편, 상술한 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.Meanwhile, the above-described embodiments can be written as a program that can be executed on a computer, and can be implemented in a general-purpose digital computer that operates the program using a computer-readable recording medium.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다. The computer-readable storage medium includes a magnetic storage medium (e.g., ROM, floppy disk, hard disk, etc.), an optical readable medium (e.g., CD-ROM, DVD, etc.), and a carrier wave storage medium (e.g., transmission via the Internet).
이상과 첨부된 도면을 참조하여 실시예를 설명하였지만, 개시된 실시예가 속하는 기술분야에서 통상의 지식을 가진 자는 개시된 실시예가 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.Although the embodiments have been described with reference to the above and the attached drawings, those skilled in the art to which the disclosed embodiments pertain will understand that the disclosed embodiments can be implemented in other specific forms without changing the technical idea or essential characteristics thereof. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive.
100: 단말
110: 수신부
130: 통신부
150: 제어부
200: 서버
210: 수신부
230: 통신부
250: 제어부100: Terminal
110: Receiver
130: Communications Department
150: Control Unit
200: Server
210: Receiver
230: Communications Department
250: Control Unit
Claims (12)
상기 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간(personalized information section)을 검출하는 단계;
상기 음성 신호를 서버로 전송하되, 상기 개인화 정보 구간에 포함된 개인 정보는 단어나 문장의 내용을 파악할 수 없는 형태로 변형하여 전송하는 단계;
상기 서버로부터 상기 음성 신호에 대한 데이터 처리 결과를 수신하는 단계; 및
상기 서버로부터 수신된 데이터 처리 결과, 상기 개인화 정보 구간에 포함된 개인 정보 및 사용자 별 맞춤형 음성 처리 모델인 개인화 모델을 이용하여 상기 음성 신호를 재처리함으로써 상기 서버로부터 수신된 데이터 처리 결과를 보완하는 단계; 및
상기 데이터 처리의 결과를 제공하는 단계를 포함하는, 단말의 음성 신호 처리 방법.
A step of receiving a speech signal;
A step of detecting a personalized information section including personal information among the above voice signals;
A step of transmitting the above voice signal to a server, but transmitting the personal information included in the personalized information section in a form in which the content of the words or sentences cannot be identified;
A step of receiving a data processing result for the voice signal from the server; and
A step of supplementing the data processing result received from the server by reprocessing the voice signal using the personal information included in the personalized information section and the personalized model, which is a customized voice processing model for each user; and
A method for processing a voice signal of a terminal, comprising a step of providing a result of the above data processing.
상기 개인화 정보 구간 이외의 구간인 일반 정보 구간을 검출하는 단계;
상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 생성하여 상기 서버로 전송하는 단계를 더 포함하는 것을 특징으로 하는 단말의 음성 신호 처리 방법.
In the first paragraph,
A step of detecting a general information section other than the above personalized information section;
A voice signal processing method of a terminal, characterized in that it further includes a step of generating voice section information for the personalized information section and the general information section and transmitting the generated voice section information to the server.
상기 음성 구간 정보는,
상기 음성 신호 중 상기 개인화 정보 구간 및 상기 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹(marking)한 구간 마킹 정보를 포함하는 것을 특징으로 하는 단말의 음성 신호 처리 방법.
In the second paragraph,
The above voice section information is,
A voice signal processing method of a terminal, characterized in that it includes section marking information that marks at least one section among the personalized information section and the general information section among the above voice signals.
상기 서버로부터 수신된 상기 일반 정보 구간에 대응하는 음성 신호에 대한 데이터 처리 결과는,
상기 서버가 일반 모델을 이용하여 상기 일반 정보 구간에 대응하는 음성 신호를 처리한 결과인 것을 특징으로 하는 단말의 음성 신호 처리 방법.
In the second paragraph,
The data processing result for the voice signal corresponding to the general information section received from the above server is as follows:
A voice signal processing method of a terminal, characterized in that the server processes a voice signal corresponding to the general information section using a general model.
상기 서버로부터 수신된 데이터 처리 결과를 기초로 상기 음성 신호에 대하여 데이터 처리하는 단계는,
상기 개인 정보에 기초하여 생성된 개인화 모델을 이용하여 상기 음성 신호의 상기 개인화 정보 구간에 대하여 데이터 처리하는 단계를 포함하는 단말의 음성 신호 처리 방법.
In the first paragraph,
The step of processing data for the voice signal based on the data processing result received from the server is as follows:
A voice signal processing method of a terminal, comprising a step of data processing for the personalized information section of the voice signal using a personalized model generated based on the personal information.
개인화 음성 인식 모델(personalized speech recognition model), 언어 이해 모델(personalized natural language understanding model) 및 개인화 렉시컬 모델(personalized lexical model) 중 적어도 하나 이상의 모델을 포함하는 단말의 음성 신호 처리 방법.
In the fifth paragraph, the personalized model,
A method for processing a speech signal of a terminal, the terminal including at least one model among a personalized speech recognition model, a personalized natural language understanding model, and a personalized lexical model.
서버와 통신을 수행하는 통신부; 및
상기 음성 신호 중 개인 정보를 포함하는 개인화 정보 구간(personalized information section)을 검출하고,
상기 음성 신호를 서버로 전송하되, 상기 개인화 정보 구간에 포함된 개인 정보는 단어나 문장의 내용을 파악할 수 없는 형태로 변형하여 전송하고,
상기 서버로부터 상기 음성 신호에 대한 데이터 처리 결과를 수신하고,
상기 서버로부터 수신된 데이터 처리 결과, 상기 개인화 정보 구간에 포함된 개인 정보 및 사용자 별 맞춤형 음성 처리 모델인 개인화 모델을 이용하여 상기 음성 신호를 재처리함으로써 상기 서버로부터 수신된 데이터 처리 결과를 보완하고,
상기 데이터 처리의 결과를 제공하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 단말.
A receiver for receiving a voice signal;
A communication unit that performs communication with the server; and
Detecting a personalized information section containing personal information from the above voice signal,
The above voice signal is transmitted to the server, but the personal information included in the personalized information section is transmitted in a form in which the content of the words or sentences cannot be identified.
Receive the data processing result for the voice signal from the above server,
The data processing result received from the server is supplemented by reprocessing the voice signal using the personal information included in the personalized information section and the personalized model, which is a customized voice processing model for each user.
A terminal characterized by including a control unit that controls to provide the result of the above data processing.
상기 개인화 정보 구간 이외의 구간인 일반 정보 구간을 검출하고,
상기 개인화 정보 구간과 상기 일반 정보 구간에 대한 음성 구간 정보를 생성하여 상기 서버로 전송하는 단말.
In the seventh paragraph, the control unit,
Detecting a general information section other than the above personalized information section,
A terminal that generates voice section information for the above personalized information section and the above general information section and transmits it to the server.
상기 음성 구간 정보는,
상기 음성 신호 중 상기 개인화 정보 구간 및 상기 일반 정보 구간 중 적어도 하나 이상의 구간을 마킹(marking)한 구간 마킹 정보를 포함하는 것을 특징으로 하는 단말.
In Article 8,
The above voice section information is,
A terminal characterized by including section marking information that marks at least one section among the personalized information section and the general information section among the above voice signals.
상기 서버로부터 수신된 상기 일반 정보 구간에 대응하는 음성 신호에 대한 데이터 처리 결과는,
상기 서버가 일반 모델을 이용하여 상기 일반 정보 구간에 대응하는 음성 신호를 처리한 결과인 것을 특징으로 하는 단말.
In Article 8,
The data processing result for the voice signal corresponding to the general information section received from the above server is as follows:
A terminal characterized in that the server processes a voice signal corresponding to the general information section using a general model.
상기 개인 정보에 기초하여 생성된 개인화 모델을 이용하여 상기 음성 신호의 상기 개인화 정보 구간에 대하여 데이터 처리하는 것을 특징으로 하는 단말.
In the seventh paragraph, the control unit,
A terminal characterized in that it processes data for the personalized information section of the voice signal using a personalized model generated based on the personal information.
개인화 음성 인식 모델(personalized speech recognition model), 언어 이해 모델(personalized natural language understanding model) 및 개인화 렉시컬 모델(personalized lexical model) 중 적어도 하나 이상의 모델을 포함하는 것을 특징으로 하는 단말.In the 11th paragraph, the personalized model,
A terminal characterized by including at least one model among a personalized speech recognition model, a personalized natural language understanding model, and a personalized lexical model.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201462076717P | 2014-11-07 | 2014-11-07 | |
| US62/076,717 | 2014-11-07 | ||
| KR1020240094534A KR102749380B1 (en) | 2014-11-07 | 2024-07-17 | Method and apparatus for speech signal processing |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020240094534A Division KR102749380B1 (en) | 2014-11-07 | 2024-07-17 | Method and apparatus for speech signal processing |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20250002082A true KR20250002082A (en) | 2025-01-07 |
Family
ID=56109617
Family Applications (3)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020150152525A Active KR102536944B1 (en) | 2014-11-07 | 2015-10-30 | Method and apparatus for speech signal processing |
| KR1020240094534A Active KR102749380B1 (en) | 2014-11-07 | 2024-07-17 | Method and apparatus for speech signal processing |
| KR1020240194611A Pending KR20250002082A (en) | 2014-11-07 | 2024-12-23 | Method and apparatus for speech signal processing |
Family Applications Before (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020150152525A Active KR102536944B1 (en) | 2014-11-07 | 2015-10-30 | Method and apparatus for speech signal processing |
| KR1020240094534A Active KR102749380B1 (en) | 2014-11-07 | 2024-07-17 | Method and apparatus for speech signal processing |
Country Status (1)
| Country | Link |
|---|---|
| KR (3) | KR102536944B1 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
| KR102550932B1 (en) | 2017-12-29 | 2023-07-04 | 삼성전자주식회사 | Method and apparatus for personalizing speech recognition model |
| KR102563817B1 (en) | 2018-07-13 | 2023-08-07 | 삼성전자주식회사 | Method for processing user voice input and electronic device supporting the same |
| CN110797014B (en) * | 2018-07-17 | 2024-06-07 | 中兴通讯股份有限公司 | Speech recognition method, device and computer storage medium |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101330328B1 (en) * | 2010-12-14 | 2013-11-15 | 한국전자통신연구원 | Method of recognizing voice and system for the same |
| US10354650B2 (en) * | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
| US9131369B2 (en) * | 2013-01-24 | 2015-09-08 | Nuance Communications, Inc. | Protection of private information in a client/server automatic speech recognition system |
-
2015
- 2015-10-30 KR KR1020150152525A patent/KR102536944B1/en active Active
-
2024
- 2024-07-17 KR KR1020240094534A patent/KR102749380B1/en active Active
- 2024-12-23 KR KR1020240194611A patent/KR20250002082A/en active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| KR102749380B1 (en) | 2025-01-03 |
| KR102536944B1 (en) | 2023-05-26 |
| KR20240115216A (en) | 2024-07-25 |
| KR20160055059A (en) | 2016-05-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102749380B1 (en) | Method and apparatus for speech signal processing | |
| KR101418163B1 (en) | Speech recognition repair using contextual information | |
| ES2751484T3 (en) | Incremental voice input interface with real-time feedback | |
| EP2896039B1 (en) | Improving phonetic pronunciation | |
| US20190027147A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
| JP2020030408A (en) | Method, apparatus, device and medium for identifying key phrase in audio | |
| JP2019503526A (en) | Parameter collection and automatic dialog generation in dialog systems | |
| EP3444811B1 (en) | Speech recognition method and device | |
| TW201606750A (en) | Speech recognition using a foreign word grammar | |
| JP6154489B2 (en) | Terminal device, program, and server device for providing information in response to user data input | |
| US12008988B2 (en) | Electronic apparatus and controlling method thereof | |
| WO2017166631A1 (en) | Voice signal processing method, apparatus and electronic device | |
| US20190073994A1 (en) | Self-correcting computer based name entity pronunciations for speech recognition and synthesis | |
| KR20230075386A (en) | Method and apparatus for speech signal processing | |
| US10600405B2 (en) | Speech signal processing method and speech signal processing apparatus | |
| KR20190115405A (en) | Search method and electronic device using the method | |
| KR20200101103A (en) | Electronic device and system for processing user input and method thereof | |
| KR20200057426A (en) | Electronic Device and the Method for Displaying Image based on Voice Recognition | |
| JP2019109424A (en) | Computer, language analysis method, and program | |
| WO2016136208A1 (en) | Voice interaction device, voice interaction system, control method of voice interaction device | |
| HK1246438B (en) | Methods for understanding incomplete natural language query |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A107 | Divisional application of patent | ||
| PA0107 | Divisional application |
Comment text: Divisional Application of Patent Patent event date: 20241223 Patent event code: PA01071R01D Filing date: 20240717 Application number text: 1020240094534 |
|
| PG1501 | Laying open of application | ||
| A201 | Request for examination | ||
| PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20250122 Comment text: Request for Examination of Application |