KR102487847B1 - System and method for providing call service for the hearing impaired - Google Patents
System and method for providing call service for the hearing impaired Download PDFInfo
- Publication number
- KR102487847B1 KR102487847B1 KR1020220088727A KR20220088727A KR102487847B1 KR 102487847 B1 KR102487847 B1 KR 102487847B1 KR 1020220088727 A KR1020220088727 A KR 1020220088727A KR 20220088727 A KR20220088727 A KR 20220088727A KR 102487847 B1 KR102487847 B1 KR 102487847B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- hearing
- impaired
- communication terminal
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42391—Systems providing special services or facilities to subscribers where the subscribers are hearing-impaired persons, e.g. telephone devices for the deaf
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/247—Telephone sets including user guidance or feature selection means facilitating their use
- H04M1/2474—Telephone terminals specially adapted for disabled people
- H04M1/2475—Telephone terminals specially adapted for disabled people for a hearing impaired user
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/39—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
본 발명은 청각장애인용 통화 서비스 제공 시스템 및 방법에 관한 것으로, 보다 상세하게는 텍스트 음성 변환, 음성 텍스트 변환 및 모션 텍스트 변환 등의 기능을 활용하여 청각장애인과 비장애인 사이의 통화 서비스를 제공함과 동시에, 화자의 음성이나 표정 등으로부터 추정되는 감정 상태를 시각화하거나 음성을 통해 표현할 수 있도록 함으로써 통화자 사이의 의사전달이 명확히 이루어질 수 있도록 하는 청각장애인용 통화 서비스 제공 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for providing a call service for the hearing impaired, and more particularly, provides a call service between the hearing impaired and non-disabled people by utilizing functions such as text-to-speech conversion, voice-to-text conversion, and motion-text conversion, and at the same time The present invention relates to a system and method for providing a call service for the hearing impaired that enables clear communication between callers by visualizing or expressing an emotional state estimated from a speaker's voice or facial expression.
정보통신의 발달로 삶의 질이 높아지고 있지만 장애인을 위한 장치, 특히, 일상 생활이나 공공시설에서 청각장애인이나 언어장애인을 위한 의사소통 장치가 부족하여 정보통신에 대한 청각장애인 및 언어장애인들의 접근을 어렵게 하고 있다.Although the quality of life is improving with the development of information and communication, it is difficult for the hearing-impaired and speech-impaired people to access information and communication due to the lack of devices for the disabled, especially communication devices for the hearing-impaired or speech-impaired in daily life or public facilities. are doing
일부 TV 방송에서는 청각장애인들을 위하여 수화 전문가가 방송중인 음성을 수화로 통역하여 그 내용을 TV 방송화면의 일측 하단에 표시하고 있고, 일부 공공시설에서도 수화 전문가가 수화로 안내방송을 하는 화면을 표시하고 있지만, 청각장애인들이 스마트폰 등의 통신기기를 이용한 개인적인 통화를 수행하기가 매우 어려운 현실이다.In some TV broadcasts, a sign language expert interprets the broadcasting voice into sign language for the hearing impaired and displays the contents at the bottom of one side of the TV broadcasting screen. However, it is a reality that it is very difficult for the hearing impaired to carry out a personal call using a communication device such as a smart phone.
청각장애인들의 통화를 위해 수화 통역 기능을 이용할 수 있는 어플리케이션이 개발되어 있기는 하나, 이는 동일 어플리케이션을 설치한 사용자 기기들만을 대상으로 해당 서비스를 수행하고 있어, 비장애인과 장애인 간의 통화 연결에 적용하기 어렵다는 문제점이 있다.Although an application that can use the sign language interpretation function for calls by the hearing impaired has been developed, this service is performed only for user devices that have the same application installed, so it is difficult to apply it to call connections between non-disabled people and people with disabilities. There is a difficult problem.
최근, 텍스트를 음성으로 전환하는 텍스트 음성 변환(Text To Speech; TTS) 기술, 음성을 텍스트로 전환하는 음성 텍스트 변환(Speech To Text; STT) 기술 및 수화언어모션을 인식하여 텍스트로 변환시키는 모션 텍스트 변환(Motion To Text; MTT) 기술 등이 발전함에 따라, 이러한 기술들을 이용하여 청각장애인들과 비장애인들 사이의 통화 또는 화상통화를 실시할 수 있도록 하기 위한 연구가 다양하게 진행되고 있는데, 일례로 대한민국 등록특허공보 제10-2212298호에는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법이 게재되어 있다.Recently, Text To Speech (TTS) technology that converts text to voice, Speech To Text (STT) technology that converts voice to text, and Motion Text that recognizes sign language motion and converts it into text As the Motion To Text (MTT) technology develops, various studies are being conducted to enable a call or video call between the hearing impaired and non-disabled people using these technologies. For example, Republic of Korea Patent Registration No. 10-2212298 discloses an artificial intelligence-based video communication platform system between non-disabled people and hearing-impaired people and its operation method.
상기 종래기술은, 전술한 TTS 변환모듈, STT 변환모듈 및 MTT 변환모듈과, 번역모듈 등을 포함하는 인공지능 중계 서버부를 이용하여 비장애인이 사용하는 제1통신단말과 청각장애인이 사용하는 제2통신단말 사이에 화상 커뮤니케이션을 실시할 수 있도록 한 것에 기술적 특징이 있으나, 화상 커뮤니케이션을 실시하는 사용자들별로 커뮤니케이션의 내용과 상관없이 동일한 형태의 음성 출력이 이루어지므로, 사용자들의 감정이 제대로 전달될 수 없는 단점이 있다.The prior art uses an artificial intelligence relay server unit including the above-described TTS conversion module, STT conversion module, MTT conversion module, translation module, etc. to use a first communication terminal used by a non-disabled person and a second communication terminal used by a hearing impaired person. Although there is a technical feature in enabling video communication between communication terminals, since the same type of audio output is made for each user performing video communication regardless of the content of the communication, the emotions of the users cannot be properly conveyed. There are downsides.
즉, 통신단말을 이용한 통화의 경우 서로의 의도를 정확하게 전달하기 위해서는 화자가 말하고자하는 바를 음성 또는 문자로 전달하는 것 뿐만 아니라, 통화를 하는 화자의 감정이나 말하고자 하는 내용에 내재되어 있는 분위기를 표현하는 것이 중요한데, 아직까지 청각장애인의 감정을 상대방에게 전달하거나, 상대방의 감정을 청각장애인에게 전달할 수 있도록 하는 시스템은 개발되고 있지 않은 실정이다.In other words, in the case of a call using a communication terminal, in order to accurately convey each other's intentions, it is not only necessary to convey what the speaker wants to say through voice or text, but also to express the emotions of the speaker or the atmosphere inherent in the content to be said. It is important to express, but a system that conveys the emotions of the hearing impaired to the other person or conveys the emotions of the other person to the hearing impaired has not yet been developed.
본 발명은 상기와 같은 종래기술의 문제점들을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 화자의 음성이나 표정 등으로부터 추정되는 감정 상태를 시각화 또는 유형화하여 표시하거나 음성을 통해 상대방에게 전달할 수 있도록 함으로써 통화자 사이의 의사전달이 보다 명확히 이루어질 수 있도록 하는 청각장애인용 통화 서비스 제공 시스템 및 방법을 제공함에 있다.The present invention has been devised to solve the problems of the prior art as described above, and an object of the present invention is to visualize or categorize the emotional state estimated from the speaker's voice or expression, or to communicate it to the other party through voice. It is an object of the present invention to provide a system and method for providing a call service for the hearing-impaired so that communication between callers can be made more clearly.
또한, 본 발명은 청각장애인으로 대표되는 통신 약자들이 보다 쉽고 편리하게 통신단말기를 이용하여 상대방과 대화할 수 있도록 하면서도 자신의 말하고자 하는 의도를 감정과 함께 명확히 전달할 수 있도록 함은 물론 상대방의 의도를 명확히 파악할 수 있도록 하는 청각장애인용 통화 서비스 제공 시스템 및 방법을 제공함에 다른 목적이 있다.In addition, the present invention enables the communication weak, represented by the hearing impaired, to communicate with the other party more easily and conveniently using a communication terminal, while clearly conveying their intention with emotion, as well as to communicate the other party's intention Another object is to provide a system and method for providing a call service for the hearing-impaired to be clearly identified.
상기와 같은 목적들을 달성하기 위한 본 발명은,The present invention for achieving the above objects,
청각장애인이 소지하는 제1통신단말기와, 비장애인이 소지하는 제2통신단말기 및 상기 제1 및 제2통신단말기 사이의 통화를 중계하는 중계서버를 포함하는 청각장애인용 통화 서비스 제공 시스템에 있어서, 상기 중계서버는, 상기 제1 및 제2통신단말기와의 무선 통신을 위한 통신모듈과, 상기 제1통신단말기로부터 입력된 신호를 이용하여 청각장애인의 음성을 생성하는 음성생성모듈과, 상기 제1 및 제2통신단말기로부터 수신되는 정보들을 상대방이 인식할 수 있는 형태로 변환시키는 변환모듈과, 상기 제1 및 제2통신단말기로부터 수신되는 정보들을 이용하여 화자의 감정 정보를 표시하는 감정표시모듈을 포함하는 것을 특징으로 한다.In the system for providing a call service for the hearing impaired, including a first communication terminal possessed by a hearing impaired person, a second communication terminal possessed by a non-disabled person, and a relay server for relaying a call between the first and second communication terminals, The relay server includes a communication module for wireless communication with the first and second communication terminals, a voice generation module for generating a voice of a hearing-impaired person using a signal input from the first communication terminal, and the first communication terminal. and a conversion module for converting information received from the second communication terminal into a form recognizable by the other party, and an emotion display module for displaying emotional information of the speaker using the information received from the first and second communication terminals. It is characterized by including.
이때, 상기 음성생성모듈은, 제1통신단말기를 통해 입력되는 청각장애인의 신체정보들을 이용하여 청각장애인의 고유 음성을 1차 생성하는 음성추출부와, 상기 제1통신단말기를 통해 입력되는 청각장애인의 나이, 가족 음성을 포함하는 주변정보들을 이용하여 청각장애인의 고유 음성을 보정하는 음성보정부 및 상기 제1통신단말기를 이용하여 청각장애인의 음성을 선택할 수 있도록 하는 음성선택부를 포함하는 것을 특징으로 한다.At this time, the voice generation module includes a voice extraction unit that primarily generates a unique voice of the hearing-impaired person using body information of the hearing-impaired person input through the first communication terminal, and a hearing-impaired person input through the first communication terminal. Characterized in that it comprises a voice correction unit for correcting the unique voice of the hearing-impaired person using peripheral information including the age of the person and family voice, and a voice selector for selecting the voice of the hearing-impaired person using the first communication terminal. do.
또한, 상기 감정표시모듈은, 변환모듈에 의해 변환된 청각장애인 음성의 고저 및 크기를 조절하여 청각장애인의 감정을 표시하는 음성표시부와, 상기 변환모듈에 의해 변환되어 제1통신단말기로 전송되는 비장애인의 텍스트에 기설정된 색상을 부여하여 비장애인의 감정을 표시하는 텍스트표시부를 포함하는 것을 특징으로 한다.In addition, the emotion display module includes a voice display unit that controls the pitch and volume of the voice of the hearing-impaired person converted by the conversion module to display the emotion of the hearing-impaired person, and a voice display unit that is converted by the conversion module and transmitted to the first communication terminal. It is characterized in that it includes a text display unit that displays the emotion of the non-disabled person by giving a predetermined color to the text of the disabled person.
또한, 상기 감정표시모듈은 상기 음성표시부 또는 텍스트표시부에 의해 표시되는 감정 정보를 아바타에 의해 표현하는 아바타 표시부를 더 포함하는 것을 특징으로 한다.The emotion display module may further include an avatar display unit that expresses the emotion information displayed by the voice display unit or the text display unit by means of an avatar.
그리고, 상기 중계서버는, 딥러닝을 기반으로 하여 상기 변환모듈 및 감정표시모듈에서 사용되는 알고리즘에 대한 인공지능 학습을 수행하는 학습모듈을 더 포함하는 것을 특징으로 한다.And, the relay server is characterized in that it further comprises a learning module for performing artificial intelligence learning for the algorithm used in the conversion module and the emotion display module based on deep learning.
또한, 상기 중계서버는, 제1통산단말기를 사용하는 청각장애인들의 정보를 저장하는 제1데이터베이스와, 청각장애인들의 음성을 표현할 수 있는 음성데이터들을 저장하는 제2데이터베이스와, 상기 학습모듈에서의 인공지능 학습에 사용될 수 있는 데이터 및 학습모듈에서 학습된 학습결과를 저장하는 제3데이터베이스 및 제1 및 제2통신단말기 사이의 통화 내용을 기설정된 기간 동안 저장하는 제4데이터베이스를 포함하는 것을 특징으로 한다.In addition, the relay server includes a first database for storing information of hearing-impaired people using the first communication terminal, a second database for storing voice data capable of expressing the voice of hearing-impaired people, and artificial intelligence in the learning module. It is characterized in that it includes a third database for storing data that can be used for intelligent learning and learning results learned in the learning module, and a fourth database for storing conversation contents between the first and second communication terminals for a predetermined period. .
그리고, 상기 중계서버는, 제1 및 제2통신단말기를 이용한 사용자의 신호 입력이 기설정된 시간 이상 중단되거나 의미 전달이 가능한 문장이 완성되는 경우 입력된 신호를 자동으로 상대방에게 전송하도록 하는 자동전송모듈을 더 포함하는 것을 특징으로 한다.In addition, the relay server is an automatic transmission module that automatically transmits the input signal to the other party when the user's signal input using the first and second communication terminals is stopped for a predetermined time or a sentence capable of conveying meaning is completed. It is characterized in that it further comprises.
한편, 본 발명에 따른 청각장애인용 통화 서비스 제공 방법은,On the other hand, the method for providing a call service for the hearing impaired according to the present invention,
청각장애인이 소지하는 제1통신단말기와, 비장애인이 소지하는 제2통신단말기 및 상기 제1 및 제2통신단말기 사이의 통화를 중계하는 중계서버를 포함하는 청각장애인용 통화 서비스 제공 시스템을 이용한 통화 서비스 제공방법에 있어서, 상기 제1통신단말기를 이용하여 청각장애인의 정보들을 중계서버에 등록하는 사전준비단계와, 상기 제1 또는 제2통신단말기를 이용하여 중계서버에 접속하여 상대방과의 통화를 요청하는 통화요청단계와, 상기 중계서버에 의한 중계에 의해 제1 및 제2통신단말기를 각각 소지한 청각장애인과 비장애인이 통화를 진행하는 통화연결단계를 포함하고, 상기 통화연결단계는, 제1 및 제2통신단말기로부터 전송된 신호를 중계서버에서 상대방이 인식할 수 있는 신호로 변환시키는 신호변환단계와, 상기 제1 및 제2통신단말기로부터 전송된 신호 또는 상기 신호변환단계에서 변환된 신호에 화자의 감정 정보를 표시하는 감정표시단계를 포함하는 것을 특징으로 한다.Call using a call service providing system for the hearing impaired including a first communication terminal possessed by a hearing impaired person, a second communication terminal possessed by a non-disabled person, and a relay server relaying a call between the first and second communication terminals. In the service providing method, a preliminary preparation step of registering information of the hearing impaired in a relay server using the first communication terminal, and a call with the other party by accessing the relay server using the first or second communication terminal. It includes a requesting call request step, and a call connection step in which a hearing-impaired person and a non-disabled person each having a first and second communication terminal carry out a call by relaying by the relay server, wherein the call connection step comprises: A signal conversion step of converting the signal transmitted from the first and second communication terminals into a signal recognizable by the other party in the relay server, and the signal transmitted from the first and second communication terminals or the signal converted in the signal conversion step characterized in that it comprises an emotion display step of displaying the speaker's emotion information.
이때, 상기 사전준비단계는, 상기 중계서버에 입력된 청각장애인의 정보를 이용하여 청각장애인의 고유 음성을 생성하는 고유 음성 생성단계와, 딥러닝을 기반으로 하여 상기 신호변환단계 및 감정표시단계에서 사용되는 알고리즘에 대한 인공지능 학습을 수행하는 학습단계를 포함하는 것을 특징으로 한다.At this time, the preliminary preparation step is a unique voice generation step of generating a unique voice of a hearing impaired person using information of a hearing impaired person input to the relay server, and based on deep learning, in the signal conversion step and emotion display step It is characterized in that it includes a learning step of performing artificial intelligence learning for the used algorithm.
또한, 상기 고유 음성 생성단계는, 청각장애인의 신체정보들을 이용하여 청각장애인의 고유 음성을 추출하는 음성추출단계와, 청각장애인의 나이, 가족 음성을 포함하는 주변정보들을 이용하여 추출된 고유 음성을 보정하는 음성보정단계 및 상기 제1통신단말기를 이용하여 청각장애인의 최종적인 고유 음성을 선택하는 음성선택단계를 포함하는 것을 특징으로 한다.In addition, the unique voice generation step includes a voice extraction step of extracting the unique voice of the hearing-impaired person using body information of the hearing-impaired person, and the unique voice extracted using surrounding information including the hearing-impaired person's age and family voice. It is characterized in that it includes a voice correction step of correcting and a voice selection step of selecting the final unique voice of the hearing-impaired person using the first communication terminal.
그리고, 상기 신호변환단계는, 제1통신단말기로부터 입력된 청각장애인의 영상에 포함된 수화언어를 텍스트 신호로 변환시키는 MTT 변환단계와, 제2통신단말기로부터 입력된 비장애인의 음성신호를 텍스트신호로 변환시키는 STT 변환단계와, 상기 MTT 변환단계에서 변환된 텍스트 신호를 음성신호로 변환시키는 TTS 변환단계 및 상기 STT 변환단계에서 변환된 텍스트신호를 수화언어로 변환시키는 TTM 변환단계를 포함하는 것을 특징으로 한다.In addition, the signal conversion step includes an MTT conversion step of converting the sign language included in the video of the hearing impaired input from the first communication terminal into a text signal, and converting the voice signal of the non-disabled person input from the second communication terminal into a text signal. A TTS conversion step of converting the text signal converted in the MTT conversion step into a voice signal, and a TTM conversion step of converting the text signal converted in the STT conversion step into a sign language. to be
또한, 상기 감정표시단계는, 신호변환단계에서 변환되어 중계서버로부터 제2통신단말기로 전송되는 청각장애인 고유 음성의 고저 및 크기를 조절하여 청각장애인의 감정을 표시하는 음성표시단계와, 중계서버로부터 제1 또는 제2통신단말기로 전송되는 텍스트 신호에 화자의 감정 정보를 표시하는 텍스트표시단계 및 제1 또는 제2통신단말기에 의해 선택된 청각장애인 또는 비장애인의 아바타의 표정 및 제스처를 이용하여 화자의 감정상태를 표시하는 아바타 표시단계를 포함하는 것을 특징으로 한다.In addition, the emotion display step includes a voice display step of displaying the emotion of the hearing impaired person by adjusting the pitch and volume of the hearing-impaired person's unique voice converted in the signal conversion step and transmitted from the relay server to the second communication terminal; A text display step of displaying emotional information of a speaker in a text signal transmitted to the first or second communication terminal, and the expression and gesture of the avatar of the hearing impaired or non-disabled person selected by the first or second communication terminal. It is characterized in that it includes an avatar display step of displaying an emotional state.
그리고, 상기 통화연결단계에서는 제1 및 제2통신단말기를 이용한 사용자의 신호 입력이 기설정된 시간 이상 중단되거나 의미 전달이 가능한 문장이 완성되는 경우 입력된 신호를 자동으로 상대방에게 전송하는 것을 특징으로 한다.And, in the call connection step, when the user's signal input using the first and second communication terminals is stopped for more than a predetermined time or a sentence capable of conveying meaning is completed, the input signal is automatically transmitted to the other party. .
본 발명에 따르면, 청각장애인으로 대표되는 통신 약자들이 보다 쉽고 편리하게 통신단말기를 이용하여 상대방과 대화할 수 있고, 서로 간에 직접적인 의사소통이 어려운 청각장애인들과 비장애인들 사이의 대화가 자유롭게 이루어질 수 있을 뿐만 아니라, 화자의 음성이나 표정 등으로부터 추정되는 감정 상태를 시각화 또는 유형화하여 표시하거나 음성을 통해 상대방에게 대화내용과 함께 전달할 수 있도록 함으로써 통화자 사이의 의사전달이 보다 명확히 이루어질 수 있도록 하는 뛰어난 효과를 갖는다.According to the present invention, the communication weak represented by the hearing impaired can more easily and conveniently communicate with the other party using the communication terminal, and the conversation between the hearing impaired and non-disabled people, who have difficulty in direct communication with each other, can be freely conducted. In addition, the emotional state estimated from the speaker's voice or facial expression can be visualized or typified, or conveyed to the other party through voice along with the contents of the conversation, so that communication between callers can be more clearly achieved. have
도 1은 본 발명에 따른 청각장애인용 통화 서비스 제공 시스템을 개념적으로 나타낸 도면.
도 2는 도 1에 나타낸 본 발명 중 중계서버의 세부적인 구성을 개념적으로 나타낸 도면.
도 3은 본 발명에 따른 청각장애인용 통화 서비스 제공 방법을 단계적으로 나타낸 도면.1 is a diagram conceptually showing a system for providing a call service for the hearing impaired according to the present invention.
2 is a diagram conceptually showing a detailed configuration of a relay server in the present invention shown in FIG. 1;
3 is a diagram showing a method of providing a call service for the hearing-impaired in stages according to the present invention.
이하, 첨부된 도면들을 참고로 하여 본 발명에 따른 청각장애인용 통화 서비스 제공 시스템 및 방법의 바람직한 실시예들을 상세히 설명하기로 한다.Hereinafter, preferred embodiments of a system and method for providing a call service for the hearing impaired according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 청각장애인용 통화 서비스 제공 시스템을 개념적으로 나타낸 도면이고, 도 2는 도 1에 나타낸 본 발명 중 중계서버의 세부적인 구성을 개념적으로 나타낸 도면이며, 도 3은 본 발명에 따른 청각장애인용 통화 서비스 제공 방법을 단계적으로 나타낸 도면이다.1 is a diagram conceptually showing a call service providing system for the hearing impaired according to the present invention, FIG. 2 is a diagram conceptually showing the detailed configuration of a relay server in the present invention shown in FIG. 1, and FIG. 3 is a diagram showing the present invention It is a diagram showing a method of providing a call service for the hearing impaired step by step according to the present invention.
본 발명은 텍스트 음성 변환, 음성 텍스트 변환 및 모션 텍스트 변환 등의 기능을 활용하여 청각장애인과 비장애인 사이의 통화 서비스를 제공함과 동시에, 화자의 음성이나 표정 등으로부터 추정되는 감정 상태를 시각화하거나 음성을 통해 표현할 수 있도록 함으로써 통화자 사이의 의사전달이 명확히 이루어질 수 있도록 하는 청각장애인용 통화 서비스 제공 시스템 및 방법에 관한 것으로, 본 발명에 따른 청각장애인용 통화 서비스 제공 시스템(10)의 구성은 도 1에 나타낸 바와 같이, 제1통신단말기(100), 제2통신단말기(200) 및 중계서버(300)를 포함할 수 있다.The present invention provides a call service between a hearing impaired and a non-disabled person by utilizing functions such as text-to-speech conversion, voice-to-text conversion, and motion-text conversion, and at the same time, visualizes the emotional state estimated from the voice or facial expression of the speaker or converts the voice It relates to a system and method for providing a call service for the hearing impaired that enables clear communication between callers by enabling communication between callers through communication. As shown, it may include a
먼저, 상기 제1통신단말기(100)는 청각에 장애가 있어 언어기능이 떨어지는 청각장애인이나 온전히 말을 하기가 어려운 언어장애인 등 일반적인 통화가 어려운 사람(이하, '청각장애인'으로 통칭하기로 한다)들이 소지하는 통화기능을 갖는 단말기로 통상의 스마트폰이나, 노트북 컴퓨터, 태블릿 PC 등이 사용될 수 있다.First, the
이때, 상기 제1통신단말기(100)는 카메라, 웹캠, 마이크 등의 기능을 구비하고, 다양한 외부장치들로부터 영상이나 음성 등을 획득할 수 있음은 물론, 후술할 중계서버(300)로부터 유무선 통신에 의해 영상, 음성, 텍스트 등의 다양한 신호와 정보들을 전송받을 수 있다.At this time, the
또한, 상기 제1통신단말기(100)에는 청각장애인들이 보다 편리하게 사용할 수 있도록 하는 다양한 공지의 보조장치들이 구비될 수도 있다.In addition, the
다음, 상기 제2통신단말기(200)는 일반적인 통화가 가능한 사람들, 즉 비장애인이 소지하는 통화기능을 갖는 단말기로 전술한 제1통신단말기(100)와 동일한 구성으로 이루어질 수 있으므로 이에 대한 상세한 설명은 생략하기로 한다.Next, the
다음, 상기 중계서버(300)는 제1 및 제2통신단말기(100,200) 사이의 통화를 중계하는 역할을 하는 것으로, 제1통신단말기(100)와 제2통신단말기(200) 상호 간에 영상, 음성 및 텍스트 신호가 실시간으로 송수신될 수 있도록 중계할 수 있다.Next, the
보다 상세히 설명하면, 상기 중계서버(300)는 통신모듈(310), 음성생성모듈(320), 변환모듈(330) 및 감정표시모듈(340)을 포함할 수 있는데, 먼저 상기 통신모듈(310)은 제1 및 제2통신단말기(100,200)와의 무선 통신 프로세스를 수행하기 위한 구성으로, 인터넷, WIFI, LTE 등의 공지의 다양한 무선통신 네트워크가 활용될 수 있다.In more detail, the
다음, 상기 음성생성모듈(320)은 제1통신단말기(100)를 구비한 청각장애인의 음성을 생성하기 위한 구성으로, 제1통신단말기(100)로부터 입력 또는 전송되는 신호들을 이용하여 청각장애인에 적합한 고유 음성을 생성함으로써 제2통신단말기(200)를 구비한 비장애인들에게 청각장애인들의 의도를 보다 명확히 전달할 수 있다.Next, the
즉, 상기 음성생성모듈(320)은 도 2에 나타낸 바와 같이, 음성추출부(322), 음성보정부(324) 및 음선선택부를 포함할 수 있는데, 상기 음성추출부(322)는 제1통신단말기(100)를 사용하는 청각장애인들의 고유 음성을 1차적으로 생성하는 역할을 하는 구성으로, 제1통신단말기(100)를 통해 입력되는 청각장애인의 신체정보, 즉 키, 몸무게, 성별 등의 신체정보와 청각장애인의 상반신 모습 등의 체격정보 등을 이용하여 청각장애인의 고유 음성을 1차적으로 생성할 수 있다.That is, as shown in FIG. 2, the
다음, 상기 음성보정부(324)는 음성추출부(322)에 의해 1차적으로 생성된 청각장애인의 고유 음성을 보정하기 위한 구성으로, 제1통신단말기(100)를 통해 입력되는 청각장애인의 주변 정보, 즉 나이, 동일 성별의 가족 음성 및 흡연 유무 등의 주변 정보를 이용하여 음성추출부(322)에 의해 생성된 고유 음성의 높낮이, 음색 등을 보정함으로써 청각장애인의 고유 음성을 보다 정확하게 생성할 수 있다.Next, the
다음, 상기 음성선택부(326)는 청각장애인의 고유 음성을 최종적으로 선택할 수 있도록 하기 위한 구성으로, 청각장애인의 가족이나 주변인들은 제1통신단말기(100)를 이용하여 음성추출부(322) 또는 음성보정부(324)에 의해 생성된 청각장애인의 고유 음성을 선택할 수 있다. Next, the
또한, 상기 제1통신단말기(100)를 이용한 청각장애인의 정보, 즉 신체정보나 주변 정보 등의 입력이 어려운 경우에는 청각장애인의 고유 음성 생성이 불가능하므로, 상기 음성선택부(326)는 제1통신단말기(100)를 이용하여 후술할 중계서버(300)의 제2데이터베이스(364)에 저장된 다양한 음성데이터들 중 하나를 청각장애인의 고유 음성으로 선택하도록 구성될 수도 있다.In addition, when it is difficult to input information of the hearing-impaired person using the
다음, 상기 변환모듈(330)은 제1 및 제2통신단말기(100,200)로부터 수신되는 정보들을 상대방이 인식할 수 있는 형태로 변환시키기 위한 구성으로, 제1통신단말기(100)로부터 입력되는 청각장애인들의 통화 내용을 제2통신단말기(200)를 사용하는 비장애인들이 인식할 수 있는 형태로 변환함과 동시에 제2통신단말기(200)로부터 입력되는 비장애인들의 통화 내용을 제1통신단말기(100)를 사용하는 청각장애인들이 인식할 수 있는 형태로 변환시킬 수 있다.Next, the
보다 상세히 설명하면, 상기 변환모듈(330)은 STT 변환부(332), MTT 변환부(334), TTS 변환부(336) 및 TTM 변환부(338)를 포함할 수 있는데, 먼저 상기 STT(Speech To Text) 변환부는 음성신호를 텍스트로 변환하기 위한 구성으로, 제2통신단말기(200)를 통해 입력되는 비장애인의 음성신호를 청각장애인이 인식할 수 있는 텍스트로 변환시키는 역할을 주로 할 수 있다.More specifically, the
다음, 상기 MTT(Motion To Text) 변환부는 사용자의 모션, 즉 동작을 인식하여 텍스트로 변환시키기 위한 구성으로, 상기 제1통신단말기(100)를 통해 입력되는 청각장애인의 영상신호에 포함된 수화언어를 비장애인이 인식할 수 있는 텍스트로 변환시키는 역할을 주로 할 수 있다.Next, the MTT (Motion To Text) converter is a component for recognizing a user's motion, that is, a motion, and converting it into text, and the sign language included in the video signal of the hearing impaired input through the
다음, 상기 TTS(Text To Speech) 변환부는 텍스트를 음성 신호로 변환시키기 위한 구성으로, 청각장애인이 제1통신단말기(100)를 이용하여 통화 내용을 텍스트로 입력하는 경우 이를 음성신호로 변환시키거나, 상기 MTT 변환부(334)에 의해 변환된 텍스트를 음성신호로 변환시키는 역할을 할 수 있다.Next, the TTS (Text To Speech) conversion unit is a component for converting text into a voice signal, and converts it into a voice signal when a hearing-impaired person inputs the contents of a call as text using the
이때, 상기 TTS 변환부(336)에 의해 변환된 음성신호로 전술한 음성생성모듈(320)에 의해 생성된 청각장애인의 고유 음성이 사용될 수 있음은 물론이다.At this time, as a voice signal converted by the
다음, 상기 TTM(Text To Motion) 변환부는 텍스트를 모션, 즉 청각장애인이 인식할 수 있는 수화언어로 변환시키기 위한 구성으로, 상기 STT 변환부(332)에 의해 변환된 텍스트 또는 제2통신단말기(200)를 통해 입력된 텍스트를 수화언어로 변환시키는 역할을 할 수 있다.Next, the TTM (Text To Motion) conversion unit is a component for converting text into motion, that is, a sign language that can be recognized by the hearing impaired, and the text converted by the
상기와 같은, STT 변환부(332), MTT 변환부(334), TTS 변환부(336) 및 TTM 변환부(338)를 포함하는 변환모듈(330)을 이용한 신호 형태 변환 기술은 이미 공지되어 있는 주지관용의 기술이므로 이에 대한 보다 구체적인 내용 설명은 생략하기로 한다.As described above, the signal format conversion technology using the
또한, 상기와 같이 변환모듈(330)에 의해 변환된 텍스트, 음성신호 및 수화언어는 통신모듈(310)에 의해 제1 또는 제2통신단말기(100,200)로 전송되어 청각장애인 또는 비장애인들이 서로의 의사를 용이하게 파악할 수 있게 된다.In addition, the text, voice signal, and sign language converted by the
다음, 상기 감정표시모듈(340)은 제1 및 제2통신단말기(100,200)로부터 수신되는 정보들을 이용하여 화자, 즉 청각장애인 및 비장애인들의 감정 정보를 표시할 수 있도록 하기 위한 구성으로, 이러한 감정표시모듈(340)은 화자의 의도, 즉 상대방에게 이야기하고자 하는 내용을 보다 명확히 전달할 수 있도록 하기 위한 본 발명의 핵심적인 구성이다.Next, the
보다 상세히 설명하면, 상기 감정표시모듈(340)은 음성표시부(342), 텍스트표시부(344) 및 아바타 표시부(346)를 포함할 수 있는데, 먼저 상기 음성표시부(342)는 청각장애인의 감정을 표시하여 비장애인이 사용하는 제2통신단말기(200)로 전송하기 위한 구성으로 변환모듈(330)에 의해 변환된 청각장애인 음성의 고저 및 크기 조절을 통해 청각장애인의 감정을 표시할 수 있다.More specifically, the
즉, 제1통신단말기(100)로부터 입력된 청각장애인의 수화언어는 변환모듈(330)의 MTT 변환부(334)에 의해 텍스트 형태로 변환되고, 변환된 텍스트 또는 제1통신단말기(100)에 의해 직접 입력된 청각장애인의 문자(텍스트)는 변환모듈(330)의 TTS 변환부(336)에 의해 음성신호로 변환되며, 변환된 음성신호에 상기 음성생성모듈(320)에 의해 생성된 청각장애인의 고유 음성을 적용시킨 후, 상기 음성표시부(342)를 통해 청각장애인 고유 음성의 고저 및 크기 조절을 함으로서 청각장애인이 하고자하는 이야기는 물론 통화 당시의 감정상태까지 제2통신단말기(200)를 통해 비장애인에게 전달할 수 있다.That is, the sign language of the hearing impaired input from the
다음, 상기 텍스트표시부(344)는 청각장애인 또는 비장애인에게 전송되는 텍스트에 감정 정보를 표시하기 위한 구성으로, 주로 제1통신단말기(100)로 전송되는 텍스트에 감정 정보를 표시하여 청각장애인이 비장애인의 감정 상태를 확인할 수 있도록 하지만, 청각장애인이 제1통신단말기(100)를 이용하여 문자(텍스트)를 직접 입력하는 경우 입력된 텍스트에 감정 정보를 표시하도록 구성될 수도 있다.Next, the
즉, 제2통신단말기(200)로부터 입력되는 비장애인의 음성신호는 변환모듈(330)의 STT 변환부(332)에 의해 텍스트로 변환되고, 상기 텍스트표시부(344)는 변환된 텍스트에 기설정된 색상을 부여하는 방법, 텍스트의 크기를 조절하는 방법 및 텍스트를 제외한 바탕화면에 기설정된 색상을 부여하는 방법 등에 의해 감정 정보를 표시할 수 있다.That is, the voice signal of a non-disabled person input from the
일예로, 노란색을 음의 고저 또는 음성 크기의 중간값으로 설정한 후, 빨간색으로 갈수록 높거나 큰 음성으로 설정하고, 파란색으로 갈수록 낮거나 작은 음성으로 설정함으로써 텍스트의 색상에 따라 음성의 고저 및 크기를 판단할 수 있도록 하거나, 기쁨, 슬픔, 차분함, 놀람, 불쾌함, 행복함, 화남, 흥분됨 등의 감정을 나타내는 색상을 별도로 설정하여 표시함으로써 화자의 감정 정보를 표시하도록 구성될 수 있다.For example, after setting yellow as the pitch of the voice or the middle value of the voice volume, setting the voice to be higher or louder as the color goes to red, and setting the voice as lower or quieter as the color goes to blue, the pitch and volume of the voice according to the color of the text It can be configured to display the emotional information of the speaker by allowing the user to determine the color, or by separately setting and displaying colors representing emotions such as joy, sadness, calmness, surprise, displeasure, happiness, anger, excitement, and the like.
상기와 같은 방법들에 의한 텍스트표시부(344)를 이용한 감정 정보 표시는 제1 또는 제2통신단말기(100,200)를 이용한 문자 입력시 청각장애인 또는 비장애인이 텍스트 또는 바탕화면의 색상 및 글자 크기를 직접 선택하는 방식에 의해 구현될 수도 있다.Emotion information display using the
다음, 상기 아바타 표시부(346)는 중계서버(300)에 저장되는 다양한 표정 및 제스처를 취하고 있는 아바타들을 이용하여 화자의 감정을 상대방에게 전달할 수 있도록 하기 위한 구성으로, 청각장애인 또는 비장애인은 소지한 제1 또는 제2통신단말기(100,200)를 이용하여 자신의 아바타를 선택할 수 있고, 상기 아바타 표시부(346)는 선택된 아바타의 표정 및 제스처 등을 이용하여 화자의 감정상태를 표시하는 역할을 할 수 있다.Next, the
이때, 상기 아바타 표시부(346)에 의한 화자의 감정상태 표시는 전술한 음성표시부(342) 또는 텍스트표시부(344)에 의한 감정 정보 표시와 중복하여 표시될 수 있으며, 상기 음성표시부(342) 또는 텍스트표시부(344)에 의해 화자의 감정상태 또는 감정정보가 인지되는 경우, 상기 아바타 표시부(346)는 인지된 환자의 감정상태 또는 감정정보에 맞는 아바타의 표정이나 제스처 등을 선택하여 음성 또는 텍스트와 함께 제1 또는 제2통신단말기(100,200)로 전송하도록 함으로써 상대방이 화자의 감정상태 또는 감정정보를 보다 정확히 인지할 수 있도록 구성될 수 있다.At this time, the display of the speaker's emotional state by the
상기와 같은 감정표시모듈(340)을 이용한 감정 정보 표시는 후술할 학습모듈(350)에서의 학습에 의해 감정표시모듈(340)에서 제1 또는 제2통신단말기(100,200)로부터 입력되는 신호의 분석을 통해 자동으로 청각장애인 또는 비장애인의 감정 정보를 평가하여 표시하도록 구성될 수 있지만, 필요에 따라 청각장애인이나 비장애인이 자신이 소지한 제1 또는 제2통신단말기(100,200)를 이용하여 기설정되어 있는 다양한 감정상태 중 하나를 선택하도록 구성될 수도 있는데, 이러한 방법으로는 상대방에게 전송되는 음성의 크기 및 고저를 선택하는 방법, 텍스트 또는 텍스트가 표시되는 바탕색의 색상이나 텍스트의 크기를 선택하는 방법 및 아바타의 표정이나 제스처를 선택하는 방법 등이 사용될 수 있다.Emotion information display using the
또한, 상기 감정표시모듈(340)은 제1 및 제2통신단말기(100,200)를 이용한 대화 도중 발생될 수 있는 갈등의 수위 조절을 위한 감정 표시 필터링 기능을 구비할 수 있는데, 이는 상기 감정표시모듈(340)을 이용하여 인지할 수 있는 청각장애인 또는 비장애인의 감정 정보 중 분노 또는 화남 등의 감정이 기설정된 수준을 넘어서는 경우, 상대방에게 전달하는 감정 수준을 기설정된 수준 이하로 완화하여 표시하는 방법을 사용할 수 있다.In addition, the
즉, 일반인들 사이의 대화 중에도 사소한 오해로 인해 서로의 감정이 점점 격해지고, 나중에는 목소리의 크기와 톤이 상당히 높아지거나 욕설 등의 비속어를 사용하는 경우가 빈번히 발생될 수 있는데, 본 발명의 주요 적용대상인 청각장애인과 비장애인은 서로가 이야기하고자하는 바를 직접적으로 전달받지 못하므로 대화 중 오해의 발생 가능성 및 그로 인한 감정이 격해질 수 있는 가능성이 더 높아질 수 있다.That is, even during conversations between ordinary people, each other's feelings become increasingly intense due to minor misunderstandings, and later, the volume and tone of voices increase considerably or the use of profanity such as profanity frequently occurs. Since hearing-impaired people and non-disabled people, who are subject to the application, do not directly receive what they want to talk about, the possibility of misunderstanding during conversation and the resulting intensification of emotions may increase.
따라서, 상기 감정표시모듈(340)은 청각장애인과 비장애인 각각의 감정을 표시하여 상대방에게 전달하되, 상대방에 대한 분노 또는 화남 등의 감정이 일정 수준 이상으로 판단되는 경우, 평가되는 감정 수준에 비해 완화된 감정 수준을 상대방에게 표시하도록 구성될 수 있다.Therefore, the
예를 들면, 상기 감정표시모듈(340)에 의해 평가되는 청각장애인의 분노 또는 화남 등의 감정이 기설정된 수준을 넘어서는 경우, 상기 음성표시부(342)에서는 평가되는 감정 수준에 비해 청각장애인 고유 음성의 톤이나 크기를 낮추어 제2통신단말기(200)로 전송할 수 있다.For example, when the emotions such as anger or anger of the hearing-impaired person evaluated by the
또한, 상기 감정표시모듈(340)에 의해 평가되는 청각장애인 또는 비장애인의 분노 또는 화남 등의 감정이 기설정된 수준을 넘어서는 경우, 텍스트표시부(344)에서는 평가되는 감정 수준에 비해 낮은 수준으로 텍스트의 색상을 표시하거나, 텍스트의 크기를 줄여 제1 또는 제2통신단말기(100,200)로 전송할 수 있다.In addition, when the emotion such as anger or anger of the hearing impaired or non-disabled person evaluated by the
이때, 도시하지는 않았지만, 상기 중계서버(300)에는 비속어 감지모듈이 추가적으로 구비되어, 제1 또는 제2통신단말기(100,200)로부터 욕설이나 비속어가 입력되는 경우, 이를 제거한 후 상대방에게 대화 내용을 전송하도록 구성될 수도 있다.At this time, although not shown, the
그리고, 대화 도중 서로 간의 갈등이 격화되지 않는 한 통화자의 감정을 상대방에게 충실하게 전달하는 것이 바람직하므로, 상기 감정표시모듈(340)은 청각장애인 또는 비장애인의 감정 수준 평가시 분노 또는 화남 등의 감정 표출 대상이 상대방인지, 아니면 제3자나 다른 사건에 관한 것인지 판단하여, 상대방에 대한 감정 표출이 아닌 것으로 판단되는 경우에는 분노 또는 화남 등의 감정을 완화시키지 않고 그대로 상대방에게 전달하도록 구성될 수도 있다.In addition, since it is desirable to faithfully convey the emotions of the caller to the other party unless conflicts between them escalate during the conversation, the
또한, 상기 감정표시모듈(340)에 의한 감정 표시 필터링 이벤트가 발생되는 경우, 상기 중계서버(300)에서는 제1 및 제2통신단말기(100,200)를 이용한 통화가 완료된 후, 제1 및 제2통신단말기(100,200)로 일정 시간 동안 감정 표시 필터링이 수행되었음을 통보할 수 있다.In addition, when an emotion display filtering event by the
이때, 상기 중계서버(300)에서는 감정 표시 필터링이 수행된 시간 동안의 대화 내용을 텍스트 신호로 상대방, 즉 분노 또는 화남 등의 감정을 유발한 사람의 통신단말기로 전송하거나, 제1 및 제2통신단말기(100,200)에 모두 전송함으로써 서로 간의 대화 내용을 되돌아보고 오해 또는 실수를 반복하지 않도록 하는데 도움을 줄 수 있다.At this time, the
한편, 상기 중계서버(300)는 학습모듈(350)을 더 포함할 수 있는데, 상기 학습모듈(350)은 딥러닝을 기반으로 하여 상기 변환모듈(330) 및 감정표시모듈(340)에서 사용되는 알고리즘들에 대한 인공지능 학습을 수행함으로써 청각장애인과 비장애인 사이의 통화 내용 전달의 정확성을 향상시키는 역할을 할 수 있다.Meanwhile, the
보다 상세히 설명하면, 상기 학습모듈(350)은 변환학습부(352)와 감정학습부(354)를 포함할 수 있는데, 먼저 상기 변환학습부(352)는 변환모듈(330)을 통해 이루어지는 변환의 정확성을 향상시킬 수 있도록 하기 위한 구성으로, 주로 제1통신단말기(100)로부터 입력되는 정보들을 이용한 학습을 통해 청각장애인의 통화 내용이 비장애인에게 보다 정확히 전달될 수 있도록 구성될 수 있다.In more detail, the
즉, 상기 변환학습부(352)는 제1통신단말기(100)를 통해 입력되는 영상신호에 포함된 청각장애인의 수화언어들에 대한 빅데이터를 구축하고, 구축된 빅데이터를 기반으로 하는 학습을 통해 청각장애인의 수화언어들을 텍스트로 변환시키는 MTT 변환부(334)에서의 변환 내용 및 텍스트를 수화언어로 변환시키는 TTM 변환부(338)에서의 변환 내용들을 학습할 수 있다.That is, the
다음, 상기 감정학습부(354)는 감정표시모듈(340)을 통해 이루어지는 감정표시 내용들을 학습하기 위한 구성으로, 마찬가지로 제1 및 제2통신단말기(100,200)를 통해 입력되는 영상신호 및 음성신호에 대한 빅데이터를 구축하고, 구축된 빅데이터를 기반으로 하는 학습을 통해 감정표시모듈(340), 즉 주로 음성표시부(342)와 텍스트표시부(344)를 통해 표시되는 감정 정보들을 학습할 수 있다.Next, the
즉, 상기 감정학습부(354)에서는 제1통신단말기(100)를 통해 입력되는 영상신호에 포함된 청각장애인의 수화언어 및 표정을 통해 수화언어에 포함된 청각장애인의 감정 정보를 학습할 수 있고, 상기 제2통신단말기(200)를 통해 입력되는 영상신호에 포함된 비장애인의 표정이나, 음성신호의 톤, 고저, 크기 등의 정보를 이용하여 비장애인의 감정 정보를 학습할 수 있다.That is, the
상기 변환학습부(352)에 의해 학습된 결과들은 변환모듈(330)로 전송되어 MTT 변환부(334) 및 TTM 변환부(338)에서의 변환에 사용될 수 있고, 마찬가지로 상기 감정학습부(354)에서 학습된 결과들은 감정표시모듈(340)로 전송되어 음성표시부(342), 텍스트표시부(344) 및 아바타 표시부(346)에 의한 감정 정보 표시에 사용될 수 있으며, 이러한 학습결과들은 지속적 또는 주기적으로 업데이트될 수 있다.The results learned by the
한편, 본 발명에 따른 중계서버(300)는 제1 및 제2통신단말기(100,200) 사이의 통화서비스 제공을 위해 필요한 정보들을 저장하기 위한 데이터베이스부(360)를 더 포함할 수 있는데, 상기 데이터베이스부(360)에 저장된 내용들은 청각장애인과 비장애인 사이의 통화서비스 품질 향상을 위한 목적으로 사용될 수 있다.Meanwhile, the
보다 상세히 설명하면, 상기 데이터베이스부(360)는 제1 내지 제4데이터베이스(362,364,366,368)가 포함될 수 있는데, 먼저 상기 제1데이터베이스(362)는 제1통신단말기(100)를 사용하는 청각장애인들에 대한 정보를 저장하기 위한 구성이다.In more detail, the
즉, 상기 제1데이터베이스(362)에는 음성생성모듈(320)에서 사용되는 청각장애인의 신체정보와 주변정보는 물론, 최종적으로 생성된 청각장애인의 고유 음성 정보와 청각장애인에 의해 선택된 아바타 정보 등이 저장될 수 있다.That is, in the
다음, 상기 제2데이터베이스(364)는 청각장애인의 고유 음성으로 사용할 수 있는 다양한 음성 데이터들을 저장하기 위한 구성으로, 평온한 상태의 음성을 기본 음성으로 하여 각 기본 음성에 대한 다양한 감정상태, 즉 기쁨, 슬픔, 화남, 흥분 등의 다양한 감정상태를 표현할 수 있는 음성이 추가적으로 저장될 수 있다.Next, the
이에 따라, 상기 제2데이터베이스(364)에 저장된 다양한 음성 데이터들을 이용하여 음성생성모듈(320)에서 청각장애인의 고유 음성을 생성할 수 있고, 상기 제1통신단말기(100)를 사용하는 청각장애인의 가족 또는 주변인은 제2데이터베이스(364)에 저장된 다양한 음성 데이터 중 청각장애인의 고유 음성으로 사용하기 위한 음성을 선택할 수 있다.Accordingly, the unique voice of the hearing-impaired person can be generated in the
다음, 상기 제3데이터베이스(366)는 학습모듈(350)에서의 인공지능 학습에 사용될 수 있는 데이터 및 학습모듈(350)에서 학습된 학습결과 등을 저장하기 위한 구성으로, 청각장애인들이 사용할 수 있는 다양한 수화언어 데이터와, 제1 및 제2통신단말기(100,200)를 통해 입력될 수 있는 청각장애인과 비장애인들의 다양한 표정 데이터 등이 저장되어 상기 학습모듈(350)에서의 학습 즉, 딥러닝을 기반으로 한 변환모듈(330) 및 감정표시모듈(340)에서 사용되는 알고리즘들에 대한 인공지능 학습에 사용될 수 있도록 구성될 수 있다.Next, the
그리고, 상기 학습모듈(350)에서의 학습결과 또한 상기 제3데이터베이스(366)에 저장될 수 있으며, 마찬가지로 제3데이터베이스(366)에 저장되는 데이터들은 실시간 또는 주기적으로 업데이트될 수 있다.In addition, the learning results of the
다음, 상기 제4데이터베이스(368)는 제1 및 제2통신단말기(100,200) 사이의 통화 내용을 일정 기간 동안 저장하는 역할을 하는 것으로, 상기 제4데이터베이스(368)에 저장되는 내용들은 중계서버(300)를 통해 제공되는 통화 서비스의 품질 분석을 위해 사용될 수 있다.Next, the
이때, 개인정보의 보호를 위해 상기 제4데이터베이스(368)에는 보안 솔루션이 구축될 수 있으며, 통화 서비스의 품질 분석을 위해 제4데이터베이스(368)에 저장된 데이터를 사용하는 경우 통화자에게 사전 허락을 받아야 함은 물론이다.At this time, a security solution may be built in the
또한, 상기 제4데이터베이스(368)에 저장된 데이터들은 기설정된 기간이 지나면 자동으로 폐기되도록 설정될 수 있다.In addition, data stored in the
한편, 본 발명에 따른 중계서버(300)는 번역모듈(370)을 더 포함할 수 있는데, 상기 번역모듈(370)은 청각장애인 또는 비장애인이 국어를 사용하지 못하는 외국인인 경우에 사용될 수 있는 구성으로, 제1 또는 제2통신단말기(100,200)로 전송되는 텍스트를 국어 또는 외국어로 번역하여 전송하도록 구성될 수 있다.On the other hand, the
즉, 제1통신단말기(100)를 사용하는 청각장애인이 외국인인 경우, 제2통신단말기(200)로부터 입력되는 음성 신호를 변환모듈(330)의 STT 변환부(332)를 이용하여 텍스트로 변환시킨 후, 변환된 텍스트를 번역모듈(370)을 통해 외국어로 번역하여 제1통신단말기(100)로 전송하고, 제1통신단말기(100)로부터 입력되는 텍스트 신호를 번역모듈(370)을 통해 국어로 번역하여 제2통신단말기(200)로 전송하거나, 국어로 번역된 텍스트를 TTS 변환부(336)를 통해 청각장애인의 고유 음성으로 변환하여 제2통신단말기(200)로 전송할 수 있다.That is, when the hearing-impaired person using the
또한, 제2통신단말기(200)를 사용하는 비장애인이 외국인인 경우에는, 제1통신단말기(100)로부터 입력되는 텍스트 신호를 번역모듈(370)을 통해 외국어로 번역하여 제2통신단말기(200)로 전송하거나, 제1통신단말기(100)로부터 입력되는 수화언어를 MTT 변환부(334)를 통해 텍스트로 변환시킨 후 번역모듈(370)을 통해 외국어로 번역하여 제2통신단말기(200)로 전송할 수 있고, 제2통신단말기(200)를 통해 입력되는 외국어 음성 신호는 STT 변환부(332)를 이용하여 텍스트로 변환시킨 후, 변환된 텍스트를 번역모듈(370)을 통해 국어로 번역하여 제1통신단말기(100)로 전송할 수 있다.In addition, when the non-disabled person using the
이때, 상기와 같이 번역모듈(370)에 의해 번역되어 제1 또는 제2통신단말기(100,200)로 텍스트 신호가 전송되는 경우에도 감정표시모듈(340) 중 텍스트표시부(344)에 의해 표시되는 감정 정보가 함께 전송될 수 있으며, 제1 또는 제2통신단말기(100,200)로 전송되는 텍스트 신호에 국어와 외국어가 모두 표시되도록 함으로써 화자가 말하고자 하는 내용이 감정과 함께 보다 정확히 전달되도록 구성될 수도 있다.At this time, even when a text signal is transmitted to the first or
또한, 상기 제2데이터베이스(364)에 저장되는 음성 데이터에 외국어 음성 데이터가 포함되는 경우, 제2통신단말기(200)를 사용하는 외국인 비장애인에게 청각장애인의 고유 외국어 음성을 생성하여 전송할 수도 있다.In addition, when foreign language voice data is included in the voice data stored in the
다음, 상기 중계서버(300)는 자동전송모듈(380)을 더 포함할 수 있는데, 상기 자동전송모듈(380)은 제1 및 제2통신단말기(100,200)를 통해 입력되는 신호들을 추가적인 이벤트 없이 자동으로 상대방에게 전송할 수 있도록 하기 위한 구성이다.Next, the
즉, 종래의 경우 상대방에게 텍스트 신호, 즉 문자 등을 전송하기 위해서는 send, enter 등의 전송 버튼을 누르는 등의 추가적인 이벤트를 실행하여야 했던 것임에 비해, 본 발명에서는 통신단말기의 사용이 쉽지 않은 청각장애인을 고려하여 추가적인 이벤트 없이도 제1통신단말기(100)를 통해 입력된 신호가 자동으로 상대방에게 전송될 수 있도록 구성될 수 있다.That is, in the conventional case, in order to transmit a text signal, that is, a text, to the other party, an additional event such as pressing a send button such as send or enter had to be executed. In consideration of this, the signal input through the
일례로, 상기 자동전송모듈(380)은 제1 및 제2통신단말기(100,200)를 통한 청각장애인 또는 비장애인의 텍스트 신호 입력이 약 3 ~ 5초 등과 같이, 기설정된 시간 이상 중단되는 경우, 입력된 신호를 상대방에게 자동으로 전송하도록 구성될 수 있다.For example, the
이때, 상기 자동전송모듈(380)은 텍스트 신호의 입력이 기설정된 이상 중단되는 경우, 입력 중인 문장이 의미 파악이 가능한 문장 또는 완성된 형태의 문장인지 여부를 확인한 후 입력된 신호를 상대방에게 자동으로 전송하도록 구성될 수도 있다.At this time, when the input of the text signal is stopped for a predetermined period, the
또한, 상기 자동전송모듈(380)은 제1통신단말기(100)를 통해 입력되는 영상 신호에 포함된 청각장애인의 수화언어가 기설정된 시간 이상 중단되는 경우, 이전까지 전송된 수화언어가 변환모듈(330)에 의해 음성신호 또는 텍스트신호로 변환되어 자동으로 제2통신단말기(200)로 전송되도록 구성될 수 있으며, 도 2에 나타낸 바와 같이 통신모듈(310)의 내부에 구비될 수 있다.In addition, the
한편, 본 발명에 따른 청각장애인용 통화 서비스 제공방법은, 전술한 바와 같은 청각장애인용 통화 서비스 제공 시스템(10)을 이용하여 청각장애인과 비장애인 사이의 통화 서비스를 제공하기 위한 방법에 관한 것으로, 그 구성은 도 3에 나타낸 바와 같이, 크게 사전준비단계(S100), 통화요청단계(S200) 및 통화연결단계(S300)를 포함할 수 있다.On the other hand, the method for providing a call service for the hearing-impaired according to the present invention relates to a method for providing a call service between a hearing-impaired person and a non-disabled person using the call
먼저, 상기 사전준비단계(S100)는 본 발명에 따른 청각장애인용 통화 서비스 제공 시스템(10)을 이용하기 위하여 사용자가 자신의 정보를 중계서버(300)에 사전 등록하기 위한 과정으로, 정보입력단계(S110), 고유 음성 생성단계(S120) 및 학습단계(S130)를 포함할 수 있다.First, the preliminary preparation step (S100) is a process for a user to pre-register his or her information in the
보다 상세히 설명하면, 상기 정보입력단계(S110)는 청각장애인이 소지한 제1통신단말기(100)를 이용하여 중계서버(300)에 접속하여 자신의 정보, 즉 키, 몸무게, 성별 등의 신체정보와 청각장애인의 상반신 모습 등의 체격정보 및 나이, 동일 성별의 가족 음성 및 흡연 유무 등의 주변 정보 등을 입력하는 과정으로, 이와 같이 입력된 청각장애인의 정보는 청각장애인의 고유 음성 생성이나 비장애인에게 전송될 청각장애인의 감정정보 생성 및 중계서버(300)에서 제1통신단말기(100)로 전송하는 신호의 형태 등을 결정하는데 활용될 수 있다.More specifically, in the information input step (S110), the hearing-impaired person connects to the
다음, 상기 고유 음성 생성단계(S120)는 중계서버(300)에서 비장애인이 사용하는 제2통신단말기(200)로 전송할 청각장애인의 고유 음성을 생성하기 위한 과정으로, 제1통신단말기(100)를 통해 중계서버(300)로 전송되는 텍스트 신호 또는 영상 신호에 포함된 청각장애인의 수화언어는 청각장애인의 고유 음성 신호로 변환되어 제2통신단말기(200)로 전송될 수 있다.Next, the unique voice generation step (S120) is a process for generating a unique voice of the hearing impaired to be transmitted from the
즉, 상기 고유 음성 생성단계(S120)에서는 정보입력단계(S110)에서 중계서버(300)에 입력된 청각장애인의 정보들을 이용하여 중계서버(300)에 구비된 음성생성모듈(320)에 의해 청각장애인의 고유 음성을 생성할 수 있는데, 그 세부적인 과정으로는 음성추출단계(S122), 음성보정단계(S124) 및 음성선택단계(S126)를 포함할 수 있다.That is, in the unique voice generation step (S120), hearing is heard by the
먼저, 상기 음성추출단계(S122)에서는 정보입력단계(S110)에서 입력된 청각장애인의 키, 몸무게, 성별 등의 신체정보와 청각장애인의 상반신 모습 등의 체격정보 등을 이용하여 청각장애인의 고유 음성을 1차적으로 생성할 수 있는데, 중계서버(300)에 구비된 음성생성모듈(320)의 음성추출부(322)에서는 제2데이터베이스(364)에 기저장되어 있는 다양한 음성데이터들 중 청각장애인의 신체정보와 어울리는 음성 데이터를 추출할 수 있다.First, in the voice extraction step (S122), the hearing-impaired person's unique voice is used by using the body information such as height, weight, and gender of the hearing-impaired person input in the information input step (S110) and physique information such as the hearing-impaired person's upper body. Can be generated primarily. In the
다음, 상기 음성보정단계(S124)는 음성추출단계(S122)에서 추출된 음성 데이터를 보정하기 위한 과정으로, 상기 음성생성모듈(320)의 음성보정부(324)는 정보입력단계(S110)에서 입력된 청각장애인의 나이, 동일 성별의 가족 음성 및 흡연 유무 등의 주변 정보를 이용하여 음성추출단계(S122)에서 1차적으로 추출된 고유 음성의 높낮이, 음색 등을 보정할 수 있다.Next, the voice correction step (S124) is a process for correcting the voice data extracted in the voice extraction step (S122), and the
다음, 상기 음성선택단계(S126)는 청각장애인의 고유 음성을 최종적으로 선택하기 위한 과정으로, 청각장애인 또는 청각장애인의 가족이나 주변인들은 제1통신단말기(100)를 이용하여 중계서버(300)에 접속하여 음성선택부(326)를 통해 음성추출부(322) 또는 음성보정부(324)에 의해 생성된 청각장애인의 고유 음성을 최종적으로 선택할 수 있다. Next, the voice selection step (S126) is a process for finally selecting the unique voice of the hearing-impaired person. By accessing the
다음, 상기 학습단계(S130)는 딥러닝을 기반으로 하여 후술할 신호변환단계(S310) 및 감정표시단계(S330)에서 사용되는 알고리즘에 대한 인공지능 학습을 수행함으로써 청각장애인과 비장애인 사이의 통화 내용 전달의 정확성을 향상시킬 수 있도록 위한 과정으로, 신호변환단계(S310)에서 사용되는 알고리즘 학습을 위한 변환학습단계(S132)와 감정표시단계(S330)에서 사용되는 알고리즘 학습을 위한 감정학습단계(S134)를 포함할 수 있다.Next, the learning step (S130) is based on deep learning and performs artificial intelligence learning for the algorithm used in the signal conversion step (S310) and the emotion display step (S330) to be described later, thereby making a call between the hearing impaired and the non-disabled As a process to improve the accuracy of content delivery, the conversion learning step (S132) for learning the algorithm used in the signal conversion step (S310) and the emotion learning step for learning the algorithm used in the emotion display step (S330) ( S134) may be included.
상기 변환학습단계(S132)와 감정학습단계(S134)에서 사용되는 구성 및 학습내용들은 전술한 청각장애인용 통화 서비스 제공 시스템(10)의 학습모듈(350)에 대한 설명 내용과 동일하므로 이에 대한 보다 상세한 설명은 생략하기로 한다.The configuration and learning contents used in the conversion learning step (S132) and the emotion learning step (S134) are the same as the description of the
다음, 상기 통화요청단계(S200)는 청각장애인 또는 비장애인이 제1 또는 제2통신단말기(100,200)를 이용하여 중계서버(300)에 접속하여 통화하고자 하는 상대방의 전화번호, 전용코드, ID 등과 같은 식별가능한 정보를 입력하면, 상기 중계서버(300)에서 상대방의 제2 또는 제1통신단말기(200,100)로 통화요청 신호를 전송하여 상대방이 통화요청을 수락하는 경우, 제1 및 제2통신단말기(100,200) 사이의 통화가 이루어지도록 하는 등의 공지의 다양한 방법이 사용될 수 있다.Next, in the call request step (S200), the hearing-impaired or non-disabled person connects to the
다음, 상기 통화연결단계(S300)는 중계서버(300)의 중계에 의해 제1 및 제2통신단말기(100,200)를 각각 소지한 청각장애인과 비장애인 사이의 통화가 진행되는 과정으로, 신호변환단계(S310)와 번역단계(S320) 및 감정표시단계(S330)를 포함할 수 있다.Next, the call connection step (S300) is a process in which a call is made between a hearing-impaired person and a non-disabled person having the first and
먼저, 상기 신호변환단계(S310)는 제1 및 제2통신단말기(100,200)로부터 입력된 신호를 중계서버(300)에서 상대방이 인식할 수 있는 신호로 변환시키기 위한 과정으로, 제1통신단말기(100)로부터 입력된 청각장애인의 수화언어는 비장애인이 인식할 수 있는 음성신호 또는 텍스트 신호로 변환될 수 있고, 제2통신단말기(200)로부터 입력된 비장애인의 음성신호는 청각장애인이 인식할 수 있는 텍스트신호 또는 수화언어로 변환될 수 있다.First, the signal conversion step (S310) is a process for converting signals input from the first and
즉, 상기 신호변환단계(S310)는 MTT 변환단계(S312), STT 변환단계(S314), TTS 변환단계(S316) 및 TTM 변환단계(S318)를 포함할 수 있는데, 상기 MTT 변환단계(S312)에서는 제1통신단말기(100)로부터 입력된 청각장애인의 영상에 포함된 수화언어가 비장애인이 인식할 수 있는 텍스트 신호로 변환될 수 있고, 상기 STT 변환단계(S314)에서는 제2통신단말기(200)로부터 입력된 비장애인의 음성신호가 청각장애인이 인식할 수 있는 텍스트 신호로 변환될 수 있다.That is, the signal conversion step (S310) may include an MTT conversion step (S312), an STT conversion step (S314), a TTS conversion step (S316) and a TTM conversion step (S318), wherein the MTT conversion step (S312) In , the sign language included in the image of the hearing impaired input from the
또한, 상기 TTS 변환단계(S316)에서는 주로 MTT 변환단계(S312)에서 변환된 텍스트 신호가 비장애인이 인식할 수 있는 음성신호로 변환될 수 있는데, 이 경우 상기 음성신호로는 고유 음성 생성단계(S120)에서 생성된 청각장애인의 고유 음성이 사용될 수 있다.In addition, in the TTS conversion step (S316), the text signal mainly converted in the MTT conversion step (S312) can be converted into a voice signal that can be recognized by non-disabled people. In this case, the voice signal is a unique voice generation step ( The unique voice of the hearing-impaired person generated in S120) may be used.
또한, 상기 TTM 변환단계(S318)에서는 주로 STT 변환단계(S314)에서 변환된 텍스트 신호가 청각장애인이 인식할 수 있는 수화언어로 변환될 수 있다.In addition, in the TTM conversion step (S318), the text signal converted in the STT conversion step (S314) can be converted into a sign language that can be recognized by the hearing impaired.
상기와 같은 과정의 신호변환단계(S310)는 중계서버(300)에 구비된 변환모듈(330)에 의해 이루어지는 것으로, 각 변환단계에 대한 보다 상세한 내용은 전술한 청각장애인용 통화 서비스 제공 시스템(10)의 변환모듈(330)에 대한 설명 내용과 동일하므로 생략하기로 한다.The signal conversion step (S310) of the above process is performed by the
다음, 상기 번역단계(S320)는 제1통신단말기(100)를 사용하는 청각장애인 또는 제2통신단말기(200)를 사용하는 비장애인이 외국인인 경우 제1 또는 제2통신단말기(100,200)를 통해 입력된 신호를 상대방이 인식할 수 있는 언어로 번역하기 위한 과정으로, 전술한 바와 같이, 상기 중계서버(300)에 구비된 번역모듈(370)은 제1 또는 제2통신단말기(100,200)로 전송되는 텍스트를 국어 또는 외국어로 번역하여 전송하거나, 제2통신단말기(200)를 사용하는 외국인 비장애인에게 청각장애인의 고유 외국어 음성을 생성하여 전송할 수 있다.Next, in the translation step (S320), the hearing impaired using the
다음, 상기 감정표시단계(S330)는 제1 및 제2통신단말기(100,200)로부터 수신되는 정보들을 이용하여 화자, 즉 청각장애인 및 비장애인들의 감정 정보를 표시할 수 있도록 하기 위한 과정으로, 상기 중계서버(300)에 구비된 감정표시모듈(340)에서는 제1 및 제2통신단말기(100,200)로부터 전송된 신호 또는 신호변환단계(S310)에서 변환된 신호, 즉 음성신호 또는 텍스트 신호에 화자의 감정 정보를 표시할 수 있도록 함으로써 통화 진행 과정에서 자신의 감정 정보까지 상대방에게 전달할 수 있도록 하여 상대방에게 이야기하고자 하는 내용을 보다 명확히 전달할 수 있다.Next, the emotion display step (S330) is a process for displaying the emotion information of the speaker, that is, the hearing impaired and non-disabled people, using the information received from the first and
즉, 상기 감정표시단계(S330)는 중계서버(300)로부터 제2통신단말기(200)로 전송되는 청각장애인의 고유 음성에 감정 정보를 포함시키기 위한 음성표시단계(S332)와, 중계서버(300)로부터 제1 또는 제2통신단말기(100,200)로 전송되는 텍스트 신호에 비장애인 또는 청각장애인의 감정 정보를 포함시키기 위한 텍스트 표시단계(S334) 및 중계서버(300)에 저장되는 다양한 표정 및 제스처를 취하고 있는 아바타들을 이용하여 화자의 감정을 상대방에게 전달할 수 있도록 하는 아바타 표시단계(S336)를 포함할 수 있다.That is, the emotion display step (S330) includes a voice display step (S332) for including emotion information in the unique voice of the hearing impaired transmitted from the
상기와 같은 음성표시단계(S332), 텍스트 표시단계(S334) 및 아바타 표시단계(S336)는 전술한 청각장애인용 통화 서비스 제공 시스템(10)의 중계서버(300)에 구비된 감정표시모듈(340)의 음성표시부(342), 텍스트표시부(344) 및 아바타 표시부(346)에 의해 이루어지는 것으로, 각 단계에서 이루어지는 내용들은 전술한 바와 동일하므로 이에 대한 상세한 설명을 생략하기로 한다.The above voice display step (S332), text display step (S334), and avatar display step (S336) are the
또한, 도시하지는 않았으나, 상기 감정표시단계(S330)는 전술한 바와 같이, 감정표시 필터링 단계를 포함하여, 서로 간의 대화 도중 상대방에 대한 분노 또는 화남 등의 감정이 기설정된 수준 보다 높아지는 경우, 상기 감정표시모듈(340)에서 이를 완화시켜 상대방에게 전달할 수 있고, 통화가 완료된 후 감정 표시 필터링이 수행된 사실 및 감정 표시 필터링이 수행된 시간 동안의 대화 기록 등을 중계서버(300)로부터 제1 및/또는 제2통신단말기(100,200)로 전송할 수 있다.In addition, although not shown, the emotion display step (S330) includes the emotion display filtering step, as described above, when the emotion such as anger or anger toward the other party is higher than a predetermined level during conversation with each other, the emotion The
한편, 상기 통화연결단계(S300)에서는 청각장애인 또는 비장애인이 제1 또는 제2통신단말기(100,200)를 이용하여 상대방에게 텍스트 신호를 전송하는 경우, 입력되는 신호가 send, enter 등의 전송 버튼을 누르는 등의 추가적인 이벤트 없이도 자동으로 상대방에게 전송될 수 있는데, 전술한 바와 같이, 중계서버(300)에 구비된 자동전송모듈(380)에서는 제1 및 제2통신단말기(100,200)를 이용한 청각장애인 또는 비장애인의 텍스트 신호 입력이 기설정된 시간 이상 중단되거나 의미 전달이 가능한 문장이 완성되는 경우 입력된 신호를 자동으로 상대방에게 전송할 수 있다.On the other hand, in the call connection step (S300), when a hearing impaired or non-disabled person transmits a text signal to the other party using the first or second communication terminal (100, 200), the input signal is transmitted by pressing a send button such as send or enter. It can be automatically transmitted to the other party without additional events such as pressing. As described above, in the
따라서, 전술한 바와 같은 본 발명에 따른 청각장애인용 통화 서비스 제공 시스템 및 방법에 의하면, 청각장애인으로 대표되는 통신 약자들이 보다 쉽고 편리하게 통신단말기(100,200)를 이용하여 상대방과 대화할 수 있고, 서로 간에 직접적인 의사소통이 어려운 청각장애인들과 비장애인들 사이의 대화가 자유롭게 이루어질 수 있을 뿐만 아니라, 화자의 음성이나 표정 등으로부터 추정되는 감정 상태를 시각화 또는 유형화하여 표시하거나 음성을 통해 상대방에게 대화내용과 함께 전달할 수 있도록 함으로써 통화자 사이의 의사전달이 보다 명확히 이루어질 수 있는 등의 다양한 장점을 갖는다.Therefore, according to the system and method for providing a call service for the hearing impaired according to the present invention as described above, the communication weak represented by the hearing impaired can more easily and conveniently communicate with the other party using the
전술한 실시예들은 본 발명의 가장 바람직한 예에 대하여 설명한 것이지만, 상기 실시예에만 한정되는 것은 아니며, 청각장애인 이외에도, 언어장애인이나 통신단말기(100,200)의 사용이 어려운 노인 등의 통신 약자들과 비장애인 사이의 통화 또는 통신 약자들 사이의 통화에도 적용할 수 있는 등 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 변형이 가능하다.The foregoing embodiments have been described with respect to the most preferred examples of the present invention, but are not limited to the above embodiments, and in addition to hearing impaired people, communication weak people such as the elderly who have difficulty using the
본 발명은 청각장애인용 통화 서비스 제공 시스템 및 방법에 관한 것으로, 보다 상세하게는 텍스트 음성 변환, 음성 텍스트 변환 및 모션 텍스트 변환 등의 기능을 활용하여 청각장애인과 비장애인 사이의 통화 서비스를 제공함과 동시에, 화자의 음성이나 표정 등으로부터 추정되는 감정 상태를 시각화하거나 음성을 통해 표현할 수 있도록 함으로써 통화자 사이의 의사전달이 명확히 이루어질 수 있도록 하는 청각장애인용 통화 서비스 제공 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for providing a call service for the hearing impaired, and more particularly, provides a call service between the hearing impaired and non-disabled people by utilizing functions such as text-to-speech conversion, voice-to-text conversion, and motion-text conversion, and at the same time The present invention relates to a system and method for providing a call service for the hearing impaired that enables clear communication between callers by visualizing or expressing an emotional state estimated from a speaker's voice or facial expression.
10 : 통화 서비스 제공 시스템 100 : 제1통신단말기
200 : 제2통신단말기 300 : 중계서버
310 : 통신모듈 320 : 음성생성모듈
322 : 음성추출부 324 : 음성보정부
326 : 음성선택부 330 : 변환모듈
332 : STT 변환부 334 : MTT 변환부
336 : TTS 변환부 338 : TTM 변환부
340 : 감정표시모듈 342 : 음성표시부
344 : 텍스트표시부 346 : 아바타 표시부
350 : 학습모듈 352 : 변환학습부
354 : 감정학습부 360 : 데이터베이스부
362 : 제1데이터베이스 364 : 제2데이터베이스
366 : 제3데이터베이스 368 : 제4데이터베이스
370 : 번역모듈 380 : 자동전송모듈
S100 : 사전준비단계 S110 : 정보입력단계
S120 : 고유 음성 생성단계 S122 : 음성추출단계
S124 : 음성보정단계 S126 : 음성선택단계
S130 : 학습단계 S132 : 변환학습단계
S134 : 감정학습단계 S200 : 통화요청단계
S300 : 통화연결단계 S310 : 신호변환단계
S312 : MTT 변환단계 S314 : STT 변환단계
S316 : TTS 변환단계 S318 : TTM 변환단계
S320 : 번역단계 S330 : 감정표시단계
S332 : 음성표시단계 S334 : 텍스트 표시단계
S336 : 아바타 표시단계10: call service providing system 100: first communication terminal
200: second communication terminal 300: relay server
310: communication module 320: voice generation module
322: voice extraction unit 324: voice correction unit
326: voice selection unit 330: conversion module
332: STT conversion unit 334: MTT conversion unit
336: TTS conversion unit 338: TTM conversion unit
340: emotion display module 342: voice display unit
344: text display unit 346: avatar display unit
350: learning module 352: conversion learning unit
354: emotion learning unit 360: database unit
362: first database 364: second database
366: third database 368: fourth database
370: translation module 380: automatic transmission module
S100: Preparatory step S110: Information input step
S120: unique voice generation step S122: voice extraction step
S124: voice correction step S126: voice selection step
S130: learning step S132: conversion learning step
S134: Emotion Learning Step S200: Call Request Step
S300: call connection step S310: signal conversion step
S312: MTT conversion step S314: STT conversion step
S316: TTS conversion step S318: TTM conversion step
S320: Translation step S330: Emotion display step
S332: voice display step S334: text display step
S336: Avatar display step
Claims (13)
상기 중계서버는,
상기 제1 및 제2통신단말기와의 무선 통신을 위한 통신모듈과,
상기 제1통신단말기로부터 입력된 신호를 이용하여 청각장애인의 음성을 생성하는 음성생성모듈과,
상기 제1 및 제2통신단말기로부터 수신되는 정보들을 상대방이 인식할 수 있는 형태로 변환시키는 변환모듈과,
상기 제1 및 제2통신단말기로부터 수신되는 정보들을 이용하여 화자의 감정 정보를 표시하는 감정표시모듈을 포함하고,
상기 감정표시모듈은,
변환모듈에 의해 변환된 청각장애인 음성의 고저 및 크기를 조절하여 청각장애인의 감정을 표시하는 음성표시부와,
상기 변환모듈에 의해 변환되어 제1통신단말기로 전송되는 비장애인의 텍스트에 기설정된 색상을 부여하여 비장애인의 감정을 표시하는 텍스트표시부를 포함하되,
상기 감정표시모듈은 상대방에 대한 분노 또는 화남을 포함하는 감정이 기설정된 수준 이상으로 판단되는 경우, 상기 음성표시부 또는 텍스트표시부를 통해 상대방에게 전달하는 감정 수준을 기설정된 수준 이하로 완화하여 표시하는 감정 표시 필터링 기능을 구비하고,
상기 감정표시모듈에 의한 감정 표시 필터링 이벤트가 발생되는 경우, 상기 중계서버에서는 통화가 완료된 후, 제1 및 제2통신단말기로 일정 시간 동안 감정 표시 필터링이 수행되었음을 통보하는 것을 특징으로 하는 청각장애인용 통화 서비스 제공 시스템.
In the system for providing a call service for the hearing impaired, including a first communication terminal possessed by a hearing impaired person, a second communication terminal possessed by a non-disabled person, and a relay server for relaying a call between the first and second communication terminals,
The relay server,
A communication module for wireless communication with the first and second communication terminals;
A voice generation module for generating a voice of a hearing-impaired person using a signal input from the first communication terminal;
A conversion module for converting the information received from the first and second communication terminals into a form recognizable by the other party;
An emotion display module for displaying emotional information of a speaker using information received from the first and second communication terminals;
The emotion display module,
A voice display unit that displays the emotions of the hearing impaired by adjusting the pitch and volume of the hearing impaired voice converted by the conversion module;
A text display unit for displaying the emotion of the non-disabled person by giving a predetermined color to the text of the non-disabled person converted by the conversion module and transmitted to the first communication terminal,
When the emotion including anger or anger toward the other party is determined to be above a predetermined level, the emotion display module mitigates the emotion level transmitted to the other party through the voice display unit or the text display unit to a predetermined level or less, and displays the emotion. Equipped with a display filtering function;
When an emotion display filtering event by the emotion display module occurs, the relay server notifies the first and second communication terminals that emotion display filtering has been performed for a certain period of time after the call is completed. Call service delivery system.
상기 음성생성모듈은,
제1통신단말기를 통해 입력되는 청각장애인의 신체정보들을 이용하여 청각장애인의 고유 음성을 1차 생성하는 음성추출부와,
상기 제1통신단말기를 통해 입력되는 청각장애인의 나이, 가족 음성을 포함하는 주변정보들을 이용하여 청각장애인의 고유 음성을 보정하는 음성보정부 및
상기 제1통신단말기를 이용하여 청각장애인의 음성을 선택할 수 있도록 하는 음성선택부를 포함하는 것을 특징으로 하는 청각장애인용 통화서비스 제공 시스템.
According to claim 1,
The voice generation module,
A voice extraction unit that primarily generates a unique voice of the hearing-impaired person using the body information of the hearing-impaired person input through the first communication terminal;
A voice correction unit correcting the unique voice of the hearing-impaired person using peripheral information including the hearing-impaired person's age and family voice input through the first communication terminal; and
A system for providing a call service for the hearing-impaired, characterized in that it comprises a voice selection unit for enabling the hearing-impaired to select a voice using the first communication terminal.
상기 감정표시모듈은,
상기 음성표시부 또는 텍스트표시부에 의해 표시되는 감정 정보를 아바타에 의해 표현하는 아바타 표시부를 더 포함하는 것을 특징으로 하는 청각장애인용 통화서비스 제공 시스템.
According to claim 1,
The emotion display module,
The system for providing a call service for the hearing-impaired further comprising an avatar display unit expressing the emotion information displayed by the voice display unit or the text display unit by an avatar.
상기 중계서버는,
딥러닝을 기반으로 하여 상기 변환모듈 및 감정표시모듈에서 사용되는 알고리즘에 대한 인공지능 학습을 수행하는 학습모듈을 더 포함하는 것을 특징으로 하는 청각장애인용 통화서비스 제공 시스템.
According to claim 1,
The relay server,
A system for providing a call service for the hearing impaired further comprising a learning module for performing artificial intelligence learning on the algorithm used in the conversion module and the emotion display module based on deep learning.
상기 중계서버는,
제1통산단말기를 사용하는 청각장애인들의 정보를 저장하는 제1데이터베이스와,
청각장애인들의 음성을 표현할 수 있는 음성데이터들을 저장하는 제2데이터베이스와,
상기 학습모듈에서의 인공지능 학습에 사용될 수 있는 데이터 및 학습모듈에서 학습된 학습결과를 저장하는 제3데이터베이스 및
제1 및 제2통신단말기 사이의 통화 내용을 기설정된 기간 동안 저장하는 제4데이터베이스를 포함하는 것을 특징으로 하는 청각장애인용 통화 서비스 제공 시스템.
According to claim 5,
The relay server,
A first database for storing information of hearing-impaired people using the first communication terminal;
A second database for storing voice data capable of expressing the voice of the hearing impaired;
A third database for storing data that can be used for artificial intelligence learning in the learning module and learning results learned in the learning module, and
A call service providing system for the hearing-impaired, comprising a fourth database for storing conversation contents between the first and second communication terminals for a predetermined period of time.
상기 중계서버는,
제1 및 제2통신단말기를 이용한 사용자의 신호 입력이 기설정된 시간 이상 중단되거나 의미 전달이 가능한 문장이 완성되는 경우 입력된 신호를 자동으로 상대방에게 전송하도록 하는 자동전송모듈을 더 포함하는 것을 특징으로 하는 청각장애인용 통화 서비스 제공 시스템.
According to claim 1,
The relay server,
Further comprising an automatic transmission module that automatically transmits the input signal to the other party when the user's signal input using the first and second communication terminals is stopped for a predetermined time or when a sentence capable of conveying meaning is completed A call service providing system for the hearing impaired.
상기 제1통신단말기를 이용하여 청각장애인의 정보들을 중계서버에 등록하는 사전준비단계와,
상기 제1 또는 제2통신단말기를 이용하여 중계서버에 접속하여 상대방과의 통화를 요청하는 통화요청단계와,
상기 중계서버에 의한 중계에 의해 제1 및 제2통신단말기를 각각 소지한 청각장애인과 비장애인이 통화를 진행하는 통화연결단계를 포함하고,
상기 통화연결단계는,
제1 및 제2통신단말기로부터 전송된 신호를 중계서버에서 상대방이 인식할 수 있는 신호로 변환시키는 신호변환단계와,
상기 제1 및 제2통신단말기로부터 전송된 신호 또는 상기 신호변환단계에서 변환된 신호에 화자의 감정 정보를 표시하는 감정표시단계를 포함하며,
상기 감정표시단계는,
신호변환단계에서 변환되어 중계서버로부터 제2통신단말기로 전송되는 청각장애인 고유 음성의 고저 및 크기를 조절하여 청각장애인의 감정을 표시하는 음성표시단계와,
중계서버로부터 제1 또는 제2통신단말기로 전송되는 텍스트 신호에 화자의 감정 정보를 표시하는 텍스트표시단계와,
제1 또는 제2통신단말기에 의해 선택된 청각장애인 또는 비장애인의 아바타의 표정 및 제스처를 이용하여 화자의 감정상태를 표시하는 아바타 표시단계 및
서로 간의 대화 도중 상대방에 대한 분노 또는 화남을 포함하는 감정이 기설정된 수준 이상으로 판단되는 경우, 상대방에게 전달하는 감정 수준을 기설정된 수준 이하로 완화하여 표시하는 감정표시 필터링 단계를 포함하고,
상기 감정표시 필터링 단계가 진행되는 경우, 상기 중계서버에서는 통화가 완료된 후 제1 및 제2통신단말기로 일정 시간 동안 감정 표시 필터링이 수행되었음을 통보하는 것을 특징으로 하는 청각장애인용 통화 서비스 제공 방법.
Call using a call service providing system for the hearing impaired including a first communication terminal possessed by a hearing impaired person, a second communication terminal possessed by a non-disabled person, and a relay server relaying a call between the first and second communication terminals. In the service provision method,
A preliminary preparation step of registering information of the hearing impaired in a relay server using the first communication terminal;
A call request step of accessing a relay server using the first or second communication terminal and requesting a call with the other party;
A call connection step in which a hearing-impaired person and a non-disabled person each having first and second communication terminals conduct a call by relaying by the relay server,
In the call connection step,
A signal conversion step of converting the signal transmitted from the first and second communication terminals into a signal that the other party can recognize in the relay server;
And an emotion display step of displaying the speaker's emotion information on the signal transmitted from the first and second communication terminals or the signal converted in the signal conversion step,
The emotion display step,
A voice display step of displaying the emotions of the hearing-impaired person by adjusting the pitch and volume of the hearing-impaired person's unique voice converted in the signal conversion step and transmitted from the relay server to the second communication terminal;
A text display step of displaying emotional information of a speaker in a text signal transmitted from a relay server to a first or second communication terminal;
Avatar display step of displaying the emotional state of the speaker using the expression and gesture of the avatar of the hearing impaired or non-disabled person selected by the first or second communication terminal, and
Including an emotion display filtering step of mitigating and displaying the emotion level transmitted to the other party to a predetermined level or less when the emotion including anger or anger towards the other party during the conversation is determined to be above a predetermined level,
When the emotion display filtering step is performed, the relay server notifies the first and second communication terminals that the emotion display filtering has been performed for a predetermined time after the call is completed.
상기 사전준비단계는,
상기 중계서버에 입력된 청각장애인의 정보를 이용하여 청각장애인의 고유 음성을 생성하는 고유 음성 생성단계와,
딥러닝을 기반으로 하여 상기 신호변환단계 및 감정표시단계에서 사용되는 알고리즘에 대한 인공지능 학습을 수행하는 학습단계를 포함하는 것을 특징으로 하는 청각장애인용 통화 서비스 제공 방법.
According to claim 8,
In the preparatory stage,
A unique voice generation step of generating a unique voice of the hearing-impaired person using information of the hearing-impaired person input to the relay server;
A method for providing a call service for the hearing impaired, comprising a learning step of performing artificial intelligence learning on the algorithm used in the signal conversion step and the emotion display step based on deep learning.
상기 고유 음성 생성단계는,
청각장애인의 신체정보들을 이용하여 청각장애인의 고유 음성을 추출하는 음성추출단계와,
청각장애인의 나이, 가족 음성을 포함하는 주변정보들을 이용하여 추출된 고유 음성을 보정하는 음성보정단계 및
상기 제1통신단말기를 이용하여 청각장애인의 최종적인 고유 음성을 선택하는 음성선택단계를 포함하는 것을 특징으로 하는 청각장애인용 통화 서비스 제공 방법.
According to claim 9,
The unique voice generation step,
A voice extraction step of extracting a unique voice of the hearing-impaired person using body information of the hearing-impaired person;
A voice correction step of correcting the extracted unique voice using peripheral information including the age of the hearing impaired and the voice of the family, and
and a voice selection step of selecting a final unique voice of the hearing impaired using the first communication terminal.
상기 신호변환단계는,
제1통신단말기로부터 입력된 청각장애인의 영상에 포함된 수화언어를 텍스트 신호로 변환시키는 MTT 변환단계와,
제2통신단말기로부터 입력된 비장애인의 음성신호를 텍스트신호로 변환시키는 STT 변환단계와,
상기 MTT 변환단계에서 변환된 텍스트 신호를 음성신호로 변환시키는 TTS 변환단계 및
상기 STT 변환단계에서 변환된 텍스트신호를 수화언어로 변환시키는 TTM 변환단계를 포함하는 것을 특징으로 하는 청각장애인용 통화 서비스 제공 방법.
According to claim 8,
The signal conversion step,
An MTT conversion step of converting the sign language included in the image of the hearing impaired inputted from the first communication terminal into a text signal;
An STT conversion step of converting the voice signal of a non-disabled person input from the second communication terminal into a text signal;
A TTS conversion step of converting the text signal converted in the MTT conversion step into a voice signal; and
and a TTM conversion step of converting the text signal converted in the STT conversion step into a sign language.
상기 통화연결단계에서는 제1 및 제2통신단말기를 이용한 사용자의 신호 입력이 기설정된 시간 이상 중단되거나 의미 전달이 가능한 문장이 완성되는 경우 입력된 신호를 자동으로 상대방에게 전송하는 것을 특징으로 하는 청각장애인용 통화 서비스 제공 방법.
According to claim 8,
In the call connection step, when the user's signal input using the first and second communication terminals is stopped for more than a predetermined time or a sentence capable of conveying meaning is completed, the input signal is automatically transmitted to the other party. How to provide call service for use.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220088727A KR102487847B1 (en) | 2022-07-19 | 2022-07-19 | System and method for providing call service for the hearing impaired |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220088727A KR102487847B1 (en) | 2022-07-19 | 2022-07-19 | System and method for providing call service for the hearing impaired |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102487847B1 true KR102487847B1 (en) | 2023-01-16 |
Family
ID=85109898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220088727A Active KR102487847B1 (en) | 2022-07-19 | 2022-07-19 | System and method for providing call service for the hearing impaired |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102487847B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110025720A (en) * | 2009-09-05 | 2011-03-11 | 에스케이텔레콤 주식회사 | Avatar-based video call method and system, terminal supporting same |
KR101981091B1 (en) * | 2017-12-20 | 2019-05-22 | 충남대학교산학협력단 | Device for creating subtitles that visualizes emotion |
KR102212298B1 (en) | 2020-11-09 | 2021-02-05 | 주식회사 라젠 | Platform system for providing video communication between non disabled and hearing impaired based on artificial intelligence |
-
2022
- 2022-07-19 KR KR1020220088727A patent/KR102487847B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110025720A (en) * | 2009-09-05 | 2011-03-11 | 에스케이텔레콤 주식회사 | Avatar-based video call method and system, terminal supporting same |
KR101981091B1 (en) * | 2017-12-20 | 2019-05-22 | 충남대학교산학협력단 | Device for creating subtitles that visualizes emotion |
KR102212298B1 (en) | 2020-11-09 | 2021-02-05 | 주식회사 라젠 | Platform system for providing video communication between non disabled and hearing impaired based on artificial intelligence |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176366B1 (en) | Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment | |
KR102420564B1 (en) | Method and device for providing information | |
KR101777807B1 (en) | Sign language translator, system and method | |
US9183199B2 (en) | Communication device for multiple language translation system | |
EP2574220B1 (en) | Hand-held communication aid for individuals with auditory, speech and visual impairments | |
WO2019111346A1 (en) | Full-duplex speech translation system, full-duplex speech translation method, and program | |
US20140171036A1 (en) | Method of communication | |
US20090144048A1 (en) | Method and device for instant translation | |
KR101981091B1 (en) | Device for creating subtitles that visualizes emotion | |
JP2019208138A (en) | Utterance recognition device and computer program | |
KR20220123170A (en) | Conversation learning system and method using artificial intelligence avatar tutor | |
US12243551B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US11138379B2 (en) | Determination of transcription accuracy | |
US11412178B2 (en) | Information processing device, information processing method, and program | |
CN116524791A (en) | A Lip Language Learning Auxiliary Training System Based on Metaverse and Its Application | |
JP2003108362A (en) | Communication supporting device and system thereof | |
JP3260275B2 (en) | Telecommunications communication device capable of making calls by typing | |
JP2004015478A (en) | Speech communication terminal device | |
KR102487847B1 (en) | System and method for providing call service for the hearing impaired | |
KR101959439B1 (en) | Method for interpreting | |
CN111241238B (en) | User evaluation method, device, electronic equipment and storage medium | |
US20220139417A1 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
CN118567602A (en) | Man-machine interaction method and device, electronic equipment and computer storage medium | |
CN116685977A (en) | Voice translation processing device | |
KR20210144443A (en) | Method for outputting text in artificial intelligence virtual assistant service and electronic device for supporting the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20220719 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20220719 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20221020 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230108 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230109 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230110 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |