TWI716885B

TWI716885B - 即時外語溝通系統

Info

Publication number: TWI716885B
Application number: TW108118259A
Authority: TW
Inventors: 陳筱涵
Original assignee: 陳筱涵
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2021-01-21
Also published as: CN112001189A; US20200380959A1; TW202044102A

Abstract

一種即時外語溝通系統，包含一用以供配戴在該使用者頭部的穿戴式翻譯裝置。該穿戴式翻譯裝置包括一輸出單元、一聲音擷取單元與一翻譯控制處理器。該翻譯控制處理器可控制該聲音擷取單元的多個第一麥克風以麥克風陣列方式朝使用者前方對講話對象進行指向性收音，並翻譯收音得到的待譯語音以得到翻譯資料，並控制輸出單元輸出翻譯資料。透過供配戴於使用者頭部之該穿戴式翻譯裝置可直接對外國人講話內容進行拾音並即時翻譯輸出的設計，能提供更符合一般生活型態的面對面講話溝通方式，而不需再於兩者間交換持用翻譯機講話。

Description

即時外語溝通系統

本發明是有關於一種翻譯系統，特別是指一種即時外語溝通系統。

為了幫助國外旅行者可更方便地與當地商家或人民溝通，目前有許多業者開發出方便攜帶且可翻譯各種語言的翻譯機。這類翻譯機的使用方式，是使用者先設定自己的語言種類，及要溝通對象的外語種類，然後將翻譯機靠近自己的嘴巴並講話，該翻譯機會進行語音擷取並分析語音語意，然後轉換成預設的外語種類的譯文，然後將該翻譯機拿給溝通對象觀看譯文內容，另一種方式，是進一步將譯文轉換成對應之待譯語音，然後播放給溝通對象聽。緊接著，再將該翻譯機交給溝通對象，該溝通對象再將翻譯機靠近嘴巴並講話，然後再由該翻譯機翻譯顯示譯文或播放譯文語音，讓對方瞭解其講話意思。就這樣一來一往反覆互換該翻譯機並講話進行翻譯作業。

雖然這種翻譯機確實可用以協助和外國人進行溝通，但使用上卻相當不人性化。由於生活周遭充斥著許多的人聲與雜音，為了要能夠清楚收音，避免被周圍雜音或語音干擾而影響翻譯結果，所以這種翻譯機是設計成需靠近嘴巴才能講話收音，而且必須在兩位交談對象間反覆拿持講話進行翻譯，這種使用方式完全不符人與人平常面對面講話的習慣，也明顯存在衛生疑慮。

因此，本發明的目的，即在提供一種可改善先前技術之至少一個缺點的即時外語溝通系統。

於是，本發明即時外語溝通系統，適用於供一位使用者用以翻譯其前方之一位講話對象的外語，並包含一個穿戴式翻譯裝置。該穿戴式翻譯裝置包括一個用以供配戴在該使用者頭部的載具，及安裝在該載具的一個輸出單元、一個聲音擷取單元與一個翻譯控制處理器。該聲音擷取單元具有多個間隔安裝在該載具，且可被控制啟動以進行收音的第一麥克風。該翻譯控制處理器是訊號連接該輸出單元與該聲音擷取單元，包括一個語音擷取控制模組、一個外語翻譯處理模組，及一個輸出控制模組，該語音擷取控制模組可控制啟動多個第一麥克風以構成麥克風陣列，並朝該載具前方對該講話對象進行指向性收音以得到一個待譯語音，該外語翻譯處理模組可接收翻譯該待譯語音以得到一個翻譯資料，該輸出控制模組可控制該輸出單元輸出該翻譯資料。

本發明的功效在於：透過供配戴於該使用者頭部之該穿戴式翻譯裝置，可直接對要溝通之外國人講話內容進行拾音並即時翻譯輸出的設計，使得雙方可透過平常面對面講話方式直接溝通，而不需再於兩者間交換持用翻譯機講話，所以本發明之穿戴式翻譯裝置能提供更符合一般生活型態的語言溝通方式。

在本發明被詳細描述的前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1、2、3，本發明即時外語溝通系統100的實施例，適用於供一位使用者900配戴在頭部，而能供該使用者900用以和其前方一位講述外語的講話對象進行溝通對話，所述外語係指該使用者900所屬國家通用語言以外的他國語言，就台灣使用者900而言，日語、韓語、英語與德語等都是外語。

該即時外語溝通系統100包含一個用以供配戴在該使用者900頭部的穿戴式翻譯裝置2，及一個用以供該使用者900持用且與該穿戴式翻譯裝置2訊號連接的手控裝置8。在實施例中，該穿戴式翻譯裝置2與該手控裝置8間是透過目前已知的無線通訊技術進行訊號連接，例如但不限於wifi或藍芽等，但實施時，在本發明之另一實施態樣中，該穿戴式翻譯裝置2與該手控裝置8間也可透過訊號線彼此訊號連接。

該穿戴式翻譯裝置2包括一個用以供該使用者900配戴於頭部的載具3，及安裝於該載具3的一個輸出單元4、一個聲音擷取單元5、一個影像擷取單元6，及一個翻譯控制處理器7。在本實施例中，該載具3是設計成眼鏡鏡框樣式，具有一個前框部31，及兩個左右間隔且前後延伸的腳桿部32。

該輸出單元4包括一個位於該使用者900眼前的顯示模組41、兩個用以設置在該使用者900耳部的耳機模組42，及一個喇叭模組43。在本實施例中，該顯示模組41具有一個位於該使用者900眼前而可供透視觀看的透明膜片411，及一個可在該透明膜片411投射出能供該使用者900觀看之影像的影像投射器412。但實施時，在本發明之另一實施態樣中，該顯示模組41也可以是架設在該前框部31且可被驅動顯示影像的透明顯示器，例如但不限於透明液晶顯示器。該等耳機模組42可用以輸出聲音以供該使用者900聆聽，實施時，每一耳機模組42可以是氣導式耳機或者是骨導式耳機。

該聲音擷取單元5包括多個間隔設置在該前框部31與該等腳桿部32的第一麥克風51，及一個自該載具3往下延伸且用以設置在該使用者900嘴前的第二麥克風52。該等第一麥克風51可被控制啟動而相配合透過波束成型技術對特定方向進行指向性收音，也就是用以對該溝通對象講話內容進行拾音，以得到一個待譯語音。該第二麥克風52可朝該使用者900嘴巴方向進行指向性收音，以得到一個本人語音。

該影像擷取單元6是安裝設置在該前框部31中心部位，而相對位於該使用者900鼻子上方，可用以朝該使用者900正前方進行影像擷取以得到一個視野影像。

該翻譯控制處理器7訊號連接該輸出單元4、該聲音擷取單元5與該影像擷取單元6，包括一個設置外露於該等腳桿部32其中之一的按鍵模組71、一個人物影像擷取模組72、一個溝通對象判斷模組73、一個收音方位控制模組74、一個溝通對象標示模組75、一個外語翻譯處理模組77，及一個輸出控制模組78。

該人物影像擷取模組72可透過現有已知各種影像分析處理技術進行該視野影像中之人臉影像部位的識別，而可分析擷取出該視野影像中所存在的人臉影像。該溝通對象判斷模組73會進一步分析該等人臉影像之嘴唇部位是否出現開合變化，並將嘴唇部位有變化的該等人臉影像判斷為溝通對象，且將其中一個溝通對象設定為收音對象。此外，當該溝通對象判斷模組73判斷該視野影像存在多個溝通對象時，使用者900可透過操作該按鍵模組71的方式，控制該溝通對象判斷模組73將另外一個溝通對象切換設定為該收音對象。

該收音方位控制模組74會根據被設定為該收音對象之該人臉影像相對於該視野影像中的一個基準點的左右夾角與距離等方位資料，而得到該收音對象對應之人物實際上相對於該使用者900的方位，而得到一個自動收音方位資料。該溝通對象標示模組75會根據該自動收音方位資料，於該顯示模組41之對應方位位置顯示出一個會在該使用者900透視視角中，對準被設定為收音對象的指標影像751，例如但不限於箭頭，藉以讓使用者900知道目前是朝哪一位人物進行收音。

該語音擷取控制模組76會根據該自動收音方位資料，控制啟動特定位置與特定數量的第一麥克風51，使被啟動之該等第一麥克風51構成一個麥克風陣列，並驅使該等第一麥克風51以波束成型 (beamforming)技術朝該使用者900前方之對應方向進行指向性收音，也就是朝被設定為該收音對象的人物方向進行收音，以得到一個待譯語音。

該外語翻譯處理模組77內建有多種語言之間的翻譯資料，例如但不限於各種外語之語音對應字詞、譯文資料、語法與文法資料等，且具有會顯示於該顯示模組41以供觀看的一個外語種類設定介面771與一個譯後語文設定介面772，該外語種類設定介面771內建有多個可供選擇設定之外語種類，例如但不限於華語、英語、日語、韓語及德語等，該譯後語文設定介面772內建有多個可供選擇設定之譯後語文種類，例如但不限於華語、英語、日語、韓語及德語等，使用者900可透過操作該按鍵模組71來進行外語種類和譯後語文種類的選擇設定。該外語翻譯處理模組77會根據被設定之該外語種類、該譯後語文種類與該翻譯資料，對該待譯語音進行翻譯處理，以得到一個翻譯資料，該翻譯資料包括譯文與譯文語音。

所述翻譯處理內容大致包括以下步驟：（1）根據被設定之外語種類，透過語音分析技術，將該待譯語音轉換成相同語言的文字資料。（2）根據被設定之該譯後語文種類，將該文字資料翻譯成對應之譯文。（3）將該譯文轉換成相同語言之譯文語音。

該輸出控制模組78會控制該顯示模組41顯示出該譯文，且會控制該等耳機模組42輸出該譯文語音，藉以供該使用者900觀看與聆聽翻譯結果。

此外，該語音擷取控制模組76也會控制啟動該第二麥克風52，使該第二麥克風52擷取該使用者900講話內容以得到該本人語音。該外語翻譯處理模組77會根據被設定之該譯後語文種類分析該本人語音，而將該本人語音轉換成相同語言的文字資料，然後再根據被設定之該外語種類，將該文字資料翻譯處理成語音形式的對話外語，並控制該喇叭模組43擴音輸出該對話外語，讓溝通對象聆聽。

由於語音翻譯技術眾多，且非本發明改良重點，因此實施時，對於該待譯語音與該本人語音的翻譯方式不以此為限，且不再詳述。

該手控裝置8可同步接收顯示該翻譯控制處理器7傳送之該視野影像。該手控裝置8可以是該使用者900持用之手機或平板電腦等行動裝置，但實施時不以此為限。

該手控裝置8具有一個用以顯示該視野影像且可供觸控操作的觸控顯示幕81，及一個收音方位設定單元82。該收音方位設定單元82會分析顯示有該視野影像之該觸控顯示幕81被觸控位置相對於該使用者900的方位，以得到一個手控收音方位資料，且會將該手動收音方位資料傳送至該翻譯控制處理器7。該語音擷取控制模組76會優先根據該手控收音方位資料，控制啟動對應數量與位置的多個第一麥克風51以構成麥克風陣列，並使該等第一麥克風51透過波束成型技術朝對應方向進行指向性收音，以得到該待譯語音。

本發明即時外語溝通系統100使用時，使用者900可將該穿戴式翻譯裝置2配戴於頭部，最佳情況是，講話對象也可同樣配戴一個穿戴式翻譯裝置2。進行翻譯溝通前，每一使用者900需先操作設定該外語種類與該譯後語種類，啟動翻譯功能後，該影像擷取單元6會開始擷取得到該視野影像，該手控裝置8會同步顯示該視野影像。

該翻譯控制處理器7於分析該視野影像，而將其中一個溝通對象設定為收音對象時，使用者900若覺得該收音對象非為實際要對話的講話對象時，可操作該按鍵模組71來切換該收音對象。該翻譯控制處理器7會控制啟動對應數量與位置的多個第一麥克風51，以相配合朝該收音對象實際對應之該講話對象方位進行收音以得到該待譯語音，然後將該待譯語音翻譯成被設定之該譯後語文種類的譯文與譯文語音，並經由該顯示模組41與該等耳機模組42分別輸出該譯文與該譯文語音，讓該使用者900瞭解該溝通對象的講話內容。

當該使用者900要對該講話對象講話時，可直接對該第二麥克風52講話，該翻譯控制處理器7會將該本人語音轉換成被設定之外語種類的對話外語，並擴音播出該對話外語，讓溝通對象瞭解你的講話內容。

使用時，該手控裝置8也會同步顯示該視野影像，使用者900可透過觸控該觸控顯示幕81顯示之該視野影像之特定部位的方式，來手動設定該手動收音方位資料，藉以驅使該翻譯控制處理器7根據該手動收音方位資料，控制該等第一麥克風51朝該使用者900前方對應方向進行指向性收音。藉此設計，使用者900可根據需求自行選擇翻譯特定對象的講話內容。

在本實施例中，該穿戴式翻譯裝置2是透過分析該視野影像的方式來決定該收音對象，然後朝該使用者900前方對應方位進行指向性收音，但實施時，不以透過分析該視野影像來決定該收音對象為必要，也就是說，在本發明之另一實施態樣中，該即時外語溝通系統100可不設置該手控裝置8，且該穿戴式翻譯裝置2可不設置該影像擷取單元6，該翻譯控制處理器7可不設置該人物影像擷取模組72與該溝通對象判斷模組73，並將該等第一麥克風51設計成會被啟動而直接透過波束成型技術朝該載具3正前方特定方位進行指向性收音，也就是直接朝該使用者900正前方特定角度範圍內進行指向性收音。藉此設計，配戴該穿戴式翻譯裝置2的使用者900可透過將頭轉向所要溝通之外國人的方式，來控制該穿戴式翻譯裝置2直接朝該外國人方向進行收音與執行翻譯作業。

此外，實施時，在本發明之再另一實施態樣中，該第二麥克風52與該喇叭模組43非為必要，在此情況下，當要溝通雙方都各自配戴一副本發明之穿戴式翻譯裝置2時，雙方可各自講話，並經由對方的穿戴式翻譯裝置2即時進行講話內容的拾音與翻譯。

綜上所述，透過該穿戴式翻譯裝置2可供配戴於該使用者900頭部，而能夠直接對要溝通之外國人講話內容進行拾音並即時翻譯輸出，以及可將本身講話內容翻譯給該外國人聆聽的設計，使得雙方可透過平常面對面講話方式直接溝通，而不需再於兩者間交換持用翻譯機講話，所以本發明之穿戴式翻譯裝置2能提供更符合一般生活型態的語言溝通方式，也可進一步配合該手控裝置8的設計，方便使用者900根據現場環境需求自行選擇設定收音方向，而能更準確地取得特定對象的講話內容。且當要溝通之雙方都有配戴該穿戴式翻譯裝置2時，兩位外國人間的溝通會更加方便。因此，本發明即時外語翻譯系統確實可改善現有翻譯機使用上的缺點，可讓講話雙方以一般日常生活講話模式更自然地進行溝通，是一種相當創新實用的即時外語溝通系統100設計，因此確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。

100····· 即時外語溝通系統 2········ 穿戴式翻譯裝置 3········ 載具 31······ 前框部 32······ 腳桿部 4········ 輸出單元 41······ 顯示模組 411····· 透明膜片 412····· 影像投射器 42······ 耳機模組 43······ 喇叭模組 5········ 聲音擷取單元 51······ 第一麥克風 52······ 第二麥克風 6········ 影像擷取單元 7········ 翻譯控制處理器 71······ 按鍵模組 72······ 人物影像擷取模組 73······ 溝通對象判斷模組 74······ 收音方位控制模組 75······ 溝通對象標示模組 751····· 指標影像 76······ 語音擷取控制模組 77······ 外語翻譯處理模組 771····· 外語種類設定介面 772····· 譯後語文設定介面 78······ 輸出控制模組 8········ 手控裝置 81······ 觸控顯示幕 82······ 收音方位設定單元 900····· 使用者

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是本發明即時外語溝通系統的一個實施例的立體圖；圖2是該實施例的供使用者配戴使用的示意圖；及圖3是該實施例的功能方塊圖。

100····· 即時外語溝通系統 2········ 穿戴式翻譯裝置 3········ 載具 31······ 前框部 32······ 腳桿部 4········ 輸出單元 41······ 顯示模組 411····· 透明膜片 412····· 影像投射器 42······ 耳機模組 43······ 喇叭模組 5········ 聲音擷取單元 51······ 第一麥克風 52······ 第二麥克風 6········ 影像擷取單元 7········ 翻譯控制處理器 71······ 按鍵模組 751····· 指標影像 8········ 手控裝置 81······ 觸控顯示幕

Claims

一種即時外語溝通系統，適用於供一位使用者配戴以翻譯其前方之一位講話對象的外語，並包含一個穿戴式翻譯裝置，該穿戴式翻譯裝置包括：一個載具，供配戴在該使用者頭部；一個輸出單元，安裝於該載具；一個影像擷取單元，安裝在該載具且可朝該使用者前方進行影像擷取以得到一個視野影像；一個聲音擷取單元，具有多個間隔安裝在該載具，且可被控制啟動以進行收音的第一麥克風；及一個翻譯控制處理器，安裝於該載具，且訊號連接該輸出單元、該聲音擷取單元與該影像擷取單元，包括一個人物影像擷取模組、一個溝通對象判斷模組、一個收音方位控制模組、一個語音擷取控制模組、一個外語翻譯處理模組，及一個輸出控制模組，該人物影像擷取模組可分析擷取出該視野影像中所有面向該使用者的人臉影像，該溝通對象判斷模組會分析該等人臉影像的嘴唇變化，並將有嘴唇開合變化的其中一個人臉影像設定為收音對象，該收音方位控制模組會分析被設定為該收音對象之該人臉影像相對於該使用者的方位以得到一個自動收音方位資料，該語音擷取控制模組會根據該自動收音方位資料控制啟動對應數量與位置的多個第一麥克風以構成麥克風陣列，而朝對應之方位進行指向性收音以得到一個待譯語音，該外語翻譯處理模組可接收翻譯該待譯語音以得到一個翻譯資料，該輸出控制模組可控制該輸出單元輸出該翻譯資料。
如請求項1所述的即時外語溝通系統，其中，該翻譯資料包括一文字類型之譯文，該輸出單元包括一個可供透視地安裝於該載具且位於該使用者眼前，並可被該輸出控制模組驅動顯示該譯文以供該使用者觀看的顯示模組。
如請求項2所述的即時外語溝通系統，其中，該顯示模組具有一個位於該使用者眼前而可供透視的透明膜片，及一個可被該輸出控制模組控制而將該譯文投射成像於該透明膜片的影像投射器。
如請求項2所述的即時外語溝通系統，其中，該顯示模組為可被驅動顯示該譯文的透明顯示器。
如請求項1所述的即時外語溝通系統，其中，該翻譯資料包括一譯文語音，該輸出單元還包括一個供設置在該使用者耳部，且可被該輸出控制模組控制輸出該譯文語音的耳機模組。
如請求項2或5所述的即時外語溝通系統，其中，該外語翻譯處理模組具有一個外語種類設定介面與一個譯後語文設定介面，該外語種類設定介面內建有多個可供選擇設定之外語種類，該譯後語文設定介面內建有多個可供選擇設定之譯後語文種類，該外語翻譯處理模組可根據被設定之該外語種類分析該待譯語音，而將該待譯語音翻譯為被設定之該譯後語文種類對應的該翻譯資料。
如請求項6所述的即時外語溝通系統，該聲音擷取單元還包括一個可對該使用者嘴部進行收音以得到一個本人語音的第二麥克風，該輸出單元還包括一個喇叭模組，該外語翻譯處理模組會根據被設定之該譯後語文種類分析該本人語音，並將該本人語音翻譯成被設定之該外語種類的對話外語，該輸出控制模組會控制該喇叭模組擴音輸出該對話外語。
如請求項1所述的即時外語溝通系統，其中，該翻譯控制處理器還包括一個溝通對象標示模組，該溝通對象標示模組可根據該自動收音方位資料，於該顯示模組之對應位置顯示出一個會在該使用者透視視角中指向被設定為該收音對象之人物的指標影像。
如請求項1或8所述的即時外語溝通系統，其中，該溝通對象判斷模組會將嘴唇有變化之每一個人臉影像判斷為溝通對象，並將其中一個溝通對象設定為該收音對象，該翻譯控制處理器還包括一個外露於該載具的按鍵模組，該溝通對象判斷模組可於該按鍵模組被操作時，將另一個溝通對象切換設定為該收音對象。
如請求項1或8所述的即時外語溝通系統，還包含一個可供該使用者持用且與該穿戴式翻譯裝置訊號連接的手控裝置，該手控裝置具有一個可顯示該視野影像以供觸碰操作的觸控顯示幕，及一個收音方位設定單元，該收音方位設定單元可分析該觸控顯示幕之該視野影像被觸碰位置相對於該使用者的方位，以得到一個手控收音方位資料，該語音擷取控制模組會優先根據該手控收音方位資料，控制啟動對應數量與位置之多個麥克風以構成麥克風陣列而朝對應之方位進行指向性收音。