[go: up one dir, main page]

TW202303585A - 音訊輔助系統、音訊輔助方法及電腦程式產品 - Google Patents

音訊輔助系統、音訊輔助方法及電腦程式產品 Download PDF

Info

Publication number
TW202303585A
TW202303585A TW111107235A TW111107235A TW202303585A TW 202303585 A TW202303585 A TW 202303585A TW 111107235 A TW111107235 A TW 111107235A TW 111107235 A TW111107235 A TW 111107235A TW 202303585 A TW202303585 A TW 202303585A
Authority
TW
Taiwan
Prior art keywords
audio
information
aforementioned
processing unit
synthesized
Prior art date
Application number
TW111107235A
Other languages
English (en)
Inventor
山本健太郎
Original Assignee
日商音印股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商音印股份有限公司 filed Critical 日商音印股份有限公司
Publication of TW202303585A publication Critical patent/TW202303585A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本揭示係提供解決或減緩在使用合成音訊來輔助使用者的技術中,在合成音訊上所留下之至少一部分的課題之技術性的改善。 本揭示之音訊輔助系統係用於透過音訊來輔助使用者,其具備至少音訊播放裝置,音訊輔助系統所具有之一個或複數個電腦處理器係包括用於利用錄音音訊來播放第一資訊的內容之第一音訊播放處理部;生成與第二資訊對應的合成音訊之音訊合成部;以及用於利用至少合成音訊來播放第二資訊的內容之第二音訊播放處理部。

Description

音訊輔助系統、音訊輔助方法及電腦程式產品
本發明係有關一種音訊輔助系統、音訊輔助方法及電腦程式產品。
近年,在智慧型手機等之資訊處理裝置中係搭載有音訊輔助功能 (例如發明專利文獻1)。 〔先前技術文獻〕 〔發明專利文獻〕
〔發明專利文獻1〕日本特開第2020-173835號公報。
如發明專利文獻1等所記載之技術,音訊輔助一般是透過使用音訊合成技術所生成之合成音訊來進行。
然而,合成音訊由於是透過人工所合成的語音波形(speech waveform)而呈單音調(monotone),因此在真的像人類正在說話一樣自然的音訊的播放上,則仍然處於留存著課題的狀態。
〔發明所欲解決之課題〕
為此,本揭示的目的係在於提供解決或減緩在使用合成音訊來輔助使用者的技術中,在合成音訊上所留下之至少一部分的課題之技術性的改善。 〔解決課題之技術手段〕
本揭示之音訊輔助系統,係用於透過音訊來輔助使用者,其具備至少音訊播放裝置,前述音訊輔助系統所具有之一個或複數個電腦處理器係包括用於利用錄音音訊來播放第一資訊的內容之第一音訊播放處理部;生成與第二資訊對應的合成音訊之音訊合成部;以及用於利用至少合成音訊來播放第二資訊的內容之第二音訊播放處理部。
第一資訊係可包括時刻資訊、天氣資訊、警報資訊以及與音訊播放裝置相關的設定資訊中之至少一種。
第二資訊係可包括排程資訊、導航資訊以及訊息資訊中之至少一種。
音訊輔助系統係可進一步具備能夠與音訊播放裝置連接的資訊處理裝置,且含有錄音音訊的第一音訊資料及/或用於生成合成音訊的第二音訊資料係藉由從能夠與資訊處理裝置連接的伺服器裝置取得而被儲存於資訊處理裝置的記憶部中。
第二資訊係可為基於從資訊處理裝置所取得的資訊之資訊。
音訊輔助系統所具有的一個或複數個電腦處理器係可進一步包括指定受理部,其受理由使用者所指定之作為錄音音訊使用的第一音訊資料及/或用於生成合成音訊的第二音訊資料。
音訊輔助系統所具有的一個或複數個電腦處理器係可進一步包括調整部,其以對使用者而言所聽到的是來自不同方向的音訊之方式來調整從第一音訊播放處理部及第二音訊播放處理部輸出的音訊。
音訊輔助系統所具有的一個或複數個電腦處理器係可進一步包括顯示處理部,其將至少兩個物件顯示於預定的顯示畫面上。至少兩個物件中所含之一個物件係可與第一音訊播放處理部所輸出的音訊對應者;至少兩個物件中所含之另一個物件係可與第二音訊播放處理部所輸出的音訊對應者。
音訊輔助系統所具有的一個或複數個電腦處理器係可進一步包括調整部,其以對使用者而言所聽到的是來自不同方向的音訊之方式來調整從第一音訊播放處理部及第二音訊播放處理部輸出的音訊。調整部係可根據在顯示畫面所顯示之至少兩個物件的位置來調整聽到音訊的方向。
本揭示之音訊輔助方法,係在用於透過音訊來輔助使用者之音訊輔助系統中執行的音訊輔助方法,音訊輔助系統係具備至少音訊播放裝置,在音訊輔助系統所具有的一個或複數個電腦處理器中係執行用於利用錄音音訊來播放第一資訊的內容之第一音訊播放處理步驟;生成與第二資訊對應的合成音訊之音訊合成步驟;以及用於利用至少合成音訊來播放第二資訊的內容之第二音訊播放處理步驟。
本揭示之電腦程式產品,係在用於透過音訊來輔助使用者之音訊輔助系統中執行的電腦程式產品,音訊輔助系統係具備至少音訊播放裝置,在音訊輔助系統所具有的一個或複數個電腦處理器中係實現利用錄音音訊來播放第一資訊的內容之第一音訊播放處理功能;生成與第二資訊對應的合成音訊之音訊合成功能;以及利用至少合成音訊來播放第二資訊的內容之第二音訊播放處理功能。 〔發明之功效〕
藉由本揭示,係可提供能夠為用於解決或減緩在使用合成音訊來輔助使用者的技術中,在上述合成音訊上所留下之至少一部分的課題提供技術性的改善之音訊輔助系統、音訊輔助方法及電腦程式產品。
針對本揭示之音訊輔助系統的實施態樣,一邊參照圖式一邊進行說明。
<系統配置> 如於圖1的一示例所示,本揭示之音訊輔助系統1000係用於透過音訊來輔助使用者,且具備至少音訊播放裝置100。
此時,音訊播放裝置100只要是能夠實現至少後述的功能之裝置即可,係可為耳機(earphone)或頭戴式耳機(headphone)等之可聽式終端機(hearable terminal)、智慧型手機(smartphone)、平板終端機(tablet terminal)、個人電腦(personal computer)等之資訊處理終端機、頭戴式顯示器(head-mounted display;HMD)或智慧型眼鏡(smart glass)等之穿戴式終端機(wearable terminal),以及除了上述以外之可播放音訊的裝置。
又如於圖2的一示例所示,本揭示之音訊輔助系統1000亦可為具備音訊播放裝置100以及資訊處理裝置200者。另外,音訊輔助系統1000亦可為具備經由網際網路(Internet)而可連接音訊播放裝置100及/或資訊處理裝置200之伺服器裝置300者。
此時,音訊播放裝置100係可為透過有線或無線而可連接資訊處理裝置200的耳機、頭戴式耳機、HMD以及智慧型眼鏡等;資訊處理裝置200係可為智慧型手機、平板終端機、個人電腦等。作為一示例,音訊播放裝置100與資訊處理裝置200的連接係可藉由Bluetooth(註冊商標)等之近距離無線通訊(Near field communication;NFC)來執行者。
<硬體配置> 在此,利用圖3來針對音訊輔助系統1000所具備的音訊播放裝置100之硬體配置進行說明。音訊播放裝置100係包括處理器(processor)101、記憶體(memory)102、儲存器(storage)103、輸入輸出介面(輸入輸出I/F(input/output Interface))104以及通訊介面(通訊I/F)105。各個配置元件係經由匯流排(bus)B而相互連接。
音訊播放裝置100係藉由處理器101、記憶體102、儲存器103、輸入輸出I/F104、以及通訊I/F105的協作而得以實現本實施態樣所記載的功能及方法。
處理器101係用於執行透過儲存在儲存器103之程式所包含的編碼(code)或命令(command)所實現之功能及/或方法。處理器101係可包括例如中央處理器(CPU;Central Processing Unit)、MPU(Micro Processing Unit;微處理單元)、GPU(Graphics Processing Unit;圖形處理單元)、微處理器(microprocessor)、處理器核心(processor core)、多處理器(multiprocessor)、ASIC(Application-Specific Integrated Circuit;特殊應用積體電路)、FPGA(Field Programmable Gate Array;現場可程式閘陣列)等,並透過積體電路(IC(Integrated Circuit;積體電路)晶片、LSI(Large Scale Integration;大型積體電路))等所形成的邏輯電路(logic circuit)(硬體)或專屬電路(dedicated circuit)來實現各個實施態樣所揭示之各個處理。又,該等電路係可藉由一個或複數個積體電路來實現,亦可藉由一個積體電路來實現各個實施態樣所示之複數個處理。再者,LSI係根據積體程度的不同,亦有被稱作VLSI(very large scale integrated circuit;特大型積體電路)、super LSI(超級大型積體電路)、ultra LSI(極大型積體電路)等之情形。
記憶體102係用於暫時儲存自儲存器103所載入(load)的程式,並向處理器101提供工作區(workspace)。在記憶體102中,亦暫時儲存了處理器101在執行程式時所產生之各種資料(data)。記憶體102係包括例如RAM(Random Access Memory;隨機存取記憶體)、ROM(Read Only Memory;唯讀記憶體)等。
儲存器103係用於儲存程式。儲存器103係包括例如HDD(Hard Disk Drive;硬式磁碟機)、SSD(Solid State Drive;固體狀態驅動器)、快閃記憶體(flash memory)等。
輸入輸出I/F104係包括用於對音訊播放裝置100輸入各種操作的輸入裝置,以及用於輸出利用音訊播放裝置100所處理之處理結果的輸出裝置。輸入輸出I/F104係可為輸入裝置與輸出裝置呈一體成形,亦可為輸入裝置與輸出裝置呈分離者。
輸入裝置係藉由能夠受理來自使用者的輸入,並將該輸入相關的資訊傳達給處理器101之所有種類的裝置中之任一種或其組合來實現。輸入裝置係包括例如觸控面板(touch panel)、觸控顯示器(touch display)、鍵盤(keybord)等之硬體鍵(hardware key)、或是滑鼠(mouse)等之指向裝置(pointing device)、攝影機(camera)(經由影像的操作輸入)、麥克風(microphone)(透過語音(sound)的操作輸入)等。
輸出裝置係用於輸出利用處理器101所處理的處理結果。輸出裝置係包括例如顯示器(display)、揚聲器(speaker)等。
通訊I/F105被作為網路配接器(network adapter)等之硬體或通訊用軟體、以及該等組合而安裝,並經由網路(network)來進行各種資料的收發。該通訊係可利用有線及無線中之任一者來執行,只要能夠執行彼此的通訊,亦可利用任何一種通訊協定(protocol)。通訊I/F105係經由網路來執行與其他的資訊處理裝置的通訊。通訊I/F105係依照來自處理器101的指示而將各種資料發送至其他的資訊處理裝置。另外,通訊I/F105係接收來自其他的資訊處理裝置所發送的各種資料,並傳達給處理器101。
除非特別註明,有關本揭示的資訊處理裝置200及伺服器裝置300亦可配置成與圖3相同的硬體配置。
需特別說明的是,雖然此處的音訊輔助系統1000所具備的音訊播放裝置100將以具有至少揚聲器的智慧型手機等之資訊處理裝置來進行說明,但並非限定於此。
<功能配置> 如於圖4的一示例所示,本揭示之音訊輔助系統1000所具有的一個或複數個電腦處理器係具備第一音訊播放處理部110、音訊合成部120以及第二音訊播放處理部130。
第一音訊播放處理部110係用於利用錄音音訊來播放第一資訊的內容。
錄音音訊係由聲優(voice actor/actress)等事先完成錄音的音訊,且作為音訊資料而與對應的第一資訊產生關連並儲存於音訊播放裝置100的記憶部。
作為第一資訊的一示例,係為時刻資訊、天氣資訊、警報資訊以及與音訊播放裝置100相關的設定資訊等之與標準內容相關的資訊。
第一音訊播放處理部110係在必須向使用者通知第一資訊時,對與該第一資訊對應的音訊資料進行特定,並藉由播放該音訊資料,而可向使用者通知第一資訊的內容。
對使用者的通知係例如在整點執行。
音訊合成部120係生成與第二資訊對應的合成音訊。
作為第二資訊的一示例係與排程(schedule)資訊、導航(navigation)資訊以及訊息(message)資訊等之非定型的內容相關的資訊。
音訊合成部120係在必須向使用者通知第二資訊通知時,根據用於生成合成音訊的音訊資料以及與第二資訊對應的文字資料來生成合成音訊。需特別說明的是,相關的音訊合成技術係可透過應用已知的技術來實現。
合成音訊的生成係例如當接收到訊息時執行。
接著,第二音訊播放處理部130係用於利用至少合成音訊來播放第二資訊的內容。
第二音訊播放處理部130係在完成合成音訊的生成時,可透過播放該合成音訊來向使用者通知第二資訊的內容。
藉由上述的配置,係可提供能夠為用於解決或減緩在使用合成音訊來輔助使用者的技術中,在上述合成音訊上所留下之至少一部分的課題提供技術性的改善之音訊輔助系統。
具體而言,不僅透過利用合成音訊並透過利用錄音音訊來作為音訊輔助時,至少在錄音音訊部分會產生人物個性特質(character),而可向使用者提供具有溫暖感的音訊輔助。又不僅透過利用錄音音訊並透過利用合成音訊來作為音訊輔助時,不論應通知的資訊之內容是定型或非定型,都可提供適當的音訊輔助。
接著,一邊參照圖5,一邊針對本揭示的一個或複數個電腦處理器進一步具備顯示處理部140的情形進行說明。
顯示處理部140係用於將至少兩個物件顯示於預定的顯示畫面上。
作為一示例,圖6係顯示在作為音訊播放裝置100的資訊處理裝置具備之顯示部所顯示的顯示畫面400之意象圖。
如圖6所示,於顯示畫面400中係顯示有兩個物件401及402。
至少兩個物件中所含之一個物件401係與第一音訊播放處理部110所輸出的音訊對應者。
在圖6中,一個物件401係被顯示為將人類插圖化(Illustration)的人物物件(character object)。
然後,從第一音訊播放處理部110輸出的音訊,亦即錄音音訊係被顯示為正由一個物件401發出該錄音音訊者。
作為一示例,顯示處理部140係在從第一音訊播放處理部110輸出錄音音訊時,以一個物件401會來到顯示畫面的中央之方式改變顯示位置。需特別說明的是,如圖6所示,當另一個物件402不是人物物件時,由於錄音音訊顯然是正由一個物件401發出,因此不需特別改變顯示位置。
另外,至少兩個物件中所含之另一個物件402係與第二音訊播放處理部130所輸出的音訊對應者。
在圖6中,另一個物件402係被顯示為不是將人類插圖化的人物物件。
然後,從第二音訊播放處理部130輸出的音訊,亦即合成音訊係被顯示為正由另一個物件402發出該合成音訊者。
作為一示例,顯示處理部140係在從第二音訊播放處理部130輸出合成音訊時,會在另一個物件402附近顯示與合成音訊對應的文字。
此外,如圖7所示,另一個物件402亦可與一個物件401同樣地被顯示為將人類插圖化的人物物件。
不論是哪一種情況,較佳地為從第一音訊播放處理部110輸出的音訊與從第二音訊播放處理部130輸出的音訊係以作為由不同的物件發出而可區分的態樣輸出者。
又如圖5所示,本揭示的一個或複數個電腦處理器係可進一步包括調整部150。
調整部150係以對使用者而言所聽到的是來自不同方向的音訊之方式來調整從第一音訊播放處理部110及第二音訊播放處理部130輸出的音訊。
作為一示例,調整部150係能夠以使用者可從一邊的耳朵方向聽到從第一音訊播放處理部110輸出的音訊之方式進行調整,並能夠以使用者可從另一邊的耳朵方向聽到從第二音訊播放處理部130輸出的音訊之方式進行調整。
又,調整部150係可根據在顯示畫面400所顯示之至少兩個物件的位置來調整可聽到音訊的方向。
作為一示例,當一個物件在顯示畫面400上被顯示於左側且另一個物件在顯示畫面400上被顯示於右側的情況下(與圖7相反的情況下),調整部150係能夠以使用者可從左耳方向聽到從第一音訊播放處理部110輸出的音訊之方式進行調整,並能夠以使用者可從右耳方向聽到從第二音訊播放處理部130輸出的音訊之方式進行調整。
又如圖6及圖7所示,在顯示畫面400上係可進一步顯示用於變更作為錄音音訊使用的資料之變更按鈕403及用於進行各種設定的選單按鈕404。
圖8係顯示當使用者選擇上述變更按鈕403時所顯示的輔助變更畫面500之意象圖。
在輔助變更畫面500上,使用者係可進行主輔助以及副輔助的變更。在此,主輔助係指與從第二音訊播放處理部130輸出的音訊對應者,且為係以正由上述物件402發出的方式所呈現者。同樣地,副輔助係指與從第一音訊播放處理部110輸出的音訊對應者,且為係以正由上述物件401發出的方式所呈現者。
接著如圖5所示,本揭示的一個或複數個電腦處理器係可進一步包括指定受理部160。
指定受理部160係受理由使用者所指定之作為錄音音訊使用的第一音訊資料及/或用於生成合成音訊的第二音訊資料。
如圖8所示,於輔助變更畫面500上,係顯示有用於切換在主輔助和副輔助之間的變更之分頁510、520,以及用於顯示可變更輔助的資訊之輔助資訊顯示欄530。
作為一示例,當分頁520被選擇的情況下,於輔助資訊顯示欄530上係顯示有輔助名稱顯示欄531、設定檔資訊顯示欄532、物件影像顯示欄533、樣本音訊播放按鈕534、購買音訊資料所需的金額顯示欄535、變更選擇按鈕536。此外,當分頁510被選擇的情況下,雖然也會顯示相同配置的畫面,但顯示的輔助係與分頁520被選擇時的輔助不同。
需特別說明的是,在圖8所示的示例中,由於在最上欄所顯示的輔助已經作為副輔助使用中,因此不會顯示樣本音訊播放按鈕534及變更選擇按鈕536,而是會顯示告知正在使用中的使用中顯示537。又在圖8中,雖然僅顯示兩個輔助資訊顯示欄530,但數量並不特別予以限制。
接著,當使用者選擇變更選擇按鈕536時,則對應的輔助會被設定為副輔助,並決定要使用作為錄音音訊的音訊資料。
需特別說明的是,雖然與全部的輔助對應的音訊資料係可事先儲存在音訊播放裝置100中,但當上述變更選擇按鈕536被選擇時,亦可為從伺服器裝置300所下載者。
此時,作為本揭示的音訊輔助系統1000的一示例,係具備於圖2所示的配置,且含有錄音音訊的第一音訊資料及/或用於生成合成音訊的第二音訊資料係可藉由從能夠與資訊處理裝置200連接的伺服器裝置取得而被儲存於資訊處理裝置200的記憶部中。需特別說明的是,在圖2中,雖然音訊播放裝置100與資訊處理裝置200被繪製成個別的裝置,但該等裝置亦可為一體的裝置。
接下來,係針對當使用者選擇顯示畫面400上顯示的選單按鈕404的情況進行說明。
圖9係顯示當使用者選擇選單按鈕404時,選單畫面600會在顯示畫面400上重疊顯示的意象圖。
如圖9所示,在選單畫面600上,係顯示有選擇輔助資訊顯示欄610以及應用程式設定欄620。
作為在選擇輔助資訊顯示欄610上所顯示的一示例,係顯示有輔助名稱611以及物件的影像顯示欄612。
作為在應用程式設定欄620上所顯示的一示例,係顯示有隨選設定按鈕630、定時播報設定按鈕640、音訊引擎詳細設定按鈕650。
當使用者選擇隨選設定按鈕630時,畫面會遷移到圖10所示的隨選輔助設定畫面700。
在隨選輔助設定畫面700上,係可對當點擊(tap)與主輔助對應的物件時欲播報的資訊進行設定。
作為一示例,係可進行以下的設定:現在時刻的播報(報時)ON/OFF、所在地天氣的播報ON/OFF、資訊處理裝置(例如智慧型手機)電池剩餘量的播報ON/OFF等。又由於主輔助係使用合成音訊,因此只要所準備的是文字資料的資訊,則可對任何的資訊進行播報。
同樣地,當使用者選擇定時播報設定按鈕640時,畫面會遷移到圖11所示的定時播報設定畫面800。
在定時播報設定畫面800上,係可對當點擊與副輔助對應的物件時或定時時欲播放的資訊進行設定。
作為一示例,係可進行以下的設定:現在時刻的播報(報時)ON/OFF、所在地天氣的播報ON/OFF、資訊處理裝置(例如智慧型手機)電池剩餘量的播報ON/OFF等。
然後,當使用者選擇音訊引擎詳細設定按鈕650時,畫面會遷移到圖12所示的音訊引擎詳細設定畫面900。
在音訊引擎詳細設定畫面900上,係可對主輔助的音訊,亦即合成音訊的音量及播報速度進行設定。
另外,雖然省略了圖示,但亦可設定成能夠對當主輔助與副輔助播放音訊的時間點重疊時要優先播放何者進行設定。
如上所述,第一資訊係可包括時刻資訊、天氣資訊、警報資訊以及與音訊播放裝置相關的設定資訊中之至少一種。
在此所述的時刻資訊係指整點。
與音訊播放裝置相關的設定資訊係可包括與電源ON/OFF、可否與其他裝置連接、電池剩餘量等相關的資訊。
由於第一資訊係藉由錄音音訊來播放,因此只要是能夠事先準備的音訊資料的資訊,則不論是何種資訊都可包括在第一資訊中。
如上所述,第二資訊係可包括排程資訊、導航資訊以及訊息資訊中之至少一種。
又第二資訊亦可與第一資訊同樣地包括時刻資訊、天氣資訊、警報資訊以及與音訊播放裝置相關的設定資訊中之至少一種。
在此所述的時刻資訊並不限定於整點,亦可包括所有分秒。
又第二資訊只要所準備的是文字資料的資訊即可,係可包括來自音訊播放裝置中所安裝的各式各樣的應用程式之通知或資訊。
其可為例如,從排程管理應用程式取得排程資訊的文字資料,並作為第二資訊來進行播報。
同樣地,係可為從地圖導航應用程式取得導航資訊的文字資料,並作為第二資訊來進行播報。
同樣地,係可為從能夠收發訊息的訊息應用程式取得與訊息的接收相關的資訊以及訊息內容的文字資料,並作為第二資訊來進行播報。
同樣地,係可為從能夠進行語音通話的語音通話應用程式取得與語音通話的來電相關的資訊之文字資料,並作為第二資訊來進行播報。
亦即,第二資訊係可被設定成是基於從資訊處理裝置取得的資訊之資訊。
以上雖然針對本揭示的音訊輔助系統的實施態樣進行了說明,但作為其他的實施態樣,亦可是根據使用者對一個物件401所進行的點擊操作,而播放與第一資訊不同的其他音訊資料。
其他音訊資料係指錄音音訊,其為根據與一個物件401對應的副輔助之設定檔所事先完成錄音的台詞。
上述的其他音訊資料,亦可為根據一個物體401被使用者點擊的時間或次數而予以變化。
又藉由本揭示的音訊輔助系統所實現的音訊輔助係可作為應用程式而被安裝在資訊處理終端機中。此應用程式只需在後台(background)執行啟動,即可實現上述的音訊輔助。
接下來,係針對本揭示的音訊輔助方法的實施態樣,一邊參照圖式一邊進行說明。
本揭示的音訊輔助方法係在用於透過音訊來輔助使用者之音訊輔助系統1000中執行的音訊輔助方法。
如圖13所示,本揭示的音訊輔助方法係在音訊輔助系統1000所具有的一個或複數個電腦處理器中執行第一音訊播放處理步驟S110、音訊合成步驟S120以及第二音訊播放處理步驟S130。
第一音訊播放處理步驟S110係利用錄音音訊來播放第一資訊的內容。有關此第一音訊播放處理步驟S110係可藉由上述的第一音訊播放處理部110來執行。
音訊合成步驟S120係生成與第二資訊對應的合成音訊。有關此音訊合成步驟S120係可藉由上述的音訊合成部120來執行。
第二音訊播放處理步驟S130係利用至少前述合成音訊來播放前述第二資訊的內容。有關此第二音訊播放處理步驟S130係可藉由上述的第二音訊播放處理部130來執行。
根據以上的配置,係可提供能夠為用於解決或減緩在使用合成音訊來輔助使用者的技術中,在上述合成音訊上所留下之至少一部分的課題提供技術性的改善之音訊輔助方法。
最後,係針對本揭示的電腦程式產品的實施態樣,一邊參照圖式一邊進行說明。
本揭示的電腦程式產品係在用於透過音訊來輔助使用者之音訊輔助系統1000中執行的電腦程式產品。
本揭示的電腦程式產品係在音訊輔助系統1000所具有的一個或複數個電腦處理器中實現第一音訊播放處理功能、音訊合成功能以及第二音訊播放處理功能。
第一音訊播放處理功能係利用錄音音訊來播放第一資訊的內容。
音訊合成功能係生成與第二資訊對應的合成音訊。
第二音訊播放處理功能係利用至少前述合成音訊來播放前述第二資訊的內容。
上述功能係可藉由圖14所示之第一音訊播放處理電路1110、音訊合成電路1120以及第二音訊播放處理電路1130來實現。第一音訊播放處理電路1110、音訊合成電路1120以及第二音訊播放處理電路1130係可分別藉由上述的第一音訊播放處理部110、音訊合成部120以及第二音訊播放處理部130來實現。有關各部的細節則承如上述。
雖然已對本發明的幾個實施態樣進行了說明,但該等實施態樣係作為一示例而提示者,並未意圖用於限定發明的範圍。該等新穎的實施態樣能夠以其他各式各樣的態樣來實施,並且能夠在不脫離發明主旨的範圍內進行各種省略、置換、變更。該等實施態樣或其變形包含在發明的範圍或主旨中,並包含在申請專利範圍所記載的發明及其均等的範圍內。
再者,於實施態樣所記載的手法亦可作為能夠在計算機(電腦)上執行的程式而儲存於例如磁碟(magnetic disc)(軟式磁碟(floppy(註冊商標) disc)、硬碟(hard disc)等)、光碟(optical disk)(CD-ROM(Compact Disc Read Only Memory;光碟唯讀記憶體)、DVD(Digital Versatile Disk;數位光碟)、MO(Magneto-Optical disk;磁光碟)等)、半導體記憶體(semiconductor memory)(ROM(Read Only Memory;唯讀記憶體)、RAM(Random Access Memory;隨機存取記憶體)、快閃記憶體(flash memory)等)等之記錄媒體(record medium),再藉由通訊媒體(communication medium)傳輸而進行散佈(distribution)。此外,在媒體端所儲存的程式中,亦包含使在計算機上執行的軟體手段(不僅包含有執行程式,亦包含表格或資料結構)構成於計算機內之設定程式。實現本裝置的計算機係讀入已記錄於記錄媒體之程式,再根據情況透過設定程式外插軟體手段,並藉由該軟體手段而透過動作的控制來執行上述的處理。此外,於本說明書所述之記錄媒體不僅是散佈用,亦包含設置在計算機內部或經由網路來連接之機器的磁碟或半導體記憶體等記錄媒體。記憶部亦可發揮作為例如主記憶裝置、輔助記憶裝置或快取記憶體(cache memory)之功能。
100:音訊播放裝置 101:處理器 102:記憶體 103:儲存器 104:輸入輸出介面 105:通訊介面 110:第一音訊播放處理部 120:音訊合成部 130:第二音訊播放處理部 140:顯示處理部 150:調整部 160:指定受理部 200:資訊處理裝置 300:伺服器裝置 400:顯示畫面 401,402:物件 403:變更按鈕 404:選單按鈕 500:輔助變更畫面 510,520:分頁 530:輔助資訊顯示欄 531:輔助名稱顯示欄 532:設定檔資訊顯示欄 533:物件影像顯示欄 534:樣本音訊播放按鈕 535:金額顯示欄 536:變更選擇按鈕 537:使用中顯示 600:選單畫面 610:選擇輔助資訊顯示欄 611:輔助名稱 612:影像顯示欄 620:應用程式設定欄 630:隨選設定按鈕 640:定時播報設定按鈕 650:音訊引擎詳細設定按鈕 700:隨選輔助設定畫面 800:定時播報設定畫面 900:音訊引擎詳細設定畫面 1000:音訊輔助系統 1110:第一音訊播放處理電路 1120:音訊合成電路 1130:第二音訊播放處理電路
〔圖1〕係顯示本揭示之音訊輔助系統的實施態樣之一示例的系統配置圖。 〔圖2〕係顯示本揭示之音訊輔助系統的實施態樣之其他示例的系統配置圖。 〔圖3〕係顯示本揭示之音訊輔助系統的硬體配置之一示例的硬體配置圖。 〔圖4〕係顯示本揭示之音訊輔助系統的功能配置之一示例的功能配置圖。 〔圖5〕係顯示本揭示之音訊輔助系統的功能配置之其他示例的功能配置圖。 〔圖6〕係顯示本揭示之顯示畫面的一示例之示意圖。 〔圖7〕係顯示本揭示之顯示畫面的一示例之示意圖。 〔圖8〕係顯示本揭示之顯示畫面的一示例之示意圖。 〔圖9〕係顯示本揭示之顯示畫面的一示例之示意圖。 〔圖10〕係顯示本揭示之顯示畫面的一示例之示意圖。 〔圖11〕係顯示本揭示之顯示畫面的一示例之示意圖。 〔圖12〕係顯示本揭示之顯示畫面的一示例之示意圖。 〔圖13〕係顯示本揭示之音訊輔助方法的流程之一示例的流程圖。 〔圖14〕係顯示本揭示之電腦程式產品的電路配置之一示例的電路配置圖。
400:顯示畫面
401,402:物件
403:變更按鈕
404:選單按鈕

Claims (11)

  1. 一種音訊輔助系統,係用於透過音訊來輔助使用者,其具備至少音訊播放裝置,前述音訊輔助系統所具有之一個或複數個電腦處理器係包括: 第一音訊播放處理部,係用於利用錄音音訊來播放第一資訊的內容; 音訊合成部,係生成與第二資訊對應的合成音訊;以及 第二音訊播放處理部,係用於利用至少前述合成音訊來播放前述第二資訊的內容。
  2. 如請求項1所記載之音訊輔助系統,其中,前述第一資訊係包括時刻資訊、天氣資訊、警報資訊以及與前述音訊播放裝置相關的設定資訊中之至少一種。
  3. 如請求項1或請求項2所記載之音訊輔助系統,其中,前述第二資訊係包括排程資訊、導航資訊以及訊息資訊中之至少一種。
  4. 如請求項1或請求項2所記載之音訊輔助系統,其中: 前述音訊輔助系統係進一步具備能夠與前述音訊播放裝置連接的資訊處理裝置; 含有前述錄音音訊的第一音訊資料及/或用於生成前述合成音訊的第二音訊資料係藉由從能夠與前述資訊處理裝置連接的伺服器裝置取得而被儲存於前述資訊處理裝置的記憶部中。
  5. 如請求項4所記載之音訊輔助系統,其中,前述第二資訊係基於從前述資訊處理裝置所取得的資訊之資訊。
  6. 如請求項1或請求項2所記載之音訊輔助系統,其所具備的一個或複數個前述電腦處理器係進一步包括: 指定受理部,係受理由前述使用者所指定之作為前述錄音音訊使用的前述第一音訊資料及/或用於生成前述合成音訊的前述第二音訊資料。
  7. 如請求項1或請求項2所記載之音訊輔助系統,其所具備的一個或複數個前述電腦處理器係進一步包括: 調整部,係以對前述使用者而言所聽到的是來自不同方向的音訊之方式來調整從前述第一音訊播放處理部及前述第二音訊播放處理部輸出的音訊。
  8. 如請求項1或請求項2所記載之音訊輔助系統,其所具備的一個或複數個前述電腦處理器係進一步包括: 顯示處理部,係將至少兩個物件顯示於預定的顯示畫面上; 前述至少兩個物件中所含之一個物件係與前述第一音訊播放處理部所輸出的音訊對應者; 前述至少兩個物件中所含之另一個物件係與前述第二音訊播放處理部所輸出的音訊對應者。
  9. 如請求項8所記載之音訊輔助系統,其所具備的一個或複數個前述電腦處理器係進一步包括: 調整部,係以對前述使用者而言所聽到的是來自不同方向的音訊之方式來調整從前述第一音訊播放處理部及前述第二音訊播放處理部輸出的音訊; 前述調整部係根據在前述顯示畫面所顯示之前述至少兩個物件的位置來調整聽到前述音訊的方向。
  10. 一種音訊輔助方法,係在用於透過音訊來輔助使用者之音訊輔助系統中執行的音訊輔助方法,其中: 前述音訊輔助系統具備至少音訊播放裝置; 在前述音訊輔助系統所具有的一個或複數個電腦處理器中執行: 第一音訊播放處理步驟,係用於利用錄音音訊來播放第一資訊的內容; 音訊合成步驟,係生成與第二資訊對應的合成音訊;以及 第二音訊播放處理步驟,係用於利用至少前述合成音訊來播放前述第二資訊的內容。
  11. 一種電腦程式產品,係在用於透過音訊來輔助使用者之音訊輔助系統中執行的電腦程式產品,其中: 前述音訊輔助系統具備至少音訊播放裝置; 在前述音訊輔助系統所具有的一個或複數個電腦處理器中實現: 第一音訊播放處理功能,係利用錄音音訊來播放第一資訊的內容; 音訊合成功能,係生成與第二資訊對應的合成音訊;以及 第二音訊播放處理功能,係利用至少前述合成音訊來播放前述第二資訊的內容。
TW111107235A 2021-03-05 2022-03-01 音訊輔助系統、音訊輔助方法及電腦程式產品 TW202303585A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/008844 WO2022185551A1 (ja) 2021-03-05 2021-03-05 音声アシストシステム、音声アシスト方法およびコンピュータプログラム
WOPCT/JP2021/008844 2021-03-05

Publications (1)

Publication Number Publication Date
TW202303585A true TW202303585A (zh) 2023-01-16

Family

ID=83155263

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111107235A TW202303585A (zh) 2021-03-05 2022-03-01 音訊輔助系統、音訊輔助方法及電腦程式產品

Country Status (2)

Country Link
TW (1) TW202303585A (zh)
WO (1) WO2022185551A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330484A (ja) * 2005-05-27 2006-12-07 Kenwood Corp 音声案内装置及び音声案内プログラム
JP2007256456A (ja) * 2006-03-22 2007-10-04 Denso It Laboratory Inc コンテンツ提供装置およびコンテンツ提供方法
CN101669166A (zh) * 2007-03-21 2010-03-10 通腾科技股份有限公司 用于文本至语音递送的设备及用于文本至语音递送的方法
JP7239359B2 (ja) * 2019-03-19 2023-03-14 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Also Published As

Publication number Publication date
WO2022185551A1 (ja) 2022-09-09

Similar Documents

Publication Publication Date Title
WO2022152064A1 (zh) 视频生成方法、装置、电子设备和存储介质
US20090099836A1 (en) Mobile wireless display providing speech to speech translation and avatar simulating human attributes
CN114257191B (zh) 均衡器调整方法和电子装置
WO2014206275A1 (en) Method and devices for outputting an audio file
US20220343929A1 (en) Personal audio assistant device and method
JP2016126445A (ja) サーバ、サーバの制御方法およびプログラム
JP3850616B2 (ja) 情報処理装置および情報処理方法、ならびに情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN106201425A (zh) 一种智能终端音频输出的方法及装置
JP7147742B2 (ja) 端末装置及び通信方法
JP2014219617A (ja) 音声案内システム及び音声案内方法
WO2024037480A1 (zh) 交互方法、装置、电子设备和存储介质
JP2018182390A (ja) 制御方法、送信装置及び受信装置
JP2020030571A (ja) 情報処理装置、コンピュータプログラムおよび情報処理方法
TW202303585A (zh) 音訊輔助系統、音訊輔助方法及電腦程式產品
JP2004178558A (ja) コンピュータシステム及びその制御方法
JP5899161B2 (ja) 端末装置、通知出力方法、及び通知出力プログラム
JP2016067817A (ja) シミュレーションゲームシステム、情報処理方法及びプログラム
JP2017194546A (ja) 電子機器、その制御方法および制御プログラム
WO2016009850A1 (ja) 音声信号再生装置、音声信号再生方法、プログラム、および、記録媒体
JP6724188B2 (ja) サーバ、サーバの制御方法およびプログラム
JP7747389B2 (ja) 情報処理装置、情報処理端末、情報処理方法、情報処理プログラム
WO2020241170A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2021071663A (ja) 音声再生デバイス、音声再生システム、音声再生方法および音声再生プログラム
US7778428B2 (en) Sound-source signal processing module
KR101377006B1 (ko) 외재화 음원 제공 시스템 및 음원 외재화 제공 방법