JP2000510270A - 音声による広域情報システム - Google Patents
音声による広域情報システムInfo
- Publication number
- JP2000510270A JP2000510270A JP10527994A JP52799498A JP2000510270A JP 2000510270 A JP2000510270 A JP 2000510270A JP 10527994 A JP10527994 A JP 10527994A JP 52799498 A JP52799498 A JP 52799498A JP 2000510270 A JP2000510270 A JP 2000510270A
- Authority
- JP
- Japan
- Prior art keywords
- information system
- area information
- wide area
- client
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 33
- 230000003252 repetitive effect Effects 0.000 claims description 13
- 241000545442 Radix Species 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims 3
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000000737 periodic effect Effects 0.000 description 4
- 239000011435 rock Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- IXSZQYVWNJNRAL-UHFFFAOYSA-N etoxazole Chemical compound CCOC1=CC(C(C)(C)C)=CC=C1C1N=C(C=2C(=CC=CC=2F)F)OC1 IXSZQYVWNJNRAL-UHFFFAOYSA-N 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 241001362551 Samba Species 0.000 description 1
- 239000007983 Tris buffer Substances 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- XIWFQDBQMCDYJT-UHFFFAOYSA-M benzyl-dimethyl-tridecylazanium;chloride Chemical compound [Cl-].CCCCCCCCCCCCC[N+](C)(C)CC1=CC=CC=C1 XIWFQDBQMCDYJT-UHFFFAOYSA-M 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
(57)【要約】
広域情報システムはクライアントと音声データが格納された少なくとも1つのサーバとを含む。少なくともときどきサーバとクライアントとの間に転送接続を確立することにより音声データはサーバからクライアントに選択的に転送される。音声データの転送は、クライアント上に設けられた入力インターフェイスを介して入力されるユーザ選択のコマンドと入力によって制御される。これらのコマンドおよび入力も,クライアントとサーバとの間で少なくともときどき確立される転送接続を介してサーバに転送される。サーバ上の音声データはハイパーオーディオ・リンクによって相互参照で関連付けられたページ・ユニットとして構成される。ページ・ユニットは可聴ディレクトリ情報の周期的に繰り返すディレクトリ・ページを使用することで特徴的に検索可能である。そのような音声を利用したシステムを可能とするためにデータ・プロトコルが定義される。
Description
【発明の詳細な説明】
音声による広域情報システム
発明の背景発明の分野
本発明は、情報を構築したり情報にアクセスするための広域情報システムおよ
びその実施方法に関する。
関連技術の説明:
インターネットのワールドワイドウェブ(WWW)部門の人気は、一般にその存在
がますます知られるようになるにつれて最近著しく上昇してきた。しかし、その
人気と多様性にもかかわらず、WWWにおいて音声情報の果たす役割は目立って小
さい。
WWW上での音声の現在の使用法としては、あるWWWサイトから音声ファイル部分
をダウンロードすることである。普通、ユーザは全部の音声ファイルが転送され
て音声ファイルを聞くことができるまでに、時には長い間、待たなければならな
い。
テキサス・インストルメンツ社(TI)が開発したシステムによればユーザは音
声インターフェイスを介してWWWにアクセスすることができ、従来のようにWWWハ
イパーリンクにアクセスするのにポイント/クリック操作の必要がない。しかし
このシステムにおいてはまだ、表示端末がブラウズしているデータを表示しコマ
ンドの入力を案内することが必要である。TIシステムによれば、ユーザはハイパ
ーリンク名を発声することにより異なるページにジャンプすることができる。
前記の従来システムにおいては音声はまだ相当に二次的なものであることが分
かる。第一に、WWWページ上の情報の大部分は音声情報ではない。第二に、ユー
ザはまだ、ナビゲートするためには、例えばTI音声インターフェイスであっても
、視覚的なインターフェイスが必要である。
後者に関しては、ユーザがコンピュータ等を使用できない場合、あるいは自動
車を運転するなど、視覚的注意を必要とすることを行っている場合には、問題と
なる。
このことから、音声は情報の重要な媒体であり続け、広域情報システムにおい
て今まで対応していなかった要求を満たすことができると思われる。
しかし、電話メニューシステム(例えばボイスメール)等、音声を使用する試
みがなされた用途においては、ユーザはメニューリストを覚えておかなければな
らず、またそのリストがあまりに多くの情報を提供しているので、ユーザがリス
トを思い出すことは困難あるいは不可能である。
発明の概要
したがって本発明の目的は、音声を情報の基本媒体として使用するクライアン
ト・サーバ広域情報システム(client-server based wide area information sys
tem)を提供することにある。
本発明によれば、たまに仮想クライアントとも呼ばれるクライアントは、音声
ファイルを再生したり、インターフェイスを介してコマンド入力に応答したり、
サーバと交信することによって音声情報の「ページ」を取り出すことができる。
クライアントは例えば電話、パソコン、ワークステーション、ラジオ等の任意の
数の装置で実現できる。
サーバはWWWと同様な音声ページと一般に呼ばれる単位で音声情報を提供する
。(後で、オーディオ・ウェブ・ページとディレクトリ・ページの違いについて
説明する。)音声ページはディレクトリ・サービスを介してインデックスが付け
られる。本発明によれば、普通、検索可能なディレクトリ・ページは周期的にユ
ーザに提示される。一般に各ディレクトリ・レベルはサブディレクトリ・ページ
への音声リンクを含んでいる。ディレクトリ・サービスの最後のレベルはそのデ
ィレクトリ・サービスで登録された個々の音声ページ(すなわちオーディオ・ウ
ェブ・ページ)を示す。
本発明の上記および他の目的および新しい特徴は、添付図面と以下の詳細な説
明からより明らかとなるであろう。
図面の簡単な説明
図1は本発明による音声クライアントを示す。
図2は本発明によるディレクトリ・サービスの階層を図式的に示す。
図3は循環ディレクトリ・ページのオプション・メニュー「ウインドウ」を示
す。
図4は本発明で使用可能なバイナリ検索方法を示す。
図5はディレクトリ・ページをナビゲートする手順の概念を示す。
図6は本発明によるデジタル・ハイパーラジオ・システムを示す。
好適実施形態の説明
本発明はまず、本システムの基本として音声情報を使用する場合について説明
する。しかしこの説明は本発明に関する概念を十分に説明するためにのみおこな
うものであり、これらの概念がマルチメディア等の他の形態やそれらを組み合わ
せた形態にも適用できることは後で述べるように明らかである。
図1は本発明によるクライアント・サーバシステムにおける仮想音声クライア
ントおよびその役割を示す。
仮想音声クライアント(ここでは互換的に「クライアント」という)は、ユー
ザがオーディオ・ウェブ(Audio Web)をナビゲートするための手段である。図
1に示すように、クライアントはいくつかの入力およびコマンドを認識できる。
例えば、クライアントは最初の5つの基数(1から5)およびSTOP(ストップ停
止))、PLAY(プレイ(再生))、FORWARD(フォワード(前送り))、BACK(バック(後送
り))、PRESET(リセット)、DELETE(削除)、RETURN(戻り)、およびGO(ゴー)コマ
ンドを認識することができる。
図1はクライアントを示し、外見がビデオカセットレコーダのリモコンに似て
おり、ボタンは前記入力に対応している。しかしこれはひとつの例に過ぎず、ク
ライアントが実際にどのように実現されるかはクライアントを構成する実際の装
置による。すなわち図1に示す概念的入力ボタンのひとつをユーザがどのように
「押す」かは、クライアントにアクセスするために使用する装置に依存する。例
えば、ユーザはその装置として電話、パソコン、ワークステーション、ラジオ等
を使用することができる。
例えば電話を使った場合、クライアントは電話と計算装置とを接続することに
よって実現できる。この接続は局所的な(すなわち配線接続された)ものであっ
てもよいし、標準の電話接続を介して電話と通信する計算装置へダイヤルするこ
とによって確立することもできる。
ユーザは、各コマンドに対応する電話のキーを押すことによって、コマンドを
出す。押されたそれぞれの数字キーに応答して電話が発生する標準トーンは、コ
ンピュータに送られ、コンピュータはそのトーンを適切に(従来の音認識ソフト
ウェアを介して)認識し、対応するプログラムを起動させ所望のコマンドを実行
する。
あるいは、ユーザは電話にコマンドを発声する。コンピュータはそれが持つ適
切な音声認識ソフトウェア(例えば、限られた語彙を持ち話手に依存しないもの
)で認識した発声コマンドを対応するコマンドプログラムに割り当てる。
パソコンまたはワークステーションがクライアントを実現するために使われた
場合、その入力装置および計算装置はひとつの「パッケージ」で提供される。こ
の場合、ユーザはマウスタイプのコントロール・デバイスと組み合わせたグラフ
ィカル・インターフェイスを使って入力する。
以上の例は説明のために示したものであって、本発明のクライアントの実現方
法に制限を加えるものではない。例えば、ラジオ・トランシーバの使用について
後でより詳しい説明を提供する。
考えているオーディオ・ウェブの概要を示すために、ユーザが与える入力とそ
れに対するクライアントとサーバの動作を次の会話形式のシナリオで示す。シナ
リオにおいて、ユーザは(キャピトル・レコードから出された)Beatles Anthol
ogy(ビートルズ名曲集)に関する情報を探そうとしている。
クライアント: オーディオ・ウェブ・ディレクトリ・サーバーにようこそ。あ
なたにとって興味深い題材を用意しています。マティーニ…マ
ウス…音楽!」
ユーザ: 停止(仮想クライアント上の停止キーを「押す」または「停止
」
と発声することによって)。
クライアント:「次のいずれかを選択してください。1:音楽、2:海の生き
物、3:図書館、4:土地の灌漑、5:凧」
ユーザ: 1(コマンドを「押す」または発声することによって)。
クライアント: <要求された音声ページに対する適切なサーバに接触する>
サーバ: <クライアントにその音声ページを送る>
クライアント: 「あなたは音楽ディレクトリを選ばれました。ここからあらゆ
る種類の音楽を入手できます!」
バロック<バロック音楽のサンプルを再生する>
ロック<ロック・ミュージック・トラックのサンプルを再生す
る>」
ユーザ: 停止。
クライアント: 「あなたが選びたいものは:1:サンバ、2:ロック、3:ジ
ャズ、4:マンボ、5:ポルカ」
ユーザ: 2。
クライアント: <要求されたページに対する適切なサーバに接触する>
サーバ: <クライアントにそのページを送る>
クライアント: 「これはロックのページです。今までの偉大なグループの音楽
を聴きましよう。ビートルズ、…」
ユーザ: 停止。
クライアント: 「あなたが聞きたいのは1:ビートルズ、2…」
ユーザ: 1。
クライアント: 「オーディオ・ウェブ・マジカル・ミステリー・ツアーによう
こそ!!
これらのページにはビートルズ・サウンド・ファイル集が含ま
れています。
最新のビートルズリリースについては新しい名曲集ページをチ
ェックしてください。」
ユーザ: 停止。
クライアント: 「次のページを訪れます:1:名曲集、2:ジョン・レノンの
ページ、3:ポール・マッカートニーのページ、4:ジョー
ジ・
ハリソンのページ、5:リンゴ・スターのページ」
ユーザ: 1。
クライアント: <要求されたページに対する適切なサーバに接触する>
サーバ: <クライアントにそのページを送る>
クライアント: 「<新しいビートルズ・トラック‘Free as a Bird’の最初の
部分
が再生され始める>」
したがって、本発明のシステムは以下の機能を必要とする。
ユーザは、ディレクトリ・サービスを使ってオーディオ・ウェブを検索して興
味のある音声ページを見つける方法を与えられる。上記の仮定の例に示されるよ
うに、オーディオ・ウェブをナビゲートする手段は重要である。この例において
、取り出された最初の3ページは、図2に示す階層構造にしたがって重ねられた
(スタックされた)ディレクトリ・ページである。
一旦、ページに入ると、「ハイパーオーディオ」リンクが他のページ(常にで
はないが、しばしば、関連する題材)へのつながりを与える。上記のように、ユ
ーザは例えば「何か新しい」ページから「名曲集」ページへ適切なハイパーオー
ディオ・リンクを使ってジャンプした。ハイパーオーディオ・リンクは一般に、
WWWにおけるハイパーテキスト・リンクに似ている(ここでは互換的に「音声リン
ク」という)。
ユーザはコマンドおよび他の情報を(クライアントを介して)入力することに
より、オーディオ・ウェブ上のナビゲートを制御できる。例えば、以下に示すよ
うに適切なナビゲーション・コマンドを使って、ユーザは「名曲集」ページを終
えた後に「何か新しい」ページにジャンプして戻り、さらに再びビートルズ・ペ
ージへ戻ることもできる。
ユーザはまた、特定の音声ページにブックマークでしるしを付けておき、ひと
つまたは複数のディレクトリをナビゲートする代わりにそのページに直接ジャン
プすることができる。さらにユーザの選択したブックマークをまとめたブックマ
ークリストも提供される。
音声ページを作ってディレクトリ・ページの階層に含めることもできる。また
、音声ページ作成者は音声ページにハイパーオーディオ・リンクを組み込むこと
ができる。
最後に、オーディオ・トラックを送信するための標準プロトコルを使用する。
ユーザが関心のあるページを探し当てることができるように、次のディレクト
リ・スキームを使用している。各ディレクトリは、ダウンロードされると、メニ
ュー選択の流れとなって周期的にユーザに音声で提供される。ディレクトリ・フ
ォーマットはもちろん用途にあったものでなければならないが、好ましくは情報
を上手に伝え、面白く、もっとも重要なことであるが、目的物を探し出すことが
できなければならない。ユーザの最初のオーディオ・ウェブへの接触は、WWW(
図2参照)場の「ホームページ」に似た、ホーム・ディレクトリ・ページ10で
ある。このホーム・ディレクトリ・ページ10は1つまたは複数のサブディレク
トリ・ページ12へのハイパーオーディオ・リンク16を含む。この構造は、い
くつかのレベルにわたって継続し、図2に概略的に示した階層ツリーのような階
層ツリー構造を構成する。最後あるいは最下のレベルにあるディレクトリ・ペー
ジ14(リーフ・ノード)は個々の音声ページであって、これらはディレクトリ
・ページに登録されている。
図2に示す重ねられた「ツリー」構成が望ましい。これは多数の音声ページに
対する管理可能なインデックスを提供しながら、リンクの出力数(fanout)を妥
当な数に抑えるからである。ここで用いたツリー構成はデータベース管理システ
ムで一般に使用されるBツリー構成に似ている。それぞれの音声ページは最大数
の音声リンク、および固定の音声情報容量を有する。これが有利であるのは、ユ
ーザがディレクトリ・ページを聞いているときに散乱した情報の波に飲み込まれ
ることがなく、またもっと重要なことは、どの選択メニューにおいても選択肢の
数が多過ぎず、ユーザが多数の選択肢を覚えておかなければならないという負担
がないからである。
本発明による別のページ構成方法(図示せず)は、与えられたページがハイパ
ーオーディオ・リンクによって少なくとも1つの他のページにリンクされるよう
に、重なる階層構造を用いないで、複数のページを提供する。
それぞれのハイパーオーディオ・リンクは、WWWにおけるハイパーテキスト・
リンクがページ上のテキストの反転部分に関連しているのと同様に、音声ページ
の音声トラックの一部分に関連している。
上記の如く、ユーザが最初にオーディオ・ウェブ・サーバに接続したとき、ユ
ーザが最初に出会う音声ページはホーム・ディレクトリ・ページである。このホ
ーム・ディレクトリ・ページは繰り返す音声トラックであり、一般に複数のハイ
パーオーディオ・リンクの一覧を示す。このディレクトリを使うには、ユーザは
(例えば、関心のある音声リンクが聞こえたときに)クライアントからSTOPコマ
ンドを発する。そしてディレクトリは、STOPコマンドが発される前の最後のk個
(例えば5個)のハイパーオーディオ・リンクからなる選択メニューを提供する
。図3は繰り返すディレクトリ・ページの概念を示し、より具体的には、ユーザ
が発したSTOPコマンドによるウィンドウ内のk個のハイパーオーディオ・リンク
の集まりを示す。
この時点で、ユーザはk個のハイパーオーディオ・リンクの名前を挙げる新し
い音声トラックを聞く。そのような音声トラックは以下の通りである。
「この時点でのあなたの選択は:」
1: <1番目のハイパーオーデイオ・リンクの名前>;
2: <2番目のハイパーオーディオ・リンクの名前>;
3: <3番目のハイパーオーディオ・リンクの名前>…
k番目のハイパーオーディオ・リンクまで。ユーザはクライアントを介して対応
する番号を入力して選択する。したがってシステムは時間ウィンドウの過去のk
個のリンクに基づいてダイナミックな選択メニューを定義する。このダイナミッ
ク・ウィンドウの概念において、ユーザはリンク出力数(fanout)(すなわち、
ある音声ページ上に定義されたハイパーオーディオ・リンクの総数)にかかわら
ず、いずれの場合もk個の選択肢の集まりを提供される、ということが理解され
るであろう。これが有利であるのは、ユーザは一度に比較的少ない数の選択肢を
扱うだけでよく、選択動作が処理可能な範囲に抑えられるからである。
しかし、このダイナミック・ウィンドウ概念でさえ、ユーザは興味のあるトピ
ックを見つけるまでに、ハイパーオーディオ・リンクの大きなリストを聞かな
ければならないということが起こり得る。
したがって本発明によれば、ディレクトリ・ページを検索するのを容易にする
方法を提供する。特にバイナリ検索法が有用である。バイナリ検索は順番に並べ
られた項目をすばやく繰り返し検索する方法として知られている。
図4はバイナリ検索法の概要を示したものである。一回目の「パス」において、
リストの中央の項目imから検索が開始される。imが探しているirよりも「大きい
」(例えば、数字的に大きいか、またはアルファベット順に後である)場合、検索
はリスト中央の「左側」すなわちリストの「より低い」端の方へ移動する。他方
、imが探している項目よりも「小さい」(例えば、数字的に小さいか、またはア
ルファベット順に前である)場合、検索はリスト中央の「右側」すなわち「より
高い」端の方へ移動する。
一般に、それぞれの移動は、パスの開始における中央点によって定義される小
部分のひとつの中央に向かう。したがって、図4に示す一回目のパスにおいて、
動きは一般に全リストの中央imからimによって定義される2つの小部分(この場
合、2つの半分)のひとつの中央へ向かう。ここでこれらの小部分のそれぞれは
imと全リストの端の一つとの間を延びる。
図4に示すように、一回目のパスにおいて、ir<imであると判断される。した
がって最初の動きは、imからilへ左の方へ向かう。ここでilはリストの端と項目
imとの間の中間である。
二番目のパスにおいて、ir>ilであると判断される。したがって、第二の動き
は、irがilとimの中間であるから、ilからirへ右の方へ向かう。irが探している
項目であるから、検索は完了する。
目標を狭めていくこの繰り返し方法を必要に応じて続けることにより、求めて
いる項目に到達する。必要とされるパスの数は全リストのサイズ(項目の数)の
対数に比例することが知られている。
本発明に適用された、バイナリ検索はブラウジング/検索システムにおいて以
下のように使用される。
ユーザが音声トラックを検索したいとき(これは音声トラックが再生されてい
る間いつでもできる)、ユーザは適宜BACKまたはFORWARDコマンドを入力する。
これに応じて、ブラウザは音声トラックにおける現在の位置tlと音声トラックの
終端または開始端teとの間の中間時点tmを特定する。そしてブラウザはtmから前
方へ音声トラックを再生する。探している項目がtmの前(すなわちtmの「左側」)
であるとユーザが判断した場合、ユーザはBACKコマンドを発し、ブラウザはtlと
tmの中間点から音声トラックを再生する。他方、探している項目がtmの後(すな
わちtmの「右側」)であるとユーザが判断した場合、ユーザはFORWARDコマンドを
入力し、音声再生をtmとteとの中間点まで進める。
図4に関して説明したように、この方法を繰り返すと、検索は比較的すばやく
目標の項目に到達する。ユーザが目標の項目に到達したら、ユーザはSTOPコマン
ドを発する。その後、目標項目に基づいて、上記のダイナミック・メニュー・ウ
ィンドウが構築される。
一旦ユーザがダイナミック・メニュー・ウィンドウからハイパーオーディオ・
リンクを選択すると、対応する音声ページがサーバからクライアントへ送られ、
上記の手順が再び始まる。より具体的に説明すると、新しく選択された音声ペー
ジがディレクトリである場合、上記のように、ユーザは再び、繰り返し音声情報
を聞くことになる。新しく選択した音声ページがオーディオ・ウェブ・ページで
ある場合、ユーザはそれに含まれる音声情報を聞き、それを望むように使用でき
る。図5は本発明によるオーディオ・ウェブのナビゲート概念を示す。
オーディオ・ウェブ・ページはディレクトリ・ページと類似の方法で処理され
る。唯一の大きな違いは、オーディオ・ウェブ・ページはディレクトリ・ページ
のように繰り返されることがない点である。ユーザはページ記述に提示される順
に、情報を線形的に受け取る。この音声情報を聞いたとき、ユーザはSTOPコマン
ドを使って、図3に示したように、そのページにおける最後のk個のハイパーオ
ーディオ・リンクによって形成される選択メニューを促す。その後、ユーザは望
みのハイパーオーディオ・リンクに対応する数字を選び、そのハイパーオーディ
オ・リンクに対応する新しいページに分岐またはジャンプすることができる(図
5を再度参照)。
時間の経過とともに、ユーザは多分多くのページに出会って、後でディレクト
リを検索するという比較的時間のかかる手順を踏まずに、それらのページに戻り
たいと思うことがあるであろう。ブックマークは、その名が示すとおり、興味の
ある特定ページに直接ジャンプできるようにそれらに単に「しるし」を付けるも
のである。ブックマークはブックマークリストに蓄積しておき、そのリストを前
記のディレクトリ・ページと同様にディレクトリ・ページとして構成することが
できる。この点で、ブックマーク・リストはディレクトリ構造におけるリーフ・
ノードと同じ構造を有する。
ブックマーク・リストを作るには、ユーザはプリセット・コマンドを使って興
味あるページにブックマークを割り当て、そのページの名前をリストに加える。
ページの名前は、そのページを指しているハイパーオーディオ・リンクの名前か
ら、あるいはユーザが与えた(例えばユーザが話した)名前からとって、ページ
・アドレスと組み合わせることができる。(ページ・アドレッシングは以下に詳
しく説明する。)
ブックマークを付けたページを取り出すには、ユーザはGOコマンドを使って興
味あるページへ直接移動してそれを取り出して再生する。望みのページが完了し
たら、ユーザはそれを停止させ、ブックマークを付けたページ上のハイパーオー
ディオ・リンクを使って他のページへ分岐する。
時間の経過とともに、ブックマーク・リストは比較的大きくなり、それを検索
することが厄介になるということが考えられる。したがって、上記のように、こ
こでバイナリ検索を再び使ってブックマークの検索を管理する。バイナリ検索を
適用するために、ブックマーク・リストは辞書編集法的に順番に並べられている
と仮定する。
音声トラックをどのように再生するか、あるいは発声コマンドをどのように認
識するかという問題が当然発生する。
WWWにおいて、ハイパー・テキスト・プロトコル(HTTP)はうまく機能してい
る、なぜならこれは状態を持たないからである。すなわち、WWWページがアクセ
スされた時はいつでも、そのページが置かれたサーバは単にそのページの内容を
クライアントに転送するだけで、その後はその要求については何も「覚えて」い
ないからである。WWWブラウザが走るクライアントはページ・レイアウトとユー
ザ・インターフェース問題を扱う。したがって、事実上、ハイパーテキスト・リ
ンクがユーザによって選択される(「クリックされる」)と、別のネットワーク接
続が確立されて、新しく選択されたページがクライアントに提供される。この特
性によって、WWWサーバは「拡大が可能」となる。
この特徴はオーディオ・ウェブにおいても重要である。ユーザが与えられたペ
ージを単に操作しているときも続けてサーバをクライアントに接続させておくの
は実際的でない。接続状態を継続して覚えておき、複数のクライアントからのコ
マンドを処理するのはサーバにとって膨大な負担となる。しかも、使用が増える
につれてシステムは拡大できなくなる。したがって、オーディオ・ウェブ用にハ
イパーオーディオ・トランスファー・プロトコル(HATP)が設けられ、これがWW
WのHTTPと同様に動作する。
本発明の一つの特徴は、HATPがクライアントへ音声ページを送るための接続な
し、あるいは状態なし、プロトコルであるということである。
オーディオ・ウェブの場合、以下の構造を有するハイパーオーディオ・マーク
アップ・ランゲージ(HAML)はハイパーテキスト・マークアップ・ランゲージ(
HTML)と同等である。
pagetype<音声トラック>
autiolinks<i:ti b,ti e,hatpアドレス>
pagetypeはそのページがディレクトリ・ページかオーディオ・ウェブ・ページか
を示す。(ディレクトリ・ページは周期的に再生されるが、オーディオ・ウェブ
・ページはそうではないため、この区別は必要である。)ページにおけるハイパ
ーオーディオ・リンクの記述は全音声トラックの後に与えられる。これによって
、全音声トラックを、好ましくは便利なデータ圧縮フォーマット(これは従来か
ら知られているものでよい)で、一つの単位として送ることができる。ハイパー
オーディオ・リンクは3つのコンポーネントを有する。すなわち、リンク番号(
上記の下付き文字i)、ハイパーオーディオ・リンク名として使用される音声トラ
ックの一部の始まりti bと終わりti eを表す(全音声トラックの始めからの)一対
の経過時間値、およびハイパーオーディオ・リンクが示すページのHATPアドレス
である。
HATPはHTTPとよく似ていることが好ましく、次の4つのステージからなる状
態なしプロトコルでなければならない。
1.接続:ユーザ・リソース・ローケータ(URL)を使ってクライアントから
それぞれのサーバへのデータ接続を確立する。
2.要求:クライアントからサーバへ要求メッセージを送る。
3.応答:サーバからクライアントへ応答メッセージを送る。
4.終了:応答メッセージが完了した後に接続を終了させる。
もちろん、HATPとHTTPとの間にはHTTPにおいて知られている概念という点でい
くつかの大きな違いはある。
1.ACCEPTヘッダー・ラインは、クライアントによって受け付けられる唯一の
フォーマットとしてHAMLを指定する。
2.ACCEPT-ENCODINGヘッダー・ラインは、HAML文書の符号化フォーマット(
例えば、x-compress,x-zip等)および音声トラックの圧縮フォーマット(例え
ば、MPEG)を指定する。
3.HTTP等におけるTEXTSEARCHの代わりに、AUDIOSEARCHと呼ばれる方法が実
行される。これによって対象物を音声の流れによって検索できる。GET法という
検索形態を使って対象物を検索する。
これ以降は、仮想クライアントが上記の機能を実行する本発明の方法について
説明する。
一般に、クライアントはHATPプロトコルを走らせてHAMLページ記述を要求し受
け取る。クライアントはまた上記のコマンド(例えば、STOP、FORWARD、BACK、P
LAY、RESET等)を認識し実行する。最後に、クライアントはオーディオ・ウェブ
・ページからの音声トラックを再生する。
1.STOPコマンド
ページ再生中に、ユーザはSTOPコマンドを発することができる。この時点で、
ブラウザは音声トラックの再生を停止し、STOPコマンドが発せられた時点より前
の音声トラックの最後のk個のリンクを含むダイナミック・メニュー・ウィンド
ウを作成する。
そのために、ブラウザは音声トラックの始めからの経過時間を追跡し、またST
OPコマンドが発せられた時刻を記録する。この時刻はtsで表される。その後、
クライアントのオーディオ・ウェブ・ブラウザは以下のアルゴリズムに従う。
tj b>tsとなるようなリンクリスト内の最初のリンクjを見出す;
リンクjから、およびリンクリストを後に検索しながら、次のことを行う
:
menu=0(メニュー・ウィンドウを最初に空にするために);
m=1;
後方に検索しながらGL(Get Link):next link i(次のリンクiを捕らえる)
項目iがまだメニューにある場合、
STに行く(ページが例えば5リンクよりも少ない場合);
さもなければ、
項目<m、リンク名、リンク・アドレス、ti b,ti e>をメニューに
挿入する。
m=m+1
(例えば)m<5の場合、GLに行く。
ST:メニュー・リストのメニュー項目を再生し、選択肢(1から5までの数字)
を待つ
m=choice(選択肢)エントリにおけるリンク・アドレスによって示されるページ
を取り出す。
2.上記のように、FORWARDとBACKコマンドはディレクトリ・ページのバイナ
リ検索に関して有用である。ブラウザは次のアルゴリズムを使ってこれらのコマ
ンドを実行する。
経過時間に関して、tlとtrはそれぞれ当該音声トラックの開始端と終了端であ
り、tsはその音声トラックの開始点である。再生の始めの時点では、tl=ts=0で
ある。上記のように、trは音声トラックの終了時間と同じに設定されている。
a. FORWARDコマンドが発せられたら、以下の手順が行われる。
音声トラックの再生を停止する
tl=tsと設定する
ts=1/2(tl+tr)と設定する
時刻tsから音声トラックの再生を開始する。
b. BACKコマンドが発せられたら、以下の手順が行われる。
音声トラックの再生を停止する
ts=tmと設定する
ts=1/2(tl+tr)と設定する
新しい時刻tsから音声トラックの再生を開始する。
3.RETURNコマンドは、ブラウザに現在のページの直前のページを取り出すよ
うに命令するために使用する。ブラウザはメモリ・キャッシュを保持して現在の
ページの直前のページを保存しておくことが好ましい。またブラウザは、(例え
ば、ユーザがジャンプしたハイパーオーディオ・リンク番号をキャッシュするこ
とにより)直前のページを離れた状態を記憶することにより、直前ページの音声
トラックをそれから離れた点から再び再生できるようにすることがさらに望まし
い。
4.PLAYコマンドは、STOPコマンドで再生を停止した後に、再生を再開するた
めに使用する。PLAYコマンドはSTOPコマンドで停止した点で再生を再開させる。
5.上記のように、PRESETコマンドはブックマーク・リストに新しいエントリ
を追加するために使用する。このコマンドは、現在のページへのリンクをその名
前とともにブックマーク・リストに迫加するようにブラウザに対して命令する。
例えばブラウザは、ブックマーク・リストにエントリを追加させるために、その
リンク名を発声するようにユーザに促すか、あるいはメモリ・キャッシュ内のペ
ージからリンク名を取ることもできる。ブックマークを付けられたリンクは、上
述のようにHAMLリンク記述子としてエントリされる。
6.GOコマンドは、ブックマーク・リストを繰り返し情報の流れとして再生開
始するようにブラウザに命令し、それによってブックマーク・リストを上述のデ
ィレクトリ・システムの変形として扱う。GOコマンドを使用した後システムは、
ダイナミック・メニュー・ウィンドウを作成するためにユーザがSTOPコマンドを
使うまで、あるいはブックマーク・リストをバイナリ検索するためにFORWARDコ
マンドまたはBACKコマンドを使うまで、続行する。
WWWのウェブ・ページはテキスト列を使って検索できる。したがって、WWW
ページは市ごとの天気データ、カタログ等の情報データベースを含むことができ
る。同様な特徴はオーディオ・ウェブにも設けられている。
本発明によれば、ユーザは音声列を送ってそれに対応する音声情報を受け取る
ことによって音声ページを検索する。そのようなページを提供されたら、クライ
アントはユーザが問い合わせを発声するのを待ち、上記のAUDIOSEARCH法を使っ
てユーザの要求をサーバに送る。
そのような音声検索は、相当大きな語彙を有し且つ正確で話手に依存しない音
声認識能力、あるいは音声の流れに「ほぼ匹敵する」手段を必要とする。
ここに開示されたオーディオ・ウェブに関する概念は、ラジオを聞くことに特
に適応できる。したがって本発明によるデジタル・ハイパー・ラジオ(「DHR」)
もここで説明する。
DHRの概念を説明するために、図6において例えば英国放送協会(「BBC」)の国
際ラジオ放送のラジオ送信と比較する。例えば、ニューヨーク市でBBC放送を個
別に聞くとき、ラジオをBBC中継局が使う周波数に同調させる。ところが、DHRを
使えば、上記の説明と同じようにして、使用可能な周波数バンドの一部を使って
ハイパーオーディオ・リンクのリストが放送される。実際には、ラジオ送信はHA
MLフォーマットを使ったオーディオ・ウェブ・ページのフォーマットを有する。
各ハイパーオーディオ・リンクはそれぞれのオーディオ・ウェブ・サーバを示し
、オーディオ・ウェブ・サーバはそのリンクで指名されたトピックについて更な
る情報を提供する。したがって、この構成において、可聴放送ラジオ送信は新し
いヘッドラインのみからなり、一方それぞれの全ニュース・ストーリーはラジオ
送信「ページ」によって指定されたオーディオ・ウェブ・ページにおいて得られ
る。聞き手は、特別に装備されたラジオ・トランシーバをクライアントとして使
って、ニュース・ヘッドラインの送信を停止させ、リンクのメニューを得、興味
あるトピックを選び、オーディオ・ウェブ・サーバから対応する全ニュース・ス
トーリーをダウンロードする。
リンクはまた他のラジオ放送周波数を示すこともでき、ラジオ・トランシーバ
は対応するリンクを選択した後にその周波数に自動的に同調する。これらの送信
は例えば最初の放送で流したトピックに関する拡張された情報を提供するか、あ
るいはもっと詳しい選択肢のリストを提供する。
ここで説明した概念は他の形態の媒体に有用に適用できることが理解されるで
あろう。
映像情報の場合、ディレクトリ・ページは「予告編」(すなわち全プログラム
を見るように視聴者を誘うために使われるプログラムからとった短いビデオ)の
周期的な流れから構成してもよい。ユーザがSTOPコマンドを使ってディレクトリ
の流れを停止させると、ダイナミック・メニュー・ウィンドウが作成される。メ
ニュー・ウィンドウは(例えば)5つのビデオ静止フレームを表示する。これら
はSTOPコマンドを使用する直前に映された5つの予告編から1つづつ採ったもの
である。ユーザは1、2、…5を入力することによってプログラムの1つを選択
する。最初のディレクトリ・ページで表示されるそれぞれの予告編は共通のトピ
ック、例えば「音楽」、についてのあらましであることが好ましい。こうして最初
の予告編の中から選択したら、ユーザは最初の予告編の共通トピックに関連する
別の周期的な予告編の流れを見る。
一旦望みのビデオ・ページが見つかったなら、ユーザはそのページをビデオ・
プログラムとして受け取る。そのページはまた異なるビデオ・ページを示すハイ
パービデオ・リンクを含む。オーディオ・ウェブの場合と同様に、ユーザはプロ
グラムの途中いつでもビデオ再生を停止し、その時点までにプログラムで識別さ
れた例えば最後の5つのハイパービデオ・リンクのダイナミック・メニュー・ウ
ィンドウを作成する。メニューからハイパービデオ・リンクの1つを選択すると
、クライアントはサーバから対応するビデオ・プログラムをダウンロードしその
再生を開始する。
本発明によるビデオ・ページは音声ページと同様にフォーマットされており、
ハイパービデオ・リンクのフォーマットは<i:ti b,ti e,アドレス>、ここでti b
,ti eはそれぞれハイパービデオ・リンク名として使用されるフレームの始めと
終わりを表す。
このフォーマットのクライアントは、上記のコマンド用として適切な押しボタ
ン入力を備えたリモート・コントロール・ユニットを有する対話型のテレビ・ユ
ニットであることが好ましい。またコマンドを(ソフトウェアを走らせている代
理クライアントに)アップリンクするのに必要なデータ・バンド幅は最小である
ことが有利である。
本発明によれば、テキスト情報も管理される。例えば、テキストのティッカー
・タイプ表示を使って周期的なディレクトリ・ページを表示できる。前記と同様
に、ユーザは望みの位置で表示を停止させ、ダイナミック・メニュー・ウィンド
ウを作成し、興味ある項目を選択する。望みのテキスト・ページに到達したら、
そのページは制限された状態で表示されるか、あるいは余分の実際の状態が使用
できる場合、別のところに表示される。
ハイパーテキスト・リンクは、ハイパーオーディオ・リンクやハイパービデオ
・リンクと同じように、フォーマット<i:b、e、アドレス>を使って符号化され
る。唯一の違いはbとeが、経過時間の代わりに、バイト単位でのテキストの流
れの始めからの変位を表していることである。
ユーザはテキスト・ウェブを使って、(時には携帯情報端末(PDA)として知
られている)手の上のコンピュータ・ユニットをクライアントとして使用する。
PDAは普通その計算能力が制約され、表示も小さい。それでも、ユーザはPDAを使
ってディレクトリ・ページ、ダイナミック・メニュー・ウィンドウおよびテキス
ト・ページを思い通りに表示できる。しかも、ユーザは全テキストーページを、
例えばファックス・オン・デマンド・モードのファックス等、他の装置に送って
より容易に読むことができる。
最後に、マルチメディア・ウェブは、音声、映像およびテキストを組み合わせ
て表示することによって実現できる。この場合、これら3つのメディアは第一級
の対象物である。ウェブ概念の各ステージにおいて、ユーザは上記の概念にした
がって、音声、映像およびテキストによるマルチメディア情報を受け取る。
本発明はWWW用の新しいブラウザおよびナビゲータを包含することが理解され
るであろう。特に、周期的ディレクトリは現在知られているWWWナビゲーション
法に組み込むことができる。
【手続補正書】特許法第184条の8第1項
【提出日】平成10年12月4日(1998.12.4)
【補正内容】
請求の範囲
1.少なくとも1つのサーバが少なくとも1つの音声ページと音声コマンドを認
識する手段とを有し、前記少なくとも1つの音声ページのそれぞれが音声データ
を有し、少なくとも1つの他の音声ページに相互参照によってリンクされるよう
に構成された少なくとも1つのサーバと、
前記少なくとも1つのサーバが前記音声コマンドを受け取ったときにテキスト
または視覚的インターフェイスなしで前記音声データが選択的に前記クライアン
トに転送されるように、前記少なくとも1つのサーバと通信するクライアントと
を具えたことを特徴とする広域情報システム。
2.請求項1に記載のシステムにおいて、前記少なくとも1つのサーバはスタッ
クされた階層に構成された複数の音声ページを含むことを特徴とするシステム。
3.請求項2に記載のシステムにおいて、前記スタックされた階層は最上レベル
にホーム・ページを含み、前記ホーム・ページは選択的に前記クライアントに転
送される最初の音声データを有することを特徴とするシステム。
4.請求項3に記載のシステムにおいて、前記ホーム・ページは繰り返し音声ト
ラックに対応する音声データを有するディレクトリ・ページであることを特徴と
するシステム。
5.請求項4に記載のシステムにおいて、前記繰り返し音声トラックは前記ホー
ム・ページの下の階層レベルにある音声ページへの複数の相互参照を含むことを
特徴とするシステム。
6.請求項5に記載のシステムにおいて、前記階層は最下レベルを含み、該最下
レベルは、少なくとも1つのページであって、少なくとも1つの他のページへの
少なくとも1つの相互参照リンクを有する少なくとも1つのページを含むことを
特徴とするシステム。
7.請求項6に記載のシステムにおいて、前記階層は、前記最下レベルの上の少
なくとも1つの中間レベルを含み、前記少なくとも1つの中間レベルは、少なく
とも1つのページであって、前記少なくとも1つの中間レベルの上の前記階層レ
ベルにあるページへの少なくとも1つの相互参照リンクおよび前記少なくとも1
つの中間レベルの下のレベルにあるページへの少なくとも1つの相互参照リンク
を有する少なくとも1つのページを有することを特徴とするシステム。
8.請求項7に記載のシステムにおいて、前記クライアントは前記少なくとも1
つのサーバからの前記音声データの転送を制御し、前記少なくとも1つのサーバ
から転送される音声データを聞こえるようにするための手段を含むことを特徴と
するシステム。
9.請求項8に記載のシステムにおいて、前記音声データの転送を制御する手段
は前記ディレクトリの前記繰り返し音声トラックを制御するためのコマンドを入
力する手段を含むことを特徴とするシステム。
10.請求項9に記載のシステムにおいて、前記コマンドを入力する手段は前記
繰り返し音声トラックの再生を停止させるためのコマンドを入力する手段を含む
ことを特徴とするシステム。
11.請求項10に記載のシステムにおいて、前記クライアントは、前記繰り返
し音声トラックの再生を停止させるためのコマンドを受ける直前の前記繰り返し
音声トラックにおける前記複数の相互参照からなる部分集合を識別する手段を含
むことを特徴とするシステム。
12.請求項11に記載のシステムにおいて、前記クライアントは前記部分集合
内の前記相互参照のひとつを選択する手段を含むことを特徴とするシステム。
13.請求項12に記載のシステムにおいて、前記複数の相互参照からなる部分
集合を識別する手段は前記部分集合内の前記相互参照の可聴リストを生成するこ
とを特徴とするシステム。
14.請求項13に記載のシステムにおいて、前記部分集合内の前記相互参照は
基数の集合に対応し、前記繰り返し音声トラックを制御するためのコマンドを入
力する手段は前記部分集合内の前記相互参照の1つを選択するための基数を入力
する手段を含み、前記選択された相互参照に対応するページは前記音声データ転
送接続を介して前記クライアントに転送されることを特徴とするシステム。
15.請求項14に記載のシステムにおいて、前記コマンドを入力する手段は前
記音声トラックの再生再開コマンドを入力する手段を含むことを特徴とするシス
テム。
16.請求項15に記載のシステムにおいて、前記コマンドを入力する手段は検
索コマンドを入力する手段を含み、望みの相互参照を見出すために前記繰り返し
音声トラックを検索することができることを特徴とするシステム。
17.請求項16に記載のシステムにおいて、前記検索コマンドは前記繰り返し
音声トラックの再生を、与えられた時点に関してある時間間隔だけ進めるための
前送りコマンドと、前記繰り返し音声トラックの再生を与えられた時点に関して
ある時間間隔だけ戻すための後送りコマンドとを含むことを特徴とするシステム
。
18.請求項17に記載のシステムにおいて、前記繰り返し音声トラックの再生
を進め、または戻す際の前記時間間隔は、バイナリ検索アルゴリズムにしたがっ
て変えることができることを特徴とするシステム。
19.請求項18に記載のシステムにおいて、再生を進めたり戻したりする際の
前記時間間隔は、前記前送りと後送りコマンドが繰り返し入力されるにしたがっ
て次第に減少することを特徴とするシステム。
20.請求項1に記載のシステムにおいて、前記クライアントはさらに前記クラ
イアントに転送される音声データを聞こえるようにする手段を含むことを特徴と
するシステム。
21.請求項20に記載のシステムにおいて、前記クライアントは複数の基数と
少なくとも1つのコマンド動作を入力する手段を備えることを特徴とするシステ
ム。
22.請求項21に記載のシステムにおいて、前記複数の基数と少なくとも1つ
のコマンド動作を入力する手段は前記複数の基数のそれぞれと前記少なくとも1
つのコマンド動作に割り当てられた各キーまたはキーの組み合わせを有するキー
パッドを備えることを特徴とするシステム。
23.請求項22に記載のシステムにおいて、前記クライアントは前記キーパッ
ドとイヤピースを有する電話を備え、前記少なくとも1つのサーバは前記キーま
たはキーの組み合わせが押されたときに前記電話が発生するトーンを認識する手
段を備え、前記音声データを聞こえるようにする手段は前記音声データを前記イ
ヤピースにおいて聞こえるようにする手段を含むことを特徴とするシステム。
24.請求項22に記載のシステムにおいて、前記クライアントは音声発生装置
とキーボードを有するコンピュータを備え、前記キーボードは基数入力および少
なくとも1つのコマンド動作手段を備え、前記音声データを聞こえるようにする
手段は前記音声データを前記音声発生装置において聞こえるようにする手段を含
むことを特徴とするシステム。
25.請求項21に記載のシステムにおいて、前記複数の基数と少なくとも1つ
のコマンド動作を入力する手段は前記複数の基数と少なくとも1つのコマンド動
作に対応する発声された言葉を認識する手段を備えることを特徴とするシステム
。
26.少なくとも1つのサーバと1つのクライアントとを備え、前記サーバのそ
れぞれが音声データを有する少なくとも1つの音声ページと音声コマンドを認識
する手段とを有し、情報がすべて音声ページとして格納され、システムがテキス
トまたは表示装置を使用しないでナビゲートされるような広域情報システムにお
いて前記音声データをユーザに提示する方法であって、
前記クライアントから前記サーバへの接続を確立するステップと、
前記少なくとも1つの音声ページを要求するための、識別子を有する音声要求
メッセージを前記クライアントから前記サーバへ送るステップと、
前記メッセージ要求により識別された音声データを有する前記要求された音声
ページを前記サーバから前記クライアントが受け取るステップと、
前記接続を終了させるステップと、
前記クライアントにおいて前記受け取った音声ページを前記ユーザに提示する
ステップとを有する
ことを特徴とする方法。
27.請求項26に記載された方法において、前記受け取るステップはさらに前
記メッセージ要求によって識別された前記音声ページを前記サーバから送るサブ
ステップを有し、前記音声ページはページ・タイプ識別子を含み、前記ページ・
タイプ識別子は前記音声ページが繰り返し音声トラックを有するディレクトリ・
ページであるか、あるいは線形音声トラックと前記音声トラックの後にハイパー
オーディオ・リンクとを有するオーディオ・ウェブ・ページであることを示し、
前記ハイパーオーディオ・リンクはリンク番号、一対の経過時間および前記ハイ
パーオーディオ・リンクが示すアドレスを有することを特徴とする方法。
28.請求項27に記載された方法において、前記提示するステップは、さらに
、
前記クライアントにおいて、それぞれが前記受け取った音声データの一部に対
応する複数の選択肢を有する選択メニューをユーザに提供するステップと、
前記クライアントにおいて、前記受け取った音声データの一部に対応する前記
複数の選択肢の1つを前記選択メニューから選択するステップと、
前記選択された選択肢に対応する前記音声データが前記クライアントで受け取
られるように、前記受け取った音声データの一部をクライアントから前記サーバ
へ転送するステップと
を有することを特徴とする方法。
29.請求項28に記載された方法において、前記提示ステップは、さらに、前
記転送された音声データを可聴音に変換するステップを含むことを特徴とする方
法。
30.請求項29に記載された方法において、選択メニューを提供する前記ステ
ップは、
前記複数の選択肢からなる第1集合を順に提示するステップと、
前記第1集合の複数選択肢の前記提示を停止するステップと、
前記第1集合の選択肢の中から第2集合の選択肢を提示するステップとを有し
、
前記第2集合は前記選択メニューを形成することを特徴とする方法。
─────────────────────────────────────────────────────
フロントページの続き
(51)Int.Cl.7 識別記号 FI テーマコート゛(参考)
H04M 3/42 H04M 3/493
3/493 G10L 9/00 N
G06F 15/40 370E
Claims (1)
- 【特許請求の範囲】 1.クライアントと、 音声データを格納し、前記クライアントと音声データ転送接続を少なくともと きどき有するように構成され、前記音声データが前記クライアントに選択的に転 送される少なくとも1つのサーバと を具えたことを特徴とする広域情報システム。 2.請求項1に記載の広域情報システムにおいて、前記クライアントは入力イン ターフェイスと出力インターフェイスを含むことを特徴とする広域情報システム 。 3.請求項2に記載の広域情報システムにおいて、前記入力インターフェイスは 前記少なくとも1つのサーバから前記クライアントに前記音声データの転送を制 御する手段を含むことを特徴とする広域情報システム。 4.請求項3に記載の広域情報システムにおいて、前記音声データの転送を制御 する前記手段は複数の基数と少なくとも1つのコマンド動作を入力する手段を有 することを特徴とする広域情報システム。 5.請求項3に記載の広域情報システムにおいて、前記出力インターフェイスは 前記クライアントに転送した前記音声データを聞こえるようにする手段を有する ことを特徴とする広域情報システム。 6.請求項4に記載の広域情報システムにおいて、前記出力インターフェイスは 前記クライアントに転送した前記音声データを聞こえるようにする手段を有する ことを特徴とする広域情報システム。 7.請求項6に記載の広域情報システムにおいて、、前記クライアントはキーパ ッドとイヤピースを有する電話とを備え、 前記複数の基数と少なくとも1つのコマンド動作を入力する手段は、前記複数 の基数と前記少なくとも1つのコマンド動作のそれぞれに割り当てられた、前記 キーパッドの各キーまたはキーの組み合わせを有し、 前記クライアントと前記少なくとも1つのサーバのいずれかは、前記キーパッ ドの前記キーまたはキーの組み合わせが押されたときに前記電話が発生した音を 認識し、当該認識した音を前記サーバが認識できる形態に変換する手段を備え、 前記音声データを聞こえるようにする前記手段は、前記転送された音声データ を前記電話の前記イヤピースを介して聞こえる音信号に変換する手段を備えるこ とを特徴とする広域情報システム。 8.請求項6に記載の広域情報システムにおいて、前記クライアントはマウスピ ースとイヤピースを有する電話を備え、 前記複数の基数と少なくとも1つのコマンド動作を入力する手段は、前記マウ スピースを介して受けた前記複数の基数と少なくとも1つのコマンド動作に対応 する発生された言葉を認識し、前記認識した発声語を前記少なくとも1つのサー バが認識できる形態に変換する手段を有し、 前記音声データを聞こえるようにする手段は、前記転送された音声データを前 記電話の前記イヤピースを介して聞こえる音信号に変換する手段を有することを 特徴とする広域情報システム。 9.請求項6に記載の広域情報システムにおいて、前記クライアントは、相互接 続されたキーボード、中央演算ユニットおよび表示装置を含むコンピュータを備 え、 前記複数の基数と少なくとも1つのコマンド動作を入力する前記手段は前記キ ーボードを有し、 前記コンピュータはさらに音声発生装置を含み、前記音声データを聞こえるよ うにする前記手段は前記音声発生装置を有することを特徴とする広域情報システ ム。 10.請求項5に記載の広域情報システムにおいて、前記少なくとも1つのサー バに格納された前記音声情報は重なった階層に構成された複数のページを有し、 前記ページのそれぞれは少なくとも他の1つのページに相互参照により関連付け られていることを特徴とする広域情報システム。 11.請求項10に記載の広域情報システムにおいて、前記重なった階層はその 最上レベルにホーム・ページを含み、前記ホーム・ページは前記クライアントに 最初に転送される音声データであることを特徴とする広域情報システム。 12.請求項11に記載の広域情報システムにおいて、前記ホーム・ページは繰 り返し音声トラックに対応する音声データを含むディレクトリ・ページであり、 前記繰り返し音声トラックは前記音声データを聞こえるようにする手段によって 聞こえるようにされることを特徴とする広域情報システム。 13.請求項12に記載の広域情報システムにおいて、前記繰り返し音声トラッ クは前記ホーム・ページの下の前記階層レベルにあるページへの複数の相互参照 を含むことを特徴とする広域情報システム。 14.請求項13に記載の広域情報システムにおいて、前記階層は少なくとも1 つの中間レベルを含み、前記少なくとも1つの中間レベルは、前記少なくとも1 つの中間レベルの上の前記階層レベルにあるページへの少なくとも1つの相互参 照リンクと前記少なくとも1つの中間レベルの下のレベルにあるページへの少な くとも1つの相互参照リンクとを有する少なくとも1つのページを含むことを特 徴とする広域情報システム。 15.請求項14に記載の広域情報システムにおいて、前記階層は最下レベルを 含み、前記最下レベルは、その上の前記階層レベルにある少なくとも1つのペー ジへの少なくとも1つの相互参照リンクを有する少なくとも1つのページを含む ことを特徴とする広域情報システム。 16.請求項13に記載の広域情報システムにおいて、前記階層は最下レベルを 含み、前記最下レベルは、その上の前記階層レベルにある少なくとも1つのペー ジへの少なくとも1つの相互参照リンクを有する少なくとも1つのページを含む ことを特徴とする広域情報システム。 17.請求項1に記載の広域情報システムにおいて、前記少なくとも1つのサー バに格納された前記音声データは複数のページを有し、前記複数のページのそれ ぞれは前記複数のページの少なくとも1つの他のページに相互参照により関連付 けられていることを特徴とする広域情報システム。 18.請求項10に記載の広域情報システムにおいて、第1のサーバと第2のサ ーバとが設けられ、それぞれのサーバは音声データを格納し、前記第1と第2の サーバの前記音声データはそれぞれ第1と第2の複数ページを有し、前記第1と 第2の複数ページのそれぞれのページは前記第1と第2の複数ページの少なくと も1つの他のページに相互参照により関連付けられ、 前記第1の複数ページの少なくとも1つのページは前記第2の複数ページの1つ のページに相互参照により関連付けられ、前記第1と第2のサーバはそれらの間 の音声データ転送接続を少なくともときどき有するように構成されており、それ によって音声データが前記第1と第2のサーバ間で転送できることを特徴とする 広域情報システム。 19.請求項13に記載の広域情報システムにおいて、前記音声データの転送を 制御する前記手段は前記ディレクトリ・ページの前記繰り返し音声トラックを制 御するコマンドを入力する手段を含むことを特徴とする広域情報システム。 20.請求項19に記載の広域情報システムにおいて、前記コマンドを入力する 手段は前記繰り返し音声トラックの再生を停止させるコマンドを入力する手段を 含むことを特徴とする広域情報システム。 21.請求項20に記載の広域情報システムにおいて、前記クライアントは前記 繰り返し音声トラックの再生を停止させるコマンドを受け取る直前の前記繰り返 し音声トラックにおける前記複数の相互参照からなる部分集合を識別する手段を 含むことを特徴とする広域情報システム。 22.請求項21に記載の広域情報システムにおいて、前記クライアントは前記 部分集合内の前記相互参照のひとつを選択する手段を含むことを特徴とする広域 情報システム。 23.請求項22に記載の広域情報システムにおいて、前記複数の相互参照から なる部分集合を識別する前記手段は前記部分集合内の前記相互参照の可聴リスト を生成することを特徴とする広域情報システム。 24.請求項23に記載の広域情報システムにおいて、前記部分集合内の前記相 互参照は対応する基数に関連付けられており、前記繰り返し音声トラックを制御 するコマンドを入力する前記手段は、前記部分集合内の前記相互参照の1つを選 択するための基数を入力する手段を含み、前記選択された相互参照に対応するペ ージが前記音声データ転送接続を介して前記クライアントに転送されることを特 徴とする広域情報システム。 25.請求項19に記載の広域情報システムにおいて、コマンドを入力する前記 手段は検索コマンドを入力する手段を含み、前記繰り返し音声トラックを検索す ることにより望みの相互参照を見出すことができることを特徴とする広域情報シ ステム。 26.請求項25に記載の広域情報システムにおいて、前記検索コマンドは前記 繰り返し音声トラックの再生を与えられた時点に関してある時間間隔だけ進める ためのフォワード(FORWARD)コマンドと、前記繰り返し音声トラックの再生を 与えられた時点に関してある時間間隔だけ戻すためのバック(BACK)コマンドと を含むことを特徴とする広域情報システム。 27.請求項26に記載の広域情報システムにおいて、前記繰り返し音声トラッ クの再生を進めたり戻したりする際の前記時間間隔は、バイナリ検索アルゴリズ ムにしたがって変えることができることを特徴とする広域情報システム。 28.請求項27に記載の広域情報システムにおいて、前記再生を進めたり戻し たりする際の時間間隔は、前記フォワードおよび前記バックコマンドが繰り返し 入力されるにしたがって次第に減少することを特徴とする広域情報システム。 29.請求項10に記載の広域情報システムにおいて、前記クライアントはユー ザが作成した相互参照ブックマークの付いたページを識別する手段を含み、 前記ページは前記ブックマークを選択することにより直接選択されて前記少な くとも1つのサーバから前記クライアントに転送され、また前記クライアントは 複数の前記ユーザ作成ブックマークを格納する手段を含むことを特徴とする広域 情報システム。 30.請求項29に記載の広域情報システムにおいて、複数のブックマークを格 納する前記手段はディレクトリ・ページであり、前記ディレクトリ・ページは前 記複数のブックマークを可聴的にリストする繰り返し音声トラックに対応する音 声データを含むことを特徴とする広域情報システム。 31.請求項30に記載の広域情報システムにおいて、前記音声データ転送を制 御する前記手段はブックマークの付いたページを取り出すためのコマンドを入力 する手段を含むことを特徴とする広域情報システム。 32.請求項10に記載の広域情報システムにおいて、前記クライアントは、前 記クライアントに送った最新ページの直前の少なくとも1つのページを保持する ように構成されたメモリ・キャッシュを含むことを特徴とする広域情報システム 。 33.請求項32に記載の広域情報システムにおいて、前記音声データ転送を制 御する前記手段は、前記最新ページと前記メモリ・キャッシュに保持された前記 少なくとも1つのページとの間を移動するためのコマンドを入力する手段を含む ことを特徴とする広域情報システム。 34.請求項20に記載の広域情報システムにおいて、コマンドを入力する前記 手段は、再生を停止させるための前記コマンドを入力することにより前記再生を 停止した後に、前記音声トラックの再生を再開するためのコマンドを入力する手 段を含むことを特徴とする広域情報システム。 35.請求項29に記載の広域情報システムにおいて、前記クライアントはペー ジに付けたブックマークを消去する手段を含むことを特徴とする広域情報システ ム。 36.クライアントと、音声データを複数のページとして格納したサーバとを備 え、前記クライアントと前記サーバとがそれらの間に少なくともときどき音声デ ータ転送接続を有するように構成された広域情報システムにおいて、 音声データ転送接続がクライアントとサーバとの間で確立される接続ステップ と、 クライアントが音声データの要求をサーバに送る要求ステップと、 前記要求ステップにおいてクライアントが要求した音声データをサーバが送る 応答ステップと、 クライアントとサーバとの間の前記音声データ転送接続が解消される終了ステ ップと、 を有することを特徴とする音声データプロトコル。 37.請求項36に記載の音声データ転送プロトコルにおいて、前記要求ステッ プにおいて、クライアントは音声データのみを受け取り、前記音声データはペー ジの形態を有し、および 音声データのページを、繰り返し音声トラックに対応する音声データを含むデ ィレクトリ・ページとして、あるいは線形に再生される音声トラックに対応する 音声データを含む非ディレクトリ・ページとして識別するためのページ・タイプ 識別子と、 サーバから送られ且つ音声トラックに対応する前記音声データと を有することを特徴とする音声データプロトコル。 38.請求項37に記載の音声データ転送プロトコルにおいて、前記ページはさ らに別のページに関連付けられた少なくとも1つの相互参照に対応する少なくと も1つのデータ・クラスタを含み、前記データ・クラスタは、 前記少なくとも1つの相互参照を識別するためのインデックス番号と、 前記音声データにおける前記相互参照の開始位置を、前記音声トラックの再生 経過時間として示す時間インデックスと、 前記音声データにおける前記相互参照の終了位置を、前記音声トラックの再生 経過時間として示す時間インデックスと、 相互参照が示すページのアドレスと を含むことを特徴とする音声データプロトコル。 39.請求項1に記載の広域情報システムにおいて、前記クライアントはラジオ ・トランシーバであり、前記少なくとも1つのサーバはラジオ送受信局であり、 前記音声データは前記ラジオ送受信局からラジオ送信を介して前記ラジオ・トラ ンシーバに選択的に送信されることを特徴とする広域情報システム。 40.請求項39に記載の広域情報システムにおいて、前記ラジオ・トランシー バは前記音声データ転送を制御するためにラジオ送信を介してラジオ送受信局へ コマンドを送るように構成されていることを特徴とする広域情報システム。 41.複数の項目から1つの項目を選択するための選択メニューを提供する方法 において、 順番に第1の複数項目を提示するステップと、 前記複数項目の提示を停止するステップと、 前記停止ステップで前記第1の複数項目の提示を停止した、前記順番のポイン トにしたがって、前記第1の複数項目から選択した第2の複数項目を提示するス テップとを有することを特徴とする方法。 42.サーバに格納された音声データを選択的にサーバからクライアントに転送 する方法において、 前記サーバと前記クライアントとの間にデータ転送接続を確立するステップと 、 音声データを選択的に前記サーバから前記クライアントに転送するステップと 、 前記転送ステップの後に、前記サーバと前記クライアントとの間のデータ転送 接続を解消するステップと を有することを特徴とする方法。 43.請求項42に記載の方法において、前記転送ステップにおいて転送される 音声データを指定するステップをさらに含むことを特徴とする方法。 44.請求項43に記載の方法において、前記指定するステップは、 それぞれが音声データ部分に対応する複数の選択肢を識別する選択メニューを 前記クライアントにおいて提供するステップと、 前記選択メニューから前記複数の選択肢の1つを選択するステップと、 前記選択された選択肢に対応する音声データが前記サーバから前記クライアン トに転送されるように前記選択された選択肢を前記クライアントから前記サーバ へ転送するステップとを有することを特徴とする方法。 45.請求項44に記載の方法において、前記選択メニューを提供するステップ は、 順番に第1の複数選択肢を提示するステップと、 前記第1の複数選択肢の提示を停止するステップと、 一連の前記第1の複数選択肢の中から第2の複数選択肢を提示するステップと を有し、 前記第2の複数選択肢は前記第1の複数選択肢の提示が停止された、前記第1 の複数選択肢における点にしたがって選択され、それによって選択メニューを形 成することを特徴とする方法。 46.請求項42に記載の方法において、前記選択的に転送された音声データを 可聴音信号に変換するステップをさらに有することを特徴とする方法。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US770,025 | 1996-12-19 | ||
| US08/770,025 | 1996-12-19 | ||
| US08/770,025 US5926789A (en) | 1996-12-19 | 1996-12-19 | Audio-based wide area information system |
| PCT/US1997/023524 WO1998027542A1 (en) | 1996-12-19 | 1997-12-16 | Audio-based wide area information system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2000510270A true JP2000510270A (ja) | 2000-08-08 |
| JP3138280B2 JP3138280B2 (ja) | 2001-02-26 |
Family
ID=25087240
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10527994A Expired - Fee Related JP3138280B2 (ja) | 1996-12-19 | 1997-12-16 | 音声による広域情報システム |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US5926789A (ja) |
| EP (1) | EP0954857A4 (ja) |
| JP (1) | JP3138280B2 (ja) |
| CA (1) | CA2274126A1 (ja) |
| WO (1) | WO1998027542A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003502887A (ja) * | 1999-06-16 | 2003-01-21 | アイエム・ネットワークス・インコーポレイテッド | インターネットラジオ受信器およびインターフェース |
Families Citing this family (184)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6567079B1 (en) * | 1995-03-06 | 2003-05-20 | Carnegie Mellon University | Portable computer system with ergonomic input device |
| US7562392B1 (en) | 1999-05-19 | 2009-07-14 | Digimarc Corporation | Methods of interacting with audio and ambient music |
| US6741869B1 (en) * | 1997-12-12 | 2004-05-25 | International Business Machines Corporation | Radio-like appliance for receiving information from the internet |
| US6282512B1 (en) * | 1998-02-05 | 2001-08-28 | Texas Instruments Incorporated | Enhancement of markup language pages to support spoken queries |
| JP4197195B2 (ja) * | 1998-02-27 | 2008-12-17 | ヒューレット・パッカード・カンパニー | 音声情報の提供方法 |
| US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
| US6314094B1 (en) * | 1998-10-29 | 2001-11-06 | Central Coast Patent Agency Inc | Mobile wireless internet portable radio |
| US6993004B2 (en) * | 1998-10-29 | 2006-01-31 | Sound Starts, Inc. | Method and apparatus for practicing IP telephony from an Internet-capable radio |
| US6567796B1 (en) | 1999-03-23 | 2003-05-20 | Microstrategy, Incorporated | System and method for management of an automatic OLAP report broadcast system |
| US8321411B2 (en) | 1999-03-23 | 2012-11-27 | Microstrategy, Incorporated | System and method for management of an automatic OLAP report broadcast system |
| US7082422B1 (en) | 1999-03-23 | 2006-07-25 | Microstrategy, Incorporated | System and method for automatic transmission of audible on-line analytical processing system report output |
| US6408272B1 (en) | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
| US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
| US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
| US8607138B2 (en) | 1999-05-28 | 2013-12-10 | Microstrategy, Incorporated | System and method for OLAP report generation with spreadsheet report within the network user interface |
| US9208213B2 (en) | 1999-05-28 | 2015-12-08 | Microstrategy, Incorporated | System and method for network user interface OLAP report formatting |
| JP2001061020A (ja) * | 1999-08-20 | 2001-03-06 | Matsushita Electric Ind Co Ltd | 携帯電話装置 |
| US6885734B1 (en) | 1999-09-13 | 2005-04-26 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive inbound and outbound voice services, with real-time interactive voice database queries |
| US7197461B1 (en) | 1999-09-13 | 2007-03-27 | Microstrategy, Incorporated | System and method for voice-enabled input for use in the creation and automatic deployment of personalized, dynamic, and interactive voice services |
| US7266181B1 (en) | 1999-09-13 | 2007-09-04 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized dynamic and interactive voice services with integrated inbound and outbound voice services |
| US6940953B1 (en) | 1999-09-13 | 2005-09-06 | Microstrategy, Inc. | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services including module for generating and formatting voice services |
| US6263051B1 (en) | 1999-09-13 | 2001-07-17 | Microstrategy, Inc. | System and method for voice service bureau |
| US7340040B1 (en) | 1999-09-13 | 2008-03-04 | Microstrategy, Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for corporate-analysis related information |
| US6829334B1 (en) | 1999-09-13 | 2004-12-07 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control |
| US6850603B1 (en) | 1999-09-13 | 2005-02-01 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized dynamic and interactive voice services |
| US8130918B1 (en) | 1999-09-13 | 2012-03-06 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing |
| US6836537B1 (en) | 1999-09-13 | 2004-12-28 | Microstrategy Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule |
| US6964012B1 (en) | 1999-09-13 | 2005-11-08 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts |
| US7062544B1 (en) * | 1999-09-27 | 2006-06-13 | General Instrument Corporation | Provisioning of locally-generated prompts from a central source |
| US6823370B1 (en) * | 1999-10-18 | 2004-11-23 | Nortel Networks Limited | System and method for retrieving select web content |
| US6970915B1 (en) | 1999-11-01 | 2005-11-29 | Tellme Networks, Inc. | Streaming content over a telephone interface |
| US7376586B1 (en) | 1999-10-22 | 2008-05-20 | Microsoft Corporation | Method and apparatus for electronic commerce using a telephone interface |
| US7941481B1 (en) | 1999-10-22 | 2011-05-10 | Tellme Networks, Inc. | Updating an electronic phonebook over electronic communication networks |
| US6807574B1 (en) | 1999-10-22 | 2004-10-19 | Tellme Networks, Inc. | Method and apparatus for content personalization over a telephone interface |
| US7376710B1 (en) * | 1999-10-29 | 2008-05-20 | Nortel Networks Limited | Methods and systems for providing access to stored audio data over a network |
| US6381314B1 (en) * | 1999-12-23 | 2002-04-30 | James Walinski | Internet audio channel selection system |
| US7516190B2 (en) | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
| US6721705B2 (en) * | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US7353187B1 (en) * | 2000-05-26 | 2008-04-01 | Comverse Ltd. | Methods and systems for storing predetermined multimedia information |
| US7424446B2 (en) * | 2000-05-26 | 2008-09-09 | Comverse Network System, Ltd. | Apparatus and method for storing predetermined multimedia information |
| US7143039B1 (en) | 2000-08-11 | 2006-11-28 | Tellme Networks, Inc. | Providing menu and other services for an information processing system using a telephone or other audio interface |
| US6961895B1 (en) * | 2000-08-10 | 2005-11-01 | Recording For The Blind & Dyslexic, Incorporated | Method and apparatus for synchronization of text and audio data |
| US6643621B1 (en) * | 2000-09-14 | 2003-11-04 | Cisco Technology, Inc. | Methods and apparatus for referencing and processing audio information |
| US20020095386A1 (en) * | 2000-12-07 | 2002-07-18 | Maritzen L. Michael | Account control and access management of sub-accounts from master account |
| US7729925B2 (en) * | 2000-12-08 | 2010-06-01 | Sony Corporation | System and method for facilitating real time transactions between a user and multiple entities |
| US6625261B2 (en) * | 2000-12-20 | 2003-09-23 | Southwestern Bell Communications Services, Inc. | Method, system and article of manufacture for bookmarking voicemail messages |
| US6832196B2 (en) * | 2001-03-30 | 2004-12-14 | International Business Machines Corporation | Speech driven data selection in a voice-enabled program |
| JP2002366194A (ja) * | 2001-05-30 | 2002-12-20 | Nokia Corp | ハイパーサウンドドキュメント |
| US7478068B2 (en) * | 2001-06-14 | 2009-01-13 | Sony Corporation | System and method of selecting consumer profile and account information via biometric identifiers |
| CA2809894C (en) | 2001-06-27 | 2017-12-12 | Skky Incorporated | Improved media delivery platform |
| US20100191602A1 (en) * | 2001-06-27 | 2010-07-29 | John Mikkelsen | Mobile banking and payment platform |
| US20100029261A1 (en) * | 2001-06-27 | 2010-02-04 | John Mikkelsen | Virtual wireless data cable method, apparatus and system |
| US20100255890A1 (en) * | 2001-06-27 | 2010-10-07 | John Mikkelsen | Download management of audio and visual content, product method and system |
| US9712582B2 (en) * | 2001-06-27 | 2017-07-18 | Skky, Llc | Telephone initiated protocol-improved media delivery platform |
| US20100077022A1 (en) * | 2001-06-27 | 2010-03-25 | John Mikkelsen | Media delivery platform |
| US7499863B2 (en) * | 2001-07-06 | 2009-03-03 | Dialogic Corporation | System and method for constructing phrases for a media server |
| US20040177167A1 (en) * | 2003-03-04 | 2004-09-09 | Ryuichi Iwamura | Network audio systems |
| US20060235550A1 (en) * | 2003-04-24 | 2006-10-19 | Csicsatka Tibor G | Creation of playlists using audio identification |
| US20080154601A1 (en) * | 2004-09-29 | 2008-06-26 | Microsoft Corporation | Method and system for providing menu and other services for an information processing system using a telephone or other audio interface |
| US8544045B2 (en) * | 2005-01-21 | 2013-09-24 | Sony Corporation | Home network audio client with detachable remote commander |
| US7199706B2 (en) * | 2005-02-22 | 2007-04-03 | Sony Corporation | PLC intercom/monitor |
| WO2007008248A2 (en) * | 2005-07-11 | 2007-01-18 | Voicedemand, Inc. | Voice control of a media player |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| DE102006035780B4 (de) * | 2006-08-01 | 2019-04-25 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US20080091643A1 (en) * | 2006-10-17 | 2008-04-17 | Bellsouth Intellectual Property Corporation | Audio Tagging, Browsing and Searching Stored Content Files |
| JP5464785B2 (ja) * | 2006-12-05 | 2014-04-09 | キヤノン株式会社 | 情報処理装置および情報処理方法 |
| US7613828B2 (en) * | 2007-01-12 | 2009-11-03 | Microsoft Corporation | Store-and-forward messaging channel for occasionally connected mobile applications |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8131458B1 (en) | 2008-08-22 | 2012-03-06 | Boadin Technology, LLC | System, method, and computer program product for instant messaging utilizing a vehicular assembly |
| US8078397B1 (en) | 2008-08-22 | 2011-12-13 | Boadin Technology, LLC | System, method, and computer program product for social networking utilizing a vehicular assembly |
| US8265862B1 (en) | 2008-08-22 | 2012-09-11 | Boadin Technology, LLC | System, method, and computer program product for communicating location-related information |
| US8073590B1 (en) | 2008-08-22 | 2011-12-06 | Boadin Technology, LLC | System, method, and computer program product for utilizing a communication channel of a mobile device by a vehicular assembly |
| US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
| US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| CA2776973A1 (en) * | 2009-10-05 | 2011-04-14 | Callspace, Inc. | Contextualized telephony message management |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US20130204413A1 (en) * | 2012-02-07 | 2013-08-08 | Apple Inc. | Audio Hyperlinking |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| HK1220313A1 (zh) | 2013-06-13 | 2017-04-28 | 苹果公司 | 用於由语音命令发起的紧急呼叫的系统和方法 |
| AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
| US5351276A (en) * | 1991-02-11 | 1994-09-27 | Simpact Associates, Inc. | Digital/audio interactive communication network |
| US5539808A (en) * | 1992-07-14 | 1996-07-23 | International Business Machines Corporation | Method and system for enhanced processing of audio messages with a data processing system |
| US5586235A (en) * | 1992-09-25 | 1996-12-17 | Kauffman; Ivan J. | Interactive multimedia system and method |
| US5524141A (en) * | 1994-09-22 | 1996-06-04 | Bell Communications Research, Inc. | System and method for providing directory information over a telephony network using ADSI |
| JPH08235114A (ja) * | 1995-02-28 | 1996-09-13 | Hitachi Ltd | サーバアクセス方法と課金情報管理方法 |
| US5681108A (en) * | 1995-06-28 | 1997-10-28 | Miller; Alan | Golf scorekeeping system |
| US5572643A (en) * | 1995-10-19 | 1996-11-05 | Judson; David H. | Web browser with dynamic display of information objects during linking |
| JP3797497B2 (ja) * | 1996-03-28 | 2006-07-19 | 株式会社Yozan | ページャへのメッセージ作成方式 |
| US5761280A (en) * | 1996-09-04 | 1998-06-02 | 8×8, Inc. | Telephone web browser arrangement and method |
-
1996
- 1996-12-19 US US08/770,025 patent/US5926789A/en not_active Expired - Fee Related
-
1997
- 1997-12-16 WO PCT/US1997/023524 patent/WO1998027542A1/en not_active Ceased
- 1997-12-16 CA CA002274126A patent/CA2274126A1/en not_active Abandoned
- 1997-12-16 JP JP10527994A patent/JP3138280B2/ja not_active Expired - Fee Related
- 1997-12-16 EP EP97952551A patent/EP0954857A4/en not_active Withdrawn
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003502887A (ja) * | 1999-06-16 | 2003-01-21 | アイエム・ネットワークス・インコーポレイテッド | インターネットラジオ受信器およびインターフェース |
Also Published As
| Publication number | Publication date |
|---|---|
| CA2274126A1 (en) | 1998-06-25 |
| EP0954857A1 (en) | 1999-11-10 |
| JP3138280B2 (ja) | 2001-02-26 |
| US5926789A (en) | 1999-07-20 |
| EP0954857A4 (en) | 2000-04-26 |
| WO1998027542A1 (en) | 1998-06-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3138280B2 (ja) | 音声による広域情報システム | |
| US9190052B2 (en) | Systems and methods for providing information discovery and retrieval | |
| US10056077B2 (en) | Using speech recognition results based on an unstructured language model with a music system | |
| US8949130B2 (en) | Internal and external speech recognition use with a mobile communication facility | |
| US8886540B2 (en) | Using speech recognition results based on an unstructured language model in a mobile communication facility application | |
| US7500193B2 (en) | Method and apparatus for annotating a line-based document | |
| US8838457B2 (en) | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility | |
| US6725275B2 (en) | Streaming media search and continuous playback of multiple media resources located on a network | |
| US20090030687A1 (en) | Adapting an unstructured language model speech recognition system based on usage | |
| US20090030685A1 (en) | Using speech recognition results based on an unstructured language model with a navigation system | |
| US20080288252A1 (en) | Speech recognition of speech recorded by a mobile communication facility | |
| US20090030688A1 (en) | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application | |
| US20090030691A1 (en) | Using an unstructured language model associated with an application of a mobile communication facility | |
| US20090030697A1 (en) | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model | |
| US20080221899A1 (en) | Mobile messaging environment speech processing facility | |
| US20080221898A1 (en) | Mobile navigation environment speech processing facility | |
| US20080312934A1 (en) | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility | |
| US20040194611A1 (en) | Music delivery system | |
| US20050217459A1 (en) | Content providing apparatus, content providing system, web site changing apparatus, web site changing system, content providing method, and web site changing method | |
| US6732078B1 (en) | Audio control method and audio controlled device | |
| JP4165249B2 (ja) | コンテンツ配信方法及びプログラム | |
| US20080033918A1 (en) | Systems, methods and computer program products for supplemental data communication and utilization | |
| JP2002171348A (ja) | 音声情報提供システムおよび方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |