[go: up one dir, main page]

JP2000510270A - 音声による広域情報システム - Google Patents

音声による広域情報システム

Info

Publication number
JP2000510270A
JP2000510270A JP10527994A JP52799498A JP2000510270A JP 2000510270 A JP2000510270 A JP 2000510270A JP 10527994 A JP10527994 A JP 10527994A JP 52799498 A JP52799498 A JP 52799498A JP 2000510270 A JP2000510270 A JP 2000510270A
Authority
JP
Japan
Prior art keywords
information system
area information
wide area
client
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10527994A
Other languages
English (en)
Other versions
JP3138280B2 (ja
Inventor
バーバラ,ダニエル.
ナキュビ,シャミン,エイ.
Original Assignee
テルコーディア テクノロジーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テルコーディア テクノロジーズ インコーポレイテッド filed Critical テルコーディア テクノロジーズ インコーポレイテッド
Publication of JP2000510270A publication Critical patent/JP2000510270A/ja
Application granted granted Critical
Publication of JP3138280B2 publication Critical patent/JP3138280B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 広域情報システムはクライアントと音声データが格納された少なくとも1つのサーバとを含む。少なくともときどきサーバとクライアントとの間に転送接続を確立することにより音声データはサーバからクライアントに選択的に転送される。音声データの転送は、クライアント上に設けられた入力インターフェイスを介して入力されるユーザ選択のコマンドと入力によって制御される。これらのコマンドおよび入力も,クライアントとサーバとの間で少なくともときどき確立される転送接続を介してサーバに転送される。サーバ上の音声データはハイパーオーディオ・リンクによって相互参照で関連付けられたページ・ユニットとして構成される。ページ・ユニットは可聴ディレクトリ情報の周期的に繰り返すディレクトリ・ページを使用することで特徴的に検索可能である。そのような音声を利用したシステムを可能とするためにデータ・プロトコルが定義される。

Description

【発明の詳細な説明】 音声による広域情報システム 発明の背景発明の分野 本発明は、情報を構築したり情報にアクセスするための広域情報システムおよ びその実施方法に関する。 関連技術の説明: インターネットのワールドワイドウェブ(WWW)部門の人気は、一般にその存在 がますます知られるようになるにつれて最近著しく上昇してきた。しかし、その 人気と多様性にもかかわらず、WWWにおいて音声情報の果たす役割は目立って小 さい。 WWW上での音声の現在の使用法としては、あるWWWサイトから音声ファイル部分 をダウンロードすることである。普通、ユーザは全部の音声ファイルが転送され て音声ファイルを聞くことができるまでに、時には長い間、待たなければならな い。 テキサス・インストルメンツ社(TI)が開発したシステムによればユーザは音 声インターフェイスを介してWWWにアクセスすることができ、従来のようにWWWハ イパーリンクにアクセスするのにポイント/クリック操作の必要がない。しかし このシステムにおいてはまだ、表示端末がブラウズしているデータを表示しコマ ンドの入力を案内することが必要である。TIシステムによれば、ユーザはハイパ ーリンク名を発声することにより異なるページにジャンプすることができる。 前記の従来システムにおいては音声はまだ相当に二次的なものであることが分 かる。第一に、WWWページ上の情報の大部分は音声情報ではない。第二に、ユー ザはまだ、ナビゲートするためには、例えばTI音声インターフェイスであっても 、視覚的なインターフェイスが必要である。 後者に関しては、ユーザがコンピュータ等を使用できない場合、あるいは自動 車を運転するなど、視覚的注意を必要とすることを行っている場合には、問題と なる。 このことから、音声は情報の重要な媒体であり続け、広域情報システムにおい て今まで対応していなかった要求を満たすことができると思われる。 しかし、電話メニューシステム(例えばボイスメール)等、音声を使用する試 みがなされた用途においては、ユーザはメニューリストを覚えておかなければな らず、またそのリストがあまりに多くの情報を提供しているので、ユーザがリス トを思い出すことは困難あるいは不可能である。 発明の概要 したがって本発明の目的は、音声を情報の基本媒体として使用するクライアン ト・サーバ広域情報システム(client-server based wide area information sys tem)を提供することにある。 本発明によれば、たまに仮想クライアントとも呼ばれるクライアントは、音声 ファイルを再生したり、インターフェイスを介してコマンド入力に応答したり、 サーバと交信することによって音声情報の「ページ」を取り出すことができる。 クライアントは例えば電話、パソコン、ワークステーション、ラジオ等の任意の 数の装置で実現できる。 サーバはWWWと同様な音声ページと一般に呼ばれる単位で音声情報を提供する 。(後で、オーディオ・ウェブ・ページとディレクトリ・ページの違いについて 説明する。)音声ページはディレクトリ・サービスを介してインデックスが付け られる。本発明によれば、普通、検索可能なディレクトリ・ページは周期的にユ ーザに提示される。一般に各ディレクトリ・レベルはサブディレクトリ・ページ への音声リンクを含んでいる。ディレクトリ・サービスの最後のレベルはそのデ ィレクトリ・サービスで登録された個々の音声ページ(すなわちオーディオ・ウ ェブ・ページ)を示す。 本発明の上記および他の目的および新しい特徴は、添付図面と以下の詳細な説 明からより明らかとなるであろう。 図面の簡単な説明 図1は本発明による音声クライアントを示す。 図2は本発明によるディレクトリ・サービスの階層を図式的に示す。 図3は循環ディレクトリ・ページのオプション・メニュー「ウインドウ」を示 す。 図4は本発明で使用可能なバイナリ検索方法を示す。 図5はディレクトリ・ページをナビゲートする手順の概念を示す。 図6は本発明によるデジタル・ハイパーラジオ・システムを示す。 好適実施形態の説明 本発明はまず、本システムの基本として音声情報を使用する場合について説明 する。しかしこの説明は本発明に関する概念を十分に説明するためにのみおこな うものであり、これらの概念がマルチメディア等の他の形態やそれらを組み合わ せた形態にも適用できることは後で述べるように明らかである。 図1は本発明によるクライアント・サーバシステムにおける仮想音声クライア ントおよびその役割を示す。 仮想音声クライアント(ここでは互換的に「クライアント」という)は、ユー ザがオーディオ・ウェブ(Audio Web)をナビゲートするための手段である。図 1に示すように、クライアントはいくつかの入力およびコマンドを認識できる。 例えば、クライアントは最初の5つの基数(1から5)およびSTOP(ストップ停 止))、PLAY(プレイ(再生))、FORWARD(フォワード(前送り))、BACK(バック(後送 り))、PRESET(リセット)、DELETE(削除)、RETURN(戻り)、およびGO(ゴー)コマ ンドを認識することができる。 図1はクライアントを示し、外見がビデオカセットレコーダのリモコンに似て おり、ボタンは前記入力に対応している。しかしこれはひとつの例に過ぎず、ク ライアントが実際にどのように実現されるかはクライアントを構成する実際の装 置による。すなわち図1に示す概念的入力ボタンのひとつをユーザがどのように 「押す」かは、クライアントにアクセスするために使用する装置に依存する。例 えば、ユーザはその装置として電話、パソコン、ワークステーション、ラジオ等 を使用することができる。 例えば電話を使った場合、クライアントは電話と計算装置とを接続することに よって実現できる。この接続は局所的な(すなわち配線接続された)ものであっ てもよいし、標準の電話接続を介して電話と通信する計算装置へダイヤルするこ とによって確立することもできる。 ユーザは、各コマンドに対応する電話のキーを押すことによって、コマンドを 出す。押されたそれぞれの数字キーに応答して電話が発生する標準トーンは、コ ンピュータに送られ、コンピュータはそのトーンを適切に(従来の音認識ソフト ウェアを介して)認識し、対応するプログラムを起動させ所望のコマンドを実行 する。 あるいは、ユーザは電話にコマンドを発声する。コンピュータはそれが持つ適 切な音声認識ソフトウェア(例えば、限られた語彙を持ち話手に依存しないもの )で認識した発声コマンドを対応するコマンドプログラムに割り当てる。 パソコンまたはワークステーションがクライアントを実現するために使われた 場合、その入力装置および計算装置はひとつの「パッケージ」で提供される。こ の場合、ユーザはマウスタイプのコントロール・デバイスと組み合わせたグラフ ィカル・インターフェイスを使って入力する。 以上の例は説明のために示したものであって、本発明のクライアントの実現方 法に制限を加えるものではない。例えば、ラジオ・トランシーバの使用について 後でより詳しい説明を提供する。 考えているオーディオ・ウェブの概要を示すために、ユーザが与える入力とそ れに対するクライアントとサーバの動作を次の会話形式のシナリオで示す。シナ リオにおいて、ユーザは(キャピトル・レコードから出された)Beatles Anthol ogy(ビートルズ名曲集)に関する情報を探そうとしている。 クライアント: オーディオ・ウェブ・ディレクトリ・サーバーにようこそ。あ なたにとって興味深い題材を用意しています。マティーニ…マ ウス…音楽!」 ユーザ: 停止(仮想クライアント上の停止キーを「押す」または「停止 」 と発声することによって)。 クライアント:「次のいずれかを選択してください。1:音楽、2:海の生き 物、3:図書館、4:土地の灌漑、5:凧」 ユーザ: 1(コマンドを「押す」または発声することによって)。 クライアント: <要求された音声ページに対する適切なサーバに接触する> サーバ: <クライアントにその音声ページを送る> クライアント: 「あなたは音楽ディレクトリを選ばれました。ここからあらゆ る種類の音楽を入手できます!」 バロック<バロック音楽のサンプルを再生する> ロック<ロック・ミュージック・トラックのサンプルを再生す る>」 ユーザ: 停止。 クライアント: 「あなたが選びたいものは:1:サンバ、2:ロック、3:ジ ャズ、4:マンボ、5:ポルカ」 ユーザ: 2。 クライアント: <要求されたページに対する適切なサーバに接触する> サーバ: <クライアントにそのページを送る> クライアント: 「これはロックのページです。今までの偉大なグループの音楽 を聴きましよう。ビートルズ、…」 ユーザ: 停止。 クライアント: 「あなたが聞きたいのは1:ビートルズ、2…」 ユーザ: 1。 クライアント: 「オーディオ・ウェブ・マジカル・ミステリー・ツアーによう こそ!! これらのページにはビートルズ・サウンド・ファイル集が含ま れています。 最新のビートルズリリースについては新しい名曲集ページをチ ェックしてください。」 ユーザ: 停止。 クライアント: 「次のページを訪れます:1:名曲集、2:ジョン・レノンの ページ、3:ポール・マッカートニーのページ、4:ジョー ジ・ ハリソンのページ、5:リンゴ・スターのページ」 ユーザ: 1。 クライアント: <要求されたページに対する適切なサーバに接触する> サーバ: <クライアントにそのページを送る> クライアント: 「<新しいビートルズ・トラック‘Free as a Bird’の最初の 部分 が再生され始める>」 したがって、本発明のシステムは以下の機能を必要とする。 ユーザは、ディレクトリ・サービスを使ってオーディオ・ウェブを検索して興 味のある音声ページを見つける方法を与えられる。上記の仮定の例に示されるよ うに、オーディオ・ウェブをナビゲートする手段は重要である。この例において 、取り出された最初の3ページは、図2に示す階層構造にしたがって重ねられた (スタックされた)ディレクトリ・ページである。 一旦、ページに入ると、「ハイパーオーディオ」リンクが他のページ(常にで はないが、しばしば、関連する題材)へのつながりを与える。上記のように、ユ ーザは例えば「何か新しい」ページから「名曲集」ページへ適切なハイパーオー ディオ・リンクを使ってジャンプした。ハイパーオーディオ・リンクは一般に、 WWWにおけるハイパーテキスト・リンクに似ている(ここでは互換的に「音声リン ク」という)。 ユーザはコマンドおよび他の情報を(クライアントを介して)入力することに より、オーディオ・ウェブ上のナビゲートを制御できる。例えば、以下に示すよ うに適切なナビゲーション・コマンドを使って、ユーザは「名曲集」ページを終 えた後に「何か新しい」ページにジャンプして戻り、さらに再びビートルズ・ペ ージへ戻ることもできる。 ユーザはまた、特定の音声ページにブックマークでしるしを付けておき、ひと つまたは複数のディレクトリをナビゲートする代わりにそのページに直接ジャン プすることができる。さらにユーザの選択したブックマークをまとめたブックマ ークリストも提供される。 音声ページを作ってディレクトリ・ページの階層に含めることもできる。また 、音声ページ作成者は音声ページにハイパーオーディオ・リンクを組み込むこと ができる。 最後に、オーディオ・トラックを送信するための標準プロトコルを使用する。 ユーザが関心のあるページを探し当てることができるように、次のディレクト リ・スキームを使用している。各ディレクトリは、ダウンロードされると、メニ ュー選択の流れとなって周期的にユーザに音声で提供される。ディレクトリ・フ ォーマットはもちろん用途にあったものでなければならないが、好ましくは情報 を上手に伝え、面白く、もっとも重要なことであるが、目的物を探し出すことが できなければならない。ユーザの最初のオーディオ・ウェブへの接触は、WWW( 図2参照)場の「ホームページ」に似た、ホーム・ディレクトリ・ページ10で ある。このホーム・ディレクトリ・ページ10は1つまたは複数のサブディレク トリ・ページ12へのハイパーオーディオ・リンク16を含む。この構造は、い くつかのレベルにわたって継続し、図2に概略的に示した階層ツリーのような階 層ツリー構造を構成する。最後あるいは最下のレベルにあるディレクトリ・ペー ジ14(リーフ・ノード)は個々の音声ページであって、これらはディレクトリ ・ページに登録されている。 図2に示す重ねられた「ツリー」構成が望ましい。これは多数の音声ページに 対する管理可能なインデックスを提供しながら、リンクの出力数(fanout)を妥 当な数に抑えるからである。ここで用いたツリー構成はデータベース管理システ ムで一般に使用されるBツリー構成に似ている。それぞれの音声ページは最大数 の音声リンク、および固定の音声情報容量を有する。これが有利であるのは、ユ ーザがディレクトリ・ページを聞いているときに散乱した情報の波に飲み込まれ ることがなく、またもっと重要なことは、どの選択メニューにおいても選択肢の 数が多過ぎず、ユーザが多数の選択肢を覚えておかなければならないという負担 がないからである。 本発明による別のページ構成方法(図示せず)は、与えられたページがハイパ ーオーディオ・リンクによって少なくとも1つの他のページにリンクされるよう に、重なる階層構造を用いないで、複数のページを提供する。 それぞれのハイパーオーディオ・リンクは、WWWにおけるハイパーテキスト・ リンクがページ上のテキストの反転部分に関連しているのと同様に、音声ページ の音声トラックの一部分に関連している。 上記の如く、ユーザが最初にオーディオ・ウェブ・サーバに接続したとき、ユ ーザが最初に出会う音声ページはホーム・ディレクトリ・ページである。このホ ーム・ディレクトリ・ページは繰り返す音声トラックであり、一般に複数のハイ パーオーディオ・リンクの一覧を示す。このディレクトリを使うには、ユーザは (例えば、関心のある音声リンクが聞こえたときに)クライアントからSTOPコマ ンドを発する。そしてディレクトリは、STOPコマンドが発される前の最後のk個 (例えば5個)のハイパーオーディオ・リンクからなる選択メニューを提供する 。図3は繰り返すディレクトリ・ページの概念を示し、より具体的には、ユーザ が発したSTOPコマンドによるウィンドウ内のk個のハイパーオーディオ・リンク の集まりを示す。 この時点で、ユーザはk個のハイパーオーディオ・リンクの名前を挙げる新し い音声トラックを聞く。そのような音声トラックは以下の通りである。 「この時点でのあなたの選択は:」 1: <1番目のハイパーオーデイオ・リンクの名前>; 2: <2番目のハイパーオーディオ・リンクの名前>; 3: <3番目のハイパーオーディオ・リンクの名前>… k番目のハイパーオーディオ・リンクまで。ユーザはクライアントを介して対応 する番号を入力して選択する。したがってシステムは時間ウィンドウの過去のk 個のリンクに基づいてダイナミックな選択メニューを定義する。このダイナミッ ク・ウィンドウの概念において、ユーザはリンク出力数(fanout)(すなわち、 ある音声ページ上に定義されたハイパーオーディオ・リンクの総数)にかかわら ず、いずれの場合もk個の選択肢の集まりを提供される、ということが理解され るであろう。これが有利であるのは、ユーザは一度に比較的少ない数の選択肢を 扱うだけでよく、選択動作が処理可能な範囲に抑えられるからである。 しかし、このダイナミック・ウィンドウ概念でさえ、ユーザは興味のあるトピ ックを見つけるまでに、ハイパーオーディオ・リンクの大きなリストを聞かな ければならないということが起こり得る。 したがって本発明によれば、ディレクトリ・ページを検索するのを容易にする 方法を提供する。特にバイナリ検索法が有用である。バイナリ検索は順番に並べ られた項目をすばやく繰り返し検索する方法として知られている。 図4はバイナリ検索法の概要を示したものである。一回目の「パス」において、 リストの中央の項目imから検索が開始される。imが探しているirよりも「大きい 」(例えば、数字的に大きいか、またはアルファベット順に後である)場合、検索 はリスト中央の「左側」すなわちリストの「より低い」端の方へ移動する。他方 、imが探している項目よりも「小さい」(例えば、数字的に小さいか、またはア ルファベット順に前である)場合、検索はリスト中央の「右側」すなわち「より 高い」端の方へ移動する。 一般に、それぞれの移動は、パスの開始における中央点によって定義される小 部分のひとつの中央に向かう。したがって、図4に示す一回目のパスにおいて、 動きは一般に全リストの中央imからimによって定義される2つの小部分(この場 合、2つの半分)のひとつの中央へ向かう。ここでこれらの小部分のそれぞれは imと全リストの端の一つとの間を延びる。 図4に示すように、一回目のパスにおいて、ir<imであると判断される。した がって最初の動きは、imからilへ左の方へ向かう。ここでilはリストの端と項目 imとの間の中間である。 二番目のパスにおいて、ir>ilであると判断される。したがって、第二の動き は、irがilとimの中間であるから、ilからirへ右の方へ向かう。irが探している 項目であるから、検索は完了する。 目標を狭めていくこの繰り返し方法を必要に応じて続けることにより、求めて いる項目に到達する。必要とされるパスの数は全リストのサイズ(項目の数)の 対数に比例することが知られている。 本発明に適用された、バイナリ検索はブラウジング/検索システムにおいて以 下のように使用される。 ユーザが音声トラックを検索したいとき(これは音声トラックが再生されてい る間いつでもできる)、ユーザは適宜BACKまたはFORWARDコマンドを入力する。 これに応じて、ブラウザは音声トラックにおける現在の位置tlと音声トラックの 終端または開始端teとの間の中間時点tmを特定する。そしてブラウザはtmから前 方へ音声トラックを再生する。探している項目がtmの前(すなわちtmの「左側」) であるとユーザが判断した場合、ユーザはBACKコマンドを発し、ブラウザはtlと tmの中間点から音声トラックを再生する。他方、探している項目がtmの後(すな わちtmの「右側」)であるとユーザが判断した場合、ユーザはFORWARDコマンドを 入力し、音声再生をtmとteとの中間点まで進める。 図4に関して説明したように、この方法を繰り返すと、検索は比較的すばやく 目標の項目に到達する。ユーザが目標の項目に到達したら、ユーザはSTOPコマン ドを発する。その後、目標項目に基づいて、上記のダイナミック・メニュー・ウ ィンドウが構築される。 一旦ユーザがダイナミック・メニュー・ウィンドウからハイパーオーディオ・ リンクを選択すると、対応する音声ページがサーバからクライアントへ送られ、 上記の手順が再び始まる。より具体的に説明すると、新しく選択された音声ペー ジがディレクトリである場合、上記のように、ユーザは再び、繰り返し音声情報 を聞くことになる。新しく選択した音声ページがオーディオ・ウェブ・ページで ある場合、ユーザはそれに含まれる音声情報を聞き、それを望むように使用でき る。図5は本発明によるオーディオ・ウェブのナビゲート概念を示す。 オーディオ・ウェブ・ページはディレクトリ・ページと類似の方法で処理され る。唯一の大きな違いは、オーディオ・ウェブ・ページはディレクトリ・ページ のように繰り返されることがない点である。ユーザはページ記述に提示される順 に、情報を線形的に受け取る。この音声情報を聞いたとき、ユーザはSTOPコマン ドを使って、図3に示したように、そのページにおける最後のk個のハイパーオ ーディオ・リンクによって形成される選択メニューを促す。その後、ユーザは望 みのハイパーオーディオ・リンクに対応する数字を選び、そのハイパーオーディ オ・リンクに対応する新しいページに分岐またはジャンプすることができる(図 5を再度参照)。 時間の経過とともに、ユーザは多分多くのページに出会って、後でディレクト リを検索するという比較的時間のかかる手順を踏まずに、それらのページに戻り たいと思うことがあるであろう。ブックマークは、その名が示すとおり、興味の ある特定ページに直接ジャンプできるようにそれらに単に「しるし」を付けるも のである。ブックマークはブックマークリストに蓄積しておき、そのリストを前 記のディレクトリ・ページと同様にディレクトリ・ページとして構成することが できる。この点で、ブックマーク・リストはディレクトリ構造におけるリーフ・ ノードと同じ構造を有する。 ブックマーク・リストを作るには、ユーザはプリセット・コマンドを使って興 味あるページにブックマークを割り当て、そのページの名前をリストに加える。 ページの名前は、そのページを指しているハイパーオーディオ・リンクの名前か ら、あるいはユーザが与えた(例えばユーザが話した)名前からとって、ページ ・アドレスと組み合わせることができる。(ページ・アドレッシングは以下に詳 しく説明する。) ブックマークを付けたページを取り出すには、ユーザはGOコマンドを使って興 味あるページへ直接移動してそれを取り出して再生する。望みのページが完了し たら、ユーザはそれを停止させ、ブックマークを付けたページ上のハイパーオー ディオ・リンクを使って他のページへ分岐する。 時間の経過とともに、ブックマーク・リストは比較的大きくなり、それを検索 することが厄介になるということが考えられる。したがって、上記のように、こ こでバイナリ検索を再び使ってブックマークの検索を管理する。バイナリ検索を 適用するために、ブックマーク・リストは辞書編集法的に順番に並べられている と仮定する。 音声トラックをどのように再生するか、あるいは発声コマンドをどのように認 識するかという問題が当然発生する。 WWWにおいて、ハイパー・テキスト・プロトコル(HTTP)はうまく機能してい る、なぜならこれは状態を持たないからである。すなわち、WWWページがアクセ スされた時はいつでも、そのページが置かれたサーバは単にそのページの内容を クライアントに転送するだけで、その後はその要求については何も「覚えて」い ないからである。WWWブラウザが走るクライアントはページ・レイアウトとユー ザ・インターフェース問題を扱う。したがって、事実上、ハイパーテキスト・リ ンクがユーザによって選択される(「クリックされる」)と、別のネットワーク接 続が確立されて、新しく選択されたページがクライアントに提供される。この特 性によって、WWWサーバは「拡大が可能」となる。 この特徴はオーディオ・ウェブにおいても重要である。ユーザが与えられたペ ージを単に操作しているときも続けてサーバをクライアントに接続させておくの は実際的でない。接続状態を継続して覚えておき、複数のクライアントからのコ マンドを処理するのはサーバにとって膨大な負担となる。しかも、使用が増える につれてシステムは拡大できなくなる。したがって、オーディオ・ウェブ用にハ イパーオーディオ・トランスファー・プロトコル(HATP)が設けられ、これがWW WのHTTPと同様に動作する。 本発明の一つの特徴は、HATPがクライアントへ音声ページを送るための接続な し、あるいは状態なし、プロトコルであるということである。 オーディオ・ウェブの場合、以下の構造を有するハイパーオーディオ・マーク アップ・ランゲージ(HAML)はハイパーテキスト・マークアップ・ランゲージ( HTML)と同等である。 pagetype<音声トラック> autiolinks<i:ti b,ti e,hatpアドレス> pagetypeはそのページがディレクトリ・ページかオーディオ・ウェブ・ページか を示す。(ディレクトリ・ページは周期的に再生されるが、オーディオ・ウェブ ・ページはそうではないため、この区別は必要である。)ページにおけるハイパ ーオーディオ・リンクの記述は全音声トラックの後に与えられる。これによって 、全音声トラックを、好ましくは便利なデータ圧縮フォーマット(これは従来か ら知られているものでよい)で、一つの単位として送ることができる。ハイパー オーディオ・リンクは3つのコンポーネントを有する。すなわち、リンク番号( 上記の下付き文字i)、ハイパーオーディオ・リンク名として使用される音声トラ ックの一部の始まりti bと終わりti eを表す(全音声トラックの始めからの)一対 の経過時間値、およびハイパーオーディオ・リンクが示すページのHATPアドレス である。 HATPはHTTPとよく似ていることが好ましく、次の4つのステージからなる状 態なしプロトコルでなければならない。 1.接続:ユーザ・リソース・ローケータ(URL)を使ってクライアントから それぞれのサーバへのデータ接続を確立する。 2.要求:クライアントからサーバへ要求メッセージを送る。 3.応答:サーバからクライアントへ応答メッセージを送る。 4.終了:応答メッセージが完了した後に接続を終了させる。 もちろん、HATPとHTTPとの間にはHTTPにおいて知られている概念という点でい くつかの大きな違いはある。 1.ACCEPTヘッダー・ラインは、クライアントによって受け付けられる唯一の フォーマットとしてHAMLを指定する。 2.ACCEPT-ENCODINGヘッダー・ラインは、HAML文書の符号化フォーマット( 例えば、x-compress,x-zip等)および音声トラックの圧縮フォーマット(例え ば、MPEG)を指定する。 3.HTTP等におけるTEXTSEARCHの代わりに、AUDIOSEARCHと呼ばれる方法が実 行される。これによって対象物を音声の流れによって検索できる。GET法という 検索形態を使って対象物を検索する。 これ以降は、仮想クライアントが上記の機能を実行する本発明の方法について 説明する。 一般に、クライアントはHATPプロトコルを走らせてHAMLページ記述を要求し受 け取る。クライアントはまた上記のコマンド(例えば、STOP、FORWARD、BACK、P LAY、RESET等)を認識し実行する。最後に、クライアントはオーディオ・ウェブ ・ページからの音声トラックを再生する。 1.STOPコマンド ページ再生中に、ユーザはSTOPコマンドを発することができる。この時点で、 ブラウザは音声トラックの再生を停止し、STOPコマンドが発せられた時点より前 の音声トラックの最後のk個のリンクを含むダイナミック・メニュー・ウィンド ウを作成する。 そのために、ブラウザは音声トラックの始めからの経過時間を追跡し、またST OPコマンドが発せられた時刻を記録する。この時刻はtsで表される。その後、 クライアントのオーディオ・ウェブ・ブラウザは以下のアルゴリズムに従う。 tj b>tsとなるようなリンクリスト内の最初のリンクjを見出す; リンクjから、およびリンクリストを後に検索しながら、次のことを行う : menu=0(メニュー・ウィンドウを最初に空にするために); m=1; 後方に検索しながらGL(Get Link):next link i(次のリンクiを捕らえる) 項目iがまだメニューにある場合、 STに行く(ページが例えば5リンクよりも少ない場合); さもなければ、 項目<m、リンク名、リンク・アドレス、ti b,ti e>をメニューに 挿入する。 m=m+1 (例えば)m<5の場合、GLに行く。 ST:メニュー・リストのメニュー項目を再生し、選択肢(1から5までの数字) を待つ m=choice(選択肢)エントリにおけるリンク・アドレスによって示されるページ を取り出す。 2.上記のように、FORWARDとBACKコマンドはディレクトリ・ページのバイナ リ検索に関して有用である。ブラウザは次のアルゴリズムを使ってこれらのコマ ンドを実行する。 経過時間に関して、tlとtrはそれぞれ当該音声トラックの開始端と終了端であ り、tsはその音声トラックの開始点である。再生の始めの時点では、tl=ts=0で ある。上記のように、trは音声トラックの終了時間と同じに設定されている。 a. FORWARDコマンドが発せられたら、以下の手順が行われる。 音声トラックの再生を停止する tl=tsと設定する ts=1/2(tl+tr)と設定する 時刻tsから音声トラックの再生を開始する。 b. BACKコマンドが発せられたら、以下の手順が行われる。 音声トラックの再生を停止する ts=tmと設定する ts=1/2(tl+tr)と設定する 新しい時刻tsから音声トラックの再生を開始する。 3.RETURNコマンドは、ブラウザに現在のページの直前のページを取り出すよ うに命令するために使用する。ブラウザはメモリ・キャッシュを保持して現在の ページの直前のページを保存しておくことが好ましい。またブラウザは、(例え ば、ユーザがジャンプしたハイパーオーディオ・リンク番号をキャッシュするこ とにより)直前のページを離れた状態を記憶することにより、直前ページの音声 トラックをそれから離れた点から再び再生できるようにすることがさらに望まし い。 4.PLAYコマンドは、STOPコマンドで再生を停止した後に、再生を再開するた めに使用する。PLAYコマンドはSTOPコマンドで停止した点で再生を再開させる。 5.上記のように、PRESETコマンドはブックマーク・リストに新しいエントリ を追加するために使用する。このコマンドは、現在のページへのリンクをその名 前とともにブックマーク・リストに迫加するようにブラウザに対して命令する。 例えばブラウザは、ブックマーク・リストにエントリを追加させるために、その リンク名を発声するようにユーザに促すか、あるいはメモリ・キャッシュ内のペ ージからリンク名を取ることもできる。ブックマークを付けられたリンクは、上 述のようにHAMLリンク記述子としてエントリされる。 6.GOコマンドは、ブックマーク・リストを繰り返し情報の流れとして再生開 始するようにブラウザに命令し、それによってブックマーク・リストを上述のデ ィレクトリ・システムの変形として扱う。GOコマンドを使用した後システムは、 ダイナミック・メニュー・ウィンドウを作成するためにユーザがSTOPコマンドを 使うまで、あるいはブックマーク・リストをバイナリ検索するためにFORWARDコ マンドまたはBACKコマンドを使うまで、続行する。 WWWのウェブ・ページはテキスト列を使って検索できる。したがって、WWW ページは市ごとの天気データ、カタログ等の情報データベースを含むことができ る。同様な特徴はオーディオ・ウェブにも設けられている。 本発明によれば、ユーザは音声列を送ってそれに対応する音声情報を受け取る ことによって音声ページを検索する。そのようなページを提供されたら、クライ アントはユーザが問い合わせを発声するのを待ち、上記のAUDIOSEARCH法を使っ てユーザの要求をサーバに送る。 そのような音声検索は、相当大きな語彙を有し且つ正確で話手に依存しない音 声認識能力、あるいは音声の流れに「ほぼ匹敵する」手段を必要とする。 ここに開示されたオーディオ・ウェブに関する概念は、ラジオを聞くことに特 に適応できる。したがって本発明によるデジタル・ハイパー・ラジオ(「DHR」) もここで説明する。 DHRの概念を説明するために、図6において例えば英国放送協会(「BBC」)の国 際ラジオ放送のラジオ送信と比較する。例えば、ニューヨーク市でBBC放送を個 別に聞くとき、ラジオをBBC中継局が使う周波数に同調させる。ところが、DHRを 使えば、上記の説明と同じようにして、使用可能な周波数バンドの一部を使って ハイパーオーディオ・リンクのリストが放送される。実際には、ラジオ送信はHA MLフォーマットを使ったオーディオ・ウェブ・ページのフォーマットを有する。 各ハイパーオーディオ・リンクはそれぞれのオーディオ・ウェブ・サーバを示し 、オーディオ・ウェブ・サーバはそのリンクで指名されたトピックについて更な る情報を提供する。したがって、この構成において、可聴放送ラジオ送信は新し いヘッドラインのみからなり、一方それぞれの全ニュース・ストーリーはラジオ 送信「ページ」によって指定されたオーディオ・ウェブ・ページにおいて得られ る。聞き手は、特別に装備されたラジオ・トランシーバをクライアントとして使 って、ニュース・ヘッドラインの送信を停止させ、リンクのメニューを得、興味 あるトピックを選び、オーディオ・ウェブ・サーバから対応する全ニュース・ス トーリーをダウンロードする。 リンクはまた他のラジオ放送周波数を示すこともでき、ラジオ・トランシーバ は対応するリンクを選択した後にその周波数に自動的に同調する。これらの送信 は例えば最初の放送で流したトピックに関する拡張された情報を提供するか、あ るいはもっと詳しい選択肢のリストを提供する。 ここで説明した概念は他の形態の媒体に有用に適用できることが理解されるで あろう。 映像情報の場合、ディレクトリ・ページは「予告編」(すなわち全プログラム を見るように視聴者を誘うために使われるプログラムからとった短いビデオ)の 周期的な流れから構成してもよい。ユーザがSTOPコマンドを使ってディレクトリ の流れを停止させると、ダイナミック・メニュー・ウィンドウが作成される。メ ニュー・ウィンドウは(例えば)5つのビデオ静止フレームを表示する。これら はSTOPコマンドを使用する直前に映された5つの予告編から1つづつ採ったもの である。ユーザは1、2、…5を入力することによってプログラムの1つを選択 する。最初のディレクトリ・ページで表示されるそれぞれの予告編は共通のトピ ック、例えば「音楽」、についてのあらましであることが好ましい。こうして最初 の予告編の中から選択したら、ユーザは最初の予告編の共通トピックに関連する 別の周期的な予告編の流れを見る。 一旦望みのビデオ・ページが見つかったなら、ユーザはそのページをビデオ・ プログラムとして受け取る。そのページはまた異なるビデオ・ページを示すハイ パービデオ・リンクを含む。オーディオ・ウェブの場合と同様に、ユーザはプロ グラムの途中いつでもビデオ再生を停止し、その時点までにプログラムで識別さ れた例えば最後の5つのハイパービデオ・リンクのダイナミック・メニュー・ウ ィンドウを作成する。メニューからハイパービデオ・リンクの1つを選択すると 、クライアントはサーバから対応するビデオ・プログラムをダウンロードしその 再生を開始する。 本発明によるビデオ・ページは音声ページと同様にフォーマットされており、 ハイパービデオ・リンクのフォーマットは<i:ti b,ti e,アドレス>、ここでti b ,ti eはそれぞれハイパービデオ・リンク名として使用されるフレームの始めと 終わりを表す。 このフォーマットのクライアントは、上記のコマンド用として適切な押しボタ ン入力を備えたリモート・コントロール・ユニットを有する対話型のテレビ・ユ ニットであることが好ましい。またコマンドを(ソフトウェアを走らせている代 理クライアントに)アップリンクするのに必要なデータ・バンド幅は最小である ことが有利である。 本発明によれば、テキスト情報も管理される。例えば、テキストのティッカー ・タイプ表示を使って周期的なディレクトリ・ページを表示できる。前記と同様 に、ユーザは望みの位置で表示を停止させ、ダイナミック・メニュー・ウィンド ウを作成し、興味ある項目を選択する。望みのテキスト・ページに到達したら、 そのページは制限された状態で表示されるか、あるいは余分の実際の状態が使用 できる場合、別のところに表示される。 ハイパーテキスト・リンクは、ハイパーオーディオ・リンクやハイパービデオ ・リンクと同じように、フォーマット<i:b、e、アドレス>を使って符号化され る。唯一の違いはbとeが、経過時間の代わりに、バイト単位でのテキストの流 れの始めからの変位を表していることである。 ユーザはテキスト・ウェブを使って、(時には携帯情報端末(PDA)として知 られている)手の上のコンピュータ・ユニットをクライアントとして使用する。 PDAは普通その計算能力が制約され、表示も小さい。それでも、ユーザはPDAを使 ってディレクトリ・ページ、ダイナミック・メニュー・ウィンドウおよびテキス ト・ページを思い通りに表示できる。しかも、ユーザは全テキストーページを、 例えばファックス・オン・デマンド・モードのファックス等、他の装置に送って より容易に読むことができる。 最後に、マルチメディア・ウェブは、音声、映像およびテキストを組み合わせ て表示することによって実現できる。この場合、これら3つのメディアは第一級 の対象物である。ウェブ概念の各ステージにおいて、ユーザは上記の概念にした がって、音声、映像およびテキストによるマルチメディア情報を受け取る。 本発明はWWW用の新しいブラウザおよびナビゲータを包含することが理解され るであろう。特に、周期的ディレクトリは現在知られているWWWナビゲーション 法に組み込むことができる。
【手続補正書】特許法第184条の8第1項 【提出日】平成10年12月4日(1998.12.4) 【補正内容】 請求の範囲 1.少なくとも1つのサーバが少なくとも1つの音声ページと音声コマンドを認 識する手段とを有し、前記少なくとも1つの音声ページのそれぞれが音声データ を有し、少なくとも1つの他の音声ページに相互参照によってリンクされるよう に構成された少なくとも1つのサーバと、 前記少なくとも1つのサーバが前記音声コマンドを受け取ったときにテキスト または視覚的インターフェイスなしで前記音声データが選択的に前記クライアン トに転送されるように、前記少なくとも1つのサーバと通信するクライアントと を具えたことを特徴とする広域情報システム。 2.請求項1に記載のシステムにおいて、前記少なくとも1つのサーバはスタッ クされた階層に構成された複数の音声ページを含むことを特徴とするシステム。 3.請求項2に記載のシステムにおいて、前記スタックされた階層は最上レベル にホーム・ページを含み、前記ホーム・ページは選択的に前記クライアントに転 送される最初の音声データを有することを特徴とするシステム。 4.請求項3に記載のシステムにおいて、前記ホーム・ページは繰り返し音声ト ラックに対応する音声データを有するディレクトリ・ページであることを特徴と するシステム。 5.請求項4に記載のシステムにおいて、前記繰り返し音声トラックは前記ホー ム・ページの下の階層レベルにある音声ページへの複数の相互参照を含むことを 特徴とするシステム。 6.請求項5に記載のシステムにおいて、前記階層は最下レベルを含み、該最下 レベルは、少なくとも1つのページであって、少なくとも1つの他のページへの 少なくとも1つの相互参照リンクを有する少なくとも1つのページを含むことを 特徴とするシステム。 7.請求項6に記載のシステムにおいて、前記階層は、前記最下レベルの上の少 なくとも1つの中間レベルを含み、前記少なくとも1つの中間レベルは、少なく とも1つのページであって、前記少なくとも1つの中間レベルの上の前記階層レ ベルにあるページへの少なくとも1つの相互参照リンクおよび前記少なくとも1 つの中間レベルの下のレベルにあるページへの少なくとも1つの相互参照リンク を有する少なくとも1つのページを有することを特徴とするシステム。 8.請求項7に記載のシステムにおいて、前記クライアントは前記少なくとも1 つのサーバからの前記音声データの転送を制御し、前記少なくとも1つのサーバ から転送される音声データを聞こえるようにするための手段を含むことを特徴と するシステム。 9.請求項8に記載のシステムにおいて、前記音声データの転送を制御する手段 は前記ディレクトリの前記繰り返し音声トラックを制御するためのコマンドを入 力する手段を含むことを特徴とするシステム。 10.請求項9に記載のシステムにおいて、前記コマンドを入力する手段は前記 繰り返し音声トラックの再生を停止させるためのコマンドを入力する手段を含む ことを特徴とするシステム。 11.請求項10に記載のシステムにおいて、前記クライアントは、前記繰り返 し音声トラックの再生を停止させるためのコマンドを受ける直前の前記繰り返し 音声トラックにおける前記複数の相互参照からなる部分集合を識別する手段を含 むことを特徴とするシステム。 12.請求項11に記載のシステムにおいて、前記クライアントは前記部分集合 内の前記相互参照のひとつを選択する手段を含むことを特徴とするシステム。 13.請求項12に記載のシステムにおいて、前記複数の相互参照からなる部分 集合を識別する手段は前記部分集合内の前記相互参照の可聴リストを生成するこ とを特徴とするシステム。 14.請求項13に記載のシステムにおいて、前記部分集合内の前記相互参照は 基数の集合に対応し、前記繰り返し音声トラックを制御するためのコマンドを入 力する手段は前記部分集合内の前記相互参照の1つを選択するための基数を入力 する手段を含み、前記選択された相互参照に対応するページは前記音声データ転 送接続を介して前記クライアントに転送されることを特徴とするシステム。 15.請求項14に記載のシステムにおいて、前記コマンドを入力する手段は前 記音声トラックの再生再開コマンドを入力する手段を含むことを特徴とするシス テム。 16.請求項15に記載のシステムにおいて、前記コマンドを入力する手段は検 索コマンドを入力する手段を含み、望みの相互参照を見出すために前記繰り返し 音声トラックを検索することができることを特徴とするシステム。 17.請求項16に記載のシステムにおいて、前記検索コマンドは前記繰り返し 音声トラックの再生を、与えられた時点に関してある時間間隔だけ進めるための 前送りコマンドと、前記繰り返し音声トラックの再生を与えられた時点に関して ある時間間隔だけ戻すための後送りコマンドとを含むことを特徴とするシステム 。 18.請求項17に記載のシステムにおいて、前記繰り返し音声トラックの再生 を進め、または戻す際の前記時間間隔は、バイナリ検索アルゴリズムにしたがっ て変えることができることを特徴とするシステム。 19.請求項18に記載のシステムにおいて、再生を進めたり戻したりする際の 前記時間間隔は、前記前送りと後送りコマンドが繰り返し入力されるにしたがっ て次第に減少することを特徴とするシステム。 20.請求項1に記載のシステムにおいて、前記クライアントはさらに前記クラ イアントに転送される音声データを聞こえるようにする手段を含むことを特徴と するシステム。 21.請求項20に記載のシステムにおいて、前記クライアントは複数の基数と 少なくとも1つのコマンド動作を入力する手段を備えることを特徴とするシステ ム。 22.請求項21に記載のシステムにおいて、前記複数の基数と少なくとも1つ のコマンド動作を入力する手段は前記複数の基数のそれぞれと前記少なくとも1 つのコマンド動作に割り当てられた各キーまたはキーの組み合わせを有するキー パッドを備えることを特徴とするシステム。 23.請求項22に記載のシステムにおいて、前記クライアントは前記キーパッ ドとイヤピースを有する電話を備え、前記少なくとも1つのサーバは前記キーま たはキーの組み合わせが押されたときに前記電話が発生するトーンを認識する手 段を備え、前記音声データを聞こえるようにする手段は前記音声データを前記イ ヤピースにおいて聞こえるようにする手段を含むことを特徴とするシステム。 24.請求項22に記載のシステムにおいて、前記クライアントは音声発生装置 とキーボードを有するコンピュータを備え、前記キーボードは基数入力および少 なくとも1つのコマンド動作手段を備え、前記音声データを聞こえるようにする 手段は前記音声データを前記音声発生装置において聞こえるようにする手段を含 むことを特徴とするシステム。 25.請求項21に記載のシステムにおいて、前記複数の基数と少なくとも1つ のコマンド動作を入力する手段は前記複数の基数と少なくとも1つのコマンド動 作に対応する発声された言葉を認識する手段を備えることを特徴とするシステム 。 26.少なくとも1つのサーバと1つのクライアントとを備え、前記サーバのそ れぞれが音声データを有する少なくとも1つの音声ページと音声コマンドを認識 する手段とを有し、情報がすべて音声ページとして格納され、システムがテキス トまたは表示装置を使用しないでナビゲートされるような広域情報システムにお いて前記音声データをユーザに提示する方法であって、 前記クライアントから前記サーバへの接続を確立するステップと、 前記少なくとも1つの音声ページを要求するための、識別子を有する音声要求 メッセージを前記クライアントから前記サーバへ送るステップと、 前記メッセージ要求により識別された音声データを有する前記要求された音声 ページを前記サーバから前記クライアントが受け取るステップと、 前記接続を終了させるステップと、 前記クライアントにおいて前記受け取った音声ページを前記ユーザに提示する ステップとを有する ことを特徴とする方法。 27.請求項26に記載された方法において、前記受け取るステップはさらに前 記メッセージ要求によって識別された前記音声ページを前記サーバから送るサブ ステップを有し、前記音声ページはページ・タイプ識別子を含み、前記ページ・ タイプ識別子は前記音声ページが繰り返し音声トラックを有するディレクトリ・ ページであるか、あるいは線形音声トラックと前記音声トラックの後にハイパー オーディオ・リンクとを有するオーディオ・ウェブ・ページであることを示し、 前記ハイパーオーディオ・リンクはリンク番号、一対の経過時間および前記ハイ パーオーディオ・リンクが示すアドレスを有することを特徴とする方法。 28.請求項27に記載された方法において、前記提示するステップは、さらに 、 前記クライアントにおいて、それぞれが前記受け取った音声データの一部に対 応する複数の選択肢を有する選択メニューをユーザに提供するステップと、 前記クライアントにおいて、前記受け取った音声データの一部に対応する前記 複数の選択肢の1つを前記選択メニューから選択するステップと、 前記選択された選択肢に対応する前記音声データが前記クライアントで受け取 られるように、前記受け取った音声データの一部をクライアントから前記サーバ へ転送するステップと を有することを特徴とする方法。 29.請求項28に記載された方法において、前記提示ステップは、さらに、前 記転送された音声データを可聴音に変換するステップを含むことを特徴とする方 法。 30.請求項29に記載された方法において、選択メニューを提供する前記ステ ップは、 前記複数の選択肢からなる第1集合を順に提示するステップと、 前記第1集合の複数選択肢の前記提示を停止するステップと、 前記第1集合の選択肢の中から第2集合の選択肢を提示するステップとを有し 、 前記第2集合は前記選択メニューを形成することを特徴とする方法。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 3/42 H04M 3/493 3/493 G10L 9/00 N G06F 15/40 370E

Claims (1)

  1. 【特許請求の範囲】 1.クライアントと、 音声データを格納し、前記クライアントと音声データ転送接続を少なくともと きどき有するように構成され、前記音声データが前記クライアントに選択的に転 送される少なくとも1つのサーバと を具えたことを特徴とする広域情報システム。 2.請求項1に記載の広域情報システムにおいて、前記クライアントは入力イン ターフェイスと出力インターフェイスを含むことを特徴とする広域情報システム 。 3.請求項2に記載の広域情報システムにおいて、前記入力インターフェイスは 前記少なくとも1つのサーバから前記クライアントに前記音声データの転送を制 御する手段を含むことを特徴とする広域情報システム。 4.請求項3に記載の広域情報システムにおいて、前記音声データの転送を制御 する前記手段は複数の基数と少なくとも1つのコマンド動作を入力する手段を有 することを特徴とする広域情報システム。 5.請求項3に記載の広域情報システムにおいて、前記出力インターフェイスは 前記クライアントに転送した前記音声データを聞こえるようにする手段を有する ことを特徴とする広域情報システム。 6.請求項4に記載の広域情報システムにおいて、前記出力インターフェイスは 前記クライアントに転送した前記音声データを聞こえるようにする手段を有する ことを特徴とする広域情報システム。 7.請求項6に記載の広域情報システムにおいて、、前記クライアントはキーパ ッドとイヤピースを有する電話とを備え、 前記複数の基数と少なくとも1つのコマンド動作を入力する手段は、前記複数 の基数と前記少なくとも1つのコマンド動作のそれぞれに割り当てられた、前記 キーパッドの各キーまたはキーの組み合わせを有し、 前記クライアントと前記少なくとも1つのサーバのいずれかは、前記キーパッ ドの前記キーまたはキーの組み合わせが押されたときに前記電話が発生した音を 認識し、当該認識した音を前記サーバが認識できる形態に変換する手段を備え、 前記音声データを聞こえるようにする前記手段は、前記転送された音声データ を前記電話の前記イヤピースを介して聞こえる音信号に変換する手段を備えるこ とを特徴とする広域情報システム。 8.請求項6に記載の広域情報システムにおいて、前記クライアントはマウスピ ースとイヤピースを有する電話を備え、 前記複数の基数と少なくとも1つのコマンド動作を入力する手段は、前記マウ スピースを介して受けた前記複数の基数と少なくとも1つのコマンド動作に対応 する発生された言葉を認識し、前記認識した発声語を前記少なくとも1つのサー バが認識できる形態に変換する手段を有し、 前記音声データを聞こえるようにする手段は、前記転送された音声データを前 記電話の前記イヤピースを介して聞こえる音信号に変換する手段を有することを 特徴とする広域情報システム。 9.請求項6に記載の広域情報システムにおいて、前記クライアントは、相互接 続されたキーボード、中央演算ユニットおよび表示装置を含むコンピュータを備 え、 前記複数の基数と少なくとも1つのコマンド動作を入力する前記手段は前記キ ーボードを有し、 前記コンピュータはさらに音声発生装置を含み、前記音声データを聞こえるよ うにする前記手段は前記音声発生装置を有することを特徴とする広域情報システ ム。 10.請求項5に記載の広域情報システムにおいて、前記少なくとも1つのサー バに格納された前記音声情報は重なった階層に構成された複数のページを有し、 前記ページのそれぞれは少なくとも他の1つのページに相互参照により関連付け られていることを特徴とする広域情報システム。 11.請求項10に記載の広域情報システムにおいて、前記重なった階層はその 最上レベルにホーム・ページを含み、前記ホーム・ページは前記クライアントに 最初に転送される音声データであることを特徴とする広域情報システム。 12.請求項11に記載の広域情報システムにおいて、前記ホーム・ページは繰 り返し音声トラックに対応する音声データを含むディレクトリ・ページであり、 前記繰り返し音声トラックは前記音声データを聞こえるようにする手段によって 聞こえるようにされることを特徴とする広域情報システム。 13.請求項12に記載の広域情報システムにおいて、前記繰り返し音声トラッ クは前記ホーム・ページの下の前記階層レベルにあるページへの複数の相互参照 を含むことを特徴とする広域情報システム。 14.請求項13に記載の広域情報システムにおいて、前記階層は少なくとも1 つの中間レベルを含み、前記少なくとも1つの中間レベルは、前記少なくとも1 つの中間レベルの上の前記階層レベルにあるページへの少なくとも1つの相互参 照リンクと前記少なくとも1つの中間レベルの下のレベルにあるページへの少な くとも1つの相互参照リンクとを有する少なくとも1つのページを含むことを特 徴とする広域情報システム。 15.請求項14に記載の広域情報システムにおいて、前記階層は最下レベルを 含み、前記最下レベルは、その上の前記階層レベルにある少なくとも1つのペー ジへの少なくとも1つの相互参照リンクを有する少なくとも1つのページを含む ことを特徴とする広域情報システム。 16.請求項13に記載の広域情報システムにおいて、前記階層は最下レベルを 含み、前記最下レベルは、その上の前記階層レベルにある少なくとも1つのペー ジへの少なくとも1つの相互参照リンクを有する少なくとも1つのページを含む ことを特徴とする広域情報システム。 17.請求項1に記載の広域情報システムにおいて、前記少なくとも1つのサー バに格納された前記音声データは複数のページを有し、前記複数のページのそれ ぞれは前記複数のページの少なくとも1つの他のページに相互参照により関連付 けられていることを特徴とする広域情報システム。 18.請求項10に記載の広域情報システムにおいて、第1のサーバと第2のサ ーバとが設けられ、それぞれのサーバは音声データを格納し、前記第1と第2の サーバの前記音声データはそれぞれ第1と第2の複数ページを有し、前記第1と 第2の複数ページのそれぞれのページは前記第1と第2の複数ページの少なくと も1つの他のページに相互参照により関連付けられ、 前記第1の複数ページの少なくとも1つのページは前記第2の複数ページの1つ のページに相互参照により関連付けられ、前記第1と第2のサーバはそれらの間 の音声データ転送接続を少なくともときどき有するように構成されており、それ によって音声データが前記第1と第2のサーバ間で転送できることを特徴とする 広域情報システム。 19.請求項13に記載の広域情報システムにおいて、前記音声データの転送を 制御する前記手段は前記ディレクトリ・ページの前記繰り返し音声トラックを制 御するコマンドを入力する手段を含むことを特徴とする広域情報システム。 20.請求項19に記載の広域情報システムにおいて、前記コマンドを入力する 手段は前記繰り返し音声トラックの再生を停止させるコマンドを入力する手段を 含むことを特徴とする広域情報システム。 21.請求項20に記載の広域情報システムにおいて、前記クライアントは前記 繰り返し音声トラックの再生を停止させるコマンドを受け取る直前の前記繰り返 し音声トラックにおける前記複数の相互参照からなる部分集合を識別する手段を 含むことを特徴とする広域情報システム。 22.請求項21に記載の広域情報システムにおいて、前記クライアントは前記 部分集合内の前記相互参照のひとつを選択する手段を含むことを特徴とする広域 情報システム。 23.請求項22に記載の広域情報システムにおいて、前記複数の相互参照から なる部分集合を識別する前記手段は前記部分集合内の前記相互参照の可聴リスト を生成することを特徴とする広域情報システム。 24.請求項23に記載の広域情報システムにおいて、前記部分集合内の前記相 互参照は対応する基数に関連付けられており、前記繰り返し音声トラックを制御 するコマンドを入力する前記手段は、前記部分集合内の前記相互参照の1つを選 択するための基数を入力する手段を含み、前記選択された相互参照に対応するペ ージが前記音声データ転送接続を介して前記クライアントに転送されることを特 徴とする広域情報システム。 25.請求項19に記載の広域情報システムにおいて、コマンドを入力する前記 手段は検索コマンドを入力する手段を含み、前記繰り返し音声トラックを検索す ることにより望みの相互参照を見出すことができることを特徴とする広域情報シ ステム。 26.請求項25に記載の広域情報システムにおいて、前記検索コマンドは前記 繰り返し音声トラックの再生を与えられた時点に関してある時間間隔だけ進める ためのフォワード(FORWARD)コマンドと、前記繰り返し音声トラックの再生を 与えられた時点に関してある時間間隔だけ戻すためのバック(BACK)コマンドと を含むことを特徴とする広域情報システム。 27.請求項26に記載の広域情報システムにおいて、前記繰り返し音声トラッ クの再生を進めたり戻したりする際の前記時間間隔は、バイナリ検索アルゴリズ ムにしたがって変えることができることを特徴とする広域情報システム。 28.請求項27に記載の広域情報システムにおいて、前記再生を進めたり戻し たりする際の時間間隔は、前記フォワードおよび前記バックコマンドが繰り返し 入力されるにしたがって次第に減少することを特徴とする広域情報システム。 29.請求項10に記載の広域情報システムにおいて、前記クライアントはユー ザが作成した相互参照ブックマークの付いたページを識別する手段を含み、 前記ページは前記ブックマークを選択することにより直接選択されて前記少な くとも1つのサーバから前記クライアントに転送され、また前記クライアントは 複数の前記ユーザ作成ブックマークを格納する手段を含むことを特徴とする広域 情報システム。 30.請求項29に記載の広域情報システムにおいて、複数のブックマークを格 納する前記手段はディレクトリ・ページであり、前記ディレクトリ・ページは前 記複数のブックマークを可聴的にリストする繰り返し音声トラックに対応する音 声データを含むことを特徴とする広域情報システム。 31.請求項30に記載の広域情報システムにおいて、前記音声データ転送を制 御する前記手段はブックマークの付いたページを取り出すためのコマンドを入力 する手段を含むことを特徴とする広域情報システム。 32.請求項10に記載の広域情報システムにおいて、前記クライアントは、前 記クライアントに送った最新ページの直前の少なくとも1つのページを保持する ように構成されたメモリ・キャッシュを含むことを特徴とする広域情報システム 。 33.請求項32に記載の広域情報システムにおいて、前記音声データ転送を制 御する前記手段は、前記最新ページと前記メモリ・キャッシュに保持された前記 少なくとも1つのページとの間を移動するためのコマンドを入力する手段を含む ことを特徴とする広域情報システム。 34.請求項20に記載の広域情報システムにおいて、コマンドを入力する前記 手段は、再生を停止させるための前記コマンドを入力することにより前記再生を 停止した後に、前記音声トラックの再生を再開するためのコマンドを入力する手 段を含むことを特徴とする広域情報システム。 35.請求項29に記載の広域情報システムにおいて、前記クライアントはペー ジに付けたブックマークを消去する手段を含むことを特徴とする広域情報システ ム。 36.クライアントと、音声データを複数のページとして格納したサーバとを備 え、前記クライアントと前記サーバとがそれらの間に少なくともときどき音声デ ータ転送接続を有するように構成された広域情報システムにおいて、 音声データ転送接続がクライアントとサーバとの間で確立される接続ステップ と、 クライアントが音声データの要求をサーバに送る要求ステップと、 前記要求ステップにおいてクライアントが要求した音声データをサーバが送る 応答ステップと、 クライアントとサーバとの間の前記音声データ転送接続が解消される終了ステ ップと、 を有することを特徴とする音声データプロトコル。 37.請求項36に記載の音声データ転送プロトコルにおいて、前記要求ステッ プにおいて、クライアントは音声データのみを受け取り、前記音声データはペー ジの形態を有し、および 音声データのページを、繰り返し音声トラックに対応する音声データを含むデ ィレクトリ・ページとして、あるいは線形に再生される音声トラックに対応する 音声データを含む非ディレクトリ・ページとして識別するためのページ・タイプ 識別子と、 サーバから送られ且つ音声トラックに対応する前記音声データと を有することを特徴とする音声データプロトコル。 38.請求項37に記載の音声データ転送プロトコルにおいて、前記ページはさ らに別のページに関連付けられた少なくとも1つの相互参照に対応する少なくと も1つのデータ・クラスタを含み、前記データ・クラスタは、 前記少なくとも1つの相互参照を識別するためのインデックス番号と、 前記音声データにおける前記相互参照の開始位置を、前記音声トラックの再生 経過時間として示す時間インデックスと、 前記音声データにおける前記相互参照の終了位置を、前記音声トラックの再生 経過時間として示す時間インデックスと、 相互参照が示すページのアドレスと を含むことを特徴とする音声データプロトコル。 39.請求項1に記載の広域情報システムにおいて、前記クライアントはラジオ ・トランシーバであり、前記少なくとも1つのサーバはラジオ送受信局であり、 前記音声データは前記ラジオ送受信局からラジオ送信を介して前記ラジオ・トラ ンシーバに選択的に送信されることを特徴とする広域情報システム。 40.請求項39に記載の広域情報システムにおいて、前記ラジオ・トランシー バは前記音声データ転送を制御するためにラジオ送信を介してラジオ送受信局へ コマンドを送るように構成されていることを特徴とする広域情報システム。 41.複数の項目から1つの項目を選択するための選択メニューを提供する方法 において、 順番に第1の複数項目を提示するステップと、 前記複数項目の提示を停止するステップと、 前記停止ステップで前記第1の複数項目の提示を停止した、前記順番のポイン トにしたがって、前記第1の複数項目から選択した第2の複数項目を提示するス テップとを有することを特徴とする方法。 42.サーバに格納された音声データを選択的にサーバからクライアントに転送 する方法において、 前記サーバと前記クライアントとの間にデータ転送接続を確立するステップと 、 音声データを選択的に前記サーバから前記クライアントに転送するステップと 、 前記転送ステップの後に、前記サーバと前記クライアントとの間のデータ転送 接続を解消するステップと を有することを特徴とする方法。 43.請求項42に記載の方法において、前記転送ステップにおいて転送される 音声データを指定するステップをさらに含むことを特徴とする方法。 44.請求項43に記載の方法において、前記指定するステップは、 それぞれが音声データ部分に対応する複数の選択肢を識別する選択メニューを 前記クライアントにおいて提供するステップと、 前記選択メニューから前記複数の選択肢の1つを選択するステップと、 前記選択された選択肢に対応する音声データが前記サーバから前記クライアン トに転送されるように前記選択された選択肢を前記クライアントから前記サーバ へ転送するステップとを有することを特徴とする方法。 45.請求項44に記載の方法において、前記選択メニューを提供するステップ は、 順番に第1の複数選択肢を提示するステップと、 前記第1の複数選択肢の提示を停止するステップと、 一連の前記第1の複数選択肢の中から第2の複数選択肢を提示するステップと を有し、 前記第2の複数選択肢は前記第1の複数選択肢の提示が停止された、前記第1 の複数選択肢における点にしたがって選択され、それによって選択メニューを形 成することを特徴とする方法。 46.請求項42に記載の方法において、前記選択的に転送された音声データを 可聴音信号に変換するステップをさらに有することを特徴とする方法。
JP10527994A 1996-12-19 1997-12-16 音声による広域情報システム Expired - Fee Related JP3138280B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US770,025 1996-12-19
US08/770,025 1996-12-19
US08/770,025 US5926789A (en) 1996-12-19 1996-12-19 Audio-based wide area information system
PCT/US1997/023524 WO1998027542A1 (en) 1996-12-19 1997-12-16 Audio-based wide area information system

Publications (2)

Publication Number Publication Date
JP2000510270A true JP2000510270A (ja) 2000-08-08
JP3138280B2 JP3138280B2 (ja) 2001-02-26

Family

ID=25087240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10527994A Expired - Fee Related JP3138280B2 (ja) 1996-12-19 1997-12-16 音声による広域情報システム

Country Status (5)

Country Link
US (1) US5926789A (ja)
EP (1) EP0954857A4 (ja)
JP (1) JP3138280B2 (ja)
CA (1) CA2274126A1 (ja)
WO (1) WO1998027542A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003502887A (ja) * 1999-06-16 2003-01-21 アイエム・ネットワークス・インコーポレイテッド インターネットラジオ受信器およびインターフェース

Families Citing this family (184)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567079B1 (en) * 1995-03-06 2003-05-20 Carnegie Mellon University Portable computer system with ergonomic input device
US7562392B1 (en) 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6741869B1 (en) * 1997-12-12 2004-05-25 International Business Machines Corporation Radio-like appliance for receiving information from the internet
US6282512B1 (en) * 1998-02-05 2001-08-28 Texas Instruments Incorporated Enhancement of markup language pages to support spoken queries
JP4197195B2 (ja) * 1998-02-27 2008-12-17 ヒューレット・パッカード・カンパニー 音声情報の提供方法
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6314094B1 (en) * 1998-10-29 2001-11-06 Central Coast Patent Agency Inc Mobile wireless internet portable radio
US6993004B2 (en) * 1998-10-29 2006-01-31 Sound Starts, Inc. Method and apparatus for practicing IP telephony from an Internet-capable radio
US6567796B1 (en) 1999-03-23 2003-05-20 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US8321411B2 (en) 1999-03-23 2012-11-27 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US7082422B1 (en) 1999-03-23 2006-07-25 Microstrategy, Incorporated System and method for automatic transmission of audible on-line analytical processing system report output
US6408272B1 (en) 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US20050261907A1 (en) * 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US8607138B2 (en) 1999-05-28 2013-12-10 Microstrategy, Incorporated System and method for OLAP report generation with spreadsheet report within the network user interface
US9208213B2 (en) 1999-05-28 2015-12-08 Microstrategy, Incorporated System and method for network user interface OLAP report formatting
JP2001061020A (ja) * 1999-08-20 2001-03-06 Matsushita Electric Ind Co Ltd 携帯電話装置
US6885734B1 (en) 1999-09-13 2005-04-26 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive inbound and outbound voice services, with real-time interactive voice database queries
US7197461B1 (en) 1999-09-13 2007-03-27 Microstrategy, Incorporated System and method for voice-enabled input for use in the creation and automatic deployment of personalized, dynamic, and interactive voice services
US7266181B1 (en) 1999-09-13 2007-09-04 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized dynamic and interactive voice services with integrated inbound and outbound voice services
US6940953B1 (en) 1999-09-13 2005-09-06 Microstrategy, Inc. System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services including module for generating and formatting voice services
US6263051B1 (en) 1999-09-13 2001-07-17 Microstrategy, Inc. System and method for voice service bureau
US7340040B1 (en) 1999-09-13 2008-03-04 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for corporate-analysis related information
US6829334B1 (en) 1999-09-13 2004-12-07 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control
US6850603B1 (en) 1999-09-13 2005-02-01 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized dynamic and interactive voice services
US8130918B1 (en) 1999-09-13 2012-03-06 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing
US6836537B1 (en) 1999-09-13 2004-12-28 Microstrategy Incorporated System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule
US6964012B1 (en) 1999-09-13 2005-11-08 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts
US7062544B1 (en) * 1999-09-27 2006-06-13 General Instrument Corporation Provisioning of locally-generated prompts from a central source
US6823370B1 (en) * 1999-10-18 2004-11-23 Nortel Networks Limited System and method for retrieving select web content
US6970915B1 (en) 1999-11-01 2005-11-29 Tellme Networks, Inc. Streaming content over a telephone interface
US7376586B1 (en) 1999-10-22 2008-05-20 Microsoft Corporation Method and apparatus for electronic commerce using a telephone interface
US7941481B1 (en) 1999-10-22 2011-05-10 Tellme Networks, Inc. Updating an electronic phonebook over electronic communication networks
US6807574B1 (en) 1999-10-22 2004-10-19 Tellme Networks, Inc. Method and apparatus for content personalization over a telephone interface
US7376710B1 (en) * 1999-10-29 2008-05-20 Nortel Networks Limited Methods and systems for providing access to stored audio data over a network
US6381314B1 (en) * 1999-12-23 2002-04-30 James Walinski Internet audio channel selection system
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US6721705B2 (en) * 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7353187B1 (en) * 2000-05-26 2008-04-01 Comverse Ltd. Methods and systems for storing predetermined multimedia information
US7424446B2 (en) * 2000-05-26 2008-09-09 Comverse Network System, Ltd. Apparatus and method for storing predetermined multimedia information
US7143039B1 (en) 2000-08-11 2006-11-28 Tellme Networks, Inc. Providing menu and other services for an information processing system using a telephone or other audio interface
US6961895B1 (en) * 2000-08-10 2005-11-01 Recording For The Blind & Dyslexic, Incorporated Method and apparatus for synchronization of text and audio data
US6643621B1 (en) * 2000-09-14 2003-11-04 Cisco Technology, Inc. Methods and apparatus for referencing and processing audio information
US20020095386A1 (en) * 2000-12-07 2002-07-18 Maritzen L. Michael Account control and access management of sub-accounts from master account
US7729925B2 (en) * 2000-12-08 2010-06-01 Sony Corporation System and method for facilitating real time transactions between a user and multiple entities
US6625261B2 (en) * 2000-12-20 2003-09-23 Southwestern Bell Communications Services, Inc. Method, system and article of manufacture for bookmarking voicemail messages
US6832196B2 (en) * 2001-03-30 2004-12-14 International Business Machines Corporation Speech driven data selection in a voice-enabled program
JP2002366194A (ja) * 2001-05-30 2002-12-20 Nokia Corp ハイパーサウンドドキュメント
US7478068B2 (en) * 2001-06-14 2009-01-13 Sony Corporation System and method of selecting consumer profile and account information via biometric identifiers
CA2809894C (en) 2001-06-27 2017-12-12 Skky Incorporated Improved media delivery platform
US20100191602A1 (en) * 2001-06-27 2010-07-29 John Mikkelsen Mobile banking and payment platform
US20100029261A1 (en) * 2001-06-27 2010-02-04 John Mikkelsen Virtual wireless data cable method, apparatus and system
US20100255890A1 (en) * 2001-06-27 2010-10-07 John Mikkelsen Download management of audio and visual content, product method and system
US9712582B2 (en) * 2001-06-27 2017-07-18 Skky, Llc Telephone initiated protocol-improved media delivery platform
US20100077022A1 (en) * 2001-06-27 2010-03-25 John Mikkelsen Media delivery platform
US7499863B2 (en) * 2001-07-06 2009-03-03 Dialogic Corporation System and method for constructing phrases for a media server
US20040177167A1 (en) * 2003-03-04 2004-09-09 Ryuichi Iwamura Network audio systems
US20060235550A1 (en) * 2003-04-24 2006-10-19 Csicsatka Tibor G Creation of playlists using audio identification
US20080154601A1 (en) * 2004-09-29 2008-06-26 Microsoft Corporation Method and system for providing menu and other services for an information processing system using a telephone or other audio interface
US8544045B2 (en) * 2005-01-21 2013-09-24 Sony Corporation Home network audio client with detachable remote commander
US7199706B2 (en) * 2005-02-22 2007-04-03 Sony Corporation PLC intercom/monitor
WO2007008248A2 (en) * 2005-07-11 2007-01-18 Voicedemand, Inc. Voice control of a media player
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
DE102006035780B4 (de) * 2006-08-01 2019-04-25 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080091643A1 (en) * 2006-10-17 2008-04-17 Bellsouth Intellectual Property Corporation Audio Tagging, Browsing and Searching Stored Content Files
JP5464785B2 (ja) * 2006-12-05 2014-04-09 キヤノン株式会社 情報処理装置および情報処理方法
US7613828B2 (en) * 2007-01-12 2009-11-03 Microsoft Corporation Store-and-forward messaging channel for occasionally connected mobile applications
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8131458B1 (en) 2008-08-22 2012-03-06 Boadin Technology, LLC System, method, and computer program product for instant messaging utilizing a vehicular assembly
US8078397B1 (en) 2008-08-22 2011-12-13 Boadin Technology, LLC System, method, and computer program product for social networking utilizing a vehicular assembly
US8265862B1 (en) 2008-08-22 2012-09-11 Boadin Technology, LLC System, method, and computer program product for communicating location-related information
US8073590B1 (en) 2008-08-22 2011-12-06 Boadin Technology, LLC System, method, and computer program product for utilizing a communication channel of a mobile device by a vehicular assembly
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CA2776973A1 (en) * 2009-10-05 2011-04-14 Callspace, Inc. Contextualized telephony message management
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130204413A1 (en) * 2012-02-07 2013-08-08 Apple Inc. Audio Hyperlinking
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
HK1220313A1 (zh) 2013-06-13 2017-04-28 苹果公司 用於由语音命令发起的紧急呼叫的系统和方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5351276A (en) * 1991-02-11 1994-09-27 Simpact Associates, Inc. Digital/audio interactive communication network
US5539808A (en) * 1992-07-14 1996-07-23 International Business Machines Corporation Method and system for enhanced processing of audio messages with a data processing system
US5586235A (en) * 1992-09-25 1996-12-17 Kauffman; Ivan J. Interactive multimedia system and method
US5524141A (en) * 1994-09-22 1996-06-04 Bell Communications Research, Inc. System and method for providing directory information over a telephony network using ADSI
JPH08235114A (ja) * 1995-02-28 1996-09-13 Hitachi Ltd サーバアクセス方法と課金情報管理方法
US5681108A (en) * 1995-06-28 1997-10-28 Miller; Alan Golf scorekeeping system
US5572643A (en) * 1995-10-19 1996-11-05 Judson; David H. Web browser with dynamic display of information objects during linking
JP3797497B2 (ja) * 1996-03-28 2006-07-19 株式会社Yozan ページャへのメッセージ作成方式
US5761280A (en) * 1996-09-04 1998-06-02 8×8, Inc. Telephone web browser arrangement and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003502887A (ja) * 1999-06-16 2003-01-21 アイエム・ネットワークス・インコーポレイテッド インターネットラジオ受信器およびインターフェース

Also Published As

Publication number Publication date
CA2274126A1 (en) 1998-06-25
EP0954857A1 (en) 1999-11-10
JP3138280B2 (ja) 2001-02-26
US5926789A (en) 1999-07-20
EP0954857A4 (en) 2000-04-26
WO1998027542A1 (en) 1998-06-25

Similar Documents

Publication Publication Date Title
JP3138280B2 (ja) 音声による広域情報システム
US9190052B2 (en) Systems and methods for providing information discovery and retrieval
US10056077B2 (en) Using speech recognition results based on an unstructured language model with a music system
US8949130B2 (en) Internal and external speech recognition use with a mobile communication facility
US8886540B2 (en) Using speech recognition results based on an unstructured language model in a mobile communication facility application
US7500193B2 (en) Method and apparatus for annotating a line-based document
US8838457B2 (en) Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US6725275B2 (en) Streaming media search and continuous playback of multiple media resources located on a network
US20090030687A1 (en) Adapting an unstructured language model speech recognition system based on usage
US20090030685A1 (en) Using speech recognition results based on an unstructured language model with a navigation system
US20080288252A1 (en) Speech recognition of speech recorded by a mobile communication facility
US20090030688A1 (en) Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20090030691A1 (en) Using an unstructured language model associated with an application of a mobile communication facility
US20090030697A1 (en) Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20080221899A1 (en) Mobile messaging environment speech processing facility
US20080221898A1 (en) Mobile navigation environment speech processing facility
US20080312934A1 (en) Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US20040194611A1 (en) Music delivery system
US20050217459A1 (en) Content providing apparatus, content providing system, web site changing apparatus, web site changing system, content providing method, and web site changing method
US6732078B1 (en) Audio control method and audio controlled device
JP4165249B2 (ja) コンテンツ配信方法及びプログラム
US20080033918A1 (en) Systems, methods and computer program products for supplemental data communication and utilization
JP2002171348A (ja) 音声情報提供システムおよび方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees