WO2021220797A1

WO2021220797A1 - 情報処理方法、情報処理装置及びプログラム

Info

Publication number: WO2021220797A1
Application number: PCT/JP2021/015318
Authority: WO
Inventors: 健人赤間
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-05-01
Filing date: 2021-04-13
Publication date: 2021-11-04
Anticipated expiration: 2022-11-01
Also published as: JPWO2021220797A1; US20230135118A1; CN115461808A; EP4145439A1; JP7757958B2; EP4145439A4

Abstract

情報処理方法は、一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデル（２１）とを用いて、出力トラックを生成する情報処理方法であって、出力トラックは、入力トラックと同一のトラック又は変更が加えられたトラックである第１のトラック、及び、一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、学習済みモデル（２１）は、第１のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである。

Description

情報処理方法、情報処理装置及びプログラム

　本開示は、情報処理方法、情報処理装置及びプログラムに関する。

　例えば特許文献１は、音楽プログラム等の自動生成用のシーケンス情報を生成する技術を開示する。

特開２００２－２０７７１９号公報

　楽曲自体を自動生成することも考えられる。例えば、或る楽器を用いたトラックを入力トラックとし、そこから別のトラックを新たに生成することが考えられる。この場合、生成されるトラックは、入力トラックと協和するように整合性が高められたトラックであることが望ましい。楽曲以外のさまざまな情報生成（例えば翻訳文等の生成）についても同様のことがいえる。

　本開示の一側面は、入力トラックとの整合性が高められたトラックを生成することが可能な情報処理方法、情報処理装置及びプログラムを提供することを目的とする。

　本開示の一側面に係る情報処理方法は、一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する情報処理方法であって、出力トラックは、入力トラックと同一のトラック又は変更が加えられたトラックである第１のトラック、及び、一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、学習済みモデルは、第１のトラックが入力されると、出力トラックを出力するように、訓練データを用いて生成された学習済みモデルである。

　本開示の一側面に係る情報処理装置は、一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する生成部を備え、出力トラックは、入力トラックと同一のトラック又は入力トラックの一部が変更されたトラックである第１のトラック、及び、一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、学習済みモデルは、第１のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、情報処理装置。

　本開示の一側面に係るプログラムは、コンピュータを機能させるためのプログラムであって、一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成すること、をコンピュータに実行させ、出力トラックは、入力トラックと同一のトラック又は入力トラックの一部が変更されたトラックである第１のトラック、及び、一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、学習済みモデルは、第１のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである。

実施形態に係る情報処理装置の外観の例を示す図である。情報処理装置の入力画面の例を示す図である。情報処理装置の出力画面の例を示す図である。情報処理装置の機能ブロックの例を示す図である。第１のトラックの例を示す図である。第１のトラックの例を示す図である。第１のトラックの例を示す図である。入力トークンとトークン列との対応関係の例を示す図である。追加トークンの例を示す図である。学習済みモデルの機能ブロックの例を示す図である。学習済みモデルによるトークン列生成の概要の例を示す図である。出力トラックの例を示す図である。出力トラックの例を示す図である。出力トラックの例を示す図である。情報処理装置において実行される処理（情報処理方法）の例を示すフローチャートである。学習済みモデルの生成の例を示すフローチャートである。情報処理装置のハードウェア構成の例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．　実施形態
　　　１．１　情報処理装置の構成の例
　　　１．２　情報処理装置において実行される処理（情報処理方法）の例
　　　１．３　学習済みモデルの生成の例
　　　１．４　ハードウェア構成の例
　　２．　変形例
　　３．　効果

１．　実施形態
１．１　情報処理装置の概略構成の例
　以下では、主に、実施形態に係る情報処理方法に用いることのできる情報処理装置を例に挙げて説明する。実施形態に係る情報処理装置は、例えば、種々の情報を生成する情報生成装置として用いられる。生成される情報の例は、楽曲、文等である。扱われる情報を、「トラック」と称する。トラックは一定期間又は一定区間にわたって与えられる複数の情報要素を含む。トラックが楽曲の場合の情報要素の例は、楽器の音情報である。音情報の例は、音の音高値、音の発生期間等である。この場合、トラックは、一定期間中の各時刻での楽器の音を示しうる。トラックが文の場合の情報要素の例は、単語、形態素等（以下、単に「単語等」という。）である。この場合、トラックは、一定区間中の各位置での単語等を示しうる。以下、とくに説明がある場合を除き、トラックが楽曲であり情報要素が音情報である場合について説明する。

　図１は、実施形態に係る情報処理装置の外観の例を示す図である。情報処理装置１は、例えば汎用のコンピュータにおいて所定のプログラム（ソフトウェア）を実行させることによって実現される。図１に示される例では、情報処理装置１は、ユーザＵが使用するラップトップである。情報処理装置１の表示画面を、表示画面１ａと称し図示する。ラップトップ以外にも、ＰＣ、スマートフォンといった種々の装置によって情報処理装置１が実現されうる。

　図２は、情報処理装置の入力画面の例を示す図である。項目「入力トラック選択」において、ユーザＵは、入力トラックを選択する。入力トラックは、一定期間中の各時刻での楽器（第１の楽器）の音情報（音の音高値、音の発生期間等）である。ベース、ドラム等を含むあらゆる楽器が第１の楽器となりうる。ユーザＵは、例えば、入力トラックに対応するデータ（ＭＩＤＩファイル等）を指定することによって、入力トラックを選択する。選択された入力トラックを可視化した情報が、項目「入力トラック選択」の下に表示される。

　項目「入力トラックに変更を加える」において、ユーザＵは、入力トラックに変更を加えるか否かを選択し、変更を加える場合には、変更の程度（変更量）も選択する。変更量の例は、変更される音情報の割合（％）である。変更量は、予め準備された複数の数値から選択されてもよいし、ユーザＵ１によって直接数値入力されてもよい。変更の具体的な内容については後述する。

　項目「楽器選択」において、ユーザＵは、新たに生成されるトラックに用いられる楽器（第２の楽器）を選択する。第２の楽器は、自動的に選択されてもよいし、ユーザＵによって指定されてもよい。上述の第１の楽器と同様に、あらゆる楽器が第１の楽器となりうる。第２の楽器の種類は、第１の楽器の種類と同じであってもよい。

　図３は、出力画面の例を示す図である。この例では、出力トラックを可視化した情報が表示される。出力トラックは、複数のトラックを含むトラックセット（マルチトラック）であり、図３に示される例では２つのトラックを含む。第１のトラックは、図において下側に示されるトラックであり、入力トラック（図２）と同一のトラック又は入力トラックの一部が変更されたトラックである。第２のトラックは、図において上側に示されるトラックであり、一定期間中の各時刻での第２の楽器の音情報を示すように新たに生成されたトラックである。この例では、第１のトラック及び第２のトラックが、選択及び再生可能な態様で表示される。２つのトラックは、同時再生されてよい。後述の原理により、第１のトラックとの整合性が高められたトラックが、第２のトラックとして生成される。そのような第１のトラック及び第２のトラックは互いに協和音を構成し、同時再生に適する。

　なお、以上説明した図１～図３は情報処理装置１の外観及び入出力画面の構成の例示に過ぎず、他のさまざまな構成が採用されてよい。

　図４は、情報処理装置１の機能ブロックの例を示す図である。情報処理装置１は、入力部１０と、記憶部２０と、生成部３０と、出力部４０とを含む。

　入力部１０には、入力トラックが入力される。例えば先に図２を参照して説明したようにユーザＵが選択した入力トラックを、入力部１０が受け付ける。入力トラックに変更を加えるか否かの選択等、さらには、生成されるトラックに用いられる楽器の選択も入力されてよい。

　記憶部２０は、情報処理装置１で用いられる種々の情報を記憶する。このうち、図４には、学習済みモデル２１及びプログラム２２が例示される。学習済みモデル２１は、第１のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである。学習済みモデル２１の詳細については、後に改めて説明する。プログラム２２は、情報処理装置１において実行される処理を実現するためのプログラム（ソフトウェア）である。

　生成部３０は、入力部１０に入力された入力トラックと、学習済みモデル２１とを用いて、出力トラックを生成する。図４において、生成部３０による代表的な処理を実行する機能ブロックが、トラック変更部３１、トークン生成部３２及びトラック生成部３３として例示される。

　トラック変更部３１は、入力トラックに変更を加える。変更後の入力トラックは、第１のトラックの一態様である。例えば、トラック変更部３１は、入力トラックに含まれる複数の音情報（第１の楽器の音の音高値及び音の発生期間等）の一部を変更する。これについて、図５～図７を参照して説明する。

　図５～図７は、第１のトラックの例を示す図である。横軸は時刻（この例ではtime(bars)）を示し、縦軸は音高値（この例ではMIDI　pitch）を示す。なお、barsは、小節番号を示し、以下ではこれを単位時間として扱う。

　図５に例示される第１のトラックは、入力トラックと同一のトラックである。すなわちこのトラックが、入力部１０に入力された入力トラックである。トラック変更部３１による変更が行われないこのトラックも、第１のトラックの一態様である。後述の図７と対比するため、図５中の２つの音に、音Ｐ１及び音Ｐ２の符号を付している。

　図６に例示される第１のトラックは、入力トラック（図５）と比較して、音Ｐ１１～音Ｐ１３を含む点において相違する。音Ｐ１１～音Ｐ１３は、入力トラックの対応する音に変更が加えられた音である。音Ｐ１１及び音Ｐ１３は、音が高くなる（音高値が大きくなる）ように変更されている。変更の程度は、音どうしの間で異なりうる。音Ｐ１２は、音が低くなるように（音高値が小さくなるように）変更されている。他の変更態様として、入力トラックの対応する音が削除され（情報が欠落するようにマスクされ）、音Ｐ１１～音Ｐ１３が追加されてもよい。入力トラックの対応する音が、音Ｐ１１～音Ｐ１３に置き換えられてもよい。

　図７に例示される第１のトラックは、入力トラック（図５）に示される入力トラックと比較して、音Ｐ２１～音Ｐ２９を含む点において相違する。音Ｐ２１～音Ｐ２８は、入力トラックの対応する音に変更が加えられた音である。音Ｐ２９は、新たに追加された音である。音Ｐ２１、音Ｐ２５及び音Ｐ２６は、音が低くなるように変更されている。変更の程度は、音どうしの間で異なりうる。音Ｐ２２は、音が高くなるように変更されている。音Ｐ２３及び音Ｐ２４は、入力トラックの音Ｐ１を、音が高くなるように変更された音Ｐ２３と、音が低くなるように変更された音Ｐ２４とに分割して得られた音である。音Ｐ２７及び音Ｐ２８は、音が低くなり且つ発生期間が長くなるように変更されている。他の変更態様として、入力トラックの対応する音が削除され（マスクされ）、音Ｐ２１～音Ｐ２８が追加されてもよい。図７における全音に占める音Ｐ２１～音Ｐ２９の割合は、先に説明した図６における全音に占める音Ｐ１１～音Ｐ１３の割合よりも大きい。

　トラック変更部３１によれば、入力部１０に入力された入力トラックに拘束されることなく、入力トラックとは一部異なるトラックが第１のトラックとして得られる。拘束の程度（拘束強度：Constraint　strength）は、変更対象の音の割合によって調整されうる。調整量は例えばランダムに定められる。

　図４に戻り、トークン生成部３２は、第１のトラックに基づいて、トークン列を生成する。一実施形態において、トークン生成部３２は、第１のトークンと、第２のトークンとを、時刻順に並べることによって、トークン列を生成する。第１のトークンは、第１のトラックに含まれるそれぞれの音の発生及び停止を示すトークンである。第２のトークンは、対応する第１のトークンに示される状態が維持される期間を示すトークンである。トークン列の生成の例について、図８を参照して説明する。

　図８は、入力トークンとトークン列との対応関係の例を示す図である。図において上側に示される入力トークンから、図において下側に示されるトークン列が生成される。トークン列においては、山括弧<>で表される部分が、一つのトークンに対応する。

　トークン<ON,　M,　60>は、時刻０において、楽器Ｍの音高値６０での音の発生が開始することを示すトークン（第１のトークン）である。続くトークン<SHIFT,　1>は、１単位時間の期間、対応する第１のトークンに示される状態（楽器Ｍ、音高値６０）が維持されることを示すトークン（対応する第２のトークン）である。すなわち、SHIFTは、直前のトークンに示される状態のまま時刻だけが移動（時間だけが経過）することを意味する。

　トークン<ON,　M,　64>は、楽器Ｍの音高値６４での音の発生が開始することを示すトークン（第１のトークン）である。次のトークン<SHIFT,　1>は、１単位時間の期間、対応する第１のトークンに示される状態（楽器Ｍ、音高値６０、楽器Ｍ、音高値６４）が維持されることを示すトークン（対応する第２のトークン）である。

　トークン<ON,　M,　67>は、楽器Ｍの音高値６７での音の発生が開始することを示すトークン（第１のトークン）である。続くトークン<SHIFT,　2>は、２単位時間の期間、対応する第１のトークンに示される状態（楽器Ｍ、音高値６０、楽器Ｍ、音高値６４、楽器Ｍ、音高値６７）が維持されることを示すトークン（対応する第２のトークン）である。

　トークン<OFF,　M,　60>は、楽器Ｍの音高値６０での音の発生が終了することを示すトークン（第１のトークン）である。トークン<OFF,　M,　64>は、楽器Ｍの音高値６４での音の発生が終了することを示すトークン（第１のトークン）である。トークン<OFF,　M,　67>は、楽器Ｍの音高値６７での音の発生が終了することを示すトークン（第１のトークン）である。続くトークン<SHIFT,　1>は、１単位時間の期間、対応する第１のトークンに示される状態（いずれの楽器による音の発生も無い）が維持されることを示すトークン（対応する第２のトークン）である。

　トークン<ON,　M,　65>は、楽器Ｍの音高値６５での音の発生が開始することを示すトークン（第１のトークン）である。続くトークン<SHIFT,　1>は、１単位時間の期間、対応する第１のトークンに示される状態（楽器Ｍ、音高値６５）が維持されることを示すトークン（対応する第２のトークン）である。

　トークン<OFF,　M,　65>は、楽器Ｍの音高値６５での音の発生が終了することを示す（第１のトークン）。

　なお、上記では、同じ時刻に複数の音が存在する場合、低い音に対応するトークンから順に並べる例を説明した。このように順序を決めておくことで、学習済みモデル２１の学習が行いやすくなる。

　以上のようにして生成されたトークン列（図８において下側に示されるトークン列）を基本トークン列として、トークン生成部３２は、さらにトークンを追加してもよい（埋め込んでもよい）。追加トークンの例として、第１の追加トークン及び第２の追加トークンについて説明する。

　第１の追加トークンは、各トークンがトークン列に現れたときまでに経過した期間を示すトークンである。トークン生成部３２は、各トークンがトークン列に現れたときまでに第２のトークンに示された期間の合計を示すトークンを、各トークンに含めて（埋め込んで）よい。先に説明したように、第２のトークンのSHIFTは直前のトークンに示される状態のまま時刻だけが移動することを意味するので、第１の追加トークンの埋め込みは、ＴＳＥ（Time　Shift　Summarisation　Embedding）と呼ぶこともできる。

　第２の追加トークンは、各トークンのトークン列における位置を示すトークンである。トークン生成部３２は、各トークンのトークン列における位置を示すトークンを、各トークンに含めてよい（埋め込んでよい）。第２の追加トークンの埋め込みは、ＰＥ（Position　Embedding）と呼ぶこともできる。

　上述の追加トークン（第１の追加トークン及び第２の追加トークン）の埋め込みの例について、図９を参照して説明する。

　図９は、追加トークンの例を示す図である。この例では、基本トークンとして、トークン<ON,　b,　24>、トークン<SHIFT,　6>及びトークン<OFF,　b,　24>が例示される。これらは、時刻０に楽器ｂの音高値２４での音の発生が開始し、その音の発生が６単位時間の期間維持された後、停止することを示す。

　上述の基本トークンそれぞれに対応する第１の追加トークンとして、トークン<SUM,　0>、トークン<SUM,　6>及びトークン<SUM,　6>が例示される。トークン<SUM,　0>は、トークン<ON,　b,　24>が現れたときまでに経過した期間が０であることを示す。トークン<SUM,　6>は、トークン<SHIFT,　6>及びトークン<OFF,　b,　24>が現れたときまでに経過した期間が６単位時間であることを示す。

　上述の基本トークンそれぞれに対応する第２の追加トークンとして、トークン<POS,　0>、トークン<POS,　1>及びトークン<POS,　2>が例示される。トークン<POS,　0>は、トークン<ON,　b,　24>がトークン列において０番目の位置にあることを示す。トークン<POS,　1>は、トークン<SHIFT,　6>がトークン列において１番目の位置にあることを示す。トークン<POS,　2>は、トークン<OFF,　b,　24>がトークン列において２番目の位置にあることを示す。

　以上説明したように、基本トークンに加えて追加トークンも含めることによって、トークン列に多くの情報が付与される。とくに第１の追加トークンの埋め込み（ＴＳＥ）によって、基本トークンに対応する実際の時刻情報をトークン列に含めることができる。これにより、学習済みモデル２１の生成において時刻に関する学習をバイパスし、学習に係る処理負担を軽減することができる。

　図４に戻り、トラック生成部３３は、出力トラックを生成する。具体的に、トラック生成部３３は、入力トラックと、学習済みモデル２１とを用いて、出力トラックを生成する。学習済みモデル２１を用いた出力トラックの生成の例について、図１０を参照して説明する。

　図１０は、学習済みモデルの機能ブロックの例を示す図である。この例では、学習済みモデル２１は、エンコーダ２１ａ（encoder）及びデコーダ２１ｂ（decoder）を含む。このような構成を備える学習済みモデル２１の例は、Seq2Seq（Sequence　to　Sequence）等であり、ＲＮＮ（Recurrent　Neural　Network）やTransformerをアーキテクチャとして用いることができる。

　エンコーダ２１ａは、入力トークン列から特徴量を抽出する。デコーダ２１ｂは、エンコーダ２１ａによって抽出された特徴量から、例えば最も確立の高いトークン列を用いて、出力トークン列を生成（再構成）する。エンコーダ２１ａの学習は、ＶＡＥ（Variational　Auto　Encoder）、ＧＡＮ（Generative　Adversarial　Networks）等、教師なし学習によって行われてよい。エンコーダ２１ａに入力トークン列と、デコーダ２１ｂによって生成された出力トークン列とを比較して、エンコーダ２１ａ及びデコーダ２１ｂのパラメータが調整される。調整の繰り返しによってエンコーダ２１ａ及びデコーダ２１ｂのパラメータが最適化された学習済みモデル２１が生成される。学習済みモデル２１の生成フローの例については、後に図１６を参照して改めて説明する。

　図１１は、学習済みモデルによるトークン列生成の概要の例を示す図である。図においてエンコーダ２１ａの下側に示されるトークン列が、エンコーダ２１ａに入力される入力トークン列であり、第１のトラック（入力トラック又は変更が加えられたトラック）に対応する。デコーダ２１ｂの上側に示されるトークン列が、学習済みモデル２１によって生成される（再構成される）出力トークン列であり、出力トラックに対応する。図示されるように、出力トークン列は、入力トークン列に含まれる楽器ｂに関するトークンの他に、楽器ｍに関するトークンも含む。すなわち、楽器ｂ（第１の楽器）を用いた第１のトラックだけでなく、楽器ｍ（第２の楽器に相当）を用いた新たなトラックをも含むトラックセットに対応するトークン列が、出力トークン列として生成される。

　上述のように第１のトラック及び第２のトラックのトラックセットに対応するトークン列が生成されることにより、例えば第２のトラックにのみ対応するトークン列が生成される場合よりも、第１のトラックセットとの（つまり入力トラックとの）整合性が高められた第２のトラックのトークン列が生成される。このような第１のトラックセットとの整合性を考慮した楽曲生成は、人間の音楽生成プロセスとの親和性が高く、クリエイティビティの相乗効果が発揮されやすい。親和性が高い人間の音楽生成プロセスは、例えば、トラックをひとつずつ作成したり、或るトラックにインスパイアされて音楽を作ったりするプロセスである。

　一実施形態において、学習済みモデル２１のデコーダ２１ｂは、各トークンを時刻順に生成してよい。この場合、トークン列の生成過程において、デコーダ２１ｂは、生成済みのトークンを参考にして次のトークンを生成してよい（アテンション機能）。

　例えば図においてデコーダ２１ｂの下側に示されるように、スタートトークン<START>、の後、基本トークンとして、トークン<ON,　b,　24>、トークン<ON,　m,　60>、トークン<SHIFT,　4>、トークン<OFF,　m,　60>及びトークン<SHIFT,　2>が順に生成される。その際、デコーダ２１ｂは、先に説明した追加トークンも生成する（出力はしなくてよい）。とくに第１の追加トークンを生成することで、デコーダ２１ｂは、入力されるトークン列の対応する時刻でのトークンも参照しつつ、次のトークンを生成することができるようになる。その結果、出力トラックにおいては、楽器ｍを用いた新たなトラックと、楽器ｂを用いた第１のトラックとの整合性がより高められる。

　例えば以上のようにして学習済みモデル２１によって生成されたトークン列を用いることによって、トラック生成部３３は、出力トラックを生成する。出力トラックのいくつかの例を、図１２～図１４を参照して説明する。

　図１２～図１４は、出力トラックの例を示す図である。図において下側に示されるトラックは、先に説明した図５～図７に示される第１のトラック（入力トラック又は変更が加えられたトラック）であり、第１の楽器の音を示す。図において上側に示されるトラックは、第１のトラックに基づいて新たに生成された第２のトラックであり、第２の楽器の音を示す。これらの図から理解されるように、第１トラックとして入力トラックをそのまま用いた場合（図１２）と、変更を加えた場合（図１３及び１４）とで、異なる出力トラックが得られる。いずれにおいても、これまで説明したように第１のトラック及び第２のトラックのトラックセットが出力トラックとして生成されることで、第１のトラックとの整合性が高められた第２のトラックが得られる。

　図４に戻り、出力部４０は、生成部３０によって生成されたトラックを出力する。例えば先に図３を参照して説明したように、出力トラックが表示される。

１．２　情報処理装置において実行される処理（情報処理方法）の例
　図１５は、情報処理装置において実行される処理（情報処理方法）の例を示すフローチャートである。

　ステップＳ１において、入力トラックを入力する。例えば、ユーザＵ１が、先に図２を参照して説明したように入力トラックを選択する。入力部１０が、入力トラックを受け付ける。入力トラックに変更を加えるか否かの選択等、さらには、生成されるトラック（第２のトラック）に用いられる楽器の選択も入力されてよい。

　ステップＳ２において、変更を加えるか否かを判断する。この判断は、例えば先のステップＳ１の入力結果（入力トラックに変更を加えるか否かの選択等）に基づいて行われる。変更を加える場合（ステップＳ２：Ｙｅｓ）、ステップＳ３に処理を進める。そうでない場合（ステップＳ２：Ｎｏ），ステップＳ４に処理が進められる。

　ステップＳ３において、入力トラックに変更を加える。例えば、トラック変更部３１が、先のステップＳ１で入力された入力トラックに対して変更を加える。変更の具体的な内容は先に図６及び図７等を参照して説明したので、ここでは説明は繰り返さない。

　ステップＳ４において、入力トークン列を生成する。例えば、トークン生成部３２が、先のステップＳ１で入力された入力トラック及び／又は先のステップＳ３で変更が加えられた入力トラック（第１のトラック）に対応する入力トークン列を生成する。生成の具体的な内容は先に図８及び図９等を参照して説明したので、ここでは説明は繰り返さない。

　ステップＳ５において、学習済みモデルを用いて出力トークン列を取得する。例えば、トラック生成部３３が、先のステップＳ４で生成された入力トークン列を学習済みモデル２１に入力トークン列を入力することにより、出力トラックに対応する出力トークン列を取得する。取得の具体的な内容は先に図１１等を参照して説明したので、ここでは説明は繰り返さない。

　ステップＳ６において、出力トラックを生成する。例えば、トラック生成部３３が、先のステップＳ４で取得された出力トークン列に対応する出力トラックを生成する。

　ステップＳ７において、出力トラックを出力する。例えば、出力部４０が、先のステップＳ６で生成された出力トラックを、先に図３を参照して説明したように出力する。

　ステップＳ７の処理が完了した後、フローチャートの処理は終了する。例えばこのような処理によって、入力トラックから出力トラックが生成及び出力される。

１．３　学習済みモデルの生成の例
　図１６は、学習済みモデルの生成の例を示すフローチャートである。この例では、ミニバッチサンプル集合を用いた学習が行われる。

　ステップＳ１１において、トラックセット（出力トラックに相当）のミニバッチサンプル集合を準備する。各ミニバッチサンプルは、例えば予め準備された複数の楽曲のミニデータの一部を組み合わせて構成される。そのようなミニバッチサンプルを複数（例えば２５６個）集めることによって、ミニバッチサンプル集合が得られる。ミニバッチサンプル集合のうちの一つのミニバッチサンプルが、１回のフローで用いられる。別のミニバッチサンプルが、別のフローで用いられる。

　ステップＳ１２において、トラックに変更を加える。変更についてはこれまで説明したとおりであるので説明は繰り返さない。変更を加えた分だけトラックセットの数が増加しうる。

　ステップＳ１３において、Ｆｏｒｗａｒｄ計算を行う。具体的に、先のステップＳ１２で準備したトラックセットの一部のトラック（第１のトラックに相当）に対応するトークン列を、エンコーダ及びデコーダを含むニューラルネットワークに入力し、新たなトラックセット（第１のトラックセット及び第２のトラックセットに相当）に対応するトークン列を出力させる。出力されたトラックセットと、先に準備したトラックセットとから、誤差関数を求める。

　ステップＳ１４において、Ｂａｃｋｗａｒｄ計算を行う。具体的に、先のステップＳ１３で求めた誤差関数から、クロスエントロピー誤差を計算する。計算したクロスエントロピー誤差から、ニューラルネットワークのパラメータ誤差、さらには誤差の勾配を得る。

　ステップＳ１５において、パラメータを更新する。具体的に、先のステップＳ１４で得られた誤差に従って、ニューラルネットワークのパラメータを更新する。

　ステップＳ１５の処理が完了した後、ステップＳ１１に再び処理が戻される。その場合のステップＳ１１においては、先に用いられたミニバッチサンプルとは別のミニバッチサンプルが用いられる。

　例えば以上のようにして、学習済みモデルを生成することができる。上記は例示であり、上述のようなミニバッチサンプル集合を用いた手法以外にも、さまざまな公知の学習方法が用いられてよい。

１．４　ハードウェア構成の例
　図１７は、情報処理装置のハードウェア構成の例を示す図である。この例では、情報処理装置１は、コンピュータ１０００によって実現される。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。　

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。　

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。　

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。　

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。　

　例えば、コンピュータ１０００が情報処理装置１として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、生成部３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係るプログラム（記憶部２０のプログラム２２）、記憶部２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

２．　変形例
　以上、本開示の一実施形態について説明した。本開示は、上記実施形態に限定されない。

　上記実施形態では、入力トラックが一つのトラックを含み、出力トラックが２つのトラックを含む例について説明した。ただし、入力トラックが２つ以上のトラックを含んでもよい。出力トラックが３つ以上のトラックを含んでもよい。トラック数の増加に応じて情報処理装置１の入出力態様（図２の入力画面等）も適宜変更される。

　上記実施形態では、学習済みモデルがＲＮＮ、Ｓｅｑ２Ｓｅｑ等のエンコーダ及びデコーダを含むモデルである例について説明した。ただし、これらのモデルに限らず、入力されたトークン列からトークン列を再構成することの可能なさまざまな学習済みモデルが用いられてよい。

　上記実施形態では、トラックが楽曲であり、情報要素が音情報である場合について説明した。ただし、音情報以外の情報要素を含むさまざまなトラックが用いられてよい。例えば、トラックが文であり、情報要素が単語等であってもよい。その場合、複数の第１の情報要素は、一定区間にわたって与えられる第１の言語の単語等であり、入力トラックは、一定区間中の各位置での第１の言語の単語等を示す。複数の第２の情報要素は、一定区間にわたって与えられる第２の言語の単語等であり、第２のトラックは、一定区間中の各位置での第２の言語の単語等を示す。トークンについて述べると、第１のトークンは、各単語等の発生及び停止を示す。第２のトークンは、対応する第１のトークンに示される状態が維持される区間（例えば単語等の長さ）を示す。トークン生成部３２は、第１のトークン及び第２のトークンを、一定区間における位置順に並べることによって、トークン列を生成する。第１の追加トークンは、各トークンがトークン列に現れたときまでに経過した区間を示すトークンである。第２のトークンは、各トークンのトークン列における位置を示すトークンである。

　情報処理装置１の一部の機能は、情報処理装置１の外部（例えば外部サーバ）で実現されてもよい。その場合、情報処理装置１は、記憶部２０及び生成部３０の一部又は全部の機能を、外部サーバに備えていてよい。情報処理装置１が外部サーバと通信することにより、これまで説明した情報処理装置１の処理が同様に実現される。

３．　効果
　以上説明した情報処理方法は、例えば次のように特定される。図５及び図１０～図１５等を参照して説明したように、情報処理方法は、入力トラックと、学習済みモデル２１とを用いて、出力トラックを生成する（ステップＳ６）。図５等を参照して説明したように、入力トラックは、一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む。出力トラックは、第１のトラック（入力トラックと同一又は変更が加えられたトラック）、及び、一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む。例えば、複数の第１の情報要素は、一定期間にわたって与えられる第１の楽器の音情報であり、入力トラックは、一定期間中の各時刻での第１の楽器の音情報を示す。複数の第２の情報要素は、一定期間にわたって与えられる第２の楽器の音情報であり、第２のトラックは、一定期間中の各時刻での第２の楽器の音情報を示す。入力トラックは、一定区間中の各位置での第１の言語の単語を示す。出力トラックに含まれる第２のトラックは、一定区間中の各位置での第２の言語の単語を示す。学習済みモデル２１は、第１のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである。

　上記の情報処理方法によれば、第１のトラック及び第２のトラックのトラックセットが、出力トラックとして生成される。これにより、例えば第２のトラックだけを出力セットして生成する場合よりも、第１のトラックセットとの（つまり入力トラックとの）整合性が高められた第２のトラックを生成することができる。このような第１のトラックセットとの整合性を考慮した楽曲生成は、人間の音楽生成プロセスとの親和性が高く、クリエイティビティの相乗効果が発揮されやすい。

　図６及び図７等を参照して説明したように第１のトラックが入力トラックの一部が変更されたトラックである場合、情報処理方法は、入力トラックに含まれる複数の第１の情報要素（例えば第１の楽器の音）の一部を変更することによって、第１のトラックを生成してよい（ステップＳ３）。これにより、入力トラックに拘束されることなく、入力トラックをそのまま第１のトラックとして用いる場合とは異なる出力トラックを得ることができる。

　図８～図１１等を参照して説明したように、入力データは、第１のトラックに対応する入力トークン列であり、出力データは、出力トラックに対応する出力トークン列であってよい。情報処理方法は、入力トークン列を学習済みモデル２１に入力することによって、出力トークン列を取得してよい（ステップＳ５）。情報処理方法は、第１のトークンと、第２のトークンとを、一定期間における時刻順又は一定区間における位置順に並べることによって、入力トークン列を生成してよい（ステップＳ４）。第１のトークンは、複数の第１の情報要素（例えば第１の楽器の音）それぞれの発生及び停止を示す。第２のトークンは、対応する第１のトークンに示される状態が維持される期間又は区間を示す。例えばこのようなトークン列を生成して学習済みモデルを用いることができる。

　図９～図１１等を参照して説明したように、情報処理方法は、第１のトークン及び第２のトークンの各々が入力トークン列に現れたときの時刻又は位置を示す追加トークンを、第１のトークン及び第２のトークンに含めることによって、入力トークン列を生成してよい。追加トークンは、第１のトークン及び第２のトークンの各々が入力トークン列に現れたときまでに第２のトークンに示された期間又は区間の合計を示すトークンであってよい。これにより、時刻又は位置の情報をトークン列に含めることができるので、例えば学習済みモデル２１の生成において時刻又は位置に関する学習をバイパスし、学習に係る処理負担を軽減することができる。

　図５～図７等を参照して説明したように、第１の楽器の音情報は、第１の楽器の音の音高値及び／又は音の発生期間を含んでよい。例えばこのような第１の楽器の音情報を変更することによって（ステップＳ３）、第１のトラックを得ることができる。

　図１～図４等を参照して説明した情報処理装置１も、本開示の一態様である。すなわち、情報処理装置１は、上述の入力トラックと、学習済みモデル２１とを用いて、出力トラックを生成する生成部３０を備える。情報処理装置１によっても、これまで説明したように、入力トラックとの整合性が高められた第２のトラックを生成することができる。

　図４及び図１７等を参照して説明したプログラム２２も、本開示の一態様である。すなわち、プログラム２２は、コンピュータを機能させるためのプログラムであって、上述の入力トラックと、学習済みモデル２１とを用いて、出力トラックを生成すること、をコンピュータに実行させる。プログラム２２によっても、これまで説明したように、入力トラックとの整合性が高められた第２のトラックを生成することができる。

　なお、本開示に記載された効果は、あくまで例示であって、開示された内容に限定されない。他の効果があってもよい。

　以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する情報処理方法であって、
　前記出力トラックは、前記入力トラックと同一のトラック又は変更が加えられたトラックである第１のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、
　前記学習済みモデルは、前記第１のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
　情報処理方法。
（２）
　前記第１のトラックは、前記入力トラックの一部が変更されたトラックであり、
　前記情報処理方法は、前記入力トラックに含まれる前記複数の第１の情報要素の一部を変更することによって、前記第１のトラックを生成する、
　（１）に記載の情報処理方法。
（３）
　前記入力データは、前記第１のトラックに対応する入力トークン列であり、
　前記出力データは、前記出力トラックに対応する出力トークン列であり、
　前記情報処理方法は、前記入力トークン列を前記学習済みモデルに入力することによって、前記出力トークン列を取得する、
　（１）又は（２）に記載の情報処理方法。
（４）
　前記複数の第１の情報要素それぞれの発生及び停止を示す第１のトークンと、対応する前記第１のトークンに示される状態が維持される期間又は区間を示す第２のトークンとを、前記一定期間における時刻順又は前記一定区間における位置順に並べることによって、前記入力トークン列を生成する、
　（３）に記載の情報処理方法。
（５）
　前記第１のトークン及び前記第２のトークンの各々が前記入力トークン列に現れたときの時刻又は位置を示す追加トークンを、前記第１のトークン及び前記第２のトークンに含めることによって、前記入力トークン列を生成する、
　（４）に記載の情報処理方法。
（６）
　前記追加トークンは、前記第１のトークン及び前記第２のトークンの各々が前記入力トークン列に現れたときまでに前記第２のトークンに示された期間又は区間の合計を示すトークンである、
　（５）に記載の情報処理方法。
（７）
　前記複数の第１の情報要素は、前記一定期間にわたって与えられる第１の楽器の音情報であり、前記入力トラックは、前記一定期間中の各時刻での前記第１の楽器の音情報を示し、
　前記複数の第２の情報要素は、前記一定期間にわたって与えられる第２の楽器の音情報であり、前記第２のトラックは、前記一定期間中の各時刻での前記第２の楽器の音情報を示す、
　（１）～（６）のいずれかに記載の情報処理方法。
（８）
　前記第１の楽器の音情報は、前記第１の楽器の音の音高値及び音の発生期間の少なくとも一方を含む、
　（７）に記載の情報処理方法。
（９）
　一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する生成部を備え、
　前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第１のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、
　前記学習済みモデルは、前記第１のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
　情報処理装置。
（１０）
　コンピュータを機能させるためのプログラムであって、
　一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成すること、
　を前記コンピュータに実行させ、
　前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第１のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、
　前記学習済みモデルは、前記第１のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
　プログラム。

　　１　情報処理装置
　１ａ　表示画面
　１０　入力部
　２０　記憶部
　２１　学習済みモデル
２１ａ　エンコーダ
２１ｂ　デコーダ
　２２　プログラム
　３０　生成部
　３１　トラック変更部
　３２　トークン生成部
　３３　トラック生成部
　４０　出力部

Claims

　一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する情報処理方法であって、
　前記出力トラックは、前記入力トラックと同一のトラック又は変更が加えられたトラックである第１のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、
　前記学習済みモデルは、前記第１のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
　情報処理方法。
　前記第１のトラックは、前記入力トラックの一部が変更されたトラックであり、
　前記情報処理方法は、前記入力トラックに含まれる前記複数の第１の情報要素の一部を変更することによって、前記第１のトラックを生成する、
　請求項１に記載の情報処理方法。
　前記入力データは、前記第１のトラックに対応する入力トークン列であり、
　前記出力データは、前記出力トラックに対応する出力トークン列であり、
　前記情報処理方法は、前記入力トークン列を前記学習済みモデルに入力することによって、前記出力トークン列を取得する、
　請求項１に記載の情報処理方法。
　前記複数の第１の情報要素それぞれの発生及び停止を示す第１のトークンと、対応する前記第１のトークンに示される状態が維持される期間又は区間を示す第２のトークンとを、前記一定期間における時刻順又は前記一定区間における位置順に並べることによって、前記入力トークン列を生成する、
　請求項３に記載の情報処理方法。
　前記第１のトークン及び前記第２のトークンの各々が前記入力トークン列に現れたときの時刻又は位置を示す追加トークンを、前記第１のトークン及び前記第２のトークンに含めることによって、前記入力トークン列を生成する、
　請求項４に記載の情報処理方法。
　前記追加トークンは、前記第１のトークン及び前記第２のトークンの各々が前記入力トークン列に現れたときまでに前記第２のトークンに示された期間又は区間の合計を示すトークンである、
　請求項５に記載の情報処理方法。
　前記複数の第１の情報要素は、前記一定期間にわたって与えられる第１の楽器の音情報であり、前記入力トラックは、前記一定期間中の各時刻での前記第１の楽器の音情報を示し、
　前記複数の第２の情報要素は、前記一定期間にわたって与えられる第２の楽器の音情報であり、前記第２のトラックは、前記一定期間中の各時刻での前記第２の楽器の音情報を示す、
　請求項１に記載の情報処理方法。
　前記第１の楽器の音情報は、前記第１の楽器の音の音高値及び音の発生期間の少なくとも一方を含む、
　請求項７に記載の情報処理方法。
　一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する生成部を備え、
　前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第１のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、
　前記学習済みモデルは、前記第１のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
　情報処理装置。
　コンピュータを機能させるためのプログラムであって、
　一定期間又は一定区間にわたって与えられる複数の第１の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成すること、
　を前記コンピュータに実行させ、
　前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第１のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第２の情報要素を含む第２のトラックを含み、
　前記学習済みモデルは、前記第１のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
　プログラム。