WO2021220797A1 - 情報処理方法、情報処理装置及びプログラム - Google Patents
情報処理方法、情報処理装置及びプログラム Download PDFInfo
- Publication number
- WO2021220797A1 WO2021220797A1 PCT/JP2021/015318 JP2021015318W WO2021220797A1 WO 2021220797 A1 WO2021220797 A1 WO 2021220797A1 JP 2021015318 W JP2021015318 W JP 2021015318W WO 2021220797 A1 WO2021220797 A1 WO 2021220797A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- track
- token
- input
- output
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
- G10G1/04—Transposing; Transcribing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/111—Automatic composing, i.e. using predefined musical rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/091—Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
- G10H2220/101—Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
- G10H2220/126—Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of individual notes, parts or phrases represented as variable length segments on a 2D or 3D representation, e.g. graphical edition of musical collage, remix files or pianoroll representations of MIDI-like files
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Definitions
- Patent Document 1 discloses a technique for generating sequence information for automatic generation of a music program or the like.
- FIG. 1 is a diagram showing an example of the appearance of the information processing apparatus according to the embodiment.
- the information processing device 1 is realized by executing a predetermined program (software) on, for example, a general-purpose computer.
- the information processing device 1 is a laptop used by user U.
- the display screen of the information processing device 1 is referred to as a display screen 1a and is illustrated.
- the information processing device 1 can be realized by various devices such as a PC and a smartphone.
- An input track is input to the input unit 10.
- the input unit 10 accepts the input track selected by the user U as described above with reference to FIG.
- the selection of whether or not to make changes to the input track, and the selection of the instrument used for the generated track may also be input.
- the tokens ⁇ ON, M, 64> are tokens (first tokens) indicating that the sound generation at the pitch value 64 of the musical instrument M starts.
- the next token ⁇ SHIFT, 1> is a token (instrument M, pitch value 60, instrument M, pitch value 64) indicating that the state (instrument M, pitch value 60, instrument M, pitch value 64) shown in the corresponding first token is maintained for a period of one unit time.
- the corresponding second token ).
- the token generation unit 32 may further add (embed) tokens.
- the additional token the first additional token and the second additional token will be described.
- the second additional token is a token indicating the position of each token in the token sequence.
- the token generation unit 32 may include (embed) a token indicating the position of each token in the token sequence in each token.
- the embedding of the second additional token can also be called PE (Position Embedding).
- FIG. 10 is a diagram showing an example of functional blocks of the trained model.
- the trained model 21 includes an encoder 21a (encoder) and a decoder 21b (decoder).
- An example of the trained model 21 having such a configuration is Seq2Seq (Sequence to Sequence), and RNN (Recurrent Neural Network) or Transformer can be used as the architecture.
- the decoder 21b of the trained model 21 may generate each token in chronological order. In this case, in the process of generating the token string, the decoder 21b may generate the next token with reference to the generated token (attention function).
- step S6 an output track is generated.
- the track generation unit 33 generates an output track corresponding to the output token string acquired in the previous step S4.
- the trained model can be generated as described above.
- the above is an example, and various known learning methods may be used in addition to the method using the mini-batch sample set as described above.
- the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. Is. Twice an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. Is. Twice
- DVD Digital Versatile Disc
- PD Phase change rewritable Disk
- MO Magneto-optical recording medium
- tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
- MO Magneto-optical disk
- tape medium such as DVD (Digital Versatile Disc) or PD (Phase change
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
情報処理方法は、一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデル(21)とを用いて、出力トラックを生成する情報処理方法であって、出力トラックは、入力トラックと同一のトラック又は変更が加えられたトラックである第1のトラック、及び、一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、学習済みモデル(21)は、第1のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである。
Description
本開示は、情報処理方法、情報処理装置及びプログラムに関する。
例えば特許文献1は、音楽プログラム等の自動生成用のシーケンス情報を生成する技術を開示する。
楽曲自体を自動生成することも考えられる。例えば、或る楽器を用いたトラックを入力トラックとし、そこから別のトラックを新たに生成することが考えられる。この場合、生成されるトラックは、入力トラックと協和するように整合性が高められたトラックであることが望ましい。楽曲以外のさまざまな情報生成(例えば翻訳文等の生成)についても同様のことがいえる。
本開示の一側面は、入力トラックとの整合性が高められたトラックを生成することが可能な情報処理方法、情報処理装置及びプログラムを提供することを目的とする。
本開示の一側面に係る情報処理方法は、一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する情報処理方法であって、出力トラックは、入力トラックと同一のトラック又は変更が加えられたトラックである第1のトラック、及び、一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、学習済みモデルは、第1のトラックが入力されると、出力トラックを出力するように、訓練データを用いて生成された学習済みモデルである。
本開示の一側面に係る情報処理装置は、一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する生成部を備え、出力トラックは、入力トラックと同一のトラック又は入力トラックの一部が変更されたトラックである第1のトラック、及び、一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、学習済みモデルは、第1のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、情報処理装置。
本開示の一側面に係るプログラムは、コンピュータを機能させるためのプログラムであって、一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成すること、をコンピュータに実行させ、出力トラックは、入力トラックと同一のトラック又は入力トラックの一部が変更されたトラックである第1のトラック、及び、一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、学習済みモデルは、第1のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである。
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
以下に示す項目順序に従って本開示を説明する。
1. 実施形態
1.1 情報処理装置の構成の例
1.2 情報処理装置において実行される処理(情報処理方法)の例
1.3 学習済みモデルの生成の例
1.4 ハードウェア構成の例
2. 変形例
3. 効果
1. 実施形態
1.1 情報処理装置の構成の例
1.2 情報処理装置において実行される処理(情報処理方法)の例
1.3 学習済みモデルの生成の例
1.4 ハードウェア構成の例
2. 変形例
3. 効果
1. 実施形態
1.1 情報処理装置の概略構成の例
以下では、主に、実施形態に係る情報処理方法に用いることのできる情報処理装置を例に挙げて説明する。実施形態に係る情報処理装置は、例えば、種々の情報を生成する情報生成装置として用いられる。生成される情報の例は、楽曲、文等である。扱われる情報を、「トラック」と称する。トラックは一定期間又は一定区間にわたって与えられる複数の情報要素を含む。トラックが楽曲の場合の情報要素の例は、楽器の音情報である。音情報の例は、音の音高値、音の発生期間等である。この場合、トラックは、一定期間中の各時刻での楽器の音を示しうる。トラックが文の場合の情報要素の例は、単語、形態素等(以下、単に「単語等」という。)である。この場合、トラックは、一定区間中の各位置での単語等を示しうる。以下、とくに説明がある場合を除き、トラックが楽曲であり情報要素が音情報である場合について説明する。
1.1 情報処理装置の概略構成の例
以下では、主に、実施形態に係る情報処理方法に用いることのできる情報処理装置を例に挙げて説明する。実施形態に係る情報処理装置は、例えば、種々の情報を生成する情報生成装置として用いられる。生成される情報の例は、楽曲、文等である。扱われる情報を、「トラック」と称する。トラックは一定期間又は一定区間にわたって与えられる複数の情報要素を含む。トラックが楽曲の場合の情報要素の例は、楽器の音情報である。音情報の例は、音の音高値、音の発生期間等である。この場合、トラックは、一定期間中の各時刻での楽器の音を示しうる。トラックが文の場合の情報要素の例は、単語、形態素等(以下、単に「単語等」という。)である。この場合、トラックは、一定区間中の各位置での単語等を示しうる。以下、とくに説明がある場合を除き、トラックが楽曲であり情報要素が音情報である場合について説明する。
図1は、実施形態に係る情報処理装置の外観の例を示す図である。情報処理装置1は、例えば汎用のコンピュータにおいて所定のプログラム(ソフトウェア)を実行させることによって実現される。図1に示される例では、情報処理装置1は、ユーザUが使用するラップトップである。情報処理装置1の表示画面を、表示画面1aと称し図示する。ラップトップ以外にも、PC、スマートフォンといった種々の装置によって情報処理装置1が実現されうる。
図2は、情報処理装置の入力画面の例を示す図である。項目「入力トラック選択」において、ユーザUは、入力トラックを選択する。入力トラックは、一定期間中の各時刻での楽器(第1の楽器)の音情報(音の音高値、音の発生期間等)である。ベース、ドラム等を含むあらゆる楽器が第1の楽器となりうる。ユーザUは、例えば、入力トラックに対応するデータ(MIDIファイル等)を指定することによって、入力トラックを選択する。選択された入力トラックを可視化した情報が、項目「入力トラック選択」の下に表示される。
項目「入力トラックに変更を加える」において、ユーザUは、入力トラックに変更を加えるか否かを選択し、変更を加える場合には、変更の程度(変更量)も選択する。変更量の例は、変更される音情報の割合(%)である。変更量は、予め準備された複数の数値から選択されてもよいし、ユーザU1によって直接数値入力されてもよい。変更の具体的な内容については後述する。
項目「楽器選択」において、ユーザUは、新たに生成されるトラックに用いられる楽器(第2の楽器)を選択する。第2の楽器は、自動的に選択されてもよいし、ユーザUによって指定されてもよい。上述の第1の楽器と同様に、あらゆる楽器が第1の楽器となりうる。第2の楽器の種類は、第1の楽器の種類と同じであってもよい。
図3は、出力画面の例を示す図である。この例では、出力トラックを可視化した情報が表示される。出力トラックは、複数のトラックを含むトラックセット(マルチトラック)であり、図3に示される例では2つのトラックを含む。第1のトラックは、図において下側に示されるトラックであり、入力トラック(図2)と同一のトラック又は入力トラックの一部が変更されたトラックである。第2のトラックは、図において上側に示されるトラックであり、一定期間中の各時刻での第2の楽器の音情報を示すように新たに生成されたトラックである。この例では、第1のトラック及び第2のトラックが、選択及び再生可能な態様で表示される。2つのトラックは、同時再生されてよい。後述の原理により、第1のトラックとの整合性が高められたトラックが、第2のトラックとして生成される。そのような第1のトラック及び第2のトラックは互いに協和音を構成し、同時再生に適する。
なお、以上説明した図1~図3は情報処理装置1の外観及び入出力画面の構成の例示に過ぎず、他のさまざまな構成が採用されてよい。
図4は、情報処理装置1の機能ブロックの例を示す図である。情報処理装置1は、入力部10と、記憶部20と、生成部30と、出力部40とを含む。
入力部10には、入力トラックが入力される。例えば先に図2を参照して説明したようにユーザUが選択した入力トラックを、入力部10が受け付ける。入力トラックに変更を加えるか否かの選択等、さらには、生成されるトラックに用いられる楽器の選択も入力されてよい。
記憶部20は、情報処理装置1で用いられる種々の情報を記憶する。このうち、図4には、学習済みモデル21及びプログラム22が例示される。学習済みモデル21は、第1のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである。学習済みモデル21の詳細については、後に改めて説明する。プログラム22は、情報処理装置1において実行される処理を実現するためのプログラム(ソフトウェア)である。
生成部30は、入力部10に入力された入力トラックと、学習済みモデル21とを用いて、出力トラックを生成する。図4において、生成部30による代表的な処理を実行する機能ブロックが、トラック変更部31、トークン生成部32及びトラック生成部33として例示される。
トラック変更部31は、入力トラックに変更を加える。変更後の入力トラックは、第1のトラックの一態様である。例えば、トラック変更部31は、入力トラックに含まれる複数の音情報(第1の楽器の音の音高値及び音の発生期間等)の一部を変更する。これについて、図5~図7を参照して説明する。
図5~図7は、第1のトラックの例を示す図である。横軸は時刻(この例ではtime(bars))を示し、縦軸は音高値(この例ではMIDI pitch)を示す。なお、barsは、小節番号を示し、以下ではこれを単位時間として扱う。
図5に例示される第1のトラックは、入力トラックと同一のトラックである。すなわちこのトラックが、入力部10に入力された入力トラックである。トラック変更部31による変更が行われないこのトラックも、第1のトラックの一態様である。後述の図7と対比するため、図5中の2つの音に、音P1及び音P2の符号を付している。
図6に例示される第1のトラックは、入力トラック(図5)と比較して、音P11~音P13を含む点において相違する。音P11~音P13は、入力トラックの対応する音に変更が加えられた音である。音P11及び音P13は、音が高くなる(音高値が大きくなる)ように変更されている。変更の程度は、音どうしの間で異なりうる。音P12は、音が低くなるように(音高値が小さくなるように)変更されている。他の変更態様として、入力トラックの対応する音が削除され(情報が欠落するようにマスクされ)、音P11~音P13が追加されてもよい。入力トラックの対応する音が、音P11~音P13に置き換えられてもよい。
図7に例示される第1のトラックは、入力トラック(図5)に示される入力トラックと比較して、音P21~音P29を含む点において相違する。音P21~音P28は、入力トラックの対応する音に変更が加えられた音である。音P29は、新たに追加された音である。音P21、音P25及び音P26は、音が低くなるように変更されている。変更の程度は、音どうしの間で異なりうる。音P22は、音が高くなるように変更されている。音P23及び音P24は、入力トラックの音P1を、音が高くなるように変更された音P23と、音が低くなるように変更された音P24とに分割して得られた音である。音P27及び音P28は、音が低くなり且つ発生期間が長くなるように変更されている。他の変更態様として、入力トラックの対応する音が削除され(マスクされ)、音P21~音P28が追加されてもよい。図7における全音に占める音P21~音P29の割合は、先に説明した図6における全音に占める音P11~音P13の割合よりも大きい。
トラック変更部31によれば、入力部10に入力された入力トラックに拘束されることなく、入力トラックとは一部異なるトラックが第1のトラックとして得られる。拘束の程度(拘束強度:Constraint strength)は、変更対象の音の割合によって調整されうる。調整量は例えばランダムに定められる。
図4に戻り、トークン生成部32は、第1のトラックに基づいて、トークン列を生成する。一実施形態において、トークン生成部32は、第1のトークンと、第2のトークンとを、時刻順に並べることによって、トークン列を生成する。第1のトークンは、第1のトラックに含まれるそれぞれの音の発生及び停止を示すトークンである。第2のトークンは、対応する第1のトークンに示される状態が維持される期間を示すトークンである。トークン列の生成の例について、図8を参照して説明する。
図8は、入力トークンとトークン列との対応関係の例を示す図である。図において上側に示される入力トークンから、図において下側に示されるトークン列が生成される。トークン列においては、山括弧<>で表される部分が、一つのトークンに対応する。
トークン<ON, M, 60>は、時刻0において、楽器Mの音高値60での音の発生が開始することを示すトークン(第1のトークン)である。続くトークン<SHIFT, 1>は、1単位時間の期間、対応する第1のトークンに示される状態(楽器M、音高値60)が維持されることを示すトークン(対応する第2のトークン)である。すなわち、SHIFTは、直前のトークンに示される状態のまま時刻だけが移動(時間だけが経過)することを意味する。
トークン<ON, M, 64>は、楽器Mの音高値64での音の発生が開始することを示すトークン(第1のトークン)である。次のトークン<SHIFT, 1>は、1単位時間の期間、対応する第1のトークンに示される状態(楽器M、音高値60、楽器M、音高値64)が維持されることを示すトークン(対応する第2のトークン)である。
トークン<ON, M, 67>は、楽器Mの音高値67での音の発生が開始することを示すトークン(第1のトークン)である。続くトークン<SHIFT, 2>は、2単位時間の期間、対応する第1のトークンに示される状態(楽器M、音高値60、楽器M、音高値64、楽器M、音高値67)が維持されることを示すトークン(対応する第2のトークン)である。
トークン<OFF, M, 60>は、楽器Mの音高値60での音の発生が終了することを示すトークン(第1のトークン)である。トークン<OFF, M, 64>は、楽器Mの音高値64での音の発生が終了することを示すトークン(第1のトークン)である。トークン<OFF, M, 67>は、楽器Mの音高値67での音の発生が終了することを示すトークン(第1のトークン)である。続くトークン<SHIFT, 1>は、1単位時間の期間、対応する第1のトークンに示される状態(いずれの楽器による音の発生も無い)が維持されることを示すトークン(対応する第2のトークン)である。
トークン<ON, M, 65>は、楽器Mの音高値65での音の発生が開始することを示すトークン(第1のトークン)である。続くトークン<SHIFT, 1>は、1単位時間の期間、対応する第1のトークンに示される状態(楽器M、音高値65)が維持されることを示すトークン(対応する第2のトークン)である。
トークン<OFF, M, 65>は、楽器Mの音高値65での音の発生が終了することを示す(第1のトークン)。
なお、上記では、同じ時刻に複数の音が存在する場合、低い音に対応するトークンから順に並べる例を説明した。このように順序を決めておくことで、学習済みモデル21の学習が行いやすくなる。
以上のようにして生成されたトークン列(図8において下側に示されるトークン列)を基本トークン列として、トークン生成部32は、さらにトークンを追加してもよい(埋め込んでもよい)。追加トークンの例として、第1の追加トークン及び第2の追加トークンについて説明する。
第1の追加トークンは、各トークンがトークン列に現れたときまでに経過した期間を示すトークンである。トークン生成部32は、各トークンがトークン列に現れたときまでに第2のトークンに示された期間の合計を示すトークンを、各トークンに含めて(埋め込んで)よい。先に説明したように、第2のトークンのSHIFTは直前のトークンに示される状態のまま時刻だけが移動することを意味するので、第1の追加トークンの埋め込みは、TSE(Time Shift Summarisation Embedding)と呼ぶこともできる。
第2の追加トークンは、各トークンのトークン列における位置を示すトークンである。トークン生成部32は、各トークンのトークン列における位置を示すトークンを、各トークンに含めてよい(埋め込んでよい)。第2の追加トークンの埋め込みは、PE(Position Embedding)と呼ぶこともできる。
上述の追加トークン(第1の追加トークン及び第2の追加トークン)の埋め込みの例について、図9を参照して説明する。
図9は、追加トークンの例を示す図である。この例では、基本トークンとして、トークン<ON, b, 24>、トークン<SHIFT, 6>及びトークン<OFF, b, 24>が例示される。これらは、時刻0に楽器bの音高値24での音の発生が開始し、その音の発生が6単位時間の期間維持された後、停止することを示す。
上述の基本トークンそれぞれに対応する第1の追加トークンとして、トークン<SUM, 0>、トークン<SUM, 6>及びトークン<SUM, 6>が例示される。トークン<SUM, 0>は、トークン<ON, b, 24>が現れたときまでに経過した期間が0であることを示す。トークン<SUM, 6>は、トークン<SHIFT, 6>及びトークン<OFF, b, 24>が現れたときまでに経過した期間が6単位時間であることを示す。
上述の基本トークンそれぞれに対応する第2の追加トークンとして、トークン<POS, 0>、トークン<POS, 1>及びトークン<POS, 2>が例示される。トークン<POS, 0>は、トークン<ON, b, 24>がトークン列において0番目の位置にあることを示す。トークン<POS, 1>は、トークン<SHIFT, 6>がトークン列において1番目の位置にあることを示す。トークン<POS, 2>は、トークン<OFF, b, 24>がトークン列において2番目の位置にあることを示す。
以上説明したように、基本トークンに加えて追加トークンも含めることによって、トークン列に多くの情報が付与される。とくに第1の追加トークンの埋め込み(TSE)によって、基本トークンに対応する実際の時刻情報をトークン列に含めることができる。これにより、学習済みモデル21の生成において時刻に関する学習をバイパスし、学習に係る処理負担を軽減することができる。
図4に戻り、トラック生成部33は、出力トラックを生成する。具体的に、トラック生成部33は、入力トラックと、学習済みモデル21とを用いて、出力トラックを生成する。学習済みモデル21を用いた出力トラックの生成の例について、図10を参照して説明する。
図10は、学習済みモデルの機能ブロックの例を示す図である。この例では、学習済みモデル21は、エンコーダ21a(encoder)及びデコーダ21b(decoder)を含む。このような構成を備える学習済みモデル21の例は、Seq2Seq(Sequence to Sequence)等であり、RNN(Recurrent Neural Network)やTransformerをアーキテクチャとして用いることができる。
エンコーダ21aは、入力トークン列から特徴量を抽出する。デコーダ21bは、エンコーダ21aによって抽出された特徴量から、例えば最も確立の高いトークン列を用いて、出力トークン列を生成(再構成)する。エンコーダ21aの学習は、VAE(Variational Auto Encoder)、GAN(Generative Adversarial Networks)等、教師なし学習によって行われてよい。エンコーダ21aに入力トークン列と、デコーダ21bによって生成された出力トークン列とを比較して、エンコーダ21a及びデコーダ21bのパラメータが調整される。調整の繰り返しによってエンコーダ21a及びデコーダ21bのパラメータが最適化された学習済みモデル21が生成される。学習済みモデル21の生成フローの例については、後に図16を参照して改めて説明する。
図11は、学習済みモデルによるトークン列生成の概要の例を示す図である。図においてエンコーダ21aの下側に示されるトークン列が、エンコーダ21aに入力される入力トークン列であり、第1のトラック(入力トラック又は変更が加えられたトラック)に対応する。デコーダ21bの上側に示されるトークン列が、学習済みモデル21によって生成される(再構成される)出力トークン列であり、出力トラックに対応する。図示されるように、出力トークン列は、入力トークン列に含まれる楽器bに関するトークンの他に、楽器mに関するトークンも含む。すなわち、楽器b(第1の楽器)を用いた第1のトラックだけでなく、楽器m(第2の楽器に相当)を用いた新たなトラックをも含むトラックセットに対応するトークン列が、出力トークン列として生成される。
上述のように第1のトラック及び第2のトラックのトラックセットに対応するトークン列が生成されることにより、例えば第2のトラックにのみ対応するトークン列が生成される場合よりも、第1のトラックセットとの(つまり入力トラックとの)整合性が高められた第2のトラックのトークン列が生成される。このような第1のトラックセットとの整合性を考慮した楽曲生成は、人間の音楽生成プロセスとの親和性が高く、クリエイティビティの相乗効果が発揮されやすい。親和性が高い人間の音楽生成プロセスは、例えば、トラックをひとつずつ作成したり、或るトラックにインスパイアされて音楽を作ったりするプロセスである。
一実施形態において、学習済みモデル21のデコーダ21bは、各トークンを時刻順に生成してよい。この場合、トークン列の生成過程において、デコーダ21bは、生成済みのトークンを参考にして次のトークンを生成してよい(アテンション機能)。
例えば図においてデコーダ21bの下側に示されるように、スタートトークン<START>、の後、基本トークンとして、トークン<ON, b, 24>、トークン<ON, m, 60>、トークン<SHIFT, 4>、トークン<OFF, m, 60>及びトークン<SHIFT, 2>が順に生成される。その際、デコーダ21bは、先に説明した追加トークンも生成する(出力はしなくてよい)。とくに第1の追加トークンを生成することで、デコーダ21bは、入力されるトークン列の対応する時刻でのトークンも参照しつつ、次のトークンを生成することができるようになる。その結果、出力トラックにおいては、楽器mを用いた新たなトラックと、楽器bを用いた第1のトラックとの整合性がより高められる。
例えば以上のようにして学習済みモデル21によって生成されたトークン列を用いることによって、トラック生成部33は、出力トラックを生成する。出力トラックのいくつかの例を、図12~図14を参照して説明する。
図12~図14は、出力トラックの例を示す図である。図において下側に示されるトラックは、先に説明した図5~図7に示される第1のトラック(入力トラック又は変更が加えられたトラック)であり、第1の楽器の音を示す。図において上側に示されるトラックは、第1のトラックに基づいて新たに生成された第2のトラックであり、第2の楽器の音を示す。これらの図から理解されるように、第1トラックとして入力トラックをそのまま用いた場合(図12)と、変更を加えた場合(図13及び14)とで、異なる出力トラックが得られる。いずれにおいても、これまで説明したように第1のトラック及び第2のトラックのトラックセットが出力トラックとして生成されることで、第1のトラックとの整合性が高められた第2のトラックが得られる。
図4に戻り、出力部40は、生成部30によって生成されたトラックを出力する。例えば先に図3を参照して説明したように、出力トラックが表示される。
1.2 情報処理装置において実行される処理(情報処理方法)の例
図15は、情報処理装置において実行される処理(情報処理方法)の例を示すフローチャートである。
図15は、情報処理装置において実行される処理(情報処理方法)の例を示すフローチャートである。
ステップS1において、入力トラックを入力する。例えば、ユーザU1が、先に図2を参照して説明したように入力トラックを選択する。入力部10が、入力トラックを受け付ける。入力トラックに変更を加えるか否かの選択等、さらには、生成されるトラック(第2のトラック)に用いられる楽器の選択も入力されてよい。
ステップS2において、変更を加えるか否かを判断する。この判断は、例えば先のステップS1の入力結果(入力トラックに変更を加えるか否かの選択等)に基づいて行われる。変更を加える場合(ステップS2:Yes)、ステップS3に処理を進める。そうでない場合(ステップS2:No),ステップS4に処理が進められる。
ステップS3において、入力トラックに変更を加える。例えば、トラック変更部31が、先のステップS1で入力された入力トラックに対して変更を加える。変更の具体的な内容は先に図6及び図7等を参照して説明したので、ここでは説明は繰り返さない。
ステップS4において、入力トークン列を生成する。例えば、トークン生成部32が、先のステップS1で入力された入力トラック及び/又は先のステップS3で変更が加えられた入力トラック(第1のトラック)に対応する入力トークン列を生成する。生成の具体的な内容は先に図8及び図9等を参照して説明したので、ここでは説明は繰り返さない。
ステップS5において、学習済みモデルを用いて出力トークン列を取得する。例えば、トラック生成部33が、先のステップS4で生成された入力トークン列を学習済みモデル21に入力トークン列を入力することにより、出力トラックに対応する出力トークン列を取得する。取得の具体的な内容は先に図11等を参照して説明したので、ここでは説明は繰り返さない。
ステップS6において、出力トラックを生成する。例えば、トラック生成部33が、先のステップS4で取得された出力トークン列に対応する出力トラックを生成する。
ステップS7において、出力トラックを出力する。例えば、出力部40が、先のステップS6で生成された出力トラックを、先に図3を参照して説明したように出力する。
ステップS7の処理が完了した後、フローチャートの処理は終了する。例えばこのような処理によって、入力トラックから出力トラックが生成及び出力される。
1.3 学習済みモデルの生成の例
図16は、学習済みモデルの生成の例を示すフローチャートである。この例では、ミニバッチサンプル集合を用いた学習が行われる。
図16は、学習済みモデルの生成の例を示すフローチャートである。この例では、ミニバッチサンプル集合を用いた学習が行われる。
ステップS11において、トラックセット(出力トラックに相当)のミニバッチサンプル集合を準備する。各ミニバッチサンプルは、例えば予め準備された複数の楽曲のミニデータの一部を組み合わせて構成される。そのようなミニバッチサンプルを複数(例えば256個)集めることによって、ミニバッチサンプル集合が得られる。ミニバッチサンプル集合のうちの一つのミニバッチサンプルが、1回のフローで用いられる。別のミニバッチサンプルが、別のフローで用いられる。
ステップS12において、トラックに変更を加える。変更についてはこれまで説明したとおりであるので説明は繰り返さない。変更を加えた分だけトラックセットの数が増加しうる。
ステップS13において、Forward計算を行う。具体的に、先のステップS12で準備したトラックセットの一部のトラック(第1のトラックに相当)に対応するトークン列を、エンコーダ及びデコーダを含むニューラルネットワークに入力し、新たなトラックセット(第1のトラックセット及び第2のトラックセットに相当)に対応するトークン列を出力させる。出力されたトラックセットと、先に準備したトラックセットとから、誤差関数を求める。
ステップS14において、Backward計算を行う。具体的に、先のステップS13で求めた誤差関数から、クロスエントロピー誤差を計算する。計算したクロスエントロピー誤差から、ニューラルネットワークのパラメータ誤差、さらには誤差の勾配を得る。
ステップS15において、パラメータを更新する。具体的に、先のステップS14で得られた誤差に従って、ニューラルネットワークのパラメータを更新する。
ステップS15の処理が完了した後、ステップS11に再び処理が戻される。その場合のステップS11においては、先に用いられたミニバッチサンプルとは別のミニバッチサンプルが用いられる。
例えば以上のようにして、学習済みモデルを生成することができる。上記は例示であり、上述のようなミニバッチサンプル集合を用いた手法以外にも、さまざまな公知の学習方法が用いられてよい。
1.4 ハードウェア構成の例
図17は、情報処理装置のハードウェア構成の例を示す図である。この例では、情報処理装置1は、コンピュータ1000によって実現される。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
図17は、情報処理装置のハードウェア構成の例を示す図である。この例では、情報処理装置1は、コンピュータ1000によって実現される。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が情報処理装置1として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、生成部30等の機能を実現する。また、HDD1400には、本開示に係るプログラム(記憶部20のプログラム22)、記憶部20内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
2. 変形例
以上、本開示の一実施形態について説明した。本開示は、上記実施形態に限定されない。
以上、本開示の一実施形態について説明した。本開示は、上記実施形態に限定されない。
上記実施形態では、入力トラックが一つのトラックを含み、出力トラックが2つのトラックを含む例について説明した。ただし、入力トラックが2つ以上のトラックを含んでもよい。出力トラックが3つ以上のトラックを含んでもよい。トラック数の増加に応じて情報処理装置1の入出力態様(図2の入力画面等)も適宜変更される。
上記実施形態では、学習済みモデルがRNN、Seq2Seq等のエンコーダ及びデコーダを含むモデルである例について説明した。ただし、これらのモデルに限らず、入力されたトークン列からトークン列を再構成することの可能なさまざまな学習済みモデルが用いられてよい。
上記実施形態では、トラックが楽曲であり、情報要素が音情報である場合について説明した。ただし、音情報以外の情報要素を含むさまざまなトラックが用いられてよい。例えば、トラックが文であり、情報要素が単語等であってもよい。その場合、複数の第1の情報要素は、一定区間にわたって与えられる第1の言語の単語等であり、入力トラックは、一定区間中の各位置での第1の言語の単語等を示す。複数の第2の情報要素は、一定区間にわたって与えられる第2の言語の単語等であり、第2のトラックは、一定区間中の各位置での第2の言語の単語等を示す。トークンについて述べると、第1のトークンは、各単語等の発生及び停止を示す。第2のトークンは、対応する第1のトークンに示される状態が維持される区間(例えば単語等の長さ)を示す。トークン生成部32は、第1のトークン及び第2のトークンを、一定区間における位置順に並べることによって、トークン列を生成する。第1の追加トークンは、各トークンがトークン列に現れたときまでに経過した区間を示すトークンである。第2のトークンは、各トークンのトークン列における位置を示すトークンである。
情報処理装置1の一部の機能は、情報処理装置1の外部(例えば外部サーバ)で実現されてもよい。その場合、情報処理装置1は、記憶部20及び生成部30の一部又は全部の機能を、外部サーバに備えていてよい。情報処理装置1が外部サーバと通信することにより、これまで説明した情報処理装置1の処理が同様に実現される。
3. 効果
以上説明した情報処理方法は、例えば次のように特定される。図5及び図10~図15等を参照して説明したように、情報処理方法は、入力トラックと、学習済みモデル21とを用いて、出力トラックを生成する(ステップS6)。図5等を参照して説明したように、入力トラックは、一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む。出力トラックは、第1のトラック(入力トラックと同一又は変更が加えられたトラック)、及び、一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む。例えば、複数の第1の情報要素は、一定期間にわたって与えられる第1の楽器の音情報であり、入力トラックは、一定期間中の各時刻での第1の楽器の音情報を示す。複数の第2の情報要素は、一定期間にわたって与えられる第2の楽器の音情報であり、第2のトラックは、一定期間中の各時刻での第2の楽器の音情報を示す。入力トラックは、一定区間中の各位置での第1の言語の単語を示す。出力トラックに含まれる第2のトラックは、一定区間中の各位置での第2の言語の単語を示す。学習済みモデル21は、第1のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである。
以上説明した情報処理方法は、例えば次のように特定される。図5及び図10~図15等を参照して説明したように、情報処理方法は、入力トラックと、学習済みモデル21とを用いて、出力トラックを生成する(ステップS6)。図5等を参照して説明したように、入力トラックは、一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む。出力トラックは、第1のトラック(入力トラックと同一又は変更が加えられたトラック)、及び、一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む。例えば、複数の第1の情報要素は、一定期間にわたって与えられる第1の楽器の音情報であり、入力トラックは、一定期間中の各時刻での第1の楽器の音情報を示す。複数の第2の情報要素は、一定期間にわたって与えられる第2の楽器の音情報であり、第2のトラックは、一定期間中の各時刻での第2の楽器の音情報を示す。入力トラックは、一定区間中の各位置での第1の言語の単語を示す。出力トラックに含まれる第2のトラックは、一定区間中の各位置での第2の言語の単語を示す。学習済みモデル21は、第1のトラックに対応する入力データが入力されると、出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである。
上記の情報処理方法によれば、第1のトラック及び第2のトラックのトラックセットが、出力トラックとして生成される。これにより、例えば第2のトラックだけを出力セットして生成する場合よりも、第1のトラックセットとの(つまり入力トラックとの)整合性が高められた第2のトラックを生成することができる。このような第1のトラックセットとの整合性を考慮した楽曲生成は、人間の音楽生成プロセスとの親和性が高く、クリエイティビティの相乗効果が発揮されやすい。
図6及び図7等を参照して説明したように第1のトラックが入力トラックの一部が変更されたトラックである場合、情報処理方法は、入力トラックに含まれる複数の第1の情報要素(例えば第1の楽器の音)の一部を変更することによって、第1のトラックを生成してよい(ステップS3)。これにより、入力トラックに拘束されることなく、入力トラックをそのまま第1のトラックとして用いる場合とは異なる出力トラックを得ることができる。
図8~図11等を参照して説明したように、入力データは、第1のトラックに対応する入力トークン列であり、出力データは、出力トラックに対応する出力トークン列であってよい。情報処理方法は、入力トークン列を学習済みモデル21に入力することによって、出力トークン列を取得してよい(ステップS5)。情報処理方法は、第1のトークンと、第2のトークンとを、一定期間における時刻順又は一定区間における位置順に並べることによって、入力トークン列を生成してよい(ステップS4)。第1のトークンは、複数の第1の情報要素(例えば第1の楽器の音)それぞれの発生及び停止を示す。第2のトークンは、対応する第1のトークンに示される状態が維持される期間又は区間を示す。例えばこのようなトークン列を生成して学習済みモデルを用いることができる。
図9~図11等を参照して説明したように、情報処理方法は、第1のトークン及び第2のトークンの各々が入力トークン列に現れたときの時刻又は位置を示す追加トークンを、第1のトークン及び第2のトークンに含めることによって、入力トークン列を生成してよい。追加トークンは、第1のトークン及び第2のトークンの各々が入力トークン列に現れたときまでに第2のトークンに示された期間又は区間の合計を示すトークンであってよい。これにより、時刻又は位置の情報をトークン列に含めることができるので、例えば学習済みモデル21の生成において時刻又は位置に関する学習をバイパスし、学習に係る処理負担を軽減することができる。
図5~図7等を参照して説明したように、第1の楽器の音情報は、第1の楽器の音の音高値及び/又は音の発生期間を含んでよい。例えばこのような第1の楽器の音情報を変更することによって(ステップS3)、第1のトラックを得ることができる。
図1~図4等を参照して説明した情報処理装置1も、本開示の一態様である。すなわち、情報処理装置1は、上述の入力トラックと、学習済みモデル21とを用いて、出力トラックを生成する生成部30を備える。情報処理装置1によっても、これまで説明したように、入力トラックとの整合性が高められた第2のトラックを生成することができる。
図4及び図17等を参照して説明したプログラム22も、本開示の一態様である。すなわち、プログラム22は、コンピュータを機能させるためのプログラムであって、上述の入力トラックと、学習済みモデル21とを用いて、出力トラックを生成すること、をコンピュータに実行させる。プログラム22によっても、これまで説明したように、入力トラックとの整合性が高められた第2のトラックを生成することができる。
なお、本開示に記載された効果は、あくまで例示であって、開示された内容に限定されない。他の効果があってもよい。
以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
なお、本技術は以下のような構成も取ることができる。
(1)
一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する情報処理方法であって、
前記出力トラックは、前記入力トラックと同一のトラック又は変更が加えられたトラックである第1のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、
前記学習済みモデルは、前記第1のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
情報処理方法。
(2)
前記第1のトラックは、前記入力トラックの一部が変更されたトラックであり、
前記情報処理方法は、前記入力トラックに含まれる前記複数の第1の情報要素の一部を変更することによって、前記第1のトラックを生成する、
(1)に記載の情報処理方法。
(3)
前記入力データは、前記第1のトラックに対応する入力トークン列であり、
前記出力データは、前記出力トラックに対応する出力トークン列であり、
前記情報処理方法は、前記入力トークン列を前記学習済みモデルに入力することによって、前記出力トークン列を取得する、
(1)又は(2)に記載の情報処理方法。
(4)
前記複数の第1の情報要素それぞれの発生及び停止を示す第1のトークンと、対応する前記第1のトークンに示される状態が維持される期間又は区間を示す第2のトークンとを、前記一定期間における時刻順又は前記一定区間における位置順に並べることによって、前記入力トークン列を生成する、
(3)に記載の情報処理方法。
(5)
前記第1のトークン及び前記第2のトークンの各々が前記入力トークン列に現れたときの時刻又は位置を示す追加トークンを、前記第1のトークン及び前記第2のトークンに含めることによって、前記入力トークン列を生成する、
(4)に記載の情報処理方法。
(6)
前記追加トークンは、前記第1のトークン及び前記第2のトークンの各々が前記入力トークン列に現れたときまでに前記第2のトークンに示された期間又は区間の合計を示すトークンである、
(5)に記載の情報処理方法。
(7)
前記複数の第1の情報要素は、前記一定期間にわたって与えられる第1の楽器の音情報であり、前記入力トラックは、前記一定期間中の各時刻での前記第1の楽器の音情報を示し、
前記複数の第2の情報要素は、前記一定期間にわたって与えられる第2の楽器の音情報であり、前記第2のトラックは、前記一定期間中の各時刻での前記第2の楽器の音情報を示す、
(1)~(6)のいずれかに記載の情報処理方法。
(8)
前記第1の楽器の音情報は、前記第1の楽器の音の音高値及び音の発生期間の少なくとも一方を含む、
(7)に記載の情報処理方法。
(9)
一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する生成部を備え、
前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第1のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、
前記学習済みモデルは、前記第1のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
情報処理装置。
(10)
コンピュータを機能させるためのプログラムであって、
一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成すること、
を前記コンピュータに実行させ、
前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第1のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、
前記学習済みモデルは、前記第1のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
プログラム。
(1)
一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する情報処理方法であって、
前記出力トラックは、前記入力トラックと同一のトラック又は変更が加えられたトラックである第1のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、
前記学習済みモデルは、前記第1のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
情報処理方法。
(2)
前記第1のトラックは、前記入力トラックの一部が変更されたトラックであり、
前記情報処理方法は、前記入力トラックに含まれる前記複数の第1の情報要素の一部を変更することによって、前記第1のトラックを生成する、
(1)に記載の情報処理方法。
(3)
前記入力データは、前記第1のトラックに対応する入力トークン列であり、
前記出力データは、前記出力トラックに対応する出力トークン列であり、
前記情報処理方法は、前記入力トークン列を前記学習済みモデルに入力することによって、前記出力トークン列を取得する、
(1)又は(2)に記載の情報処理方法。
(4)
前記複数の第1の情報要素それぞれの発生及び停止を示す第1のトークンと、対応する前記第1のトークンに示される状態が維持される期間又は区間を示す第2のトークンとを、前記一定期間における時刻順又は前記一定区間における位置順に並べることによって、前記入力トークン列を生成する、
(3)に記載の情報処理方法。
(5)
前記第1のトークン及び前記第2のトークンの各々が前記入力トークン列に現れたときの時刻又は位置を示す追加トークンを、前記第1のトークン及び前記第2のトークンに含めることによって、前記入力トークン列を生成する、
(4)に記載の情報処理方法。
(6)
前記追加トークンは、前記第1のトークン及び前記第2のトークンの各々が前記入力トークン列に現れたときまでに前記第2のトークンに示された期間又は区間の合計を示すトークンである、
(5)に記載の情報処理方法。
(7)
前記複数の第1の情報要素は、前記一定期間にわたって与えられる第1の楽器の音情報であり、前記入力トラックは、前記一定期間中の各時刻での前記第1の楽器の音情報を示し、
前記複数の第2の情報要素は、前記一定期間にわたって与えられる第2の楽器の音情報であり、前記第2のトラックは、前記一定期間中の各時刻での前記第2の楽器の音情報を示す、
(1)~(6)のいずれかに記載の情報処理方法。
(8)
前記第1の楽器の音情報は、前記第1の楽器の音の音高値及び音の発生期間の少なくとも一方を含む、
(7)に記載の情報処理方法。
(9)
一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する生成部を備え、
前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第1のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、
前記学習済みモデルは、前記第1のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
情報処理装置。
(10)
コンピュータを機能させるためのプログラムであって、
一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成すること、
を前記コンピュータに実行させ、
前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第1のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、
前記学習済みモデルは、前記第1のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
プログラム。
1 情報処理装置
1a 表示画面
10 入力部
20 記憶部
21 学習済みモデル
21a エンコーダ
21b デコーダ
22 プログラム
30 生成部
31 トラック変更部
32 トークン生成部
33 トラック生成部
40 出力部
1a 表示画面
10 入力部
20 記憶部
21 学習済みモデル
21a エンコーダ
21b デコーダ
22 プログラム
30 生成部
31 トラック変更部
32 トークン生成部
33 トラック生成部
40 出力部
Claims (10)
- 一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する情報処理方法であって、
前記出力トラックは、前記入力トラックと同一のトラック又は変更が加えられたトラックである第1のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、
前記学習済みモデルは、前記第1のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
情報処理方法。 - 前記第1のトラックは、前記入力トラックの一部が変更されたトラックであり、
前記情報処理方法は、前記入力トラックに含まれる前記複数の第1の情報要素の一部を変更することによって、前記第1のトラックを生成する、
請求項1に記載の情報処理方法。 - 前記入力データは、前記第1のトラックに対応する入力トークン列であり、
前記出力データは、前記出力トラックに対応する出力トークン列であり、
前記情報処理方法は、前記入力トークン列を前記学習済みモデルに入力することによって、前記出力トークン列を取得する、
請求項1に記載の情報処理方法。 - 前記複数の第1の情報要素それぞれの発生及び停止を示す第1のトークンと、対応する前記第1のトークンに示される状態が維持される期間又は区間を示す第2のトークンとを、前記一定期間における時刻順又は前記一定区間における位置順に並べることによって、前記入力トークン列を生成する、
請求項3に記載の情報処理方法。 - 前記第1のトークン及び前記第2のトークンの各々が前記入力トークン列に現れたときの時刻又は位置を示す追加トークンを、前記第1のトークン及び前記第2のトークンに含めることによって、前記入力トークン列を生成する、
請求項4に記載の情報処理方法。 - 前記追加トークンは、前記第1のトークン及び前記第2のトークンの各々が前記入力トークン列に現れたときまでに前記第2のトークンに示された期間又は区間の合計を示すトークンである、
請求項5に記載の情報処理方法。 - 前記複数の第1の情報要素は、前記一定期間にわたって与えられる第1の楽器の音情報であり、前記入力トラックは、前記一定期間中の各時刻での前記第1の楽器の音情報を示し、
前記複数の第2の情報要素は、前記一定期間にわたって与えられる第2の楽器の音情報であり、前記第2のトラックは、前記一定期間中の各時刻での前記第2の楽器の音情報を示す、
請求項1に記載の情報処理方法。 - 前記第1の楽器の音情報は、前記第1の楽器の音の音高値及び音の発生期間の少なくとも一方を含む、
請求項7に記載の情報処理方法。 - 一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成する生成部を備え、
前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第1のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、
前記学習済みモデルは、前記第1のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
情報処理装置。 - コンピュータを機能させるためのプログラムであって、
一定期間又は一定区間にわたって与えられる複数の第1の情報要素を含む入力トラックと、学習済みモデルとを用いて、出力トラックを生成すること、
を前記コンピュータに実行させ、
前記出力トラックは、前記入力トラックと同一のトラック又は前記入力トラックの一部が変更されたトラックである第1のトラック、及び、前記一定期間又は一定区間にわたって与えられる複数の第2の情報要素を含む第2のトラックを含み、
前記学習済みモデルは、前記第1のトラックに対応する入力データが入力されると、前記出力トラックに対応する出力データを出力するように、訓練データを用いて生成された学習済みモデルである、
プログラム。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022517612A JP7757958B2 (ja) | 2020-05-01 | 2021-04-13 | 情報処理方法、情報処理装置及びプログラム |
| EP21796145.7A EP4145439A4 (en) | 2020-05-01 | 2021-04-13 | INFORMATION PROCESSING METHOD, INFORMATION PROCESSING APPARATUS AND PROGRAM |
| CN202180030137.XA CN115461808A (zh) | 2020-05-01 | 2021-04-13 | 信息处理方法、信息处理设备和程序 |
| US17/918,564 US20230135118A1 (en) | 2020-05-01 | 2021-04-13 | Information processing device, information processing method, and program |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020081493 | 2020-05-01 | ||
| JP2020-081493 | 2020-05-01 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2021220797A1 true WO2021220797A1 (ja) | 2021-11-04 |
Family
ID=78331538
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2021/015318 Ceased WO2021220797A1 (ja) | 2020-05-01 | 2021-04-13 | 情報処理方法、情報処理装置及びプログラム |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20230135118A1 (ja) |
| EP (1) | EP4145439A4 (ja) |
| JP (1) | JP7757958B2 (ja) |
| CN (1) | CN115461808A (ja) |
| WO (1) | WO2021220797A1 (ja) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002207719A (ja) | 2000-09-29 | 2002-07-26 | Sony France Sa | シーケンス情報生成方法及び装置 |
| JP2020003535A (ja) * | 2018-06-25 | 2020-01-09 | カシオ計算機株式会社 | プログラム、情報処理方法、電子機器、及び学習済みモデル |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010521021A (ja) * | 2007-02-14 | 2010-06-17 | ミューズアミ, インコーポレイテッド | 楽曲ベースの検索エンジン |
| US20090235809A1 (en) * | 2008-03-24 | 2009-09-24 | University Of Central Florida Research Foundation, Inc. | System and Method for Evolving Music Tracks |
| CA2764042C (en) * | 2009-06-01 | 2018-08-07 | Music Mastermind, Inc. | System and method of receiving, analyzing, and editing audio to create musical compositions |
| JP5548975B2 (ja) * | 2009-06-02 | 2014-07-16 | カシオ計算機株式会社 | 演奏データ生成装置およびプログラム |
| JP5310677B2 (ja) | 2010-08-31 | 2013-10-09 | ブラザー工業株式会社 | 音源分離装置、及びプログラム |
| US10572447B2 (en) | 2015-03-26 | 2020-02-25 | Nokia Technologies Oy | Generating using a bidirectional RNN variations to music |
| GB2539875B (en) * | 2015-06-22 | 2017-09-20 | Time Machine Capital Ltd | Music Context System, Audio Track Structure and method of Real-Time Synchronization of Musical Content |
| WO2019040524A1 (en) * | 2017-08-21 | 2019-02-28 | Muvik Labs, Llc | METHOD AND SYSTEM FOR MUSIC COMMUNICATION |
| US11024276B1 (en) * | 2017-09-27 | 2021-06-01 | Diana Dabby | Method of creating musical compositions and other symbolic sequences by artificial intelligence |
| JP6617784B2 (ja) | 2018-03-14 | 2019-12-11 | カシオ計算機株式会社 | 電子機器、情報処理方法、及びプログラム |
| CN109189974A (zh) * | 2018-08-08 | 2019-01-11 | 平安科技(深圳)有限公司 | 一种作曲模型的建立方法、系统、设备和存储介质 |
| US11037537B2 (en) * | 2018-08-27 | 2021-06-15 | Xiaoye Huo | Method and apparatus for music generation |
| CN109346043B (zh) * | 2018-10-26 | 2023-09-19 | 平安科技(深圳)有限公司 | 一种基于生成对抗网络的音乐生成方法及装置 |
| US11024274B1 (en) * | 2020-01-28 | 2021-06-01 | Obeebo Labs Ltd. | Systems, devices, and methods for segmenting a musical composition into musical segments |
| JP7440651B2 (ja) * | 2020-02-11 | 2024-02-28 | エーアイエムアイ インコーポレイテッド | 音楽コンテンツの生成 |
| EP4115630A1 (en) * | 2020-03-06 | 2023-01-11 | algoriddim GmbH | Method, device and software for controlling timing of audio data |
-
2021
- 2021-04-13 WO PCT/JP2021/015318 patent/WO2021220797A1/ja not_active Ceased
- 2021-04-13 US US17/918,564 patent/US20230135118A1/en active Pending
- 2021-04-13 EP EP21796145.7A patent/EP4145439A4/en active Pending
- 2021-04-13 CN CN202180030137.XA patent/CN115461808A/zh active Pending
- 2021-04-13 JP JP2022517612A patent/JP7757958B2/ja active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002207719A (ja) | 2000-09-29 | 2002-07-26 | Sony France Sa | シーケンス情報生成方法及び装置 |
| JP2020003535A (ja) * | 2018-06-25 | 2020-01-09 | カシオ計算機株式会社 | プログラム、情報処理方法、電子機器、及び学習済みモデル |
Non-Patent Citations (4)
| Title |
|---|
| GAETAN HADJERES; FRANCOIS PACHET: "DeepBach: a Steerable Model for Bach chorales generation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 3 December 2016 (2016-12-03), 201 Olin Library Cornell University Ithaca, NY 14853 , XP080736572 * |
| HAO-WEN DONG; WEN-YI HSIAO; LI-CHIA YANG; YI-HSUAN YANG: "MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 24 November 2017 (2017-11-24), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081733499 * |
| SANG-GIL LEE; UIWON HWANG; SEONWOO MIN; SUNGROH YOON: "Polyphonic Music Generation with Sequence Generative Adversarial Networks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 31 October 2017 (2017-10-31), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081105840 * |
| See also references of EP4145439A4 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2021220797A1 (ja) | 2021-11-04 |
| US20230135118A1 (en) | 2023-05-04 |
| CN115461808A (zh) | 2022-12-09 |
| EP4145439A1 (en) | 2023-03-08 |
| JP7757958B2 (ja) | 2025-10-22 |
| EP4145439A4 (en) | 2023-10-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Reuter | Who let the DAWs out? The digital in a new generation of the digital audio workstation | |
| US11314936B2 (en) | System and method for assembling a recorded composition | |
| JP5471858B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
| KR20220128672A (ko) | 음악 콘텐츠 생성 | |
| JP2013511214A (ja) | 電子視覚作品のためのサウンドトラックの動的音声再生 | |
| US20140076125A1 (en) | Adjustment of song length | |
| AU2016330618A1 (en) | Machines, systems and processes for automated music composition and generation employing linguistic and/or graphical icon based musical experience descriptors | |
| JP2009529717A (ja) | 自動的に楽曲を作成するための方法および装置 | |
| EP3926619B1 (en) | Information processing device, information processing method, and information processing program | |
| McGuire et al. | Audio sampling: a practical guide | |
| US20250191558A1 (en) | Digital music composition, performance and production studio system network and methods | |
| GB2602118A (en) | Generating and mixing audio arrangements | |
| JP7757958B2 (ja) | 情報処理方法、情報処理装置及びプログラム | |
| Copeland et al. | Turing and the history of computer music | |
| Gold et al. | A reference architecture and score representation for popular music human-computer music performance systems | |
| JPWO2020080268A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
| Hill | Markov melody generator | |
| EP2793222B1 (en) | Method for implementing an automatic music jam session | |
| Arora | SongGen: Framework for Controllable AI Song Generation through Interactive Songwriting and Artist Emulation | |
| JP7768146B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
| Clarke | Vocal Synthetics: Designing for an Adaptable Singing Synthesizer | |
| JP2011197663A (ja) | 電子楽器及びプログラム | |
| Gilling | Haunted by the Glitch: Technological Malfunction-Critiquing the Media of Innovation | |
| JP2025079055A (ja) | 情報処理方法 | |
| Mogensen et al. | The arpeggione and fortepiano of the 1820s in the context of current computer music |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21796145 Country of ref document: EP Kind code of ref document: A1 |
|
| ENP | Entry into the national phase |
Ref document number: 2022517612 Country of ref document: JP Kind code of ref document: A |
|
| ENP | Entry into the national phase |
Ref document number: 2021796145 Country of ref document: EP Effective date: 20221201 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |