「Moises」で曲をさまざまなパートに分離する方法
ミュージシャンや音楽を聴く人々にとって「Moises」はまるで魔法のようなアプリです。
このAIを活用した驚異的なアプリでは、機械学習モデルを使って録音された曲を楽器ごとに分けられます。つまりボーカル、ギター、ベース、ドラムなどを分離できるのです。これにより、ギターソロを削除して自分のギターソロを入れたり、ヒップホップトラックのビートを分離させたり、ボーカル以外のすべてを取り除いて、どのような曲でもアカペラにしたりすることができます。また、曲のピッチを変更したり、コードを検出して表示したり、スマートメトロノームに合わせて演奏したりできます。
「新世代の機械学習モデルにより、非常に多くのことが可能になりました」と「Moises」の共同創設者兼CEOのGeraldo Ramos氏は語ります。
Moises
対応デバイス:iPhone、iPad
チームの規模:100人
拠点:米国、ブラジル
受賞歴:iPad App of the Year(2024年)、Apple Design Awardsファイナリスト(2025年)
ブラジルを拠点に、音楽の経歴を持つチームによって設立された「Moises」は、2019年のある週末の間に、着想を得てWeb上に公開されました。「私たちはもともとは技術者ですが、常に音楽に対する情熱を持っていました」とRamos氏は言います。発足から1年も経たないうちに、「Moises」はApp Storeに初登場し、瞬く間に数万件ものダウンロードを獲得するアプリとなりました。現在、「Moises」は自宅で曲を練習している中学生から、音楽教師、プロのアーティスト、プロデューサー、ボーカルコーチまで、6,000万を超えるユーザーを抱え、33の言語にローカライズされています。
今回、Ramos氏、共同創業者兼COOのEddie Hsu氏、共同創業者兼最高デザイン責任者のJardson Almeida氏に、機械学習モデル、型にはまらない拍子記号、アビーロードスタジオでのレコーディングについて話を伺いました。
音楽の話から始めましょう。アーティストとしてのみなさんの経歴をお聞かせください。
Ramos:私はドラマー、Jardsonは歌手で、Eddieはバイオリン奏者です。Eddieと私は幼稚園の頃からの幼なじみです。Eddieはクラシック音楽の経験もあり、音楽理論の知識があるので、ある意味プロと言えます。また、社内にはアーティストが大勢います。当社のアーティストリレーションズスペシャリストにはバークリー音楽大学の卒業生もおり、MLチームは、ほぼ全員がアーティストで構成されています。皆、数学と音楽が大好きです。
「Moises」はどのように誕生したのですか?
Ramos:始まりは、録音した曲からドラムトラックを取り除き、一緒に演奏できるようにしたいという思いでした。機械学習が登場する前は、それは基本的に不可能でした。オーディオをイコライジングしたり、低音周波数を取り除いたりすることはできましたが、それほど効果的ではありませんでした。それが2019年頃に現実のものとなりました。
その現実をどのようにアプリに変えたのですか?
Ramos:「Moises」は、週末ハッカソンのプロジェクトのようなものでした。最初は、フランスの研究チームが手掛けた、あるオープンソースモデルを見つけたのです。曲を分離するためのシンプルなコードが公開されていました。UIもアプリも何もありませんでしたが、ほかのどのアプリよりもうまく機能しました。そこで私は、試しに週末にUIを作成して、様子を見てみようと考えました。月曜日にWebに公開したところ、その週の終わりには50,000人もの人々が登録してくれたのです。そこで、実際のビジネスに移行することにしました。このハッカソンを行ったのは2019年11月でしたが、2020年後半にはiOSアプリを公開しました。物事が急速に進んでいったのです。
大ヒットを受けてどう反応されましたか?
Ramos:大ヒットしたのは素晴らしいことでしたが、本格的にAI企業として活動するのなら、独自のモデルを作成する必要があることにも気づかされました。そのため、アプリを公開する前に、独自のデータでトレーニングした専用のモデルを初めて開発しました。
そのデータはどのように収集されたのですか?
Ramos:データは、ライセンス付きの音楽と、当社のミュージシャンやプロデューサーが作ったトラックをミックスしたものです。ライセンス面では、Eddieがデータの収集、作成、アノテーションを主導してくれています。当社にはアノテーション専用の社内用iOSアプリもあります。これでトラックを評価して、どの分離が最も効果的かを確認し、ランク付けしています。
Hsu:モデルのラベリングをすべて自分たちで行っていることが、当社の大きな差別化要素の1つです。当社はAppleのエコシステムを活用してこの事前トレーニングの準備を行っています。
みなさん自身で音楽も録音されていますか?
Hsu:はい。私たちはまだ誰も聞いたことのないような、多種多様の音楽を扱っています。データサイエンスチームのための作品を録音するため、アビーロードスタジオでセッションを依頼したこともあります。
録音を依頼する際、データギャップを埋めるためにどのような工夫をされていますか?ミュージシャンにはどのように指示されているのでしょうか?
Hsu:例を挙げると、当社には曲の拍子記号を検出するモデルがあります。ポップソングのように、当社がライセンスを取得しているデータの多くは、標準の4分の4拍子です。ただし、モデルを改善するには多様なデータが必要になるため、最近、4分の5拍子や8分の6拍子での録音も多数依頼しました。これにはコード検出機能を改善する目的もあります。ポップソングのコードは単純ですが、ジャズやボサノバを演奏するとなると、コードがずっと複雑になる可能性があるため、複雑なコードを検出できるモデルを作成するのに多くのデータが必要なのです。当社はアーティストや著作権を尊重することに尽力しているため、こうした作品をどう依頼するかを入念に検討する必要があります。
いくつの楽器を分離できますか?
Ramos:分離には2つのレベルがあります。1つ目は、ギター、ドラム、ボーカルなどの基本的なトラックを分けるためのものです。2つ目はより細かく、リードギターをリズムギターから、スネアをハイハットやキックドラムから分離するためのものです。
Hsu:設立当初は、4トラックのプリセットだったのが今では20トラックを超えるプリセットを用意しています。
「Moises」は学生に最適なアプリですが、プロのミュージシャンやコーチにも使用されています。さまざまなスキルレベルで役立つアプリにするために、どのように工夫されていますか?
Hsu:使う機能によると思います。誰もが学習者だと言えますが、例えばドラムを始めたばかりの学生は、ドラムを学ぶために曲のテンポを遅くする必要があるかもしれませんし、プロにも同じことが言えます。ドラマーの人からも、高度な技術の習得が必要な場合には、パートをうまく演奏できるようになるまで、「Moises」を使ってトラックのテンポを遅くして練習しているという話をよく聞きます。こうしたことから、「このアプリはスキルレベルが異なっても使える」と実感しました。