JP7670941B1

JP7670941B1 - 情報処理装置、情報処理方法、プログラム及び情報処理端末

Info

Publication number: JP7670941B1
Application number: JP2025033765A
Authority: JP
Inventors: 萌那鈴木
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2025-03-04
Filing date: 2025-03-04
Publication date: 2025-04-30
Anticipated expiration: 2045-03-04
Also published as: JP7745119B1

Abstract

【課題】動画に含まれるオブジェクトを視聴者に視聴しやすくする。
【解決手段】情報処理装置２は、第１動画を取得する取得処理部２３１と、第１動画に含まれる複数のオブジェクトを特定するオブジェクト特定部２３２と、第１動画の動画領域から複数のオブジェクトのうちの少なくともいずれか１つのオブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第２動画を生成する動画生成部２３６と、第１動画の音源である第１音源に含まれる対象オブジェクトの音声を強調した第２音源を生成する音源生成部２３７と、第１動画と、第１動画と同期された第２動画と、音源生成部が生成した第２音源とを、ユーザ端末に送信する送信部２３８と、を有する。
【選択図】図４

Description

本発明は、情報処理装置、情報処理方法、プログラム及び情報処理端末に関する。

従来、動画を配信するサービスが知られている。特許文献１には、動画を配信する技術が開示されている。

特開２００４－２７４５３１号公報

動画の視聴者は、動画を全体的に視聴するだけでなく、動画に含まれるオブジェクトに注目して視聴する場合がある。そのため、視聴者が動画に含まれるオブジェクトを視聴しやすくするための仕組みを提供することが求められている。

そこで、本発明はこれらの点に鑑みてなされたものであり、動画に含まれるオブジェクトを視聴者に視聴しやすくすることを目的とする。

本発明の第１の態様に係る情報処理装置は、第１動画を取得する動画取得部と、前記第１動画に含まれる複数のオブジェクトを特定するオブジェクト特定部と、前記第１動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか１つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第２動画を生成する動画生成部と、前記第１動画の音源である第１音源に含まれる前記対象オブジェクトの音声を強調した第２音源を生成する音源生成部と、前記第１動画と、前記第１動画と同期された前記第２動画と、前記音源生成部が生成した前記第２音源とを、ユーザ端末に送信する送信部と、を有する。

前記音源生成部は、前記対象オブジェクトの音声を強調した前記第２音源として、前記対象オブジェクトの音声を大きい音量及び前記複数のオブジェクトのうちの前記対象オブジェクト以外の他のオブジェクトの音声を小さい音量のうちの少なくともいずれかに調節した前記第２音源を生成してもよい。

前記情報処理装置は、複数のオブジェクトの中から前記ユーザ端末を使用するユーザが選択した前記オブジェクトを、前記対象オブジェクトとして特定する対象オブジェクト特定部をさらに有してもよいし、前記動画生成部は、前記対象オブジェクト特定部が特定した前記対象オブジェクトに対応する前記第２動画を生成してもよい。

前記情報処理装置は、前記複数のオブジェクトのうちの少なくともいずれかに対するユーザの関心度を取得するユーザ情報取得部と、前記ユーザ情報取得部が取得した前記関心度に基づいて、前記複数のオブジェクトの中から前記対象オブジェクトを特定する対象オブジェクト特定部と、をさらに有してもよいし、前記動画生成部は、前記対象オブジェクト特定部が特定した前記対象オブジェクトに対応する前記第２動画を生成してもよい。

前記情報処理装置は、所定のオブジェクトを示す情報と、前記所定のオブジェクトと類似するオブジェクトとして定められた類似オブジェクトを示す情報とを関連付けて記憶する記憶部をさらに有してもよいし、前記ユーザ情報取得部は、前記複数のオブジェクトのうちの少なくともいずれかの前記オブジェクトと関連付けられている前記類似オブジェクトに対応する前記関心度を取得してもよいし、前記対象オブジェクト特定部は、さらに、前記ユーザ情報取得部が取得した前記類似オブジェクトに対する前記関心度に基づいて、前記複数のオブジェクトの中から前記対象オブジェクトを特定してもよい。

前記対象オブジェクト特定部は、前記複数のオブジェクトのうち、前記関心度が所定の閾値以上である前記オブジェクトを、前記対象オブジェクトとして特定してもよい。

前記動画生成部は、前記対象オブジェクトがそれぞれ異なる複数の前記第２動画を生成してもよいし、前記音源生成部は、さらに、複数の前記対象オブジェクトのうちの前記関心度が相対的に大きい前記対象オブジェクトの音声を大きい音量及び複数の前記対象オブジェクトのうちの前記関心度が相対的に小さい前記対象オブジェクトの音声を小さい音量のうちの少なくともいずれかに調節した前記第２音源を生成してもよい。

前記ユーザ情報取得部は、前記複数のオブジェクトのうちの少なくともいずれかに関する前記ユーザの行動履歴を取得し、取得した前記行動履歴に基づいて、前記オブジェクトに対応する前記関心度を推定することにより、前記関心度を取得してもよい。

前記行動履歴は、前記オブジェクトに関連するグッズの購入履歴、前記オブジェクトが出演したイベントへの参加履歴、及び前記オブジェクトへの対価又は前記オブジェクトが出演したイベントに参加するための料金を支払った支払履歴のうちの少なくともいずれかであってもよい。

前記情報処理装置は、ユーザＩＤ（Identification）と、前記行動履歴とを関連付けて記憶する記憶部をさらに有してもよいし、前記ユーザ情報取得部は、前記ユーザに対応する前記ユーザＩＤを取得し、取得した前記ユーザＩＤを用いて前記記憶部を検索することにより、前記行動履歴を取得してもよい。

前記情報処理装置は、前記送信部が前記第１動画と前記第２動画と前記第２音源とを前記ユーザ端末に送信した後に、前記ユーザ端末を使用するユーザが前記第２動画に対応する前記対象オブジェクトの音量を変更する操作を受け付けるユーザ情報取得部をさらに有してもよいし、前記音源生成部は、前記第２音源から前記ユーザの操作に応じて前記対象オブジェクトの音量を変更した新たな前記第２音源を生成してもよいし、前記送信部は、新たな前記第２音源を、前記ユーザ端末に送信してもよい。

前記情報処理装置は、前記ユーザ端末から、前記オブジェクト領域の属性を特定するための領域特定情報を取得するユーザ情報取得部をさらに有してもよいし、前記動画生成部は、前記領域特定情報によって特定される前記オブジェクト領域の属性に基づいて、前記第１動画の動画領域から前記オブジェクト領域を切り取る基準となる基準箇所を特定し、特定した前記基準箇所を含む領域であって前記領域特定情報によって特定される前記オブジェクト領域の属性によって定まる領域を、前記オブジェクト領域として切り取ることにより前記第２動画を生成してもよいし、前記音源生成部は、前記オブジェクト領域の属性に応じた度合いで前記対象オブジェクトの音声を強調した前記第２音源を生成してもよい。

前記第１動画には、前記オブジェクトごとに当該オブジェクトに近いマイクとして定められた近傍マイクを示す情報が含まれてもよいし、前記音源生成部は、前記対象オブジェクトに対応する前記近傍マイク及び前記複数のオブジェクトのうちの前記対象オブジェクト以外の他のオブジェクトに対応する前記近傍マイクのうちの少なくともいずれか集音した音量の大小を調節した前記第２音源を生成してもよい。

本発明の第２の態様に係る情報処理方法は、コンピュータが実行する、第１動画を取得するステップと、前記第１動画に含まれる複数のオブジェクトを特定するステップと、前記第１動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか１つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第２動画を生成するステップと、前記第１動画の音源である第１音源に含まれる前記対象オブジェクトの音声を強調した第２音源を生成するステップと、前記第１動画と、前記第１動画と同期された前記第２動画と、生成した前記第２音源と、を、ユーザ端末に送信するステップと、を有する。

本発明の第３の態様に係るプログラムは、コンピュータを、第１動画を取得する動画取得部、前記第１動画に含まれる複数のオブジェクトを特定するオブジェクト特定部、前記第１動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか１つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第２動画を生成する動画生成部、前記第１動画の音源である第１音源に含まれる前記対象オブジェクトの音声を強調した第２音源を生成する音源生成部、及び前記第１動画と、前記第１動画と同期された前記第２動画と、前記音源生成部が生成した前記第２音源とを、ユーザ端末に送信する送信部、として機能させる。

本発明の第４の態様に係る情報処理端末は、第１動画に含まれる複数のオブジェクトの中からユーザが選択した前記オブジェクトである対象オブジェクトを示す情報を、情報処理装置に送信する送信部と、前記第１動画の音源である第１音源から前記第１音源に含まれる前記対象オブジェクトの音声が強調された第２音源と、前記第１動画と、前記第１動画の動画領域から前記対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって生成された第２動画であって前記第１動画と同期された前記第２動画とを、前記情報処理装置から取得する取得部と、前記取得部が取得した前記第１動画、前記第２動画及び前記第２音源を出力する出力制御部と、を有する。

本発明によれば、動画に含まれるオブジェクトを視聴者に視聴しやすくすることができるという効果を奏する。

情報処理システムの概要を説明するための図である。第１動画及び第２動画の一例を模式的に表した図である。ユーザ端末１の機能構成を模式的に示す図である。情報処理装置の機能構成を模式的に示す図である。関心度管理データベースの構成の一例を示す図である。専用アプリの表示画面の一例を模式的に表した図である。専用アプリの表示画面の一例を模式的に表した図である。情報処理装置２が実行する処理の流れを示すフローチャートである。

［情報処理システムＳの概要］
図１は、情報処理システムＳの概要を説明するための図である。情報処理システムＳは、情報処理サービスを提供するために用いられるサービスである。情報処理サービスは、動画を提供するサービスである。情報処理サービスによって提供される動画は、リアルタイムの動画であってもよいし、アーカイブの動画であってもよい。情報処理システムＳは、ユーザ端末１と、情報処理装置２とを有する。

ユーザ端末１は、ユーザが使用する情報処理端末であり、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ等である。ユーザは、動画を視聴する視聴者であり、例えば、情報処理サービスの会員である。ユーザ端末１には、ユーザが情報処理サービスを利用するための専用のアプリケーションプログラム（以下、「専用アプリ」という。）がインストールされている。ユーザは、専用アプリを用いて動画を視聴することができる。

情報処理装置２は、情報処理サービスを管理する装置であり、例えば、サーバである。情報処理サービスでは、動画の提供として、当該動画である第１動画と、第１動画に含まれる対象オブジェクトの少なくとも一部をクローズアップした第２動画と、対象オブジェクトの音声を強調した音源とを提供する。対象オブジェクトは、第１動画に含まれる複数のオブジェクトのうちの少なくともいずれかのオブジェクトであり、例えば、ユーザが注目し得るオブジェクトである。オブジェクトは、例えば、人物、動物、アバター等のように、ユーザが注目し得る動的な物体であって、音を発する物体である。また、オブジェクトは、例えば、楽器等のように、人物による操作や演奏により音を発する物体であってもよい。ここで、オブジェクトが音声を発する手法としては、オブジェクトが直接発する音声だけでなく、オブジェクト（例えば楽器）と接続されたスピーカを介して発する場合も含んでもよい。
以下において、情報処理システムＳが実行する処理について説明する。

まず、情報処理装置２は、ユーザ端末１から動画の再生要求を取得する（図１における（１））。例えば、ユーザが、ユーザ端末１の専用アプリの表示画面において、情報処理サービスによって提供される複数の第１動画の中から視聴を希望する第１動画を選択する操作を行うと、情報処理装置２は、ユーザが選択した第１動画の再生要求を取得する。

そして、情報処理装置２は、第１動画と、第１動画の動画領域から対象オブジェクトの少なくとも一部を含む領域であるオブジェクト領域を切り取ることによって生成された第２動画であって第１動画と同期された第２動画と、第１動画の音源である第１音源に含まれる対象オブジェクトの音声を強調した第２音源とを、ユーザ端末１に送信する（図１における（２））。その後、ユーザ端末１は、情報処理装置２から取得した第１動画及び当該第１動画と同期された第２動画を専用アプリの表示画面に表示させ、情報処理装置２から取得した第２音源を出力する。

図２は、第１動画及び第２動画の一例を模式的に表した図である。動画Ｖ１は、第１動画であり、オブジェクトとして４人の人物Ｈ（人物Ｈ１、人物Ｈ２、人物Ｈ３、人物Ｈ４）が映っている。動画Ｖ２は、第２動画である。画面Ｄ１は、専用アプリの表示画面である。

例えば、対象オブジェクトが人物Ｈ３である場合、情報処理装置２は、第１動画と、当該第１動画の動画領域から人物Ｈ３の顔を含むオブジェクト領域である領域Ｒを切り取ることによって生成された動画Ｖ２と、第１音源に含まれる人物Ｈ３の音声を強調した第２音源とを、ユーザ端末１に送信する。そして、ユーザ端末１は、動画Ｖ１及び当該動画Ｖ１と同期された動画Ｖ２が表示された画面Ｄ１を表示し、第２音源を出力する。

このようにすることで、情報処理システムＳは、第１動画に含まれるオブジェクトをユーザに視聴しやすくすることができる。
以下、ユーザ端末１及び情報処理装置２の構成について説明する。

［ユーザ端末１の機能構成］
図３は、ユーザ端末１の機能構成を模式的に示す図である。ユーザ端末１は、入出力部１１と、通信部１２と、記憶部１３と、制御部１４とを備える。図３において、矢印は主なデータの流れを示しており、図３に示していないデータの流れがあってもよい。図３において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図３に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

入出力部１１は、ディスプレイ、タッチパネル、スピーカ等のように、情報の入力を受け付けたり情報を出力したりするユーザインターフェイスである。

通信部１２は、ネットワークに接続するための通信インターフェースであり、外部の装置からデータを受信するための通信コントローラを有する。

記憶部１３は、ユーザ端末１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）やユーザ端末１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置である。

制御部１４は、ユーザ端末１のＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）やＮＰＵ（Neural network Processing Unit）等のプロセッサであり、記憶部１３に記憶されたプログラムを実行することによって、送信部１４１、取得部１４２、及び出力制御部１４３として機能する。

［情報処理装置２の機能構成］
図４は、情報処理装置２の機能構成を模式的に示す図である。情報処理装置２は、通信部２１と、記憶部２２と、制御部２３とを備える。図４において、矢印は主なデータの流れを示しており、図４に示していないデータの流れがあってもよい。図４において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図４に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

通信部２１は、ネットワークに接続するための通信インターフェースであり、外部の装置からデータを受信するための通信コントローラを有する。

記憶部２２は、情報処理装置２を実現するコンピュータのＢＩＯＳ等を格納するＲＯＭや情報処理装置２の作業領域となるＲＡＭ、ＯＳやアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤやＳＳＤ等の大容量記憶装置である。

記憶部２２は、情報処理サービスにおいて提供される第１動画に関する情報と、所定のオブジェクトに関する情報と、ユーザに関する情報とを記憶している。所定のオブジェクトは、情報処理サービスにおいて提供される第１動画に含まれるオブジェクトである。

第１動画に関する情報は、例えば、第１動画ごとに、当該第１動画を識別するための第１動画ＩＤ及び当該第１動画の名称等が関連付けられた情報である。

所定のオブジェクトに関する情報は、例えば、所定のオブジェクトごとに、当該所定のオブジェクトを識別するためのオブジェクトＩＤ、当該所定のオブジェクトの名称、類似オブジェクトに対応するオブジェクトＩＤ、当該所定のオブジェクトの識別画像、及び当該所定のオブジェクトの音声データ等が関連付けられた情報である。類似オブジェクトは、例えば、性別、容姿、属性、職業、タイプ等のようなオブジェクトの特性に基づいて所定のオブジェクトと類似するオブジェクトとして定められたオブジェクトである。所定のオブジェクトの識別画像は、例えば、未知の画像（例えば、第１動画）から所定のオブジェクトを識別するために用いられる画像である。所定のオブジェクトの音声データは、例えば、未知の音声（例えば、第１動画の音源）から所定のオブジェクトの音声を識別するために用いられるデータである。

ユーザに関する情報は、例えば、ユーザごとに、ユーザを識別するためのユーザＩＤと、ユーザの行動履歴とが関連付けられた情報である。ユーザの行動履歴は、例えば、ユーザが支払った所定の料金（例えば、会員登録の料金、第２動画を表示するための料金、オブジェクトへの対価、オブジェクトが出演したイベントに参加するための料金等）の支払履歴、ユーザが購入した所定の物品（例えば、情報処理サービスにおいて指定された物品、オブジェクトに関連するグッズ等）の購入履歴、ユーザが参加した所定のイベント（例えば、情報処理サービスにおいて指定されたイベント、オブジェクトが出演したイベント等）の参加履歴、ユーザが視聴した所定のイベントの動画の視聴履歴等である。

また、記憶部２２は、所定のオブジェクトに対するユーザの関心度を管理する関心度管理データベースを記憶している。図５は、関心度管理データベースの構成の一例を示す図である。図５に示す例において、関心度管理データベースは、ユーザ及び所定のオブジェクトの組み合わせごとに、当該ユーザに対応するユーザＩＤと、当該所定のオブジェクトに対応するオブジェクトＩＤと、当該オブジェクトに対するユーザの関心度とを関連付けて記憶している。関心度は、例えば、数値で表現され、数値が高いほど関心の度合いが高いことを示す。なお、関心度は、数値に限らず、「高」、「中」、「低」等のような指標で表現されてもよい。

図４に戻り、制御部２３は、情報処理装置２のＣＰＵ、ＧＰＵやＮＰＵ等のプロセッサであり、記憶部２２に記憶されたプログラムを実行することによって、取得処理部２３１、オブジェクト特定部２３２、関心度管理部２３３、対象オブジェクト特定部２３４、生成部２３５（動画生成部２３６及び音源生成部２３７）、及び送信部２３８として機能する。

［情報処理サービスの提供に係る処理］
続いて、情報処理システムＳが実行する情報処理サービスの提供に係る処理について説明する。

取得処理部２３１は、動画取得部として機能し、第１動画を取得する。例えば、第１動画がリアルタイムの動画である場合、取得処理部２３１は、オブジェクトを撮像するカメラから第１動画を取得する。また、例えば、第１動画がアーカイブの動画である場合、取得処理部２３１は、第１動画を管理する不図示のサーバから第１動画を取得する。なお、記憶部２２に第１動画が記憶されている場合、取得処理部２３１は、記憶部２２から第１動画を取得してもよい。

取得処理部２３１は、例えば、第１動画を取得すると、当該第１動画に対応する第１動画ＩＤを生成する。なお、取得処理部２３１は、第１動画とともに当該第１動画に対応する第１動画ＩＤを取得してもよい。

オブジェクト特定部２３２は、第１動画に含まれる複数のオブジェクトを特定する。例えば、まず、オブジェクト特定部２３２は、第１動画に含まれる全てのオブジェクトを認識する。オブジェクト特定部２３２は、例えば、公知の被写体認識技術を用いてオブジェクトを認識することができる。そして、オブジェクト特定部２３２は、認識したオブジェクトごとに、当該オブジェクトを含む第１動画と、記憶部２２に記憶されている所定のオブジェクトの識別画像とを照合して当該オブジェクトを識別することにより、第１動画に含まれる当該オブジェクトを特定する。

取得処理部２３１は、ユーザ情報取得部としてさらに機能し、ユーザ端末１から再生要求を取得する。再生要求は、ユーザ端末１において第１動画を再生するための要求であり、例えば、ユーザが選択した第１動画に対応する第１動画ＩＤを含む。再生要求は、ユーザに対応するユーザＩＤ等をさらに含んでもよい。

例えば、まず、ユーザ端末１の処理として、ユーザが専用アプリの表示画面において、複数の第１動画のうちのいずれか１つの第１動画を選択すると、送信部１４１は、ユーザが選択した第１動画に対応する第１動画ＩＤを含む再生要求を情報処理装置２に送信する。そして、情報処理装置２の処理として、取得処理部２３１は、ユーザ端末１から再生要求を取得する。

対象オブジェクト特定部２３４は、第１動画に含まれる複数のオブジェクトの中から、対象オブジェクトを特定する。具体的には、対象オブジェクト特定部２３４は、第１動画に含まれる複数のオブジェクトの中からユーザが選択したオブジェクトを、対象オブジェクトとして特定する。

例えば、まず、ユーザ端末１の処理として、ユーザが専用アプリの表示画面において、ユーザが選択した第１動画に含まれる複数のオブジェクトのうちの少なくともいずれかのオブジェクトを選択すると、送信部１４１は、ユーザが選択したオブジェクトに対応するオブジェクトＩＤをさらに含む再生要求を情報処理装置２に送信する。そして、情報処理装置２の処理として、対象オブジェクト特定部２３４は、取得処理部２３１が取得した再生要求に含まれるオブジェクトＩＤが示すオブジェクトを、対象オブジェクトとして特定する。

対象オブジェクト特定部２３４は、第１動画に含まれるオブジェクトに対するユーザの関心度に基づいて、対象オブジェクトを特定してもよい。情報処理装置２は、以下の２つのステップを実行することにより、第１動画に含まれるオブジェクトに対するユーザの関心度に基づいて対象オブジェクトを特定する。

第１のステップとして、取得処理部２３１は、関心度取得部としてさらに機能し、複数のオブジェクトのうちの少なくともいずれかに対するユーザの関心度を取得する。取得処理部２３１は、例えば、ユーザが入力した関心度を取得する。

具体的には、まず、ユーザ端末１の処理として、ユーザが専用アプリの表示画面において、選択した第１動画に含まれる複数のオブジェクトのうちの少なくともいずれかのオブジェクトに対する関心度を入力すると、送信部１４１は、ユーザが関心度を入力したオブジェクトに対応するオブジェクトＩＤと、ユーザが入力した関心度とをさらに含む再生要求を情報処理装置２に送信する。そして、情報処理装置２の処理として、取得処理部２３１は、ユーザ端末１から再生要求を取得することにより、オブジェクトに対するユーザの関心度を取得する。

図６は、専用アプリの表示画面の一例を模式的に表した図である。図６（ａ）に示す画面Ｄ２は、第１動画の一覧が表示された一覧画面である。例えば、まず、ユーザがユーザ端末１において専用アプリを起動させる操作を行うと、出力制御部１４３は、取得部１４２が情報処理装置２から取得した第１動画の一覧が表示された画面Ｄ２を表示させる。ユーザが、画面Ｄ２において視聴を希望する第１動画を選択すると、出力制御部１４３は、図６（ｂ）に示す画面Ｄ３を表示させる。

画面Ｄ３は、オブジェクトの関心度を設定するための設定画面である。図６（ｂ）に示す例において、画面Ｄ３には、ユーザが選択した第１動画に含まれる各オブジェクト（例えば、４人の人物）の関心度を設定する設定項目が設けられている。この場合において、ユーザが、画面Ｄ３において、各オブジェクトに対応する関心度を入力して設定ボタンを押下すると、送信部１４１は、ユーザが入力した各オブジェクトに対応する関心度を含む再生要求を情報処理装置２に送信する。

そして、取得処理部２３１は、ユーザ端末１から各オブジェクトに対するユーザの関心度を取得する。なお、取得処理部２３１は、複数のオブジェクトの中に、ユーザが関心度を設定しなかったオブジェクトが存在する場合、当該オブジェクトに対応する関心度を、最も低い関心度として取得してもよいし、当該オブジェクトに対応する関心度が不明であると扱ってもよい。

なお、取得処理部２３１は、関心度そのものを示す数値を取得するのではなく、関心度の順序を取得してもよい。例えば、情報処理装置２には、関心度の順序ごとに、当該順序に対応する関心度を示す数値が定められている。この場合において、まず、取得処理部２３１は、ユーザ端末１から各オブジェクトに対応する関心度の順序を取得する。そして、取得処理部２３１は、オブジェクトごとに、当該オブジェクトの関心度の順序に関連付けられている数値を特定することにより、各オブジェクトに対応する関心度を取得する。このようにすることで、情報処理装置２は、現在におけるオブジェクトに対するユーザの関心度を取得することができる。

取得処理部２３１は、ユーザ端末１から関心度を取得する場合、ユーザが所定の条件を満たすことを条件として、ユーザ端末１から関心度を取得してもよい。例えば、記憶部２２には、関心度等の受け付けを許可するか否かを判定するための許可条件が記憶されている。許可条件は、例えば、情報処理サービスにおいて特定の料金が支払われたこと、特定の物品を購入したこと、特定のイベントに参加したこと、特定のイベントの動画を視聴したこと等である。

この場合において、まず、取得処理部２３１は、ユーザ端末１からユーザＩＤを取得し、記憶部２２において取得したユーザＩＤに関連付けられているユーザの行動履歴を参照してユーザによる所定の行動が許可条件を満たすか否かを判定する。そして、取得処理部２３１は、ユーザによる所定の行動が許可条件を満たさないと判定した場合、ユーザ端末１から関心度を受け付けず、ユーザによる所定の行動が許可条件を満たすと判定した場合、ユーザ端末１から関心度を受け付ける。

情報処理装置２は、ユーザ端末１から関心度を受け付けない場合、オブジェクトに対する統計的な関心度を、当該オブジェクトに対するユーザの関心度として取得してもよいし、ユーザ端末１に対して第２動画及び第２音源を送信せずに第１動画及び第１音源のみを送信してもよい。このようにすることで、情報処理装置２は、ユーザが許可条件を満たす行動を取る動機づけを提供することができる。

取得処理部２３１は、例えば、情報処理サービスにおいて定められた共通の許可条件を用いて判定する。取得処理部２３１は、所定のオブジェクトごとに定められた許可条件を用いて判定してもよい。例えば、記憶部２２には、所定のオブジェクトごとに許可条件が記憶されている。

この場合において、取得処理部２３１は、ユーザが選択した第１動画においてオブジェクト特定部２３２が特定したオブジェクトに対応する許可条件をユーザによる所定の行動が満たすか否かを判定する。取得処理部２３１は、オブジェクト特定部２３２が特定したオブジェクトごとに、当該オブジェクトに対応する許可条件をユーザによる所定の行動が満たすか否かを判定してもよいし、オブジェクト特定部２３２が特定した複数のオブジェクトそれぞれに対応する複数の許可条件のうちのいずれかをユーザによる所定の行動が満たすか否かを判定してもよい。また、取得処理部２３１は、対象オブジェクト特定部２３４が特定した対象オブジェクトごとに、当該対象オブジェクトに対応する許可条件をユーザによる所定の行動が満たすか否かを判定してもよいし、対象オブジェクト特定部２３４が特定した一以上の対象オブジェクトそれぞれに対応する複数の許可条件のうちのいずれかをユーザによる所定の行動が満たすか否かを判定してもよい。

取得処理部２３１は、ユーザの行動履歴に基づいてオブジェクトに対応する関心度を取得してもよい。具体的には、まず、取得処理部２３１は、複数のオブジェクトのうちの少なくともいずれかに関するユーザの行動履歴を取得する。取得処理部２３１は、例えば、ユーザ端末１からユーザに対応するユーザＩＤを取得し、取得したユーザＩＤを用いて記憶部２２を検索することによりに、ユーザの行動履歴を取得する。取得処理部２３１は、ユーザ端末１からユーザの行動履歴を取得してもよい。

続いて、取得処理部２３１は、取得したユーザの行動履歴に基づいて、オブジェクトに対応する関心度を推定することにより、当該オブジェクトに対するユーザの関心度を取得する。例えば、まず、取得処理部２３１は、取得したユーザの行動履歴を参照し、第１動画に含まれるオブジェクトごとに、当該オブジェクトに対してユーザがとった行動実績を集計する。オブジェクトに対してユーザがとった行動実績は、例えば、当該オブジェクトに関連するグッズを購入した回数、当該オブジェクトに関連するグッズを購入した金額の合計額、当該オブジェクトが出演したイベントに参加した回数、当該オブジェクトに支払った対価の合計額、当該オブジェクトが出演したイベントに参加するために支払った料金の合計額のうちの少なくともいずれかである。

そして、取得処理部２３１は、第１動画に含まれるオブジェクトごとに、集計した当該オブジェクトに対してユーザがとった行動実績の数値に対して所定の係数を適用して当該オブジェクトに対応する関心度を算出することにより、当該オブジェクトに対応する関心度を推定する。所定の係数は、行動実績の数値を関心度に変換するために定められた数値であり、例えば、行動実績の数値が高いほど（例えば、オブジェクトに関連するグッズを購入した回数が多いほど）、関心度が高く算出される数値である。所定の係数は、各行動実績に共通する数値であってもよいし、行動実績ごとに異なる数値であってもよい。このようにすることで、情報処理装置２は、オブジェクトに対するユーザの客観的な関心度を取得することができる。

関心度管理部２３３は、記録部として機能し、取得処理部２３１が取得した関心度を記録する。具体的には、関心度管理部２３３は、取得したユーザＩＤと、取得した関心度と、当該関心度に対応するオブジェクトＩＤとを関連付けて関心度管理データベースに記憶させる。

なお、取得処理部２３１は、第１動画に含まれるオブジェクトに対応する関心度が既に記録されている場合、記録されている関心度を取得してもよい。具体的には、取得処理部２３１は、ユーザに対応するユーザＩＤと、第１動画に含まれるオブジェクトに対応するオブジェクトＩＤとを用いて関心度管理データベースを検索することによりオブジェクトに対応する関心度を取得する。

第２のステップとして、対象オブジェクト特定部２３４は、取得処理部２３１が取得した関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。対象オブジェクト特定部２３４は、例えば、複数のオブジェクトのうち、ユーザの関心度が相対的に高いオブジェクト（例えば、関心度が最も高いオブジェクト等）を、対象オブジェクトとして特定する。

対象オブジェクト特定部２３４は、ユーザの関心度が一定以上あるオブジェクトを、対象オブジェクトとして特定してもよい。具体的には、対象オブジェクト特定部２３４は、複数のオブジェクトのうち、関心度が所定の閾値以上であるオブジェクトを、対象オブジェクトとして特定する。所定の閾値は、例えば、ユーザが注目してオブジェクトを観るか否かを判断するために用いられる数値である。このようにすることで、情報処理装置２は、ユーザの関心度が低いオブジェクトを対象オブジェクトとして特定してしまうことを防ぐことができる。

ここで、対象オブジェクト特定部２３４は、第１動画に含まれるオブジェクトに類似する類似オブジェクトに対応する関心度に基づいて、対象オブジェクトを特定してもよい。情報処理装置２は、例えば、以下の２つのステップを実行することにより、第１動画に含まれるオブジェクトに類似する類似オブジェクトに対応する関心度に基づいて、対象オブジェクトを特定する。

第１のステップとして、取得処理部２３１は、第１動画に含まれる複数のオブジェクトのうちの少なくともいずれかのオブジェクトと関連付けられている類似オブジェクトに対応する関心度を取得する。取得処理部２３１は、例えば、所定のオブジェクトに関する情報を参照し、第１動画に含まれるオブジェクトごとに、当該オブジェクトに関連付けられている類似オブジェクトに対するユーザの関心度を取得する。取得処理部２３１は、ユーザが入力した類似オブジェクトに対応する関心度を取得してもよいし、類似オブジェクトに関するユーザの行動履歴に基づいて類似オブジェクトに対応する関心度を推定してもよい。

第２のステップとして、対象オブジェクト特定部２３４は、さらに、取得処理部２３１が取得した類似オブジェクトに対する関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。具体的には、対象オブジェクト特定部２３４は、第１動画に含まれるオブジェクトに対応する関心度と、当該オブジェクトに類似する類似オブジェクトに対応する関心度とに基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。対象オブジェクト特定部２３４は、例えば、第１動画に含まれるオブジェクトに対応する関心度と、当該オブジェクトに類似する類似オブジェクトに対応する関心度とを合計した合計関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。

対象オブジェクト特定部２３４は、第１動画に含まれるオブジェクトに対応する関心度と、当該オブジェクトに類似する類似オブジェクトに対応する関心度とのうちの少なくともいずれかに所定の係数を適用することによって重み付けした後における合計関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定してもよい。所定の係数は、例えば、類似オブジェクトに対応する関心度よりもオブジェクトに対応する関心度の方が高くなるように定められた数値である。このようにすることで、情報処理装置２は、第１動画に含まれるオブジェクトに類似する類似オブジェクトに対応する関心度を考慮して対象オブジェクトを特定することができる。

なお、情報処理装置２は、第１動画に含まれる複数のオブジェクトの中に不明オブジェクトが存在する場合に、当該不明オブジェクトに類似する類似オブジェクトに対するユーザの関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定してもよい。不明オブジェクトは、ユーザの関心度が不明であるオブジェクトであり、例えば、ユーザが関心度を入力しなかったオブジェクト、関連するユーザの行動履歴が存在しないオブジェクト等である。

具体的には、まず、取得処理部２３１は、第１動画に含まれる複数のオブジェクトの中にオブジェクトが存在する場合に、当該不明オブジェクトと類似する類似オブジェクトに対するユーザの関心度を、不明オブジェクトに対するユーザの関心度として取得する。そして、対象オブジェクト特定部２３４は、取得処理部２３１が取得した複数のオブジェクトそれぞれに対するユーザの関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。このようにすることで、情報処理装置２は、不明オブジェクトに対応する関心度を推定して対象オブジェクトを特定することができる。

生成部２３５は、第１動画の動画領域から複数のオブジェクトのうちの少なくともいずれか１つのオブジェクトである対象オブジェクトに基づく第２動画及び第２音源を生成する。具体的には、生成部２３５は、対象オブジェクト特定部２３４が特定した対象オブジェクトに対応する第２動画を生成する。生成部２３５は、動画生成部２３６と、音源生成部２３７とを有する。

動画生成部２３６は、対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第２動画を生成する。例えば、対象オブジェクト特定部２３４が複数の対象オブジェクトを特定した場合、動画生成部２３６は、対象オブジェクトがそれぞれ異なる複数の第２動画を生成してもよい。

動画生成部２３６は、例えば、予め定められたオブジェクト領域の属性に基づいて、第２動画を生成する。オブジェクト領域の属性は、例えば、オブジェクトが人物である場合におけるオブジェクトの顔やオブジェクトの体全体等である。

具体的には、まず、動画生成部２３６は、オブジェクト領域の属性に基づいて、第１動画の動画領域からオブジェクト領域を切り取る基準となる基準箇所を特定する。基準箇所は、第１動画の動画領域からオブジェクト領域を切り取る基準となる箇所であり、例えば、オブジェクト領域の属性に応じて定められた箇所である。例えば、オブジェクト領域の属性が「顔」である場合における基準箇所は、目、鼻、口、顎等であり、オブジェクト領域の属性が「体全体」である場合における基準箇所は、胸、腕、足等である。

そして、動画生成部２３６は、特定した基準箇所を含む所定の領域を、オブジェクト領域として切り取ることにより第２動画を生成する。所定の領域は、オブジェクト領域の属性と基準箇所とに応じて定められた領域である。このようにすることで、情報処理装置２は、オブジェクトが動的な物体である場合であっても、当該オブジェクトの少なくとも一部を捕捉した第２動画を生成することができる。

動画生成部２３６は、複数のオブジェクト領域の属性が定められている場合、対象オブジェクトごとに、当該対象オブジェクトに対応する複数の第２動画であって当該複数のオブジェクト領域の属性それぞれに対応する複数の第２動画を生成してもよい。例えば、オブジェクト領域の属性として、対象オブジェクトが人物である場合における対象オブジェクトの顔と、対象オブジェクトの体全体の２つが定められているとする。

この場合において、動画生成部２３６は、対象オブジェクトごとに、当該対象オブジェクトの顔に対応する第２動画と、当該対象オブジェクトの体全体に対応する第２動画とを生成する。このようにすることで、情報処理装置２は、対象オブジェクトを様々な態様でクローズアップした第２動画をユーザに提示することができる。

動画生成部２３６は、例えば、第２動画を生成すると、当該第２動画に含まれるオブジェクトに対応するオブジェクトＩＤと、当該第２動画のオブジェクト領域の属性とを、当該第２動画のメタデータとして設定する。

音源生成部２３７は、第１動画の音源である第１音源に含まれる対象オブジェクトの音声を強調した第２音源を生成する。具体的には、音源生成部２３７は、対象オブジェクトの音声を強調した第２音源として、対象オブジェクトの音声を大きい音量に調節した第２音源を生成する。音源生成部２３７は、複数のオブジェクトのうちの対象オブジェクト以外の他のオブジェクトの音声を小さい音量に調節した第２音源を生成してもよい。また、音源生成部２３７は、対象オブジェクトの音声を強調した第２音源として、対象オブジェクトの音声を大きい音量に調節し、かつ、他のオブジェクトの音声を小さい音量に調節した第２音源を生成してもよい。このようにすることで、情報処理装置２は、ユーザが対象オブジェクトの音声を聴きやすくすることができる。

例えば、第１動画には、当該第１動画に含まれるオブジェクトごとに当該オブジェクトに近いマイクとして定められた近傍マイクを示す情報が含まれる。近傍マイクは、例えば、オブジェクトに取り付けられたピンマイク、又はオブジェクトの近くに設置された固定式のマイク等である。

この場合において、音源生成部２３７は、対象オブジェクトに対応する近傍マイク及び複数のオブジェクトのうちの対象オブジェクト以外の他のオブジェクトに対応する近傍マイクのうちの少なくともいずれかが集音した音量の大小を調節した第２音源を生成する。このようにすることで、情報処理装置２は、対象オブジェクトの音声を強調させることができる。

音源生成部２３７は、公知の音源分離技術を用いて、第１音源に基づいて第２音源を生成してもよい。例えば、まず、音源生成部２３７は、公知の音源分離技術を用いて、第１音源に含まれる音源の種類（例えば、各オブジェクト、各楽器等）ごとに、当該種類の音源を分離する。そして、音源生成部２３７は、分離した音源である複数の分離音源それぞれのうちの少なくともずれかの音量の大小を調節することにより対象オブジェクトの音声を強調させ、対象オブジェクトの音声を強調した複数の分離音源を合成することにより、第２音源を生成する。

音源生成部２３７は、例えば、対象オブジェクトの音声を予め定められた度合いで強調した第２音源を生成する。音源生成部２３７は、対象オブジェクトに対するユーザの関心度に応じた度合いで強調した第２音源を生成してもよい。例えば、所定の関心度ごとに、オブジェクトの音声を強調する度合いが定められており、音源生成部２３７は、対象オブジェクトに対するユーザの関心度に対応する度合いで強調した第２音源を生成する。

対象オブジェクト特定部２３４が複数の対象オブジェクトを特定した場合、音源生成部２３７は、各対象オブジェクトに対するユーザの関心度に応じた度合いで強調した第２音源を生成してもよい。具体的には、音源生成部２３７は、対象オブジェクトの音声を当該対象オブジェクト以外の他のオブジェクトの音声よりも強調した第２音源であって、複数の対象オブジェクトのうちのユーザの関心度が相対的に大きい対象オブジェクトの音声を大きい音量に調節した第２音源を生成する。音源生成部２３７は、対象オブジェクトの音声を当該対象オブジェクト以外の他のオブジェクトの音声よりも強調した第２音源であって、複数の対象オブジェクトのうちのユーザの関心度が相対的に小さい対象オブジェクトの音声を小さい音量に調節した第２音源を生成してもよい。

また、音源生成部２３７は、対象オブジェクトの音声を当該対象オブジェクト以外の他のオブジェクトの音声よりも強調した第２音源であって、複数の対象オブジェクトのうちのユーザの関心度が相対的に大きい対象オブジェクトの音声を大きい音量に調節し、かつ、複数の対象オブジェクトのうちのユーザの関心度が相対的に小さい対象オブジェクトの音声を小さい音量に調節した第２音源を生成してもよい。このようにすることで、情報処理装置２は、ユーザが、複数の対象オブジェクトの音声を聴きやすくしつつ、ユーザの関心度が高い対象オブジェクトの音声をより聴きやすくすることができる。

上記において、生成部２３５が、予め定められたオブジェクト領域の属性に応じた第２動画を生成する例を説明したが、これに限らない。例えば、生成部２３５は、ユーザが指定したオブジェクト領域の属性に応じた第２動画及び第２音源を生成してもよい。具体的には、情報処理装置２は、以下の３つのステップを実行することにより、ユーザが指定したオブジェクト領域の属性に応じた第２動画及び第２音源を生成する。

第１のステップとして、取得処理部２３１は、ユーザ端末１から、領域特定情報を取得する。領域特定情報は、例えば、オブジェクトが人物である場合におけるオブジェクトの顔やオブジェクトの体全体等のように、オブジェクト領域の属性を特定するための情報である。

図７は、専用アプリの表示画面の一例を模式的に表した図である。図７に示す画面Ｄ４は、オブジェクト領域の属性等を設定するための設定画面である。図７に示す例において、画面Ｄ４には、予め定められたオブジェクト領域の属性として、「顔」及び「体全体」等が表示されている。この場合において、ユーザが、画面Ｄ３において、「顔」を選択して設定ボタンを押下すると、ユーザ端末１の送信部１４１は、ユーザが選択した「顔」を示す情報を、領域特定情報として情報処理装置２に送信する。

そして、取得処理部２３１は、ユーザ端末１から領域特定情報を取得する。このようにすることで、情報処理装置２は、ユーザが所望するオブジェクト領域の属性を指定しやすくすることができる。

取得処理部２３１は、ユーザ端末１に表示されている第１動画の動画領域においてユーザが指定した指定領域に基づいて、領域特定情報を受け付けてもよい。例えば、情報処理装置２には、予め定められたオブジェクト領域の属性と、所定のオブジェクトの部位（例えば、目、鼻、口、腕、胸、足等）とが関連付けられている。

この場合において、まず、ユーザが、一覧画面において視聴を希望する第１動画を選択すると、ユーザ端末１は、情報処理装置２からユーザが選択した第１動画を取得し、取得した第１動画が表示された動画再生画面を表示させる。ユーザが、動画再生画面において、表示されている第１動画の動画領域の一部をタップすると、ユーザ端末１の送信部１４１は、ユーザがタップした領域を示す情報を、指定領域を示す情報として情報処理装置２に送信する。指定領域を示す情報は、例えば、第１動画の動画領域における位置を示す情報である。

取得処理部２３１が、ユーザ端末１から指定領域を示す情報を取得すると、オブジェクト特定部２３２は、公知の被写体認識技術を用いて第１動画の動画領域において当該指定領域に含まれるオブジェクトの部位を特定する。そして、取得処理部２３１は、オブジェクト特定部２３２が特定したオブジェクトの部位に関連付けられているオブジェクト領域の属性を特定することにより、領域特定情報を取得する。このようにすることで、情報処理装置２は、ユーザが所望するオブジェクト領域の属性を指定しやすくすることができる。

取得処理部２３１は、ユーザが所定の条件（例えば、記憶部２２に記憶されている許可条件）を満たすことを条件として、領域特定情報を取得してもよい。また、取得処理部２３１は、ユーザが所定の条件を満たすか否かに応じて、受け付けを許可するオブジェクト領域の属性の数を増減させてもよい。例えば、オブジェクト領域の属性には、第１属性と、第２属性とが含まれる。第１属性は、ユーザによる所定の行動の有無に関わらずに指定が許可される１つ以上のオブジェクト領域の属性である。第２属性は、ユーザによる所定の行動に応じて指定が許可される１つ以上のオブジェクト領域の属性である。また、この場合における許可条件は、第２属性の指定を許可するか否かを判定するための条件である。

この場合において、取得処理部２３１は、ユーザが所定の条件を満たさないと判定した場合、第２属性に対応する領域特定情報を受け付けず、第１属性に対応する領域特定情報のみを受け付ける。一方、取得処理部２３１は、ユーザが所定の条件を満たすと判定した場合、第１属性に対応する領域特定情報、又は第２属性に対応する領域特定情報を受け付ける。このようにすることで、情報処理装置２は、ユーザが所定の条件を満たす行動を取る動機づけを提供することができる。

第２のステップとして、動画生成部２３６は、領域特定情報によって特定されるオブジェクト領域の属性に基づいて、第２動画を生成する。具体的には、まず、動画生成部２３６は、領域特定情報によって特定されるオブジェクト領域の属性に基づいて、第１動画の動画領域からオブジェクト領域を切り取る基準となる基準箇所を特定する。そして、動画生成部２３６は、特定した基準箇所を含む領域であって領域特定情報によって特定されるオブジェクト領域の属性によって定まる領域を、オブジェクト領域として切り取ることにより第２動画を生成する。

第３のステップとして、音源生成部２３７は、オブジェクト領域の属性に応じた強調度合いで対象オブジェクトの音声を強調した第２音源を生成する。例えば、予め定められたオブジェクト領域の属性ごとに強調の度合いが定められており、音源生成部２３７は、取得処理部２３１が取得した領域特定情報によって特定されるオブジェクト領域の属性に対応する度合いで対象オブジェクトの音声を強調した第２音源を生成する。このようにすることで、情報処理装置２は、ユーザが指定したオブジェクト領域の属性に応じた第２動画及び第２音源を提供することができる。

生成部２３５は、対象オブジェクトに対応する関心度に応じた第２動画及び第２音源を生成してもよい。具体的には、動画生成部２３６は、対象オブジェクトに対応する関心度に応じた第２動画として、対象オブジェクトに対応する関心度に応じたサイズの第２動画を生成する。動画生成部２３６は、例えば、ユーザの関心度が高いほど大きいサイズの第２動画を生成する。例えば、所定の関心度ごとに第２動画のサイズが定められており、動画生成部２３６は、対象オブジェクトに対するユーザの関心度に対応するサイズの第２動画を生成する。

音源生成部２３７は、対象オブジェクトに対応する関心度に応じた第２音源として、対象オブジェクトに対応する関心度に応じた度合いで当該対象オブジェクトの音声を強調した第２音源を生成する。音源生成部２３７は、例えば、対象オブジェクトに対応する関心度が高いほど対象オブジェクの音声を大きく強調した第２音源を生成する。

例えば、所定の関心度ごとに音声の強調の度合いが定められており、音源生成部２３７は、対象オブジェクトに対するユーザの関心度に対応する度合いに対象オブジェクトの音声を強調した第２音源を生成する。このようにすることで、情報処理装置２は、対象オブジェクトに対するユーザの関心度が高いほど当該対象オブジェクトを視聴しやすくすることができる。

送信部２３８は、第１動画と、第１動画と同期された第２動画と、第２音源とを、ユーザ端末１に送信する。送信部２３８は、例えば、音源を第１音源から第２音源に変更した第１動画と、当該第１動画と同期された第２動画とを、ユーザ端末１に送信する。

送信部２３８は、例えば、第１動画と、対象オブジェクト特定部２３４が特定した対象オブジェクトに基づいて選択した第２動画及び第２音源とを、ユーザ端末１に送信する。具体的には、まず、生成部２３５は、オブジェクト特定部２３２が第２動画に含まれるオブジェクトを特定したことを契機として、第１動画に含まれるオブジェクトごとに、当該オブジェクトに対応する第２動画及び第２音源を生成する。

送信部２３８は、生成部２３５が生成した複数の第２動画の中から対象オブジェクト特定部２３４が特定した対象オブジェクトに対応する第２動画を選択し、生成部２３５が生成した複数の第２音源の中から対象オブジェクト特定部２３４が特定した対象オブジェクトに対応する第２音源を選択する。そして、送信部２３８は、第１動画と、選択した第２動画であって第１動画と同期された第２動画と、選択した第２音源とを、ユーザ端末１に送信する。

送信部２３８は、第１動画と、対象オブジェクト特定部２３４が特定した対象オブジェクトに基づいて生成された第２動画及び第２音源とを、ユーザ端末１に送信してもよい。具体的には、まず、生成部２３５は、対象オブジェクト特定部２３４が対象オブジェクトを特定したことを契機として、当該対象オブジェクトに対応する第２動画及び第２音源を生成する。そして、送信部２３８は、第１動画と、生成部２３５が生成した第２動画であって第１動画と同期された第２動画と、生成部２３５が生成した第２音源とを、ユーザ端末１に送信する。

送信部２３８は、対象オブジェクトに対応する関心度に応じた品質の第２動画及び第２音源を、ユーザ端末１に送信してもよい。第２動画の品質は、例えば、解像度、フレームレート、圧縮率等である。第２音源の品質は、例えば、解像度、圧縮率等である。例えば、所定の関心度ごとに、当該所定の関心度に対応する第２動画の品質及び第２音源の品質が定められている。

この場合において、送信部２３８は、生成された第２動画及び第２音源を、当該第２動画及び第２音源に対応する対象オブジェクトに対するユーザの関心度に応じた品質でユーザ端末１に送信する。例えば、関心度が高いほど第２動画の品質及び第２音源の品質が高く定められており、送信部２３８は、第２動画及び第２音源を、関心度が相対的に低い対象オブジェクトよりも、関心度が相対的に高い対象オブジェクトの方が高い品質の第２動画及び第２音源をユーザ端末１に送信する。なお、送信部２３８が、第２動画を対象オブジェクトに対応する関心度に応じた品質にするための処理を実行するのではなく、動画生成部２３６が対象オブジェクトに対応する関心度に応じた品質の第２動画及び第２音源を生成してもよい。このようにすることで、情報処理装置２は、例えば、ユーザの関心度が高いオブジェクトをより視聴しやすくすることができる。

ユーザ端末１は、第１動画と第２動画と第２音源とを出力する。具体的には、取得部１４２が情報処理装置２から第１動画と第２動画と第２音源とを取得すると、出力制御部１４３は、専用アプリの表示画面である動画再生画面において、第１動画と、当該第１動画と同期された第２動画とを表示させ、第２音源を出力する。

情報処理装置２は、第１動画と第２動画と第２音源とをユーザ端末１に送信した後に、ユーザの操作に応じて当該第１動画に含まれるオブジェクトに対応する関心度を更新してもよい。具体的には、まず、取得処理部２３１は、送信部２３８が第１動画と第２動画とをユーザ端末１に送信することによりユーザ端末１に表示された第２動画に対するユーザの操作を示す情報を取得する。第２動画に対するユーザの操作は、例えば、第２動画の位置を変更する操作、第２動画のサイズを変更する操作、表示された第２動画を表示されていない他の第２動画に変更する操作、「いいね」ボタンの押下等のように第２動画に対して肯定的な意思表示を示す操作等である。

そして、関心度管理部２３３は、取得処理部２３１が取得した情報によって示される第２動画に対するユーザの操作に基づいて、当該第２動画に対応するオブジェクトのオブジェクトＩＤに関連付けて関心度管理データベースに記憶されている関心度を更新する。例えば、動画再生画面においてユーザが２つの第２動画の位置の入れ替える操作を行った場合、関心度管理部２３３は、２つの第２動画のうちの第２動画の順序の上位の位置に入れ替えられた第２動画のオブジェクトに対応する関心度を高く更新し、２つの第２動画のうちの第２動画の順序の下位の位置に入れ替えられた第２動画のオブジェクトに対応する関心度を低く更新する。

このようにすることで、情報処理装置２は、ユーザの操作に応じてオブジェクトに対するユーザの関心度を更新することができる。なお、情報処理装置２は、第１動画に含まれるオブジェクトに対するユーザの関心度が更新された場合、更新された関心度に基づいて、対象オブジェクトの特定と、第２動画の生成と、第２音源の生成とを実行してもよい。

送信部２３８は、第１動画と第２動画と第２音源とをユーザ端末１に送信した後に、ユーザの操作に応じて変更された新たな第２音源をユーザ端末１に送信してもよい。具体的には、情報処理装置２は、以下の３つのステップを実行することにより、新たな第２音源をユーザ端末１に送信する。

第１のステップとして、取得処理部２３１は、送信部２３８が第１動画と第２動画と第２音源とをユーザ端末１に送信した後に、ユーザが第２動画に対応する対象オブジェクトの音量を変更する操作を受け付ける。例えば、動画再生画面には、第２動画ごとに、当該第２動画に対応するオブジェクトの音量を調節するための調節項目が設けられており、ユーザが調節項目においてオブジェクトの音量を調節する操作を行うと、取得処理部２３１は、ユーザが調節したオブジェクトの音量を示す情報を取得する。

第２のステップとして、音源生成部２３７は、第２音源からユーザの操作に応じて対象オブジェクトの音量を変更した新たな第２音源を生成する。音源生成部２３７は、例えば、第２音源からユーザが調節項目において調節した音量に対応する対象オブジェクトの音量に変更した新たな第２音源を生成する。

第３のステップとして、送信部２３８は、新たな第２音源を、ユーザ端末１に送信する。このようにすることで、情報処理装置２は、ユーザが希望する度合いで対象オブジェクトの音声が強調された音源を提供することができる。

［情報処理装置２の処理］
続いて、情報処理装置２の処理の流れについて説明する。図８は、情報処理装置２が実行する処理の流れを示すフローチャートである。本フローチャートは、取得処理部２３１が第１動画を取得したことを契機として開始する（Ｓ１）。

オブジェクト特定部２３２は、第１動画に含まれるオブジェクトを特定する（Ｓ２）。生成部２３５は、オブジェクト特定部２３２が第１動画に含まれるオブジェクトを特定したことを契機として、第１動画に含まれるオブジェクトごとに、当該オブジェクトに対応する第２動画及び第２音源を生成する（Ｓ３）。

取得処理部２３１は、ユーザ端末１から、ユーザが第１動画の一覧から選択した第１動画に対応する第１動画ＩＤと、ユーザが当該第１動画に含まれる複数のオブジェクトの中から選択したオブジェクトに対応するオブジェクトＩＤとを含む再生要求を取得する（Ｓ４）。対象オブジェクト特定部２３４は、取得処理部２３１が取得した再生要求に含まれるオブジェクトＩＤが示すオブジェクトを、対象オブジェクトとして特定する（Ｓ５）。

送信部２３８は、生成部２３５が生成した複数の第２動画の中から対象オブジェクト特定部２３４が特定した対象オブジェクトに対応する第２動画を選択し、生成部２３５が生成した複数の第２音源の中から対象オブジェクト特定部２３４が特定した対象オブジェクトに対応する第２音源を選択する（Ｓ６）。そして、送信部２３８は、第１動画と、選択した第２動画であって当該第１動画と同期された第２動画と、第２音源とを、ユーザ端末１に送信する（Ｓ７）。

［本実施の形態における効果］
以上説明したとおり、情報処理装置２は、第１動画と、第１動画の動画領域から対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって生成した第２動画であって第１動画と同期された第２動画と、第１音源に含まれる対象オブジェクトの音声を強調した第２音源とを、ユーザ端末１に送信する。このようにすることで、情報処理装置２は、第１動画に含まれるオブジェクトをユーザに視聴しやすくすることができる。

なお、本発明により、国連が主導する持続可能な開発目標（SDGs）の目標９「産業と技術革新の基盤をつくろう」に貢献することが可能となる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

１ユーザ端末
１１入出力部
１２通信部
１３記憶部
１４制御部
１４１送信部
１４２取得部
１４３出力制御部
２情報処理装置
２１通信部
２２記憶部
２３制御部
２３１取得処理部
２３２オブジェクト特定部
２３３関心度管理部
２３４対象オブジェクト特定部
２３５生成部
２３６動画生成部
２３７音源生成部
２３８送信部
Ｓ情報処理システム

Claims

第１動画を取得する動画取得部と、
前記第１動画に含まれる複数のオブジェクトを特定するオブジェクト特定部と、
前記第１動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか１つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第２動画を生成する動画生成部と、
前記第１動画の音源である第１音源に含まれる前記対象オブジェクトの音声を強調した第２音源を生成する音源生成部と、
前記第１動画と、前記第１動画と同期された前記第２動画と、前記音源生成部が生成した前記第２音源とを、ユーザ端末に送信する送信部と、
を有する情報処理装置。
前記音源生成部は、前記対象オブジェクトの音声を強調した前記第２音源として、前記対象オブジェクトの音声を大きい音量及び前記複数のオブジェクトのうちの前記対象オブジェクト以外の他のオブジェクトの音声を小さい音量のうちの少なくともいずれかに調節した前記第２音源を生成する、
請求項１に記載の情報処理装置。
前記情報処理装置は、複数のオブジェクトの中から前記ユーザ端末を使用するユーザが選択した前記オブジェクトを、前記対象オブジェクトとして特定する対象オブジェクト特定部をさらに有し、
前記動画生成部は、前記対象オブジェクト特定部が特定した前記対象オブジェクトに対応する前記第２動画を生成する、
請求項１に記載の情報処理装置。
前記情報処理装置は、
前記複数のオブジェクトのうちの少なくともいずれかに対するユーザの関心度を取得するユーザ情報取得部と、
前記ユーザ情報取得部が取得した前記関心度に基づいて、前記複数のオブジェクトの中から前記対象オブジェクトを特定する対象オブジェクト特定部と、
をさらに有し、
前記動画生成部は、前記対象オブジェクト特定部が特定した前記対象オブジェクトに対応する前記第２動画を生成する、
請求項１に記載の情報処理装置。
前記情報処理装置は、所定のオブジェクトを示す情報と、前記所定のオブジェクトと類似するオブジェクトとして定められた類似オブジェクトを示す情報とを関連付けて記憶する記憶部をさらに有し、
前記ユーザ情報取得部は、前記複数のオブジェクトのうちの少なくともいずれかの前記オブジェクトと関連付けられている前記類似オブジェクトに対応する前記関心度を取得し、
前記対象オブジェクト特定部は、さらに、前記ユーザ情報取得部が取得した前記類似オブジェクトに対する前記関心度に基づいて、前記複数のオブジェクトの中から前記対象オブジェクトを特定する、
請求項４に記載の情報処理装置。
前記対象オブジェクト特定部は、前記複数のオブジェクトのうち、前記関心度が所定の閾値以上である前記オブジェクトを、前記対象オブジェクトとして特定する、
請求項４に記載の情報処理装置。
前記動画生成部は、前記対象オブジェクトがそれぞれ異なる複数の前記第２動画を生成し、
前記音源生成部は、さらに、複数の前記対象オブジェクトのうちの前記関心度が相対的に大きい前記対象オブジェクトの音声を大きい音量及び複数の前記対象オブジェクトのうちの前記関心度が相対的に小さい前記対象オブジェクトの音声を小さい音量のうちの少なくともいずれかに調節した前記第２音源を生成する、
請求項４に記載の情報処理装置。
前記ユーザ情報取得部は、前記複数のオブジェクトのうちの少なくともいずれかに関する前記ユーザの行動履歴を取得し、取得した前記行動履歴に基づいて、前記オブジェクトに対応する前記関心度を推定することにより、前記関心度を取得する、
請求項４に記載の情報処理装置。
前記行動履歴は、前記オブジェクトに関連するグッズの購入履歴、前記オブジェクトが出演したイベントへの参加履歴、及び前記オブジェクトへの対価又は前記オブジェクトが出演したイベントに参加するための料金を支払った支払履歴のうちの少なくともいずれかである、
請求項８に記載の情報処理装置。
前記情報処理装置は、ユーザＩＤ（Identification）と、前記行動履歴とを関連付けて記憶する記憶部をさらに有し、
前記ユーザ情報取得部は、前記ユーザに対応する前記ユーザＩＤを取得し、取得した前記ユーザＩＤを用いて前記記憶部を検索することによりに、前記行動履歴を取得する、
請求項８又は９に記載の情報処理装置。
前記情報処理装置は、前記送信部が前記第１動画と前記第２動画と前記第２音源とを前記ユーザ端末に送信した後に、前記ユーザ端末を使用するユーザが前記第２動画に対応する前記対象オブジェクトの音量を変更する操作を受け付けるユーザ情報取得部をさらに有し、
前記音源生成部は、前記第２音源から前記ユーザの操作に応じて前記対象オブジェクトの音量を変更した新たな前記第２音源を生成し、
前記送信部は、新たな前記第２音源を、前記ユーザ端末に送信する、
請求項１に記載の情報処理装置。
前記情報処理装置は、前記ユーザ端末から、前記オブジェクト領域の属性を特定するための領域特定情報を取得するユーザ情報取得部をさらに有し、
前記動画生成部は、前記領域特定情報によって特定される前記オブジェクト領域の属性に基づいて、前記第１動画の動画領域から前記オブジェクト領域を切り取る基準となる基準箇所を特定し、特定した前記基準箇所を含む領域であって前記領域特定情報によって特定される前記オブジェクト領域の属性によって定まる領域を、前記オブジェクト領域として切り取ることにより前記第２動画を生成し、
前記音源生成部は、前記オブジェクト領域の属性に応じた度合いで前記対象オブジェクトの音声を強調した前記第２音源を生成する、
請求項１に記載の情報処理装置。
前記第１動画には、前記オブジェクトごとに当該オブジェクトに近いマイクとして定められた近傍マイクを示す情報が含まれ、
前記音源生成部は、前記対象オブジェクトに対応する前記近傍マイク及び前記複数のオブジェクトのうちの前記対象オブジェクト以外の他のオブジェクトに対応する前記近傍マイクのうちの少なくともいずれかが集音した音量の大小を調節した前記第２音源を生成する、
請求項１に記載の情報処理装置。
コンピュータが実行する、
第１動画を取得するステップと、
前記第１動画に含まれる複数のオブジェクトを特定するステップと、
前記第１動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか１つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第２動画を生成するステップと、
前記第１動画の音源である第１音源に含まれる前記対象オブジェクトの音声を強調した第２音源を生成するステップと、
前記第１動画と、前記第１動画と同期された前記第２動画と、生成した前記第２音源と、を、ユーザ端末に送信するステップと、
を有する情報処理方法。
コンピュータを、
第１動画を取得する動画取得部、
前記第１動画に含まれる複数のオブジェクトを特定するオブジェクト特定部、
前記第１動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか１つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第２動画を生成する動画生成部、
前記第１動画の音源である第１音源に含まれる前記対象オブジェクトの音声を強調した第２音源を生成する音源生成部、及び
前記第１動画と、前記第１動画と同期された前記第２動画と、前記音源生成部が生成した前記第２音源とを、ユーザ端末に送信する送信部、
として機能させるためのプログラム。
第１動画に含まれる複数のオブジェクトの中からユーザが選択した前記オブジェクトである対象オブジェクトを示す情報を、情報処理装置に送信する送信部と、
前記第１動画の音源である第１音源から前記第１音源に含まれる前記対象オブジェクトの音声が強調された第２音源と、前記第１動画と、前記第１動画の動画領域から前記対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって生成された第２動画であって前記第１動画と同期された前記第２動画とを、前記情報処理装置から取得する取得部と、
前記取得部が取得した前記第１動画、前記第２動画及び前記第２音源を出力する出力制御部と、
を有する情報処理端末。