[go: up one dir, main page]

JP7670941B1 - 情報処理装置、情報処理方法、プログラム及び情報処理端末 - Google Patents

情報処理装置、情報処理方法、プログラム及び情報処理端末 Download PDF

Info

Publication number
JP7670941B1
JP7670941B1 JP2025033765A JP2025033765A JP7670941B1 JP 7670941 B1 JP7670941 B1 JP 7670941B1 JP 2025033765 A JP2025033765 A JP 2025033765A JP 2025033765 A JP2025033765 A JP 2025033765A JP 7670941 B1 JP7670941 B1 JP 7670941B1
Authority
JP
Japan
Prior art keywords
video
sound source
target object
moving image
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2025033765A
Other languages
English (en)
Inventor
萌那 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2025033765A priority Critical patent/JP7670941B1/ja
Priority to JP2025068299A priority patent/JP7745119B1/ja
Application granted granted Critical
Publication of JP7670941B1 publication Critical patent/JP7670941B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Figure 0007670941000001
【課題】動画に含まれるオブジェクトを視聴者に視聴しやすくする。
【解決手段】情報処理装置2は、第1動画を取得する取得処理部231と、第1動画に含まれる複数のオブジェクトを特定するオブジェクト特定部232と、第1動画の動画領域から複数のオブジェクトのうちの少なくともいずれか1つのオブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第2動画を生成する動画生成部236と、第1動画の音源である第1音源に含まれる対象オブジェクトの音声を強調した第2音源を生成する音源生成部237と、第1動画と、第1動画と同期された第2動画と、音源生成部が生成した第2音源とを、ユーザ端末に送信する送信部238と、を有する。
【選択図】図4

Description

本発明は、情報処理装置、情報処理方法、プログラム及び情報処理端末に関する。
従来、動画を配信するサービスが知られている。特許文献1には、動画を配信する技術が開示されている。
特開2004-274531号公報
動画の視聴者は、動画を全体的に視聴するだけでなく、動画に含まれるオブジェクトに注目して視聴する場合がある。そのため、視聴者が動画に含まれるオブジェクトを視聴しやすくするための仕組みを提供することが求められている。
そこで、本発明はこれらの点に鑑みてなされたものであり、動画に含まれるオブジェクトを視聴者に視聴しやすくすることを目的とする。
本発明の第1の態様に係る情報処理装置は、第1動画を取得する動画取得部と、前記第1動画に含まれる複数のオブジェクトを特定するオブジェクト特定部と、前記第1動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか1つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第2動画を生成する動画生成部と、前記第1動画の音源である第1音源に含まれる前記対象オブジェクトの音声を強調した第2音源を生成する音源生成部と、前記第1動画と、前記第1動画と同期された前記第2動画と、前記音源生成部が生成した前記第2音源とを、ユーザ端末に送信する送信部と、を有する。
前記音源生成部は、前記対象オブジェクトの音声を強調した前記第2音源として、前記対象オブジェクトの音声を大きい音量及び前記複数のオブジェクトのうちの前記対象オブジェクト以外の他のオブジェクトの音声を小さい音量のうちの少なくともいずれかに調節した前記第2音源を生成してもよい。
前記情報処理装置は、複数のオブジェクトの中から前記ユーザ端末を使用するユーザが選択した前記オブジェクトを、前記対象オブジェクトとして特定する対象オブジェクト特定部をさらに有してもよいし、前記動画生成部は、前記対象オブジェクト特定部が特定した前記対象オブジェクトに対応する前記第2動画を生成してもよい。
前記情報処理装置は、前記複数のオブジェクトのうちの少なくともいずれかに対するユーザの関心度を取得するユーザ情報取得部と、前記ユーザ情報取得部が取得した前記関心度に基づいて、前記複数のオブジェクトの中から前記対象オブジェクトを特定する対象オブジェクト特定部と、をさらに有してもよいし、前記動画生成部は、前記対象オブジェクト特定部が特定した前記対象オブジェクトに対応する前記第2動画を生成してもよい。
前記情報処理装置は、所定のオブジェクトを示す情報と、前記所定のオブジェクトと類似するオブジェクトとして定められた類似オブジェクトを示す情報とを関連付けて記憶する記憶部をさらに有してもよいし、前記ユーザ情報取得部は、前記複数のオブジェクトのうちの少なくともいずれかの前記オブジェクトと関連付けられている前記類似オブジェクトに対応する前記関心度を取得してもよいし、前記対象オブジェクト特定部は、さらに、前記ユーザ情報取得部が取得した前記類似オブジェクトに対する前記関心度に基づいて、前記複数のオブジェクトの中から前記対象オブジェクトを特定してもよい。
前記対象オブジェクト特定部は、前記複数のオブジェクトのうち、前記関心度が所定の閾値以上である前記オブジェクトを、前記対象オブジェクトとして特定してもよい。
前記動画生成部は、前記対象オブジェクトがそれぞれ異なる複数の前記第2動画を生成してもよいし、前記音源生成部は、さらに、複数の前記対象オブジェクトのうちの前記関心度が相対的に大きい前記対象オブジェクトの音声を大きい音量及び複数の前記対象オブジェクトのうちの前記関心度が相対的に小さい前記対象オブジェクトの音声を小さい音量のうちの少なくともいずれかに調節した前記第2音源を生成してもよい。
前記ユーザ情報取得部は、前記複数のオブジェクトのうちの少なくともいずれかに関する前記ユーザの行動履歴を取得し、取得した前記行動履歴に基づいて、前記オブジェクトに対応する前記関心度を推定することにより、前記関心度を取得してもよい。
前記行動履歴は、前記オブジェクトに関連するグッズの購入履歴、前記オブジェクトが出演したイベントへの参加履歴、及び前記オブジェクトへの対価又は前記オブジェクトが出演したイベントに参加するための料金を支払った支払履歴のうちの少なくともいずれかであってもよい。
前記情報処理装置は、ユーザID(Identification)と、前記行動履歴とを関連付けて記憶する記憶部をさらに有してもよいし、前記ユーザ情報取得部は、前記ユーザに対応する前記ユーザIDを取得し、取得した前記ユーザIDを用いて前記記憶部を検索することにより、前記行動履歴を取得してもよい。
前記情報処理装置は、前記送信部が前記第1動画と前記第2動画と前記第2音源とを前記ユーザ端末に送信した後に、前記ユーザ端末を使用するユーザが前記第2動画に対応する前記対象オブジェクトの音量を変更する操作を受け付けるユーザ情報取得部をさらに有してもよいし、前記音源生成部は、前記第2音源から前記ユーザの操作に応じて前記対象オブジェクトの音量を変更した新たな前記第2音源を生成してもよいし、前記送信部は、新たな前記第2音源を、前記ユーザ端末に送信してもよい。
前記情報処理装置は、前記ユーザ端末から、前記オブジェクト領域の属性を特定するための領域特定情報を取得するユーザ情報取得部をさらに有してもよいし、前記動画生成部は、前記領域特定情報によって特定される前記オブジェクト領域の属性に基づいて、前記第1動画の動画領域から前記オブジェクト領域を切り取る基準となる基準箇所を特定し、特定した前記基準箇所を含む領域であって前記領域特定情報によって特定される前記オブジェクト領域の属性によって定まる領域を、前記オブジェクト領域として切り取ることにより前記第2動画を生成してもよいし、前記音源生成部は、前記オブジェクト領域の属性に応じた度合いで前記対象オブジェクトの音声を強調した前記第2音源を生成してもよい。
前記第1動画には、前記オブジェクトごとに当該オブジェクトに近いマイクとして定められた近傍マイクを示す情報が含まれてもよいし、前記音源生成部は、前記対象オブジェクトに対応する前記近傍マイク及び前記複数のオブジェクトのうちの前記対象オブジェクト以外の他のオブジェクトに対応する前記近傍マイクのうちの少なくともいずれか集音した音量の大小を調節した前記第2音源を生成してもよい。
本発明の第2の態様に係る情報処理方法は、コンピュータが実行する、第1動画を取得するステップと、前記第1動画に含まれる複数のオブジェクトを特定するステップと、前記第1動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか1つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第2動画を生成するステップと、前記第1動画の音源である第1音源に含まれる前記対象オブジェクトの音声を強調した第2音源を生成するステップと、前記第1動画と、前記第1動画と同期された前記第2動画と、生成した前記第2音源と、を、ユーザ端末に送信するステップと、を有する。
本発明の第3の態様に係るプログラムは、コンピュータを、第1動画を取得する動画取得部、前記第1動画に含まれる複数のオブジェクトを特定するオブジェクト特定部、前記第1動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか1つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第2動画を生成する動画生成部、前記第1動画の音源である第1音源に含まれる前記対象オブジェクトの音声を強調した第2音源を生成する音源生成部、及び前記第1動画と、前記第1動画と同期された前記第2動画と、前記音源生成部が生成した前記第2音源とを、ユーザ端末に送信する送信部、として機能させる。
本発明の第4の態様に係る情報処理端末は、第1動画に含まれる複数のオブジェクトの中からユーザが選択した前記オブジェクトである対象オブジェクトを示す情報を、情報処理装置に送信する送信部と、前記第1動画の音源である第1音源から前記第1音源に含まれる前記対象オブジェクトの音声が強調された第2音源と、前記第1動画と、前記第1動画の動画領域から前記対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって生成された第2動画であって前記第1動画と同期された前記第2動画とを、前記情報処理装置から取得する取得部と、前記取得部が取得した前記第1動画、前記第2動画及び前記第2音源を出力する出力制御部と、を有する。
本発明によれば、動画に含まれるオブジェクトを視聴者に視聴しやすくすることができるという効果を奏する。
情報処理システムの概要を説明するための図である。 第1動画及び第2動画の一例を模式的に表した図である。 ユーザ端末1の機能構成を模式的に示す図である。 情報処理装置の機能構成を模式的に示す図である。 関心度管理データベースの構成の一例を示す図である。 専用アプリの表示画面の一例を模式的に表した図である。 専用アプリの表示画面の一例を模式的に表した図である。 情報処理装置2が実行する処理の流れを示すフローチャートである。
[情報処理システムSの概要]
図1は、情報処理システムSの概要を説明するための図である。情報処理システムSは、情報処理サービスを提供するために用いられるサービスである。情報処理サービスは、動画を提供するサービスである。情報処理サービスによって提供される動画は、リアルタイムの動画であってもよいし、アーカイブの動画であってもよい。情報処理システムSは、ユーザ端末1と、情報処理装置2とを有する。
ユーザ端末1は、ユーザが使用する情報処理端末であり、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ等である。ユーザは、動画を視聴する視聴者であり、例えば、情報処理サービスの会員である。ユーザ端末1には、ユーザが情報処理サービスを利用するための専用のアプリケーションプログラム(以下、「専用アプリ」という。)がインストールされている。ユーザは、専用アプリを用いて動画を視聴することができる。
情報処理装置2は、情報処理サービスを管理する装置であり、例えば、サーバである。情報処理サービスでは、動画の提供として、当該動画である第1動画と、第1動画に含まれる対象オブジェクトの少なくとも一部をクローズアップした第2動画と、対象オブジェクトの音声を強調した音源とを提供する。対象オブジェクトは、第1動画に含まれる複数のオブジェクトのうちの少なくともいずれかのオブジェクトであり、例えば、ユーザが注目し得るオブジェクトである。オブジェクトは、例えば、人物、動物、アバター等のように、ユーザが注目し得る動的な物体であって、音を発する物体である。また、オブジェクトは、例えば、楽器等のように、人物による操作や演奏により音を発する物体であってもよい。ここで、オブジェクトが音声を発する手法としては、オブジェクトが直接発する音声だけでなく、オブジェクト(例えば楽器)と接続されたスピーカを介して発する場合も含んでもよい。
以下において、情報処理システムSが実行する処理について説明する。
まず、情報処理装置2は、ユーザ端末1から動画の再生要求を取得する(図1における(1))。例えば、ユーザが、ユーザ端末1の専用アプリの表示画面において、情報処理サービスによって提供される複数の第1動画の中から視聴を希望する第1動画を選択する操作を行うと、情報処理装置2は、ユーザが選択した第1動画の再生要求を取得する。
そして、情報処理装置2は、第1動画と、第1動画の動画領域から対象オブジェクトの少なくとも一部を含む領域であるオブジェクト領域を切り取ることによって生成された第2動画であって第1動画と同期された第2動画と、第1動画の音源である第1音源に含まれる対象オブジェクトの音声を強調した第2音源とを、ユーザ端末1に送信する(図1における(2))。その後、ユーザ端末1は、情報処理装置2から取得した第1動画及び当該第1動画と同期された第2動画を専用アプリの表示画面に表示させ、情報処理装置2から取得した第2音源を出力する。
図2は、第1動画及び第2動画の一例を模式的に表した図である。動画V1は、第1動画であり、オブジェクトとして4人の人物H(人物H1、人物H2、人物H3、人物H4)が映っている。動画V2は、第2動画である。画面D1は、専用アプリの表示画面である。
例えば、対象オブジェクトが人物H3である場合、情報処理装置2は、第1動画と、当該第1動画の動画領域から人物H3の顔を含むオブジェクト領域である領域Rを切り取ることによって生成された動画V2と、第1音源に含まれる人物H3の音声を強調した第2音源とを、ユーザ端末1に送信する。そして、ユーザ端末1は、動画V1及び当該動画V1と同期された動画V2が表示された画面D1を表示し、第2音源を出力する。
このようにすることで、情報処理システムSは、第1動画に含まれるオブジェクトをユーザに視聴しやすくすることができる。
以下、ユーザ端末1及び情報処理装置2の構成について説明する。
[ユーザ端末1の機能構成]
図3は、ユーザ端末1の機能構成を模式的に示す図である。ユーザ端末1は、入出力部11と、通信部12と、記憶部13と、制御部14とを備える。図3において、矢印は主なデータの流れを示しており、図3に示していないデータの流れがあってもよい。図3において、各機能ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図3に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
入出力部11は、ディスプレイ、タッチパネル、スピーカ等のように、情報の入力を受け付けたり情報を出力したりするユーザインターフェイスである。
通信部12は、ネットワークに接続するための通信インターフェースであり、外部の装置からデータを受信するための通信コントローラを有する。
記憶部13は、ユーザ端末1を実現するコンピュータのBIOS(Basic Input Output System)等を格納するROM(Read Only Memory)やユーザ端末1の作業領域となるRAM(Random Access Memory)、OS(Operating System)やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置である。
制御部14は、ユーザ端末1のCPU(Central Processing Unit)、GPU(Graphics Processing Unit)やNPU(Neural network Processing Unit)等のプロセッサであり、記憶部13に記憶されたプログラムを実行することによって、送信部141、取得部142、及び出力制御部143として機能する。
[情報処理装置2の機能構成]
図4は、情報処理装置2の機能構成を模式的に示す図である。情報処理装置2は、通信部21と、記憶部22と、制御部23とを備える。図4において、矢印は主なデータの流れを示しており、図4に示していないデータの流れがあってもよい。図4において、各機能ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図4に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
通信部21は、ネットワークに接続するための通信インターフェースであり、外部の装置からデータを受信するための通信コントローラを有する。
記憶部22は、情報処理装置2を実現するコンピュータのBIOS等を格納するROMや情報処理装置2の作業領域となるRAM、OSやアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDDやSSD等の大容量記憶装置である。
記憶部22は、情報処理サービスにおいて提供される第1動画に関する情報と、所定のオブジェクトに関する情報と、ユーザに関する情報とを記憶している。所定のオブジェクトは、情報処理サービスにおいて提供される第1動画に含まれるオブジェクトである。
第1動画に関する情報は、例えば、第1動画ごとに、当該第1動画を識別するための第1動画ID及び当該第1動画の名称等が関連付けられた情報である。
所定のオブジェクトに関する情報は、例えば、所定のオブジェクトごとに、当該所定のオブジェクトを識別するためのオブジェクトID、当該所定のオブジェクトの名称、類似オブジェクトに対応するオブジェクトID、当該所定のオブジェクトの識別画像、及び当該所定のオブジェクトの音声データ等が関連付けられた情報である。類似オブジェクトは、例えば、性別、容姿、属性、職業、タイプ等のようなオブジェクトの特性に基づいて所定のオブジェクトと類似するオブジェクトとして定められたオブジェクトである。所定のオブジェクトの識別画像は、例えば、未知の画像(例えば、第1動画)から所定のオブジェクトを識別するために用いられる画像である。所定のオブジェクトの音声データは、例えば、未知の音声(例えば、第1動画の音源)から所定のオブジェクトの音声を識別するために用いられるデータである。
ユーザに関する情報は、例えば、ユーザごとに、ユーザを識別するためのユーザIDと、ユーザの行動履歴とが関連付けられた情報である。ユーザの行動履歴は、例えば、ユーザが支払った所定の料金(例えば、会員登録の料金、第2動画を表示するための料金、オブジェクトへの対価、オブジェクトが出演したイベントに参加するための料金等)の支払履歴、ユーザが購入した所定の物品(例えば、情報処理サービスにおいて指定された物品、オブジェクトに関連するグッズ等)の購入履歴、ユーザが参加した所定のイベント(例えば、情報処理サービスにおいて指定されたイベント、オブジェクトが出演したイベント等)の参加履歴、ユーザが視聴した所定のイベントの動画の視聴履歴等である。
また、記憶部22は、所定のオブジェクトに対するユーザの関心度を管理する関心度管理データベースを記憶している。図5は、関心度管理データベースの構成の一例を示す図である。図5に示す例において、関心度管理データベースは、ユーザ及び所定のオブジェクトの組み合わせごとに、当該ユーザに対応するユーザIDと、当該所定のオブジェクトに対応するオブジェクトIDと、当該オブジェクトに対するユーザの関心度とを関連付けて記憶している。関心度は、例えば、数値で表現され、数値が高いほど関心の度合いが高いことを示す。なお、関心度は、数値に限らず、「高」、「中」、「低」等のような指標で表現されてもよい。
図4に戻り、制御部23は、情報処理装置2のCPU、GPUやNPU等のプロセッサであり、記憶部22に記憶されたプログラムを実行することによって、取得処理部231、オブジェクト特定部232、関心度管理部233、対象オブジェクト特定部234、生成部235(動画生成部236及び音源生成部237)、及び送信部238として機能する。
[情報処理サービスの提供に係る処理]
続いて、情報処理システムSが実行する情報処理サービスの提供に係る処理について説明する。
取得処理部231は、動画取得部として機能し、第1動画を取得する。例えば、第1動画がリアルタイムの動画である場合、取得処理部231は、オブジェクトを撮像するカメラから第1動画を取得する。また、例えば、第1動画がアーカイブの動画である場合、取得処理部231は、第1動画を管理する不図示のサーバから第1動画を取得する。なお、記憶部22に第1動画が記憶されている場合、取得処理部231は、記憶部22から第1動画を取得してもよい。
取得処理部231は、例えば、第1動画を取得すると、当該第1動画に対応する第1動画IDを生成する。なお、取得処理部231は、第1動画とともに当該第1動画に対応する第1動画IDを取得してもよい。
オブジェクト特定部232は、第1動画に含まれる複数のオブジェクトを特定する。例えば、まず、オブジェクト特定部232は、第1動画に含まれる全てのオブジェクトを認識する。オブジェクト特定部232は、例えば、公知の被写体認識技術を用いてオブジェクトを認識することができる。そして、オブジェクト特定部232は、認識したオブジェクトごとに、当該オブジェクトを含む第1動画と、記憶部22に記憶されている所定のオブジェクトの識別画像とを照合して当該オブジェクトを識別することにより、第1動画に含まれる当該オブジェクトを特定する。
取得処理部231は、ユーザ情報取得部としてさらに機能し、ユーザ端末1から再生要求を取得する。再生要求は、ユーザ端末1において第1動画を再生するための要求であり、例えば、ユーザが選択した第1動画に対応する第1動画IDを含む。再生要求は、ユーザに対応するユーザID等をさらに含んでもよい。
例えば、まず、ユーザ端末1の処理として、ユーザが専用アプリの表示画面において、複数の第1動画のうちのいずれか1つの第1動画を選択すると、送信部141は、ユーザが選択した第1動画に対応する第1動画IDを含む再生要求を情報処理装置2に送信する。そして、情報処理装置2の処理として、取得処理部231は、ユーザ端末1から再生要求を取得する。
対象オブジェクト特定部234は、第1動画に含まれる複数のオブジェクトの中から、対象オブジェクトを特定する。具体的には、対象オブジェクト特定部234は、第1動画に含まれる複数のオブジェクトの中からユーザが選択したオブジェクトを、対象オブジェクトとして特定する。
例えば、まず、ユーザ端末1の処理として、ユーザが専用アプリの表示画面において、ユーザが選択した第1動画に含まれる複数のオブジェクトのうちの少なくともいずれかのオブジェクトを選択すると、送信部141は、ユーザが選択したオブジェクトに対応するオブジェクトIDをさらに含む再生要求を情報処理装置2に送信する。そして、情報処理装置2の処理として、対象オブジェクト特定部234は、取得処理部231が取得した再生要求に含まれるオブジェクトIDが示すオブジェクトを、対象オブジェクトとして特定する。
対象オブジェクト特定部234は、第1動画に含まれるオブジェクトに対するユーザの関心度に基づいて、対象オブジェクトを特定してもよい。情報処理装置2は、以下の2つのステップを実行することにより、第1動画に含まれるオブジェクトに対するユーザの関心度に基づいて対象オブジェクトを特定する。
第1のステップとして、取得処理部231は、関心度取得部としてさらに機能し、複数のオブジェクトのうちの少なくともいずれかに対するユーザの関心度を取得する。取得処理部231は、例えば、ユーザが入力した関心度を取得する。
具体的には、まず、ユーザ端末1の処理として、ユーザが専用アプリの表示画面において、選択した第1動画に含まれる複数のオブジェクトのうちの少なくともいずれかのオブジェクトに対する関心度を入力すると、送信部141は、ユーザが関心度を入力したオブジェクトに対応するオブジェクトIDと、ユーザが入力した関心度とをさらに含む再生要求を情報処理装置2に送信する。そして、情報処理装置2の処理として、取得処理部231は、ユーザ端末1から再生要求を取得することにより、オブジェクトに対するユーザの関心度を取得する。
図6は、専用アプリの表示画面の一例を模式的に表した図である。図6(a)に示す画面D2は、第1動画の一覧が表示された一覧画面である。例えば、まず、ユーザがユーザ端末1において専用アプリを起動させる操作を行うと、出力制御部143は、取得部142が情報処理装置2から取得した第1動画の一覧が表示された画面D2を表示させる。ユーザが、画面D2において視聴を希望する第1動画を選択すると、出力制御部143は、図6(b)に示す画面D3を表示させる。
画面D3は、オブジェクトの関心度を設定するための設定画面である。図6(b)に示す例において、画面D3には、ユーザが選択した第1動画に含まれる各オブジェクト(例えば、4人の人物)の関心度を設定する設定項目が設けられている。この場合において、ユーザが、画面D3において、各オブジェクトに対応する関心度を入力して設定ボタンを押下すると、送信部141は、ユーザが入力した各オブジェクトに対応する関心度を含む再生要求を情報処理装置2に送信する。
そして、取得処理部231は、ユーザ端末1から各オブジェクトに対するユーザの関心度を取得する。なお、取得処理部231は、複数のオブジェクトの中に、ユーザが関心度を設定しなかったオブジェクトが存在する場合、当該オブジェクトに対応する関心度を、最も低い関心度として取得してもよいし、当該オブジェクトに対応する関心度が不明であると扱ってもよい。
なお、取得処理部231は、関心度そのものを示す数値を取得するのではなく、関心度の順序を取得してもよい。例えば、情報処理装置2には、関心度の順序ごとに、当該順序に対応する関心度を示す数値が定められている。この場合において、まず、取得処理部231は、ユーザ端末1から各オブジェクトに対応する関心度の順序を取得する。そして、取得処理部231は、オブジェクトごとに、当該オブジェクトの関心度の順序に関連付けられている数値を特定することにより、各オブジェクトに対応する関心度を取得する。このようにすることで、情報処理装置2は、現在におけるオブジェクトに対するユーザの関心度を取得することができる。
取得処理部231は、ユーザ端末1から関心度を取得する場合、ユーザが所定の条件を満たすことを条件として、ユーザ端末1から関心度を取得してもよい。例えば、記憶部22には、関心度等の受け付けを許可するか否かを判定するための許可条件が記憶されている。許可条件は、例えば、情報処理サービスにおいて特定の料金が支払われたこと、特定の物品を購入したこと、特定のイベントに参加したこと、特定のイベントの動画を視聴したこと等である。
この場合において、まず、取得処理部231は、ユーザ端末1からユーザIDを取得し、記憶部22において取得したユーザIDに関連付けられているユーザの行動履歴を参照してユーザによる所定の行動が許可条件を満たすか否かを判定する。そして、取得処理部231は、ユーザによる所定の行動が許可条件を満たさないと判定した場合、ユーザ端末1から関心度を受け付けず、ユーザによる所定の行動が許可条件を満たすと判定した場合、ユーザ端末1から関心度を受け付ける。
情報処理装置2は、ユーザ端末1から関心度を受け付けない場合、オブジェクトに対する統計的な関心度を、当該オブジェクトに対するユーザの関心度として取得してもよいし、ユーザ端末1に対して第2動画及び第2音源を送信せずに第1動画及び第1音源のみを送信してもよい。このようにすることで、情報処理装置2は、ユーザが許可条件を満たす行動を取る動機づけを提供することができる。
取得処理部231は、例えば、情報処理サービスにおいて定められた共通の許可条件を用いて判定する。取得処理部231は、所定のオブジェクトごとに定められた許可条件を用いて判定してもよい。例えば、記憶部22には、所定のオブジェクトごとに許可条件が記憶されている。
この場合において、取得処理部231は、ユーザが選択した第1動画においてオブジェクト特定部232が特定したオブジェクトに対応する許可条件をユーザによる所定の行動が満たすか否かを判定する。取得処理部231は、オブジェクト特定部232が特定したオブジェクトごとに、当該オブジェクトに対応する許可条件をユーザによる所定の行動が満たすか否かを判定してもよいし、オブジェクト特定部232が特定した複数のオブジェクトそれぞれに対応する複数の許可条件のうちのいずれかをユーザによる所定の行動が満たすか否かを判定してもよい。また、取得処理部231は、対象オブジェクト特定部234が特定した対象オブジェクトごとに、当該対象オブジェクトに対応する許可条件をユーザによる所定の行動が満たすか否かを判定してもよいし、対象オブジェクト特定部234が特定した一以上の対象オブジェクトそれぞれに対応する複数の許可条件のうちのいずれかをユーザによる所定の行動が満たすか否かを判定してもよい。
取得処理部231は、ユーザの行動履歴に基づいてオブジェクトに対応する関心度を取得してもよい。具体的には、まず、取得処理部231は、複数のオブジェクトのうちの少なくともいずれかに関するユーザの行動履歴を取得する。取得処理部231は、例えば、ユーザ端末1からユーザに対応するユーザIDを取得し、取得したユーザIDを用いて記憶部22を検索することによりに、ユーザの行動履歴を取得する。取得処理部231は、ユーザ端末1からユーザの行動履歴を取得してもよい。
続いて、取得処理部231は、取得したユーザの行動履歴に基づいて、オブジェクトに対応する関心度を推定することにより、当該オブジェクトに対するユーザの関心度を取得する。例えば、まず、取得処理部231は、取得したユーザの行動履歴を参照し、第1動画に含まれるオブジェクトごとに、当該オブジェクトに対してユーザがとった行動実績を集計する。オブジェクトに対してユーザがとった行動実績は、例えば、当該オブジェクトに関連するグッズを購入した回数、当該オブジェクトに関連するグッズを購入した金額の合計額、当該オブジェクトが出演したイベントに参加した回数、当該オブジェクトに支払った対価の合計額、当該オブジェクトが出演したイベントに参加するために支払った料金の合計額のうちの少なくともいずれかである。
そして、取得処理部231は、第1動画に含まれるオブジェクトごとに、集計した当該オブジェクトに対してユーザがとった行動実績の数値に対して所定の係数を適用して当該オブジェクトに対応する関心度を算出することにより、当該オブジェクトに対応する関心度を推定する。所定の係数は、行動実績の数値を関心度に変換するために定められた数値であり、例えば、行動実績の数値が高いほど(例えば、オブジェクトに関連するグッズを購入した回数が多いほど)、関心度が高く算出される数値である。所定の係数は、各行動実績に共通する数値であってもよいし、行動実績ごとに異なる数値であってもよい。このようにすることで、情報処理装置2は、オブジェクトに対するユーザの客観的な関心度を取得することができる。
関心度管理部233は、記録部として機能し、取得処理部231が取得した関心度を記録する。具体的には、関心度管理部233は、取得したユーザIDと、取得した関心度と、当該関心度に対応するオブジェクトIDとを関連付けて関心度管理データベースに記憶させる。
なお、取得処理部231は、第1動画に含まれるオブジェクトに対応する関心度が既に記録されている場合、記録されている関心度を取得してもよい。具体的には、取得処理部231は、ユーザに対応するユーザIDと、第1動画に含まれるオブジェクトに対応するオブジェクトIDとを用いて関心度管理データベースを検索することによりオブジェクトに対応する関心度を取得する。
第2のステップとして、対象オブジェクト特定部234は、取得処理部231が取得した関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。対象オブジェクト特定部234は、例えば、複数のオブジェクトのうち、ユーザの関心度が相対的に高いオブジェクト(例えば、関心度が最も高いオブジェクト等)を、対象オブジェクトとして特定する。
対象オブジェクト特定部234は、ユーザの関心度が一定以上あるオブジェクトを、対象オブジェクトとして特定してもよい。具体的には、対象オブジェクト特定部234は、複数のオブジェクトのうち、関心度が所定の閾値以上であるオブジェクトを、対象オブジェクトとして特定する。所定の閾値は、例えば、ユーザが注目してオブジェクトを観るか否かを判断するために用いられる数値である。このようにすることで、情報処理装置2は、ユーザの関心度が低いオブジェクトを対象オブジェクトとして特定してしまうことを防ぐことができる。
ここで、対象オブジェクト特定部234は、第1動画に含まれるオブジェクトに類似する類似オブジェクトに対応する関心度に基づいて、対象オブジェクトを特定してもよい。情報処理装置2は、例えば、以下の2つのステップを実行することにより、第1動画に含まれるオブジェクトに類似する類似オブジェクトに対応する関心度に基づいて、対象オブジェクトを特定する。
第1のステップとして、取得処理部231は、第1動画に含まれる複数のオブジェクトのうちの少なくともいずれかのオブジェクトと関連付けられている類似オブジェクトに対応する関心度を取得する。取得処理部231は、例えば、所定のオブジェクトに関する情報を参照し、第1動画に含まれるオブジェクトごとに、当該オブジェクトに関連付けられている類似オブジェクトに対するユーザの関心度を取得する。取得処理部231は、ユーザが入力した類似オブジェクトに対応する関心度を取得してもよいし、類似オブジェクトに関するユーザの行動履歴に基づいて類似オブジェクトに対応する関心度を推定してもよい。
第2のステップとして、対象オブジェクト特定部234は、さらに、取得処理部231が取得した類似オブジェクトに対する関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。具体的には、対象オブジェクト特定部234は、第1動画に含まれるオブジェクトに対応する関心度と、当該オブジェクトに類似する類似オブジェクトに対応する関心度とに基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。対象オブジェクト特定部234は、例えば、第1動画に含まれるオブジェクトに対応する関心度と、当該オブジェクトに類似する類似オブジェクトに対応する関心度とを合計した合計関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。
対象オブジェクト特定部234は、第1動画に含まれるオブジェクトに対応する関心度と、当該オブジェクトに類似する類似オブジェクトに対応する関心度とのうちの少なくともいずれかに所定の係数を適用することによって重み付けした後における合計関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定してもよい。所定の係数は、例えば、類似オブジェクトに対応する関心度よりもオブジェクトに対応する関心度の方が高くなるように定められた数値である。このようにすることで、情報処理装置2は、第1動画に含まれるオブジェクトに類似する類似オブジェクトに対応する関心度を考慮して対象オブジェクトを特定することができる。
なお、情報処理装置2は、第1動画に含まれる複数のオブジェクトの中に不明オブジェクトが存在する場合に、当該不明オブジェクトに類似する類似オブジェクトに対するユーザの関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定してもよい。不明オブジェクトは、ユーザの関心度が不明であるオブジェクトであり、例えば、ユーザが関心度を入力しなかったオブジェクト、関連するユーザの行動履歴が存在しないオブジェクト等である。
具体的には、まず、取得処理部231は、第1動画に含まれる複数のオブジェクトの中にオブジェクトが存在する場合に、当該不明オブジェクトと類似する類似オブジェクトに対するユーザの関心度を、不明オブジェクトに対するユーザの関心度として取得する。そして、対象オブジェクト特定部234は、取得処理部231が取得した複数のオブジェクトそれぞれに対するユーザの関心度に基づいて、複数のオブジェクトの中から対象オブジェクトを特定する。このようにすることで、情報処理装置2は、不明オブジェクトに対応する関心度を推定して対象オブジェクトを特定することができる。
生成部235は、第1動画の動画領域から複数のオブジェクトのうちの少なくともいずれか1つのオブジェクトである対象オブジェクトに基づく第2動画及び第2音源を生成する。具体的には、生成部235は、対象オブジェクト特定部234が特定した対象オブジェクトに対応する第2動画を生成する。生成部235は、動画生成部236と、音源生成部237とを有する。
動画生成部236は、対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第2動画を生成する。例えば、対象オブジェクト特定部234が複数の対象オブジェクトを特定した場合、動画生成部236は、対象オブジェクトがそれぞれ異なる複数の第2動画を生成してもよい。
動画生成部236は、例えば、予め定められたオブジェクト領域の属性に基づいて、第2動画を生成する。オブジェクト領域の属性は、例えば、オブジェクトが人物である場合におけるオブジェクトの顔やオブジェクトの体全体等である。
具体的には、まず、動画生成部236は、オブジェクト領域の属性に基づいて、第1動画の動画領域からオブジェクト領域を切り取る基準となる基準箇所を特定する。基準箇所は、第1動画の動画領域からオブジェクト領域を切り取る基準となる箇所であり、例えば、オブジェクト領域の属性に応じて定められた箇所である。例えば、オブジェクト領域の属性が「顔」である場合における基準箇所は、目、鼻、口、顎等であり、オブジェクト領域の属性が「体全体」である場合における基準箇所は、胸、腕、足等である。
そして、動画生成部236は、特定した基準箇所を含む所定の領域を、オブジェクト領域として切り取ることにより第2動画を生成する。所定の領域は、オブジェクト領域の属性と基準箇所とに応じて定められた領域である。このようにすることで、情報処理装置2は、オブジェクトが動的な物体である場合であっても、当該オブジェクトの少なくとも一部を捕捉した第2動画を生成することができる。
動画生成部236は、複数のオブジェクト領域の属性が定められている場合、対象オブジェクトごとに、当該対象オブジェクトに対応する複数の第2動画であって当該複数のオブジェクト領域の属性それぞれに対応する複数の第2動画を生成してもよい。例えば、オブジェクト領域の属性として、対象オブジェクトが人物である場合における対象オブジェクトの顔と、対象オブジェクトの体全体の2つが定められているとする。
この場合において、動画生成部236は、対象オブジェクトごとに、当該対象オブジェクトの顔に対応する第2動画と、当該対象オブジェクトの体全体に対応する第2動画とを生成する。このようにすることで、情報処理装置2は、対象オブジェクトを様々な態様でクローズアップした第2動画をユーザに提示することができる。
動画生成部236は、例えば、第2動画を生成すると、当該第2動画に含まれるオブジェクトに対応するオブジェクトIDと、当該第2動画のオブジェクト領域の属性とを、当該第2動画のメタデータとして設定する。
音源生成部237は、第1動画の音源である第1音源に含まれる対象オブジェクトの音声を強調した第2音源を生成する。具体的には、音源生成部237は、対象オブジェクトの音声を強調した第2音源として、対象オブジェクトの音声を大きい音量に調節した第2音源を生成する。音源生成部237は、複数のオブジェクトのうちの対象オブジェクト以外の他のオブジェクトの音声を小さい音量に調節した第2音源を生成してもよい。また、音源生成部237は、対象オブジェクトの音声を強調した第2音源として、対象オブジェクトの音声を大きい音量に調節し、かつ、他のオブジェクトの音声を小さい音量に調節した第2音源を生成してもよい。このようにすることで、情報処理装置2は、ユーザが対象オブジェクトの音声を聴きやすくすることができる。
例えば、第1動画には、当該第1動画に含まれるオブジェクトごとに当該オブジェクトに近いマイクとして定められた近傍マイクを示す情報が含まれる。近傍マイクは、例えば、オブジェクトに取り付けられたピンマイク、又はオブジェクトの近くに設置された固定式のマイク等である。
この場合において、音源生成部237は、対象オブジェクトに対応する近傍マイク及び複数のオブジェクトのうちの対象オブジェクト以外の他のオブジェクトに対応する近傍マイクのうちの少なくともいずれかが集音した音量の大小を調節した第2音源を生成する。このようにすることで、情報処理装置2は、対象オブジェクトの音声を強調させることができる。
音源生成部237は、公知の音源分離技術を用いて、第1音源に基づいて第2音源を生成してもよい。例えば、まず、音源生成部237は、公知の音源分離技術を用いて、第1音源に含まれる音源の種類(例えば、各オブジェクト、各楽器等)ごとに、当該種類の音源を分離する。そして、音源生成部237は、分離した音源である複数の分離音源それぞれのうちの少なくともずれかの音量の大小を調節することにより対象オブジェクトの音声を強調させ、対象オブジェクトの音声を強調した複数の分離音源を合成することにより、第2音源を生成する。
音源生成部237は、例えば、対象オブジェクトの音声を予め定められた度合いで強調した第2音源を生成する。音源生成部237は、対象オブジェクトに対するユーザの関心度に応じた度合いで強調した第2音源を生成してもよい。例えば、所定の関心度ごとに、オブジェクトの音声を強調する度合いが定められており、音源生成部237は、対象オブジェクトに対するユーザの関心度に対応する度合いで強調した第2音源を生成する。
対象オブジェクト特定部234が複数の対象オブジェクトを特定した場合、音源生成部237は、各対象オブジェクトに対するユーザの関心度に応じた度合いで強調した第2音源を生成してもよい。具体的には、音源生成部237は、対象オブジェクトの音声を当該対象オブジェクト以外の他のオブジェクトの音声よりも強調した第2音源であって、複数の対象オブジェクトのうちのユーザの関心度が相対的に大きい対象オブジェクトの音声を大きい音量に調節した第2音源を生成する。音源生成部237は、対象オブジェクトの音声を当該対象オブジェクト以外の他のオブジェクトの音声よりも強調した第2音源であって、複数の対象オブジェクトのうちのユーザの関心度が相対的に小さい対象オブジェクトの音声を小さい音量に調節した第2音源を生成してもよい。
また、音源生成部237は、対象オブジェクトの音声を当該対象オブジェクト以外の他のオブジェクトの音声よりも強調した第2音源であって、複数の対象オブジェクトのうちのユーザの関心度が相対的に大きい対象オブジェクトの音声を大きい音量に調節し、かつ、複数の対象オブジェクトのうちのユーザの関心度が相対的に小さい対象オブジェクトの音声を小さい音量に調節した第2音源を生成してもよい。このようにすることで、情報処理装置2は、ユーザが、複数の対象オブジェクトの音声を聴きやすくしつつ、ユーザの関心度が高い対象オブジェクトの音声をより聴きやすくすることができる。
上記において、生成部235が、予め定められたオブジェクト領域の属性に応じた第2動画を生成する例を説明したが、これに限らない。例えば、生成部235は、ユーザが指定したオブジェクト領域の属性に応じた第2動画及び第2音源を生成してもよい。具体的には、情報処理装置2は、以下の3つのステップを実行することにより、ユーザが指定したオブジェクト領域の属性に応じた第2動画及び第2音源を生成する。
第1のステップとして、取得処理部231は、ユーザ端末1から、領域特定情報を取得する。領域特定情報は、例えば、オブジェクトが人物である場合におけるオブジェクトの顔やオブジェクトの体全体等のように、オブジェクト領域の属性を特定するための情報である。
図7は、専用アプリの表示画面の一例を模式的に表した図である。図7に示す画面D4は、オブジェクト領域の属性等を設定するための設定画面である。図7に示す例において、画面D4には、予め定められたオブジェクト領域の属性として、「顔」及び「体全体」等が表示されている。この場合において、ユーザが、画面D3において、「顔」を選択して設定ボタンを押下すると、ユーザ端末1の送信部141は、ユーザが選択した「顔」を示す情報を、領域特定情報として情報処理装置2に送信する。
そして、取得処理部231は、ユーザ端末1から領域特定情報を取得する。このようにすることで、情報処理装置2は、ユーザが所望するオブジェクト領域の属性を指定しやすくすることができる。
取得処理部231は、ユーザ端末1に表示されている第1動画の動画領域においてユーザが指定した指定領域に基づいて、領域特定情報を受け付けてもよい。例えば、情報処理装置2には、予め定められたオブジェクト領域の属性と、所定のオブジェクトの部位(例えば、目、鼻、口、腕、胸、足等)とが関連付けられている。
この場合において、まず、ユーザが、一覧画面において視聴を希望する第1動画を選択すると、ユーザ端末1は、情報処理装置2からユーザが選択した第1動画を取得し、取得した第1動画が表示された動画再生画面を表示させる。ユーザが、動画再生画面において、表示されている第1動画の動画領域の一部をタップすると、ユーザ端末1の送信部141は、ユーザがタップした領域を示す情報を、指定領域を示す情報として情報処理装置2に送信する。指定領域を示す情報は、例えば、第1動画の動画領域における位置を示す情報である。
取得処理部231が、ユーザ端末1から指定領域を示す情報を取得すると、オブジェクト特定部232は、公知の被写体認識技術を用いて第1動画の動画領域において当該指定領域に含まれるオブジェクトの部位を特定する。そして、取得処理部231は、オブジェクト特定部232が特定したオブジェクトの部位に関連付けられているオブジェクト領域の属性を特定することにより、領域特定情報を取得する。このようにすることで、情報処理装置2は、ユーザが所望するオブジェクト領域の属性を指定しやすくすることができる。
取得処理部231は、ユーザが所定の条件(例えば、記憶部22に記憶されている許可条件)を満たすことを条件として、領域特定情報を取得してもよい。また、取得処理部231は、ユーザが所定の条件を満たすか否かに応じて、受け付けを許可するオブジェクト領域の属性の数を増減させてもよい。例えば、オブジェクト領域の属性には、第1属性と、第2属性とが含まれる。第1属性は、ユーザによる所定の行動の有無に関わらずに指定が許可される1つ以上のオブジェクト領域の属性である。第2属性は、ユーザによる所定の行動に応じて指定が許可される1つ以上のオブジェクト領域の属性である。また、この場合における許可条件は、第2属性の指定を許可するか否かを判定するための条件である。
この場合において、取得処理部231は、ユーザが所定の条件を満たさないと判定した場合、第2属性に対応する領域特定情報を受け付けず、第1属性に対応する領域特定情報のみを受け付ける。一方、取得処理部231は、ユーザが所定の条件を満たすと判定した場合、第1属性に対応する領域特定情報、又は第2属性に対応する領域特定情報を受け付ける。このようにすることで、情報処理装置2は、ユーザが所定の条件を満たす行動を取る動機づけを提供することができる。
第2のステップとして、動画生成部236は、領域特定情報によって特定されるオブジェクト領域の属性に基づいて、第2動画を生成する。具体的には、まず、動画生成部236は、領域特定情報によって特定されるオブジェクト領域の属性に基づいて、第1動画の動画領域からオブジェクト領域を切り取る基準となる基準箇所を特定する。そして、動画生成部236は、特定した基準箇所を含む領域であって領域特定情報によって特定されるオブジェクト領域の属性によって定まる領域を、オブジェクト領域として切り取ることにより第2動画を生成する。
第3のステップとして、音源生成部237は、オブジェクト領域の属性に応じた強調度合いで対象オブジェクトの音声を強調した第2音源を生成する。例えば、予め定められたオブジェクト領域の属性ごとに強調の度合いが定められており、音源生成部237は、取得処理部231が取得した領域特定情報によって特定されるオブジェクト領域の属性に対応する度合いで対象オブジェクトの音声を強調した第2音源を生成する。このようにすることで、情報処理装置2は、ユーザが指定したオブジェクト領域の属性に応じた第2動画及び第2音源を提供することができる。
生成部235は、対象オブジェクトに対応する関心度に応じた第2動画及び第2音源を生成してもよい。具体的には、動画生成部236は、対象オブジェクトに対応する関心度に応じた第2動画として、対象オブジェクトに対応する関心度に応じたサイズの第2動画を生成する。動画生成部236は、例えば、ユーザの関心度が高いほど大きいサイズの第2動画を生成する。例えば、所定の関心度ごとに第2動画のサイズが定められており、動画生成部236は、対象オブジェクトに対するユーザの関心度に対応するサイズの第2動画を生成する。
音源生成部237は、対象オブジェクトに対応する関心度に応じた第2音源として、対象オブジェクトに対応する関心度に応じた度合いで当該対象オブジェクトの音声を強調した第2音源を生成する。音源生成部237は、例えば、対象オブジェクトに対応する関心度が高いほど対象オブジェクの音声を大きく強調した第2音源を生成する。
例えば、所定の関心度ごとに音声の強調の度合いが定められており、音源生成部237は、対象オブジェクトに対するユーザの関心度に対応する度合いに対象オブジェクトの音声を強調した第2音源を生成する。このようにすることで、情報処理装置2は、対象オブジェクトに対するユーザの関心度が高いほど当該対象オブジェクトを視聴しやすくすることができる。
送信部238は、第1動画と、第1動画と同期された第2動画と、第2音源とを、ユーザ端末1に送信する。送信部238は、例えば、音源を第1音源から第2音源に変更した第1動画と、当該第1動画と同期された第2動画とを、ユーザ端末1に送信する。
送信部238は、例えば、第1動画と、対象オブジェクト特定部234が特定した対象オブジェクトに基づいて選択した第2動画及び第2音源とを、ユーザ端末1に送信する。具体的には、まず、生成部235は、オブジェクト特定部232が第2動画に含まれるオブジェクトを特定したことを契機として、第1動画に含まれるオブジェクトごとに、当該オブジェクトに対応する第2動画及び第2音源を生成する。
送信部238は、生成部235が生成した複数の第2動画の中から対象オブジェクト特定部234が特定した対象オブジェクトに対応する第2動画を選択し、生成部235が生成した複数の第2音源の中から対象オブジェクト特定部234が特定した対象オブジェクトに対応する第2音源を選択する。そして、送信部238は、第1動画と、選択した第2動画であって第1動画と同期された第2動画と、選択した第2音源とを、ユーザ端末1に送信する。
送信部238は、第1動画と、対象オブジェクト特定部234が特定した対象オブジェクトに基づいて生成された第2動画及び第2音源とを、ユーザ端末1に送信してもよい。具体的には、まず、生成部235は、対象オブジェクト特定部234が対象オブジェクトを特定したことを契機として、当該対象オブジェクトに対応する第2動画及び第2音源を生成する。そして、送信部238は、第1動画と、生成部235が生成した第2動画であって第1動画と同期された第2動画と、生成部235が生成した第2音源とを、ユーザ端末1に送信する。
送信部238は、対象オブジェクトに対応する関心度に応じた品質の第2動画及び第2音源を、ユーザ端末1に送信してもよい。第2動画の品質は、例えば、解像度、フレームレート、圧縮率等である。第2音源の品質は、例えば、解像度、圧縮率等である。例えば、所定の関心度ごとに、当該所定の関心度に対応する第2動画の品質及び第2音源の品質が定められている。
この場合において、送信部238は、生成された第2動画及び第2音源を、当該第2動画及び第2音源に対応する対象オブジェクトに対するユーザの関心度に応じた品質でユーザ端末1に送信する。例えば、関心度が高いほど第2動画の品質及び第2音源の品質が高く定められており、送信部238は、第2動画及び第2音源を、関心度が相対的に低い対象オブジェクトよりも、関心度が相対的に高い対象オブジェクトの方が高い品質の第2動画及び第2音源をユーザ端末1に送信する。なお、送信部238が、第2動画を対象オブジェクトに対応する関心度に応じた品質にするための処理を実行するのではなく、動画生成部236が対象オブジェクトに対応する関心度に応じた品質の第2動画及び第2音源を生成してもよい。このようにすることで、情報処理装置2は、例えば、ユーザの関心度が高いオブジェクトをより視聴しやすくすることができる。
ユーザ端末1は、第1動画と第2動画と第2音源とを出力する。具体的には、取得部142が情報処理装置2から第1動画と第2動画と第2音源とを取得すると、出力制御部143は、専用アプリの表示画面である動画再生画面において、第1動画と、当該第1動画と同期された第2動画とを表示させ、第2音源を出力する。
情報処理装置2は、第1動画と第2動画と第2音源とをユーザ端末1に送信した後に、ユーザの操作に応じて当該第1動画に含まれるオブジェクトに対応する関心度を更新してもよい。具体的には、まず、取得処理部231は、送信部238が第1動画と第2動画とをユーザ端末1に送信することによりユーザ端末1に表示された第2動画に対するユーザの操作を示す情報を取得する。第2動画に対するユーザの操作は、例えば、第2動画の位置を変更する操作、第2動画のサイズを変更する操作、表示された第2動画を表示されていない他の第2動画に変更する操作、「いいね」ボタンの押下等のように第2動画に対して肯定的な意思表示を示す操作等である。
そして、関心度管理部233は、取得処理部231が取得した情報によって示される第2動画に対するユーザの操作に基づいて、当該第2動画に対応するオブジェクトのオブジェクトIDに関連付けて関心度管理データベースに記憶されている関心度を更新する。例えば、動画再生画面においてユーザが2つの第2動画の位置の入れ替える操作を行った場合、関心度管理部233は、2つの第2動画のうちの第2動画の順序の上位の位置に入れ替えられた第2動画のオブジェクトに対応する関心度を高く更新し、2つの第2動画のうちの第2動画の順序の下位の位置に入れ替えられた第2動画のオブジェクトに対応する関心度を低く更新する。
このようにすることで、情報処理装置2は、ユーザの操作に応じてオブジェクトに対するユーザの関心度を更新することができる。なお、情報処理装置2は、第1動画に含まれるオブジェクトに対するユーザの関心度が更新された場合、更新された関心度に基づいて、対象オブジェクトの特定と、第2動画の生成と、第2音源の生成とを実行してもよい。
送信部238は、第1動画と第2動画と第2音源とをユーザ端末1に送信した後に、ユーザの操作に応じて変更された新たな第2音源をユーザ端末1に送信してもよい。具体的には、情報処理装置2は、以下の3つのステップを実行することにより、新たな第2音源をユーザ端末1に送信する。
第1のステップとして、取得処理部231は、送信部238が第1動画と第2動画と第2音源とをユーザ端末1に送信した後に、ユーザが第2動画に対応する対象オブジェクトの音量を変更する操作を受け付ける。例えば、動画再生画面には、第2動画ごとに、当該第2動画に対応するオブジェクトの音量を調節するための調節項目が設けられており、ユーザが調節項目においてオブジェクトの音量を調節する操作を行うと、取得処理部231は、ユーザが調節したオブジェクトの音量を示す情報を取得する。
第2のステップとして、音源生成部237は、第2音源からユーザの操作に応じて対象オブジェクトの音量を変更した新たな第2音源を生成する。音源生成部237は、例えば、第2音源からユーザが調節項目において調節した音量に対応する対象オブジェクトの音量に変更した新たな第2音源を生成する。
第3のステップとして、送信部238は、新たな第2音源を、ユーザ端末1に送信する。このようにすることで、情報処理装置2は、ユーザが希望する度合いで対象オブジェクトの音声が強調された音源を提供することができる。
[情報処理装置2の処理]
続いて、情報処理装置2の処理の流れについて説明する。図8は、情報処理装置2が実行する処理の流れを示すフローチャートである。本フローチャートは、取得処理部231が第1動画を取得したことを契機として開始する(S1)。
オブジェクト特定部232は、第1動画に含まれるオブジェクトを特定する(S2)。生成部235は、オブジェクト特定部232が第1動画に含まれるオブジェクトを特定したことを契機として、第1動画に含まれるオブジェクトごとに、当該オブジェクトに対応する第2動画及び第2音源を生成する(S3)。
取得処理部231は、ユーザ端末1から、ユーザが第1動画の一覧から選択した第1動画に対応する第1動画IDと、ユーザが当該第1動画に含まれる複数のオブジェクトの中から選択したオブジェクトに対応するオブジェクトIDとを含む再生要求を取得する(S4)。対象オブジェクト特定部234は、取得処理部231が取得した再生要求に含まれるオブジェクトIDが示すオブジェクトを、対象オブジェクトとして特定する(S5)。
送信部238は、生成部235が生成した複数の第2動画の中から対象オブジェクト特定部234が特定した対象オブジェクトに対応する第2動画を選択し、生成部235が生成した複数の第2音源の中から対象オブジェクト特定部234が特定した対象オブジェクトに対応する第2音源を選択する(S6)。そして、送信部238は、第1動画と、選択した第2動画であって当該第1動画と同期された第2動画と、第2音源とを、ユーザ端末1に送信する(S7)。
[本実施の形態における効果]
以上説明したとおり、情報処理装置2は、第1動画と、第1動画の動画領域から対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって生成した第2動画であって第1動画と同期された第2動画と、第1音源に含まれる対象オブジェクトの音声を強調した第2音源とを、ユーザ端末1に送信する。このようにすることで、情報処理装置2は、第1動画に含まれるオブジェクトをユーザに視聴しやすくすることができる。
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
1 ユーザ端末
11 入出力部
12 通信部
13 記憶部
14 制御部
141 送信部
142 取得部
143 出力制御部
2 情報処理装置
21 通信部
22 記憶部
23 制御部
231 取得処理部
232 オブジェクト特定部
233 関心度管理部
234 対象オブジェクト特定部
235 生成部
236 動画生成部
237 音源生成部
238 送信部
S 情報処理システム

Claims (16)

  1. 第1動画を取得する動画取得部と、
    前記第1動画に含まれる複数のオブジェクトを特定するオブジェクト特定部と、
    前記第1動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか1つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第2動画を生成する動画生成部と、
    前記第1動画の音源である第1音源に含まれる前記対象オブジェクトの音声を強調した第2音源を生成する音源生成部と、
    前記第1動画と、前記第1動画と同期された前記第2動画と、前記音源生成部が生成した前記第2音源とを、ユーザ端末に送信する送信部と、
    を有する情報処理装置。
  2. 前記音源生成部は、前記対象オブジェクトの音声を強調した前記第2音源として、前記対象オブジェクトの音声を大きい音量及び前記複数のオブジェクトのうちの前記対象オブジェクト以外の他のオブジェクトの音声を小さい音量のうちの少なくともいずれかに調節した前記第2音源を生成する、
    請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、複数のオブジェクトの中から前記ユーザ端末を使用するユーザが選択した前記オブジェクトを、前記対象オブジェクトとして特定する対象オブジェクト特定部をさらに有し、
    前記動画生成部は、前記対象オブジェクト特定部が特定した前記対象オブジェクトに対応する前記第2動画を生成する、
    請求項1に記載の情報処理装置。
  4. 前記情報処理装置は、
    前記複数のオブジェクトのうちの少なくともいずれかに対するユーザの関心度を取得するユーザ情報取得部と、
    前記ユーザ情報取得部が取得した前記関心度に基づいて、前記複数のオブジェクトの中から前記対象オブジェクトを特定する対象オブジェクト特定部と、
    をさらに有し、
    前記動画生成部は、前記対象オブジェクト特定部が特定した前記対象オブジェクトに対応する前記第2動画を生成する、
    請求項1に記載の情報処理装置。
  5. 前記情報処理装置は、所定のオブジェクトを示す情報と、前記所定のオブジェクトと類似するオブジェクトとして定められた類似オブジェクトを示す情報とを関連付けて記憶する記憶部をさらに有し、
    前記ユーザ情報取得部は、前記複数のオブジェクトのうちの少なくともいずれかの前記オブジェクトと関連付けられている前記類似オブジェクトに対応する前記関心度を取得し、
    前記対象オブジェクト特定部は、さらに、前記ユーザ情報取得部が取得した前記類似オブジェクトに対する前記関心度に基づいて、前記複数のオブジェクトの中から前記対象オブジェクトを特定する、
    請求項4に記載の情報処理装置。
  6. 前記対象オブジェクト特定部は、前記複数のオブジェクトのうち、前記関心度が所定の閾値以上である前記オブジェクトを、前記対象オブジェクトとして特定する、
    請求項4に記載の情報処理装置。
  7. 前記動画生成部は、前記対象オブジェクトがそれぞれ異なる複数の前記第2動画を生成し、
    前記音源生成部は、さらに、複数の前記対象オブジェクトのうちの前記関心度が相対的に大きい前記対象オブジェクトの音声を大きい音量及び複数の前記対象オブジェクトのうちの前記関心度が相対的に小さい前記対象オブジェクトの音声を小さい音量のうちの少なくともいずれかに調節した前記第2音源を生成する、
    請求項4に記載の情報処理装置。
  8. 前記ユーザ情報取得部は、前記複数のオブジェクトのうちの少なくともいずれかに関する前記ユーザの行動履歴を取得し、取得した前記行動履歴に基づいて、前記オブジェクトに対応する前記関心度を推定することにより、前記関心度を取得する、
    請求項4に記載の情報処理装置。
  9. 前記行動履歴は、前記オブジェクトに関連するグッズの購入履歴、前記オブジェクトが出演したイベントへの参加履歴、及び前記オブジェクトへの対価又は前記オブジェクトが出演したイベントに参加するための料金を支払った支払履歴のうちの少なくともいずれかである、
    請求項8に記載の情報処理装置。
  10. 前記情報処理装置は、ユーザID(Identification)と、前記行動履歴とを関連付けて記憶する記憶部をさらに有し、
    前記ユーザ情報取得部は、前記ユーザに対応する前記ユーザIDを取得し、取得した前記ユーザIDを用いて前記記憶部を検索することによりに、前記行動履歴を取得する、
    請求項8又は9に記載の情報処理装置。
  11. 前記情報処理装置は、前記送信部が前記第1動画と前記第2動画と前記第2音源とを前記ユーザ端末に送信した後に、前記ユーザ端末を使用するユーザが前記第2動画に対応する前記対象オブジェクトの音量を変更する操作を受け付けるユーザ情報取得部をさらに有し、
    前記音源生成部は、前記第2音源から前記ユーザの操作に応じて前記対象オブジェクトの音量を変更した新たな前記第2音源を生成し、
    前記送信部は、新たな前記第2音源を、前記ユーザ端末に送信する、
    請求項1に記載の情報処理装置。
  12. 前記情報処理装置は、前記ユーザ端末から、前記オブジェクト領域の属性を特定するための領域特定情報を取得するユーザ情報取得部をさらに有し、
    前記動画生成部は、前記領域特定情報によって特定される前記オブジェクト領域の属性に基づいて、前記第1動画の動画領域から前記オブジェクト領域を切り取る基準となる基準箇所を特定し、特定した前記基準箇所を含む領域であって前記領域特定情報によって特定される前記オブジェクト領域の属性によって定まる領域を、前記オブジェクト領域として切り取ることにより前記第2動画を生成し、
    前記音源生成部は、前記オブジェクト領域の属性に応じた度合いで前記対象オブジェクトの音声を強調した前記第2音源を生成する、
    請求項1に記載の情報処理装置。
  13. 前記第1動画には、前記オブジェクトごとに当該オブジェクトに近いマイクとして定められた近傍マイクを示す情報が含まれ、
    前記音源生成部は、前記対象オブジェクトに対応する前記近傍マイク及び前記複数のオブジェクトのうちの前記対象オブジェクト以外の他のオブジェクトに対応する前記近傍マイクのうちの少なくともいずれかが集音した音量の大小を調節した前記第2音源を生成する、
    請求項1に記載の情報処理装置。
  14. コンピュータが実行する、
    第1動画を取得するステップと、
    前記第1動画に含まれる複数のオブジェクトを特定するステップと、
    前記第1動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか1つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第2動画を生成するステップと、
    前記第1動画の音源である第1音源に含まれる前記対象オブジェクトの音声を強調した第2音源を生成するステップと、
    前記第1動画と、前記第1動画と同期された前記第2動画と、生成した前記第2音源と、を、ユーザ端末に送信するステップと、
    を有する情報処理方法。
  15. コンピュータを、
    第1動画を取得する動画取得部、
    前記第1動画に含まれる複数のオブジェクトを特定するオブジェクト特定部、
    前記第1動画の動画領域から前記複数のオブジェクトのうちの少なくともいずれか1つの前記オブジェクトである対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって第2動画を生成する動画生成部、
    前記第1動画の音源である第1音源に含まれる前記対象オブジェクトの音声を強調した第2音源を生成する音源生成部、及び
    前記第1動画と、前記第1動画と同期された前記第2動画と、前記音源生成部が生成した前記第2音源とを、ユーザ端末に送信する送信部、
    として機能させるためのプログラム。
  16. 第1動画に含まれる複数のオブジェクトの中からユーザが選択した前記オブジェクトである対象オブジェクトを示す情報を、情報処理装置に送信する送信部と、
    前記第1動画の音源である第1音源から前記第1音源に含まれる前記対象オブジェクトの音声が強調された第2音源と、前記第1動画と、前記第1動画の動画領域から前記対象オブジェクトの少なくとも一部を含むオブジェクト領域を切り取ることによって生成された第2動画であって前記第1動画と同期された前記第2動画とを、前記情報処理装置から取得する取得部と、
    前記取得部が取得した前記第1動画、前記第2動画及び前記第2音源を出力する出力制御部と、
    を有する情報処理端末。
JP2025033765A 2025-03-04 2025-03-04 情報処理装置、情報処理方法、プログラム及び情報処理端末 Active JP7670941B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2025033765A JP7670941B1 (ja) 2025-03-04 2025-03-04 情報処理装置、情報処理方法、プログラム及び情報処理端末
JP2025068299A JP7745119B1 (ja) 2025-03-04 2025-04-17 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2025033765A JP7670941B1 (ja) 2025-03-04 2025-03-04 情報処理装置、情報処理方法、プログラム及び情報処理端末

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2025068299A Division JP7745119B1 (ja) 2025-03-04 2025-04-17 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP7670941B1 true JP7670941B1 (ja) 2025-04-30

Family

ID=95513986

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2025033765A Active JP7670941B1 (ja) 2025-03-04 2025-03-04 情報処理装置、情報処理方法、プログラム及び情報処理端末
JP2025068299A Active JP7745119B1 (ja) 2025-03-04 2025-04-17 情報処理装置、情報処理方法及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2025068299A Active JP7745119B1 (ja) 2025-03-04 2025-04-17 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (2) JP7670941B1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06121309A (ja) * 1992-10-02 1994-04-28 Hitachi Ltd 多地点テレビ会議システム及び会議方法
JPH11234640A (ja) * 1998-02-17 1999-08-27 Sony Corp 通信制御システム
JP2006173879A (ja) * 2004-12-14 2006-06-29 Hitachi Ltd コミュニケーションシステム
CN114363512A (zh) * 2021-09-30 2022-04-15 荣耀终端有限公司 一种视频处理的方法及相关电子设备
JP2022091670A (ja) * 2020-12-09 2022-06-21 日本テレビ放送網株式会社 自動スイッチング装置、自動スイッチング方法及びプログラム
JP2022149193A (ja) * 2021-03-25 2022-10-06 株式会社Jvcケンウッド 配信システム
JP2023141808A (ja) * 2022-03-24 2023-10-05 株式会社Jvcケンウッド 動画配信装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3829161B1 (en) * 2018-07-24 2023-08-30 Sony Group Corporation Information processing device and method, and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06121309A (ja) * 1992-10-02 1994-04-28 Hitachi Ltd 多地点テレビ会議システム及び会議方法
JPH11234640A (ja) * 1998-02-17 1999-08-27 Sony Corp 通信制御システム
JP2006173879A (ja) * 2004-12-14 2006-06-29 Hitachi Ltd コミュニケーションシステム
JP2022091670A (ja) * 2020-12-09 2022-06-21 日本テレビ放送網株式会社 自動スイッチング装置、自動スイッチング方法及びプログラム
JP2022149193A (ja) * 2021-03-25 2022-10-06 株式会社Jvcケンウッド 配信システム
CN114363512A (zh) * 2021-09-30 2022-04-15 荣耀终端有限公司 一种视频处理的方法及相关电子设备
JP2023141808A (ja) * 2022-03-24 2023-10-05 株式会社Jvcケンウッド 動画配信装置

Also Published As

Publication number Publication date
JP7745119B1 (ja) 2025-09-26

Similar Documents

Publication Publication Date Title
US10089785B2 (en) Real-time immersive mediated reality experiences
CN105247879B (zh) 客户机设备、控制方法、系统和程序
JP2018206085A (ja) 事象評価支援システム、事象評価支援装置、及び事象評価支援プログラム
US11030190B2 (en) Experience analytic objects, systems and methods
WO2014186241A2 (en) Audience-aware advertising
US7610260B2 (en) Methods and apparatus for selecting and providing content data using content data status information
US20140331242A1 (en) Management of user media impressions
US20140325540A1 (en) Media synchronized advertising overlay
US20220070066A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP2023151115A (ja) 情報処理装置及び情報処理方法
JP2018206341A (ja) 事象評価支援システム、事象評価支援装置、及び事象評価支援プログラム
US12477184B2 (en) System, method and computer-readable medium for recommendation
JP7202935B2 (ja) 注目度算出装置、注目度算出方法、および注目度算出プログラム
JP7433617B1 (ja) サーバおよびコンピュータプログラム
JP5020838B2 (ja) 視聴反応共有システム、視聴反応管理サーバ及び視聴反応共有方法
JP6675736B2 (ja) 映像と音声を上映するための映像音声管理装置および上映システム
JP7660758B1 (ja) 情報処理装置、情報処理方法及びプログラム
JP7670941B1 (ja) 情報処理装置、情報処理方法、プログラム及び情報処理端末
JP7469769B1 (ja) ストリーマーが視聴者とインタラクトするのを支援する方法、コンピュータ機器及びコンピュータ読み取り可能な記録媒体
JP2018190377A (ja) サーバ装置、及びそれに用いられるコンピュータプログラム
JP7703122B1 (ja) 情報処理装置及び情報処理方法
JP2019165311A (ja) サーバー、方法、プログラム及びシステム
JP7756272B1 (ja) 情報処理装置及び情報処理方法
WO2018198944A1 (ja) サーバ装置、及びそれに用いられるコンピュータプログラム
US12432395B2 (en) Server, method and user terminal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20250304

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20250304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250417

R150 Certificate of patent or registration of utility model

Ref document number: 7670941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150