JP7324475B1

JP7324475B1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP7324475B1
Application number: JP2022168392A
Authority: JP
Inventors: 匡都史太田; 賢加藤
Original assignee: Hotarubi
Current assignee: Hotarubi
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-08-10
Anticipated expiration: 2042-10-20
Also published as: JP2024060845A

Abstract

【課題】ユーザに対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる技術を提供する。【解決手段】本開示の情報処理装置は、漫画の編集を支援する情報処理装置である。この情報処理装置は、漫画の原画画像の一部であって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ部分画像を取得することと、部分画像に対して実行される所定の編集処理の指令を取得することと、を実行する制御部を備え、制御部は、所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、原画画像のデータを入力することで、部分画像を取得する。【選択図】図３

Description

本発明は、漫画の編集を支援する情報処理装置、情報処理方法及び情報処理プログラムに関する。

従来から、漫画は、単行本や雑誌等の紙面に印刷されて提供されることが多かった。一方で、近年のスマートフォンやタブレット端末等の普及に伴い、これらの電子機器を使用して、デジタルコンテンツとして漫画を読む機会が増加している。

ここで、デジタルコンテンツとして漫画を読む場合においても、漫画絵は静止画である。そのため、画像に動きがなく、ユーザが躍動感や臨場感を得ることが困難になり得る。そこで、漫画の原画から新たな複数の画像を書き起こし、動く漫画を生成する技術が知られている。

例えば、特許文献１には、入力された漫画の原画の画像から、一部分の画像を部分画像として切り出して、それに基づいて新画像を複数生成し、それらを時系列に再生可能とする画像データ生成装置が開示されている。これにより、動きのある画像データを原作の画像を用いて作成することが可能となる。

特開２０１２－１８５４０号公報

従来からの静止画としての漫画に所定のモーション等を付与することで、ユーザに対してより魅力的なデジタルコンテンツを提供することができる。

ここで、このようなモーションコミック（動く漫画）を製作しようとすると、そのデータ作成者は、従来の静止漫画を製作するときよりも多くの画像データを作成しなければならず、漫画の製作工数が大幅に増加するため、製作期間の長期化や製作コストの増加などが問題となっていた。一方で、例えば、特許文献１に記載の技術のように、原作の画像を用いて新画像を複数生成することで、上記の問題を軽減できるようにも思われる。しかしながら、この場合、データ作成者は、原画画像から部分画像を切り出す際に、所定の入力部を用いて切り出す領域を逐次入力する必要があり、やはり、漫画の製作工数が増加してしまう。このように、ユーザに対してより魅力的なデジタルコンテンツを、漫画の原画画像に基づいて容易に編集する技術については、未だ改善の余地を残すものである。

本開示の目的は、ユーザに対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる技術を提供することにある。

本開示の情報処理装置は、漫画の編集を支援する情報処理装置である。そして、この情報処理装置は、漫画の原画画像の一部である部分画像であって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ部分画像を取得することと、前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得することと、を実行する制御部を備える。そして、前記制御部は、所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、前記原画画像のデータを入力することで、前記部分画像を取得する。

上記の情報処理装置では、モーションコミック（動く漫画）のデータ作成者は、事前学習モデルに漫画の原画画像のデータを入力することで、部分画像を簡単に抽出することができる。そのため、原画画像から部分画像を手動で切り出す必要がなくなり、モーションコミック（動く漫画）の製作工数を大幅に削減することができる。このように、以上によれば、読者に対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる。

ここで、上記の情報処理装置において、前記編集処理は、前記部分画像を時系列に再生する処理、又は／及び前記部分画像の一部を動作させながら表示する処理であってもよい。また、前記制御部は、前記部分画像として、物体の移動の描写及び／又は光の描写及び／又は漫符及び／又は擬音に関する情報を含んだ演出画像を更に取得してもよい。この場合、前記編集処理は、前記演出画像を動作させながら表示する処理であってもよい。これによれば、モーションコミック（動く漫画）の躍動感や臨場感等が更に高められ得る。つまり、モーションコミック（動く漫画）の演出効果を更に高めることができる。

また、本開示の情報処理装置では、前記制御部は、前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、前記仮想漫画におけるコマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ画像データを用いて、前記事前学習モデルに学習を行わせてもよい。これによれば、ランダムな仮想漫画を教師データとして事前学習モデルに学習させることで、機械学習のための作業コストを大幅に削減することができる。そして、この場合、前記制御部は、ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第１画像に設定し、予め生成された所定のキャラクター画像を前記第１画像にランダムに重畳表示させた画像を、第２画像として前記コマ枠内に設定し、予め生成された所定のテキスト画像を前記第２画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第３画像として前記コマ枠内に設定することで、前記仮想漫画を自動で生成することができる。

また、本開示は、コンピュータによる情報処理方法の側面から捉えることができる。すなわち、本開示の情報処理方法は、漫画の編集を支援する情報処理方法であって、コンピュータが、漫画の原画画像の一部である部分画像であって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ部分画像を取得する第１取得ステップと、前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第２取得ステップと、を実行する。そして、前記第２取得ステップでは、所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、前記原画画像のデータを入力することで、前記部分画像を取得することを実行する。

また、本開示は、情報処理プログラムの側面から捉えることができる。すなわち、本開示の情報処理プログラムは、漫画の編集を支援する情報処理プログラムであって、コンピュータに、漫画の原画画像の一部である部分画像であって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ部分画像を取得する第１取得ステップと、前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第２取得ステップと、を実行させる。そして、前記第２取得ステップでは、所定の入力画像データの入力を受け付ける入力層と、該入力画像データからコマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を表す特徴量を抽出する中間層と、該特徴量に基づく識別結果を出力する出力層と、を有するニューラルネットワークモデルであって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ画像データを用いて学習を行うことにより構築された事前学習モデルに、前記原画画像のデータを入力することで、前記部分画像を取得することを実行させる。

本開示によれば、ユーザに対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる。

第１実施形態における漫画の編集支援システムの概略構成を示す図である。第１実施形態における、漫画の編集支援システムに含まれるサーバの構成要素をより詳細に示すとともに、サーバと通信を行うユーザ端末の構成要素を示した図である。第１実施形態における漫画の編集支援システムの動作の流れを例示する図である。第１実施形態における事前学習モデルに対する入力から得られる識別結果と、該事前学習モデルを構成するニューラルネットワークを説明するための図である。事前学習モデルによって部分画像として抽出されるコマ枠情報を説明するための図である。事前学習モデルによって部分画像として抽出されるテキスト情報を説明するための図である。事前学習モデルによって部分画像として抽出されるキャラクター情報を説明するための図である。ユーザが修正情報を入力するために用いられるインタフェースで表示される画面を例示する図である。修正情報に基づいて修正された部分画像を例示する図である。サーバによって部分画像として更に取得され得る演出画像を例示する図である。学習部によって生成される仮想漫画を説明するための図である。背景画像とキャラクター画像とテキスト画像とがランダムに配置された仮想漫画を例示する図である。

以下、図面に基づいて、本開示の実施の形態を説明する。以下の実施形態の構成は例示であり、本開示は実施形態の構成に限定されない。

＜第１実施形態＞
第１実施形態における漫画の編集支援システムの概要について、図１を参照しながら説明する。図１は、本実施形態における漫画の編集支援システムの概略構成を示す図である。本実施形態に係る編集支援システム１００は、ネットワーク２００と、サーバ３００と、ユーザ端末４００と、を含んで構成される。なお、本開示の編集支援システムは、漫画の編集を支援するシステムであって、漫画の編集支援がサーバ３００によって実行される。

ネットワーク２００は、例えば、ＩＰネットワークである。ネットワーク２００は、ＩＰネットワークであれば、無線であっても有線であっても無線と有線の組み合わせであってもよく、例えば、無線による通信であれば、ユーザ端末４００は、無線ＬＡＮアクセスポイント（不図示）にアクセスし、ＬＡＮやＷＡＮを介してサーバ３００と通信してもよい。また、ネットワーク２００は、これらの例に限られず、例えば、公衆交換電話網や、光回線、ＡＤＳＬ回線、衛星通信網などであってもよい。

サーバ３００は、ネットワーク２００を介して、ユーザ端末４００と接続される。なお、図１において、説明を簡単にするために、サーバ３００は１台、ユーザ端末４００は４台示してあるが、これらに限定されないことは言うまでもない。

サーバ３００は、データの取得、生成、更新等の演算処理及び加工処理のための処理能力のあるコンピュータ機器であればどの様な電子機器でもよく、例えば、パーソナルコンピュータ、サーバ、メインフレーム、その他電子機器であってもよい。すなわち、サーバ３００は、ＣＰＵやＧＰＵ等のプロセッサ、ＲＡＭやＲＯＭ等の主記憶装置、ＥＰＲＯＭ、ハードディスクドライブ、リムーバブルメディア等の補助記憶装置を有するコンピュータとして構成することができる。なお、リムーバブルメディアは、例えば、ＵＳＢメモリ、あるいは、ＣＤやＤＶＤのようなディスク記録媒体であってもよい。補助記憶装置には、オペレーティングシステム（ＯＳ）、各種プログラム、各種テーブル等が格納されている。

また、サーバ３００は、本実施形態に係る編集支援システム１００専用のソフトウェアやハードウェア、ＯＳ等を設けずに、クラウドサーバによるＳａａＳ（Software as a Service）、Ｐａａｓ（Platform as a Service）、ＩａａＳ（Infrastructure as a Service）を適宜用いてもよい。

ユーザ端末４００は、編集支援システム１００を利用するユーザが保有する携帯端末等の電子機器であればよく、例えば、携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等、その他端末機器であってもよい。

次に、図２に基づいて、主にサーバ３００の構成要素の詳細な説明を行う。図２は、第１実施形態における、編集支援システム１００に含まれるサーバ３００の構成要素をより詳細に示すとともに、サーバ３００と通信を行うユーザ端末４００の構成要素を示した図である。

サーバ３００は、機能部として通信部３０１、記憶部３０２、制御部３０３を有しており、補助記憶装置に格納されたプログラムを主記憶装置の作業領域にロードして実行し、プログラムの実行を通じて各機能部等が制御されることによって、各機能部における所定の目的に合致した各機能を実現することができる。ただし、一部または全部の機能はＡＳＩＣやＦＰＧＡのようなハードウェア回路によって実現されてもよい。

ここで、通信部３０１は、サーバ３００をネットワーク２００に接続するための通信インタフェースである。通信部３０１は、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。サーバ３００は、通信部３０１を介して、ユーザ端末４００やその他の外部装置と通信可能に接続される。

記憶部３０２は、主記憶装置と補助記憶装置を含んで構成される。主記憶装置は、制御部３０３によって実行されるプログラムや、当該制御プログラムが利用するデータが展開されるメモリである。補助記憶装置は、制御部３０３において実行されるプログラムや、当該制御プログラムが利用するデータが記憶される装置である。なお、サーバ３００は、通信部３０１を介してユーザ端末４００等から送信されたデータを取得し、記憶部３０２には、後述する原画画像が予め記憶される。また、記憶部３０２には、後述する部分画像を取得するための教師データや事前学習モデルが記憶される。

制御部３０３は、サーバ３００が行う制御を司る機能部である。制御部３０３は、ＣＰＵなどの演算処理装置によって実現することができる。制御部３０３は、更に、取得部３０３１と、編集処理部３０３２と、学習部３０３３と、の３つの機能部を有して構成される。各機能部は、記憶されたプログラムをＣＰＵによって実行することで実現してもよい。なお、学習部３０３３は、機械学習に伴う演算量が多いため、記憶されたプログラムをＧＰＵによって実行することで実現してもよい。このように、ＧＰＵを機械学習に伴う演算処理に利用するようにすると、高速処理できるようになる。また、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

取得部３０３１は、漫画の原画画像の一部である部分画像を取得する。ここで、漫画の原画画像とは、漫画の原画の画像データであって、編集支援システム１００を利用するユーザは、ユーザ端末４００を用いて予め原画画像をサーバ３００に送信することができる。ユーザは、例えば、ユーザ端末４００に予めインストールされた所定のアプリによって提供されるインタフェース、または所定のウェブサイトによって提供されるインタフェースを介して、原画画像をサーバ３００にアップロードすることができる。そうすると、サーバ３００は、ユーザ端末４００から送信された原画画像を記憶部３０２に記憶させる。そして、取得部３０３１は、記憶部３０２に記憶された原画画像に基づいて、該原画画像の中のコマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を抽出することで、これら情報を含んだ部分画像を取得する。

ここで、本実施形態におけるユーザ端末４００は、機能部として通信部４０１、入出力部４０２、記憶部４０３を有している。通信部４０１は、ユーザ端末４００をネットワーク２００に接続するための通信インタフェースであり、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。入出力部４０２は、通信部４０１を介して外部から送信されてきた情報等を表示させたり、通信部４０１を介して外部に情報を送信する際に当該情報を入力したりするための機能部である。記憶部４０３は、サーバ３００の記憶部３０２と同様に主記憶装置と補助記憶装置を含んで構成される。

入出力部４０２は、更に、表示部４０２１、操作入力部４０２２、画像・音声入出力部４０２３を有している。表示部４０２１は、各種情報を表示する機能を有し、例えば、ＬＣＤ（Liquid Crystal Display）ディスプレイ、ＬＥＤ（Light Emitting Diode）ディスプレイ、ＯＬＥＤ（Organic Light Emitting Diode）ディスプレイ等により実現される。操作入力部４０２２は、ユーザからの操作入力を受け付ける機能を有し、具体的には、タッチパネル等のソフトキーあるいはハードキーにより実現される。画像・音声入出力部４０２３は、静止画や動画等の画像の入力を受け付ける機能を有し、具体的には、Charged-Coupled Devices（ＣＣＤ）、Metal-oxide-semiconductor（ＭＯＳ）あるいはComplementary Metal-Oxide-Semiconductor（ＣＭＯＳ）等のイメージセンサを用いたカメラにより実現される。また、画像・音声入出力部４０２３は、音声の入出力を受け付ける機能を有し、具体的には、マイクやスピーカーにより実現される。

そうすると、上記ユーザは、このように構成されたユーザ端末４００を用いて、原画画像をサーバ３００に送信することができる。

編集処理部３０３２は、部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する。ここで、本実施形態における編集処理は、部分画像を時系列に再生する処理、又は／及び部分画像の一部を動作させながら表示する処理である。編集支援システム１００を利用するユーザは、ユーザ端末４００に予めインストールされた所定のアプリによって提供されるインタフェース、または所定のウェブサイトによって提供されるインタフェースを介して、上記の編集処理指令をサーバ３００に送信することができる。そうすると、編集処理部３０３２は、送信された編集処理指令を取得し、部分画像を時系列に再生する編集処理を実行する。

学習部３０３３は、上記の取得部３０３１による処理に用いられる事前学習モデルを構築する機能部であって、その詳細は後述する。

なお、制御部３０３が、取得部３０３１、編集処理部３０３２、および学習部３０３３の処理を実行することで、本開示に係る制御部として機能する。

ここで、本実施形態における編集支援システム１００の動作の流れについて説明する。図３は、本実施形態における編集支援システム１００の動作の流れを例示する図である。図３では、本実施形態における編集支援システム１００におけるサーバ３００とユーザ端末４００との間の動作の流れ、およびサーバ３００とユーザ端末４００とが実行する処理を説明する。

本実施形態では、先ず、編集支援システム１００を利用して原画画像を編集することで動く漫画を作成するユーザのユーザ端末４００に、原画画像が入力される（Ｓ１０１）。上述したように、ユーザは、例えば、ユーザ端末４００に予めインストールされた所定のアプリによって提供されるインタフェース、または所定のウェブサイトによって提供されるインタフェースを介して、原画画像をサーバ３００にアップロードすることができる。

サーバ３００は、ユーザ端末４００から送信された原画画像データを取得する（Ｓ１０２）。そして、サーバ３００は、取得した原画画像を記憶部３０２に格納する。

そして、サーバ３００は、原画画像に基づいて部分画像を取得する。これについて、以下に説明する。

サーバ３００は、事前学習モデルを呼出す処理を実行する（Ｓ１０３）。ここで、事前学習モデルは、原画画像に基づいて部分画像を抽出するために用いられる機械学習モデルであって、学習部３０３３によって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ画像データを用いて学習を行うことにより事前に構築される。

ここで、図４は、本実施形態における事前学習モデルに対する入力から得られる識別結果と、該事前学習モデルを構成するニューラルネットワークを説明するための図である。本実施形態では、事前学習モデルとして、ディープラーニングにより生成されるニューラルネットワークモデルを用いる。本実施形態における事前学習モデル３０は、入力画像データの入力を受け付ける入力層３１と、入力層３１に入力された該画像データからコマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を表す特徴量を抽出する中間層（隠れ層）３２と、特徴量に基づく識別結果を出力する出力層３３とを有する。なお、図４の例では、事前学習モデル３０は、１層の中間層３２を有しており、入力層３１の出力が中間層３２に入力され、中間層３２の出力が出力層３３に入力されている。ただし、中間層３２の数は、１層に限られなくてもよく、事前学習モデル３０は、２層以上の中間層３２を有してもよい。

また、図４によると、各層３１～３３は、１又は複数のニューロンを備えている。例えば、入力層３１のニューロンの数は、入力される画像データに応じて設定することができる。また、出力層３３のニューロンの数は、識別結果である部分画像に応じて設定することができる。

そして、隣接する層のニューロン同士は適宜結合され、各結合には重み（結合荷重）が機械学習の結果に基づいて設定される。図４の例では、各ニューロンは、隣接する層の全てのニューロンと結合されているが、ニューロンの結合は、このような例に限定されなくてもよく、適宜設定することができる。

このような事前学習モデル３０は、例えば、複数の漫画の原画画像と、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報のラベルと、の組みである教師データを用いて教師あり学習を行うことで構築される。具体的には、特徴量とラベルとの組みをニューラルネットワークに与え、ニューラルネットワークの出力がラベルと同じとなるように、ニューロン同士の結合の重みがチューニングされる。このようにして、教師データの特徴を学習し、入力から結果を推定するための事前学習モデルが帰納的に獲得される。

図３に戻って、サーバ３００は、上記の事前学習モデルに原画画像のデータを入力することで、部分画像を抽出する（Ｓ１０４）。

ここで、図５は、事前学習モデルによって部分画像として抽出されるコマ枠情報を説明するための図である。図５（ａ）は、原画画像を示していて、図５（ｂ）は、抽出されたコマ枠情報を示している。事前学習モデルによって、原画画像から４角をもつコマ枠（図５（ｂ）に例示するコマ枠Ａ～Ｅ）が抽出される。そして、サーバ３００は、コマ枠情報として、これらコマ枠の左上、右上、右下、左下（例えば、コマ枠ＡのＡ１、Ａ２、Ａ３、Ａ４）のｘ座標とｙ座標を抽出する。

また、図６は、事前学習モデルによって部分画像として抽出されるテキスト情報を説明するための図である。図６（ａ）は、原画画像を示していて、図６（ｂ）は、抽出されたテキスト情報を示している。事前学習モデルによって、原画画像から吹き出し内のテキスト領域（図６（ｂ）に例示するテキストＡ～Ｈ）が抽出される。そして、サーバ３００は、テキスト情報として、これらテキスト領域の左上（例えば、テキストＡのＡ１１）のｘ座標とｙ座標を抽出するとともに、該テキスト領域の幅、高さ（例えば、テキストＡのｗ１、ｈ１）を抽出する。

また、図７は、事前学習モデルによって部分画像として抽出されるキャラクター情報を説明するための図である。図７（ａ）は、原画画像を示していて、図７（ｂ）は、抽出されたキャラクター情報を示している。事前学習モデルによって、原画画像からキャラクター（図７（ｂ）に例示するキャラＡ、Ｂ）が白色画像として抽出される。このとき、事前学習モデルによって、キャラクターが白色画像でそれ以外が黒色画像のグレースケールデータが生成される。そして、サーバ３００は、上記のグレースケールデータから黒色領域を透過することで白色領域を切り取り、それをキャラクター情報として抽出する。なお、図７（ｂ）に示す例では、後述するように、事前学習モデルでは中段のコマ枠のキャラクターが抽出できていないものとする。

そして、図３に戻って、サーバ３００は、抽出した部分画像をユーザ端末４００に送信し、ユーザ端末４００は、その情報を取得する（Ｓ１０５）。

そうすると、編集支援システム１００を利用するユーザは、ユーザ端末４００を介して、送信された部分画像を確認し、必要に応じて部分画像を修正するための修正情報を入力することができる（Ｓ１０６）。

ここで、図８は、ユーザが修正情報を入力するために用いられるインタフェースで表示される画面を例示する図である。なお、図８に例示するインタフェースは、キャラクター情報を修正するために用いられるものである。図８に例示する画面ＳＣ１はユーザのユーザ端末４００の表示部４０２１に表示され、画面ＳＣ１には、抽出された部分画像ＳＣ１１、修正情報の入力フィールドＳＣ１２、送信ボタンＳＣ１３が示される。そして、ユーザは、修正情報の入力フィールドＳＣ１２に、操作入力部４０２２（タッチパネル）を用いて修正情報を入力し（図８に示す例では、事前学習モデルでは抽出できていなかった中段のコマ枠のキャラクターが存在する領域ＳＣ１２１が、ユーザによってタッチパネルで囲われる。）、送信ボタンＳＣ１３を押下することで修正情報をサーバ３００に送信することができる。

そして、図３に戻って、サーバ３００は、ユーザ端末４００から送信された修正情報を取得する（Ｓ１０７）。そうすると、サーバ３００は、修正情報に基づいて部分画像を修正することができる。図９は、修正情報に基づいて修正された部分画像を例示する図であって、図９（ａ）は、原画画像を示していて、図９（ｂ）は、修正された部分画像を示している。本実施形態では、上記の図７（ｂ）に示した部分画像が修正されることで、図９（ｂ）では、図７（ｂ）では抽出できていなかったキャラクターが部分画像に追加されている。そして、このようにして、サーバ３００は、部分画像の取得を完了する（Ｓ１０８）。

図３に示すフローでは、次に、ユーザのユーザ端末４００に、部分画像に対して実行される編集処理に関する編集情報が入力される（Ｓ１０９）。上述したように、ユーザは、例えば、ユーザ端末４００に予めインストールされた所定のアプリによって提供されるインタフェース、または所定のウェブサイトによって提供されるインタフェースを介して、上記の編集情報をサーバ３００にアップロードすることができる。詳しくは、ユーザは、上記のインタフェースにおいて、例えば、部分画像に対して実行する編集処理指令として、部分画像を時系列に再生する処理、又は部分画像の一部を動作させながら表示する処理、又はこれら両方の処理を選択することで、編集情報をサーバ３００にアップロードすることができる。

そうすると、サーバ３００は、ユーザ端末４００から送信された編集処理指令を取得し（Ｓ１１０）、編集処理を実行する（Ｓ１１１）。これにより、モーションコミック（動く漫画）が実現されることになる。なお、サーバ３００によって実行される編集処理はユーザ端末４００に送信され、ユーザは、この情報を取得したユーザ端末４００を介して、編集処理を確認することができる（Ｓ１１２）。

そして、以上に述べた処理によれば、モーションコミック（動く漫画）のデータ作成者は、事前学習モデルに漫画の原画画像のデータを入力することで、部分画像を簡単に抽出することができる。そのため、原画画像から部分画像を手動で切り出す必要がなくなり、モーションコミック（動く漫画）の製作工数を大幅に削減することができる。このように、以上によれば、読者に対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる。

なお、上記のモーションコミック（動く漫画）では、漫画の原画画像から抽出された部分画像に対して、該部分画像を時系列に再生する処理、又は／及び該部分画像の一部を動作させながら表示する処理が編集処理として実行されるが、本実施形態における編集処理は、これらに限定されない。

本実施形態では、上記のモーションコミック（動く漫画）において、演出画像を動作させながら表示する処理が編集処理として実行されてもよい。

ここで、上記の演出画像とは、物体の移動の描写及び／又は光の描写及び／又は漫符及び／又は擬音に関する情報を含んだ画像であって、サーバ３００によって、部分画像として取得され得る。この場合、事前学習モデル３０では、物体の移動の描写及び／又は光の描写及び／又は漫符及び／又は擬音に関する情報を含んだ画像データを用いて学習が行われ、事前学習モデル３０の中間層（隠れ層）３２は、物体の移動の描写及び／又は光の描写及び／又は漫符及び／又は擬音に関する情報を表す特徴量を抽出することになる。

そして、図１０は、サーバ３００によって部分画像として更に取得され得る演出画像を例示する図である。本実施形態では、物体の移動の描写に関する情報を含んだ演出画像として、煙の描写の画像が取得され得る。また、図１０に示すように、漫符や擬音の画像も取得され得る。

このように、部分画像として更に演出画像が取得され、該演出画像が動作しながら表示されることによれば、モーションコミック（動く漫画）の躍動感や臨場感等が更に高められ得る。つまり、モーションコミック（動く漫画）の演出効果を更に高めることができる。

また、本実施形態では、サーバ３００が、事前学習モデル３０に学習させるための教師データを自動で生成してもよい。詳しくは、サーバ３００の制御部３０３が有する学習部３０３３が、上記の教師データとして、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成する。そして、学習部３０３３は、上記の仮想漫画におけるコマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ画像データを用いて、事前学習モデル３０に学習を行わせる。

具体的には、学習部３０３３は、ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第１画像に設定する。そして、予め生成された所定のキャラクター画像を上記の第１画像にランダムに重畳表示させた画像を、第２画像としてコマ枠内に設定する。更に、予め生成された所定のテキスト画像を上記の第２画像におけるキャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第３画像としてコマ枠内に設定することで、仮想漫画を自動で生成する。これについて、図１１に基づいて説明する。

図１１は、学習部３０３３によって生成される仮想漫画を説明するための図である。学習部３０３３は、先ず、図１１（ａ）に示すように、ランダムに生成されたコマ枠を、予め生成された任意の背景画像の任意の位置（これは、背景画像内においてコマ枠が収まるランダムな位置である。）に配置する。なお、予めランダムに生成されたコマ枠がはみ出さない大きさに、背景画像がリサイズされてもよい。そして、学習部３０３３は、配置したコマ枠の枠形状の内側の背景画像を切り取り、切り取られた該コマ枠内の背景画像を第１画像に設定する。なお、学習部３０３３は、上記のコマ枠の生成において、頁を１～３の乱数で決定された行数にランダムな高さで分割し、分割された各行の列方向を１～３の乱数で決定された数にランダムな幅で分割する。このようにして生成されたコマ枠について、更に、学習部３０３３は、一定以上の高さ・幅を有するコマ枠を抽出し、それをランダムに分割することでコマ枠を生成することができる。

次に、学習部３０３３は、図１１（ｂ）に示すように、予め生成された所定のキャラクター画像を上記の第１画像にランダムに重畳表示させる。なお、重畳表示させるキャラクター画像がコマ枠内に収まるように、該キャラクター画像がリサイズされてもよい。また、重畳表示させるキャラクター画像がコマ枠内に収まらない場合、コマ枠からはみ出す部分が削除されてもよい。そして、このようにして、コマ枠内に背景画像とキャラクター画像とがランダムに配置された画像を、第２画像としてコマ枠内に設定する。なお、上記のキャラクター画像は、例えば、複数の任意のキャラクター画像が記憶されたデータベースからランダムに抽出された画像であって、第１画像として描写される背景にかかわらずランダムに抽出され得る。

次に、学習部３０３３は、図１１（ｃ）に示すように、予め生成された所定のテキスト画像を上記の第２画像にランダムに重畳表示させる。このとき、テキスト画像は、第２画像におけるキャラクター画像に重ならない位置にランダムに配置され得る。なお、上記のテキスト画像は、例えば、吹き出しとともに描写される任意のテキストや、擬音である。そして、このようにして、コマ枠内に背景画像とキャラクター画像とテキスト画像とがランダムに配置された画像を、第３画像としてコマ枠内に設定する。

そして、図１２は、背景画像とキャラクター画像とテキスト画像とがランダムに配置された仮想漫画を例示する図である。図１２に示すようなランダムな仮想漫画が学習部３０３３によって生成され、それを教師データとして事前学習モデル３０に学習させることで、機械学習のための作業コストを大幅に削減することができる。つまり、学習部３０３３によって仮想漫画が自動的に大量に生成されることで、機械学習において、大量の教師データを手動で作成する必要がなくなる。

以上に述べた編集支援システム１００によれば、読者に対して躍動感や臨場感等の魅力を提供できる漫画を原画に基づいて容易に編集することができる。

＜その他の変形例＞
上記の実施形態はあくまでも一例であって、本開示はその要旨を逸脱しない範囲内で適宜変更して実施しうる。例えば、本開示において説明した処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

また、１つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。例えば、編集処理部３０３２をサーバ３００とは別の演算処理装置に形成してもよい。このとき当該別の演算処理装置はサーバ３００と好適に協働可能に構成される。また、異なる装置が行うものとして説明した処理が、１つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成（サーバ構成）によって実現するかは柔軟に変更可能である。

本開示は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する１つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクドライブ（ＨＤＤ）等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤディスク・ブルーレイディスク等）など任意のタイプのディスク、読み込み専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体を含む。

１００・・・編集支援システム
２００・・・ネットワーク
３００・・・サーバ
３０１・・・通信部
３０２・・・記憶部
３０３・・・制御部
４００・・・ユーザ端末

Claims

漫画の原画画像の一部である部分画像であって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得することと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得することと、
を実行する制御部を備え、
前記制御部は、
前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、該仮想漫画に含まれる画像データを用いて、前記事前学習モデルに学習を行わせ、
前記仮想漫画を自動で生成するとき、
ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第１画像に設定し、
予め生成された所定のキャラクター画像を前記第１画像にランダムに重畳表示させた画像を、第２画像として前記コマ枠内に設定し、
予め生成された所定のテキスト画像を前記第２画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第３画像として前記コマ枠内に設定する、
情報処理装置。
コンピュータが、
漫画の原画画像の一部である部分画像であって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得する第１取得ステップと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第２取得ステップと、を実行し、
前記コンピュータが、
前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、該仮想漫画に含まれる画像データを用いて、前記事前学習モデルに学習を行わせることを実行し、
前記仮想漫画を自動で生成するとき、
ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第１画像に設定し、
予め生成された所定のキャラクター画像を前記第１画像にランダムに重畳表示させた画像を、第２画像として前記コマ枠内に設定し、
予め生成された所定のテキスト画像を前記第２画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第３画像として前記コマ枠内に設定することを実行する、
情報処理方法。
コンピュータに、
漫画の原画画像の一部である部分画像であって、コマ枠情報及び／又はテキスト情報及び／又はキャラクター情報を含んだ部分画像を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記原画画像のデータを入力することで取得する第１取得ステップと、
前記部分画像に対して実行される所定の編集処理の指令である編集処理指令を取得する第２取得ステップと、を実行させ、
前記コンピュータに、
前記事前学習モデルに学習させるための教師データであって、コマ枠及びテキスト及びキャラクターに関する画像がランダムに配置された仮想漫画を自動で生成し、該仮想漫画に含まれる画像データを用いて、前記事前学習モデルに学習を行わせることを実行させ、
前記仮想漫画を自動で生成するとき、
ランダムな大きさのコマ枠を生成し、予め生成された所定の背景画像の任意の位置に該コマ枠の枠形状を配置し、該枠形状の内側の背景画像を該コマ枠内の第１画像に設定し、
予め生成された所定のキャラクター画像を前記第１画像にランダムに重畳表示させた画像を、第２画像として前記コマ枠内に設定し、
予め生成された所定のテキスト画像を前記第２画像における前記キャラクター画像に重ならない位置にランダムに重畳表示させた画像を、第３画像として前記コマ枠内に設定することを実行させる、
情報処理プログラム。