JP2023002690A

JP2023002690A - セマンティックス認識方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2023002690A
Application number: JP2022168159A
Authority: JP
Inventors: リ，ウェイ; Wei Li; シァオ，シンイェン; Xinyan Xiao; リウ，ジャチェン; Jiachen Liu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2022-10-20
Publication date: 2023-01-10
Also published as: EP4191544A1; CN114417878B; CN114417878A; US20230114673A1

Abstract

【課題】セマンティックス認識方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、第１のモダリティデータと第２のモダリティデータを取得し、第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定し、さらに第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定し、第１のセマンティックス表現、第２のセマンティックス表現及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識する。【効果】関連セマンティックス表現に基づいて、第１のセマンティックス表現と第２のセマンティックス表現に対して細粒度の関連融合を行うことを実現する。【選択図】図１

Description

本開示は、コンピュータ技術の分野に関し、具体的に、深層学習、自然言語処理などの人工知能技術の分野に関し、特にセマンティックス認識方法、装置、電子機器及び記憶媒体に関する。

人工知能は、コンピュータに、人間のある思惟過程と知能行為（学習、推理、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術とがある。人工知能ハードウェア技術は一般に、センサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主に、コンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。

関連技術では、セマンティックス認識によって得られたセマンティックス表現は汎用性と汎化性に欠けており、セマンティックス認識の効果がよくない。

本開示は、セマンティックス認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

本開示の第１の態様によれば、セマンティックス認識方法を提供し、当該セマンティックス認識方法は、第１のモダリティデータと第２のモダリティデータを取得するステップと、前記第１のモダリティデータの第１のセマンティックス表現を決定し、前記第２のモダリティデータの第２のセマンティックス表現を決定するステップと、前記第１のセマンティックス表現と前記第２のセマンティックス表現との間の関連セマンティックス表現を決定するステップと、前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第１のモダリティデータと前記第２のモダリティデータとの間のターゲット共有セマンティックスを認識するステップと、を含む。

本開示の第２の態様によれば、セマンティックス認識装置を提供し、当該セマンティックス認識装置は、第１のモダリティデータと第２のモダリティデータを取得する取得モジュールと、前記第１のモダリティデータの第１のセマンティックス表現を決定し、前記第２のモダリティデータの第２のセマンティックス表現を決定する第１の決定モジュールと、前記第１のセマンティックス表現と前記第２のセマンティックス表現との間の関連セマンティックス表現を決定する第２の決定モジュールと、前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第１のモダリティデータと前記第２のモダリティデータとの間のターゲット共有セマンティックスを認識する認識モジュールと、を含む。

本開示の第３の態様によれば、電子機器を提供し、当該電子機器は、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、命令は、少なくとも１つのプロセッサが本開示の第１の態様に記載のセマンティックス認識方法を実行するために、少なくとも１つのプロセッサによって実行される。

本開示の第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに本開示の第１の態様に記載のセマンティックス認識方法を実行させる。

本開示の第５の態様によれば、コンピュータプログラムを提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の第１の態様に記載のセマンティックス認識方法を実現する。

なお、発明の概要に記載の内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第１の実施例に係る概略図である。本開示の第２の実施例に係る概略図である。本開示の第３の実施例に係る概略図である。本開示の実施例に係る画像テキストペアデータのセマンティックス認識方法の概略フローチャートである。本開示の実施例に係るテキストデータ又は画像データのセマンティックス認識方法のフローチャートである。本開示の実施例に係るグラウンドセマンティックス融合エンコーダの概略構成図である。本開示の第４の実施例に係る概略図である。本開示の第５の実施例に係る概略図である。本開示の実施例のセマンティックス認識方法を実行するための例示的な電子機器の概略ブロック図である。

以下、図面と併せて本開示の例示的な実施例を説明するが、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれているが、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

図１は、本開示の第１の実施例に係る概略図である。

なお、本実施例のセマンティックス認識方法の実行主体はセマンティックス認識装置であり、当該装置は、ソフトウェア及び／又はハードウェアによって実現することができ、端末、サーバなどを含むがこれらに限定されない電子機器で構成されてもよい。

本開示の実施例は、深層学習、自然言語処理などの人工知能技術の分野に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、英語でＡＩと略す。これは人間の知能を模擬、延長、拡張するための理論、方法、技術及び応用システムを研究、開発するための新しい技術科学である。

深層学習はサンプルデータの内的な規則と表現レベルを学習するものであり、これらの学習プロセスで得られた情報は文字、画像、及び音声などのデータの解釈に大きいに役立つ。その最終的な目標は機械に人間のように分析学習能力を持たせ、文字、画像、及び音声などのデータを認識できるようにさせることである。

自然言語処理は、人間言語（中国語、英語など）をコンピュータで処理、理解、運用するものであり、コンピュータ科学と言語学の交差学科であり、通常は計算言語学と呼ばれる。自然言語は人間が他の動物と区別する根本的な標識であり、言語がないと、人間の思考が不可能であるため、自然言語処理は人工知能の最高タスクと境界を体現している。つまり、コンピュータが自然言語を処理する能力を備える時にこそ、マシンは本当の知能を実現する。

なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。

図１に示すように、当該セマンティックス認識方法は、以下のステップＳ１０１～Ｓ１０４を含む。

Ｓ１０１：第１のモダリティデータと第２のモダリティデータを取得する。

本開示の実施例で説明されるセマンティックス認識方法は、複数のデータのセマンティックス認識をサポートすることができ、このデータは、具体的に、例えば、テキストデータ、画像データ、画像テキストペアデータなどであってもよく、それに応じて、複数種類のデータは、それぞれ異なるモダリティ、例えば、画像モダリティ、テキストモダリティ、音声モダリティなどを有することができ、これらに対して限定しない。

第１のモダリティデータに対応するモダリティと第２のモダリティデータに対応するモダリティとは同じであってよく、異なってもよく、これに対して限定しない。

すなわち、第１のモダリティデータと第２のモダリティデータを取得することは、同じモダリティを有するデータを取得するものであってもよく、異なるモダリティを有する第１のモダリティデータと第２のモダリティデータを取得するものであってもよく、これに対して限定しない。

例えば、第１のモダリティデータを取得することは、カメラを用いて画像データを収集して第１のモダリティデータとすることであってもよく、第１のモダリティデータは画像モダリティに対応することができ、さらにテキスト収集装置を用いてテキストデータを収集して第２のモダリティデータとすることができ、第２のモダリティデータはテキストモダリティに対応することができ、これに対して限定しない。

いくつかの実施例では、カメラを用いて画像モダリティを有する画像データを収集し、テキスト収集装置を用いてテキストモダリティを有するテキストデータを収集した後、収集して得られたテキストデータと画像データに対してアラインメント処理を行って、アラインメント処理後の第１のモダリティデータと第２のモダリティデータを得ることもでき、当該アラインメント処理後の第１のモダリティデータと第２のモダリティデータは画像テキストペアデータと呼ぶことができ、これに対して限定しない。

Ｓ１０２：第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定する。

セマンティックス表現は、モダリティデータに対応するセマンティックス情報を説明することができ、当該セマンティックス表現は、データのコンテンツセマンティックス表現、コンテキストセマンティックス表現、データのキーワードセマンティックス表現などであってもよく、具体的に、例えば、データの画像データに対応する画像特徴、テキストデータに対応するテキスト特徴などであってもよく、これに対して限定しない。

第１のモダリティデータに対応するセマンティックス表現は、第１のセマンティックス表現と呼ぶことができ、それに応じて、第２のモダリティデータに対応するセマンティックス表現は、第２のセマンティックス表現と呼ぶこともでき、第１のセマンティックス表現と第２のセマンティックス表現とは、同じであってもよく、異なってもよく、これに対して限定しない。

いくつかの実施例では、第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定することは、第１のモダリティデータと第２のモダリティデータを、それぞれ予めトレーニングされた畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）に入力して、ＣＮＮネットワークから出力された第１のモダリティデータに対応する第１のセマンティックス表現と、第２のモダリティデータに対応する第２のセマンティックス表現を得ることができ、これに対して限定しない。

あるいは、第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定することは、特徴抽出アルゴリズムでそれぞれ第１のモダリティデータと第２のモダリティデータに対して特徴抽出を行って、第１のモダリティデータに対応する特徴を得て、当該特徴を第１のセマンティックス表現とし、そして第２のモダリティデータに対応する特徴を得て、当該特徴を第２のセマンティックス表現とすることであってもよく、これに対して限定しない。

Ｓ１０３：第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定する。

第１のセマンティックス表現と第２のセマンティックス表現との間にいくつかの関連するセマンティックス表現があってもよく、当該セマンティックス表現は関連セマンティックス表現と呼ぶことができ、当該関連セマンティックス表現は、第１のセマンティックス表現と第２のセマンティックス表現との間のコンテンツに関連するセマンティックス表現であってもよく、第１のセマンティックス表現と第２のセマンティックス表現との間のコンテキストに関連するセマンティックス表現であってもよく、具体的に、例えば、第１のセマンティックス表現と第２のセマンティックス表現との間の同じセマンティックス表現であってもよく、また、例えば、第１のセマンティックス表現と第２のセマンティックス表現との間の類似度が設定条件を満たすセマンティックス表現であってもよく、これに対して限定しない。

すなわち、第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定することは、第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定した後、第１のセマンティックス表現と第２のセマンティックス表現との間の類似度を決定し、類似度が設定条件を満たすセマンティックス表現を、第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現とすることができる。

例えば、第１のセマンティックス表現と第２のセマンティックス表現との間の類似度に対して対応する類似度閾値を予め設定し、第１のセマンティックス表現と第２のセマンティックス表現との間の類似度を決定し、類似度が類似度閾値より大きい場合、第１のセマンティックス表現と第２のセマンティックス表現を共に第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現とすることができ、これに対して限定しない。

あるいは、第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定することは、第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定した後、第１のセマンティックス表現と第２のセマンティックス表現に対して分割処理を行って、第１のセマンティックス表現と第２のセマンティックス表現にそれぞれ対応する複数のセマンティックス表現を得て、その後、第１のセマンティックス表現に対応する複数のセマンティックス表現と、第２のセマンティックス表現に対応する複数のセマンティックス表現との間の同じ複数のセマンティックス表現を関連セマンティックス表現として決定することであってもよく、これに対して限定しない。

例えば、｛今日は晴れ、所々風が強い｝という第１のセマンティックス表現を得た後、第１のセマンティックス表現を｛「今日は晴れ」と「所々風が強い」｝に分割し、第２のセマンティックス表現｛今日は晴れ、気温は摂氏１２度｝を、｛「今日は晴れ」と「気温は摂氏１２度」｝に分割すると仮定すると、その後、上記をそれぞれ分割して得られた、第１のセマンティックス表現と第２のセマンティックス表現に対応する複数のセマンティックス表現の間で、同じセマンティックス表現｛今日は晴れ｝を、第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現とすることができ、これに対して限定しない。

Ｓ１０４：第１のセマンティックス表現、第２のセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識する。

第１のモダリティデータと第２のモダリティデータは、いくつかの同じセマンティックスを有することができ、当該セマンティックスはターゲット共有セマンティックスと呼ぶことができる。

例えば、第１のモダリティデータ（例えば、画像データ）が「誕生日ケーキの上で、ろうそくが燃えている」ことを記述し、第２のモダリティデータ（例えば、テキストデータ）が「誕生日ケーキがおいしい」ことを記述していると仮定すると、第１のモダリティデータと第２のモダリティデータソース間の同じセマンティックスである「誕生日ケーキ」をターゲット共有セマンティックスとすることができ、これに対して限定しない。

いくつかの実施例では、第１のセマンティックス表現、第２のセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識することは、関連セマンティックス表現に基づいて第１のセマンティックス表現と第２のセマンティックス表現に対して融合処理を行って、融合処理後のセマンティックス表現を得て、前記得られたセマンティックス表現を予めトレーニングされたセマンティックスデコーダに入力して、セマンティックスデコーダから出力されたセマンティックス情報を得て、当該セマンティックス情報を第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスとすることができ、あるいは、他の任意の可能な方式で、第１のセマンティックス表現、第２のセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識することを実現することができ、例えば、モデル予測の方式、特徴解析の方式など、これに対して限定しない。

本実施例では、第１のモダリティデータと第２のモダリティデータを取得し、第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定し、さらに第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定し、第１のセマンティックス表現、第２のセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識し、関連セマンティックス表現に基づいて、第１のセマンティックス表現と第２のセマンティックス表現に対して細粒度の関連融合を行うことを実現し、これにより、認識してより正確で豊富なクロスモダリティセマンティックス表現を得ることができ、これにより、セマンティックス表現の汎用性と汎化性を効果的に向上させ、セマンティックス認識効果を効果的に向上させる。

図２は、本開示の第２の実施例に係る概略図である。

図２に示すように、当該セマンティックス認識方法は、以下のステップＳ２０１～Ｓ２０４を含む。

Ｓ２０１：第１のモダリティデータと第２のモダリティデータを取得する。

Ｓ２０２：第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定する。

Ｓ２０３：第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定する。

Ｓ２０１～Ｓ２０３の説明は、具体的に、上記の実施例を参照することができ、ここでは説明を省略する。

Ｓ２０４：関連セマンティックス表現に基づいて第１のセマンティックス表現を処理して、第１のターゲットセマンティックス表現を得る。

本開示の実施例第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定した後、関連セマンティックス表現に基づいて第１のセマンティックス表現を処理して、対応するセマンティックス表現を得ることができ、当該セマンティックス表現は第１のターゲットセマンティックス表現と呼ぶことができる。

いくつかの実施例では、関連セマンティックス表現に基づいて第１のセマンティックス表現を処理することは、関連セマンティックス表現と第１のセマンティックス表現に対してスプライス処理を行い、該スプライス処理を行って得られたセマンティックス表現を第１のターゲットセマンティックス表現とすることができ、あるいは、関連セマンティックス表現と第１のセマンティックス表現に対してマッチング処理を行い、関連セマンティックス表現にマッチングするセマンティックス表現を第１のターゲットセマンティックス表現とすることもできる。

もちろん、他の任意の可能な方式で、関連セマンティックス表現に基づいて第１のセマンティックス表現を処理して、第１のターゲットセマンティックス表現を得ることを実現することもでき、これに対して限定しない。

選択的に、いくつかの実施例では、関連セマンティックス表現に基づいて第１のセマンティックス表現を処理して、第１のターゲットセマンティックス表現を得ることは、関連セマンティックス表現と第１のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第１のセマンティックス表現を第１のターゲットセマンティックス表現とすることができる。

すなわち、本開示の実施例では、第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定した後、関連セマンティックス表現と第１のセマンティックス表現に対してアラインメント処理を行い、該アラインメント処理を行って得られた第１のセマンティックス表現を第１のターゲットセマンティックス表現とすることができ、関連セマンティックス表現と第１のセマンティックス表現に対してアラインメント処理を行うため、これによって第１のセマンティックス表現を関連セマンティックス表現空間に統一することを実現することができ、第１のターゲットセマンティックス表現がより多くの関連セマンティックス表現情報を学習することができ、第１のターゲットセマンティックス表現の汎用性を効果的に向上させることができ、それによって、後続のセマンティックス認識方法の実行プロセスにおいて、第１のターゲットセマンティックス表現に基づいて、セマンティックス表現の融合プロセスの実行を便利にすることができる。

例えば、関連セマンティックス表現と第１のセマンティックス表現に対してアラインメント処理を行い、関連セマンティックス表現ベクトルと第１のセマンティックス表現ベクトルを決定し、その後、関連セマンティックス表現ベクトルと第１のセマンティックス表現ベクトルに対してアラインメント処理を行って、アラインメント処理後の表現ベクトルを得て、当該表現ベクトルを第１のターゲットセマンティックス表現とすることができ、これに対して限定しない。

Ｓ２０５：関連セマンティックス表現に基づいて第２のセマンティックス表現を処理して、第２のターゲットセマンティックス表現を得る。

本開示の実施例は、第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定した後、関連セマンティックス表現に基づいて第２のセマンティックス表現を処理して、対応するセマンティックス表現を得ることができ、当該セマンティックス表現は、第２のターゲットセマンティックス表現と呼ぶことができる。

いくつかの実施例では、関連セマンティックス表現に基づいて第２のセマンティックス表現を処理し、関連セマンティックス表現と第２のセマンティックス表現に対してスプライス処理を行い、該スプライス処理を行って得られたセマンティックス表現を第２のターゲットセマンティックス表現とし、あるいは、関連セマンティックス表現と第２のセマンティックス表現に対してマッチング処理を行い、関連セマンティックス表現にマッチングするセマンティックス表現を第２のターゲットセマンティックス表現とすることもできる。

もちろん、他の任意の可能な方式で、関連セマンティックス表現に基づいて第２のセマンティックス表現を処理して、第２のターゲットセマンティックス表現を得ることを実現することもでき、これに対して限定しない。

選択的に、いくつかの実施例では、関連セマンティックス表現に基づいて第２のセマンティックス表現を処理して、第２のターゲットセマンティックス表現を得ることは、関連セマンティックス表現と第２のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第２のセマンティックス表現を第２のターゲットセマンティックス表現とすることであってもよい。

すなわち、本開示の実施例では、第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定した後、関連セマンティックス表現と第２のセマンティックス表現に対してアラインメント処理を行い、該アラインメント処理を行って得られた第２のセマンティックス表現を第２のターゲットセマンティックス表現とすることができ、関連セマンティックス表現と第２のセマンティックス表現に対してアラインメント処理を行うため、これによって第２のセマンティックス表現を関連セマンティックス表現空間に統一することを実現することができ、第２のターゲットセマンティックス表現がより多くの関連セマンティックス表現情報を学習することができ、第２のターゲットセマンティックス表現の汎用性を効果的に向上させることができ、これによって、後続のセマンティックス認識方法の実行プロセスにおいて、第２のターゲットセマンティックス表現に基づいて、セマンティックス表現の融合プロセスの実行を便利にすることができる。

例えば、関連セマンティックス表現と第２のセマンティックス表現に対してアラインメント処理を行うことは、関連セマンティックス表現ベクトルと第２のセマンティックス表現ベクトルを決定し、その後、関連セマンティックス表現ベクトルと第２のセマンティックス表現ベクトルに対してアラインメント処理を行って、アラインメント処理後の表現ベクトルを得て、当該表現ベクトルを第２のターゲットセマンティックス表現とすることであってもよく、これに対して限定しない。

Ｓ２０６：第１のターゲットセマンティックス表現、第２のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識する。

本開示の実施例は、第１のターゲットセマンティックス表現、第２のターゲットセマンティックス表現及び関連セマンティックス表現を決定した後、第１のターゲットセマンティックス表現、第２のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識することができ、関連セマンティックス表現に基づいて第１のセマンティックス表現と第２のセマンティックス表現をそれぞれ処理するため、第１のセマンティックス表現と第２のセマンティックス表現を関連セマンティックス表現区間に統一することを実現し、よりロバストな第１のターゲットセマンティックス表現と第２のターゲットセマンティックス表現を得ることができ、これによって第１のターゲットセマンティックス表現、第２のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて、第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識する際、ターゲット共有セマンティックスの認識効果を効果的に向上させることができる。

本実施例では、第１のモダリティデータと第２のモダリティデータを取得し、第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定し、さらに第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定し、関連セマンティックス表現に基づいて第１のセマンティックス表現を処理して、第１のターゲットセマンティックス表現を得て、これによって第１のセマンティックス表現を関連セマンティックス表現空間に統一することを実現することができ、第１のターゲットセマンティックス表現がより多くの関連セマンティックス表現情報を学習することができ、これにより、第１のターゲットセマンティックス表現の汎用性を効果的に向上させることができ、それによって、後続のセマンティックス認識方法の実行プロセスにおいて、第１のターゲットセマンティックス表現に基づいて、セマンティックス表現の融合プロセスの実行を便利にすることができ、関連セマンティックス表現に基づいて第２のセマンティックス表現を処理して、第２のターゲットセマンティックス表現を得て、これによって第２のセマンティックス表現を関連セマンティックス表現空間に統一することを実現することができ、第２のターゲットセマンティックス表現がより多くの関連セマンティックス表現情報を学習することができ、第２のターゲットセマンティックス表現の汎用性を効果的に向上させることができ、それによって、後続のセマンティックス認識方法の実行プロセスにおいて、第２のターゲットセマンティックス表現に基づいて、セマンティックス表現の融合プロセスの実行を便利にすることができ、さらに第１のターゲットセマンティックス表現、第２のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識し、第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識する際、ターゲット共有セマンティックスの認識効果を効果的に向上させる。

図３は、本開示の第３の実施例に係る概略図である。

図３に示すように、当該セマンティックス認識方法は、Ｓ３０１～Ｓ３０６を含む。

Ｓ３０１：第１のモダリティデータと第２のモダリティデータを取得する。

Ｓ３０１の説明は上記の実施例を参照することができ、ここでは説明を省略する。

Ｓ３０２：第１のモダリティデータの第１のセマンティックス表現を決定する。

選択的に、いくつかの実施例では、第１のモダリティデータの第１のセマンティックス表現を決定することは、第１のモダリティデータを分割して、複数の画像ブロックを得ることであってもよく、複数の画像ブロックがそれぞれ複数の画像ピクセル情報を含み、複数の画像ピクセル情報に対してそれぞれセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、複数の画像ブロックセマンティックス表現を第１のセマンティックス表現とし、第１のモダリティデータに対して分割処理を行うため、データ量の大きい第１のモダリティデータを、より細粒度の画像ブロックに分割することを実現することができ、これによって、画像ブロックに対応する画像ピクセル情報に対してセマンティックス符号化処理を行う際、１回のセマンティックス符号化処理のデータ処理量を効果的に低減することができ、さらに、セマンティックス符号化処理の効率を効果的に向上させ、第１のモダリティデータのセマンティックス符号化効果を効果的に向上させ、第１のセマンティックス表現の精度と参照性を効果的に向上させることができる。

本開示の実施例では、第１のモダリティは、具体的に、例えば、画像モダリティであってもよく、それに応じて、第１のモダリティデータは、具体的に、例えば、画像データであってもよい。

本開示の実施例では、画像データに対して分割処理を行って、画像データを複数の画像ブロックに分割することができ、複数の画像ブロックは、それぞれ複数のピクセルを有することができ、複数の画像ブロックに対応する複数の画像ピクセルを説明するために使用される情報は、画像ピクセル情報と呼ぶことができる。

複数の画像ブロックは対応するセマンティックス表現をそれぞれ有することができ、当該セマンティックス表現は画像ブロックセマンティックス表現と呼ぶことができ、当該画像ブロックセマンティックス表現はコンテキストに関連する画像ブロックセマンティックスを説明することができ、これに対して限定しない。

本開示の実施例は、第１のモダリティデータを分割し、複数の画像ブロックを得た後、それぞれ複数の画像ブロックに対応する複数の画像ピクセル情報に対してセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、複数の画像ブロックセマンティックス表現を第１のセマンティックス表現とすることができる。

例えば、複数の画像ブロックセマンティックス表現を決定することは、第１のモダリティデータＶに対して、それをＶ１、Ｖ２、Ｖ３、…、Ｖｎなどの複数の画像ブロックに分割することであってもよく、複数の画像ブロックは対応する複数の画像ピクセルｖ_１，…，ｖ_ｎをそれぞれ有することができ、その後、複数の画像ピクセル情報をシーケンスＶ＝｛［ＣＬＳ］，ｖ_１，…，ｖ_ｎ｝（特殊シンボル［ＣＬＳ］はシーケンスＶの開始シンボルを表す）の形態で予めトレーニングされた視覚エンコーダ（ＶｉｓｕａｌＴｒａｎｓｆｏｒｍｅｒ）に入力することができ、視覚エンコーダの多層の注意メカニズムは、複数の画像ブロックに対応する複数の画像ピクセル情報に対してセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、複数の画像ブロックセマンティックス表現を第１のセマンティックス表現とすることができ、これに対して限定しない。

Ｓ３０３：第２のモダリティデータの第２のセマンティックス表現を決定する。

選択的に、いくつかの実施例では、第２のモダリティデータの第２のセマンティックス表現を決定することは、第２のモダリティデータを分割して、複数のテキストシンボルを得て、複数のテキストシンボルに対してそれぞれセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、複数のテキストセマンティックス表現を第２のセマンティックス表現とすることであってもよく、第２のモダリティデータに対して分割処理を行うため、データ量の大きい第１のモダリティデータを、より細粒度のテキストシンボルに分割することを実現することができ、これによってテキストシンボルに対してセマンティックス符号化処理を行う際、１回のテキストセマンティックス符号化処理のテキストデータ処理量を効果的に低減することができ、さらにセマンティックス符号化処理の効率を効果的に向上させ、第２のモダリティデータのセマンティックス符号化効果を効果的に向上させ、第２のセマンティックス表現の精度と参照性を効果的に向上させることができる。

本開示の実施例では、第２のモダリティは、具体的に、例えば、テキストモダリティであってよく、それに応じて、第２のモダリティデータは具体的に、例えば、テキストデータであってもよく、当該テキストデータは、具体的に、例えば、英語テキストデータ、又は中国語テキストデータであってもよく、これに対して限定しない。

本開示の実施例では、テキストデータに対して分割処理を行って、テキストデータを複数のテキストシンボルに分割することができ、複数のテキストシンボルは、具体的に、例えば、中国語テキストデータ中の単語、漢字であってもよく、又は、例えば、英語テキストデータ中のアルファベット、単語などであってもよく、これに対して限定しない。

例えば、第２のモダリティデータを分割して、複数のテキストシンボルを得ることは、テキスト「私はリンゴを食べるのが好き」を「私」、「好き」、「食べる」、「リンゴ」に分割し、該分割して得られた「私」、「好き」、「食べる」、「リンゴ」を複数のテキストシンボルとすることであってもよい。

複数のテキストシンボルは対応するセマンティックス表現をそれぞれ有することができ、当該セマンティックス表現は、テキストセマンティックス表現と呼ばれることができ、当該テキストセマンティックス表現は、コンテキストに関連するテキストセマンティックスを説明することができ、これに対して限定しない。

本開示の実施例は、第２のモダリティデータを分割し、複数のテキストシンボルを得た後、それぞれ複数のテキストシンボルに対してセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、複数のテキストセマンティックス表現を第２のセマンティックス表現とすることができる。

例えば、複数のテキストセマンティックス表現を決定することは、第２のモダリティデータＷに対して、それをｔ_１，…，ｔ_ｍなどの複数のテキストシンボルに分割することができ、その後、複数のテキストシンボルをシーケンスＷ＝｛［ＣＬＳ］，ｔ_１，…，ｔ_ｍ｝（特殊シンボル［ＣＬＳ］はシーケンスＷの開始シンボルを表す）の形態で予めトレーニングされたテキストエンコーダ（ＴｅｘｔＴｒａｎｓｆｏｒｍｅｒ）に入力することができ、テキストエンコーダの多層の注意メカニズムは複数のテキストシンボルに対してセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、複数のテキストセマンティックス表現を第２のセマンティックス表現とすることができ、これに対して限定しない。

Ｓ３０４：第１のセマンティックス表現と第２のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定する。

本開示の実施例では、第１のセマンティックス表現と第２のセマンティックス表現をセマンティックスレベルで統一するために、共有のグラウンドセマンティックス辞書（ＧｒｏｕｎｄｅｄＤｉｃｔｉｏｎａｒｙ）を構築することができ、辞書中の各グラウンドセマンティックス表現（ｇｒｏｕｎｄｅｄｔｏｋｅｎ）は、第１のモダリティデータレベルと第２のモダリティデータセマンティックスレベルとの共有セマンティックス表現であってもよく、すなわち第１のセマンティックス表現と第２のセマンティックス表現に対応するグラウンドセマンティックス表現（ｇｒｏｕｎｄｅｄｔｏｋｅｎ）が存在することができ、当該グラウンドセマンティックス辞書は、初期グラウンドセマンティックス表現と呼ばれることができる。

いくつかの実施例では、第１のセマンティックス表現と第２のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定することは、第１のセマンティックス表現と第２のセマンティックス表現に対して解析処理を行って、対応するグラウンドセマンティックス識別子を得ることができ、その後、グラウンドセマンティックス識別子に基づいてグラウンドセマンティックス辞書の中から、認識して当該グラウンドセマンティックス識別子に対応するグラウンドセマンティックス表現を得て、当該グラウンドセマンティックス表現を初期グラウンドセマンティックス表現とすることができ、これに対して限定しない。

別のいくつかの実施例では、第１のセマンティックス表現と第２のセマンティックス表現に基づいて、初期グラウンドセマンティックスを決定することは、第１のセマンティックス表現に対応する複数の画像ブロックセマンティックス表現及び第２のセマンティックス表現に対応する複数のテキストセマンティックス表現に対して、クラスタリング計算処理を行って、第１のセマンティックス表現及び／又は第２のセマンティックス表現に対応する初期グラウンドセマンティックス表現シーケンスＧ＝｛ｇ_１，…，ｇ_ｋ｝を得ることであってもよい。

選択的に、いくつかの実施例では、第１のセマンティックス表現と第２のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定することは、第１のセマンティックス表現と第２のセマンティックス表現との間のクラスタリングディスクリプション情報を決定し、クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現をグラウンドセマンティックス辞書の中から決定して初期グラウンドセマンティックス表現とすることであってもよく、グラウンドセマンティックス辞書に合わせて初期グラウンドセマンティックス表現を決定するため、セマンティックス認識方法が画像テキストペアデータに限定されず、すなわちグラウンドセマンティックス辞書に基づいて、画像データ、テキストデータなどアラインメント処理されていない画像テキストペアデータを実現して、連合セマンティックス表現を学習することができ、これによって大規模なアラインメント処理されていないものは有効に利用することができ、これによってデータの可用性を効果的に向上させ、セマンティックス認識方法の適用性を効果的に向上させ、また、クラスタリングディスクリプション情報に合わせて、グラウンドセマンティックス辞書の中から初期グラウンドセマンティックス表現を決定するため、初期グラウンドセマンティックス表現の決定効率を効果的に向上させ、グラウンドセマンティックス表現の精度を効果的に向上させることができる。

グラウンドセマンティックス辞書は、さらに、クラスタリングディスクリプション情報、及びクラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を含む。

本開示の実施例では、第１のセマンティックス表現と第２のセマンティックス表現のクラスタリング処理をサポートすることができ、対応するクラスタリング結果を得て、それに応じて、前記クラスタリング結果を説明するための情報は、クラスタリングディスクリプション情報と呼ばれることができ、当該クラスタリングディスクリプション情報は、具体的に、例えば、クラスタリング識別子情報、クラスタリング結果情報などであってもよく、これに対して限定しない。

選択的に、いくつかの実施例では、第１のセマンティックス表現と第２のセマンティックス表現との間のクラスタリングディスクリプション情報を決定することは、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、類似度情報をクラスタリングディスクリプション情報とすることであってもよく、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、類似度情報をクラスタリングディスクリプション情報とするため、クラスタリングディスクリプション情報の精度を効果的に向上させることができ、これによって、クラスタリングディスクリプション情報に基づいて後続のセマンティックス認識方法を実行する場合、クラスタリングディスクリプション情報はより高い参照価値を有することができる。

ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度を説明するための情報は、類似度情報と呼ばれることができ、当該類似度情報は、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度であってもよく、具体的に、例えば、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間のユークリッド距離、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間のベクトルコサインなどであってもよく、これに対して限定しない。

ターゲット画像ブロックセマンティックス表現は複数の画像ブロックセマンティックス表現に属し、ターゲットテキストセマンティックス表現は複数のテキストセマンティックス表現に属し、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現はクラスタリングして得られた同じデータカテゴリに属する。

すなわち、本開示の実施例では、第１のセマンティックス表現と第２のセマンティックス表現との間の類似度を決定することができ、例えば、第１のセマンティックス表現と第２のセマンティックス表現との間のユークリッド距離を決定し、さらに前記決定されたユークリッド距離をターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報とすることができ、又は、第１のセマンティックス表現と第２のセマンティックス表現との間のベクトルコサインを決定し、前記決定されたベクトルコサインをターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報とし、類似度情報をクラスタリングディスクリプション情報とすることもでき、これに対して限定しない。

本開示の実施例は、第１のセマンティックス表現と第２のセマンティックス表現との間のクラスタリングディスクリプション情報を決定した後、グラウンドセマンティックス辞書の中から当該クラスタリングディスクリプション情報にマッチングするクラスタリングディスクリプション情報を決定し、その後、グラウンドセマンティックス辞書中の当該クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を、初期グラウンドセマンティックス表現とすることができ、これに対して限定しない。

Ｓ３０５：第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る。

本開示の実施例は、初期グラウンドセマンティックス表現を決定した後、第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることができ、第１のセマンティックス表現、第２のセマンティックス表現及び初期グラウンドセマンティックス表現に対して融合符号化処理を行って、関連セマンティックス表現を得るため、第１のセマンティックス表現と第２のセマンティックス表現の初期グラウンドセマンティックス表現区間でのアラインメントを実現することができ、初期グラウンドセマンティックス表現区間は、セマンティックス表現において異なるモダリティデータ間のセマンティックス情報を優先的に関連付けることができ、これによって関連セマンティックス表現の汎用性と参照性を効果的に向上させることができる。

本開示の実施例では、第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることは、第１のセマンティックス表現、第２のセマンティックス表現及び初期グラウンドセマンティックス表現を共に予めトレーニングされたエンコーダに入力し、エンコーダによって第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行い、関連セマンティックス表現を出力することであってもよい。

例えば、図４は、本開示の実施例に係る画像テキストペアデータのセマンティックス認識方法の概略フローチャートである。図４に示すように、画像テキストペアデータのうちの画像データを視覚エンコーダに入力して、第１のセマンティックス表現を得て、テキストデータをテキストエンコーダに入力して、第２のセマンティックス表現を得て、その後、第１のセマンティックス表現、第２のセマンティックス表現及びグラウンドセマンティックス辞書中の初期グラウンドセマンティックス表現を、共に予めトレーニングされたグラウンドセマンティックス融合エンコーダに入力して、関連セマンティックス表現を得ることができる。

図５は、本開示の実施例に係るテキストデータ又は画像データのセマンティックス認識方法のフローチャートである。図５に示すように、画像データを視覚エンコーダに入力して、第１のセマンティックス表現を得て、その後、第１のセマンティックス表現とグラウンドセマンティックス辞書の中の初期グラウンドセマンティックス表現を、共に予めトレーニングされたグラウンドセマンティックス融合エンコーダに入力して、画像データに対応する関連セマンティックス表現を得ることができ、また、テキストデータをテキストエンコーダに入力して、第２のセマンティックス表現を得ることもでき、その後、第２のセマンティックス表現とグラウンドセマンティックス辞書の中の初期グラウンドセマンティックス表現を、共に予めトレーニングされたグラウンドセマンティックス融合エンコーダに入力して、テキストデータに対応する関連セマンティックス表現を得ることができる。

選択的に、いくつかの実施例では、第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることは、類似度情報に基づいて、融合重み情報を決定し、融合重み情報に基づいて第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることができる。

本開示の実施例では、類似度情報は、第１のモダリティデータと第２のモダリティデータとの間のセマンティックス関連性の度合いを説明することができ、第１のモダリティデータと第２のモダリティデータとの間のセマンティックス関連性の度合いが異なり、強い相関もあれば、弱い相関もあり、相関がないものさえもあるため、異なるセマンティックス関連性の度合いは異なるセマンティックス融合性の度合いに適合することができ、異なるモダリティデータに対する適応学習モダリティ間のセマンティックス相互作用のために、第１のモダリティデータと第２のモダリティデータとの間のセマンティックス関連性の度合いに基づいて、第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現の融合重み（当該融合重みは融合重み情報と呼ばれることができる）を決定することができ、対応する重みに基づいて第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行うことを支援して、関連セマンティックス表現を得る。

本開示の実施例では、類似度情報に基づいて融合重み情報を決定し、類似度情報は異なるモダリティデータ間のセマンティックス関連性の度合いを特徴づけることができるため、類似度情報に基づいて、融合重み情報を決定する際、異なるモダリティデータ間のセマンティックス関連性の度合いに基づいて、異なるセマンティックス表現間の融合度合いを制御することを実現することができ、融合度合いの基準の未達成と融合度合いの過剰による問題を効果的に回避し、セマンティックス表現融合符号化プロセスの順調な実行を確保し、同セマンティックス表現間の融合符号化効果を効果的に向上させる。

図６は、本開示の実施例に係るグラウンドセマンティックス融合エンコーダの概略構成図である。本開示の実施例では、図６に示すように、第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る際、類似度情報に基づいて、融合重み情報を決定し、融合重み情報に基づいて初期グラウンドセマンティックス表現を架け橋として、第１のセマンティックス表現、第２のセマンティックス表現に対して相互融合符号化を行って、関連セマンティックス表現を得ることができる。

Ｓ３０６：第１のセマンティックス表現、第２のセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識する。

Ｓ３０６の説明は、具体的に、上記の実施例を参照することができ、ここでは説明を省略する。

本実施例では、第１のモダリティデータと第２のモダリティデータを取得し、第１のモダリティデータの第１のセマンティックス表現を決定し、さらに第２のモダリティデータの第２のセマンティックス表現を決定し、さらに第１のセマンティックス表現と第２のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定し、第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることにより、第１のセマンティックス表現と第２のセマンティックス表現の初期グラウンドセマンティックス表現区間でのアラインメントを実現することができ、初期グラウンドセマンティックス表現区間は、セマンティックス表現において異なるモダリティデータ間のセマンティックス情報を優先的に関連付けることができ、これによって関連セマンティックス表現の汎用性と参照性を効果的に向上させ、関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識し、これによってセマンティックス認識効果を効果的に向上させることができる。

図７は、本開示の第４の実施例に係る概略図である。

図７に示すように、当該セマンティックス認識装置７０は、
第１のモダリティデータと第２のモダリティデータを取得する取得モジュール７０１と、
第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定する第１の決定モジュール７０２と、
第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定する第２の決定モジュール７０３と、
第１のセマンティックス表現、第２のセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識する認識モジュール７０４と、を含む。

図８は本開示の第５の実施例に係る概略図である。本開示のいくつかの実施例では、図８に示すように、セマンティックス認識装置８０は、取得モジュール８０１、第１の決定モジュール８０２、第２の決定モジュール８０３、認識モジュール８０４を含み、認識モジュール８０４は、
関連セマンティックス表現に基づいて第１のセマンティックス表現を処理して、第１のターゲットセマンティックス表現を得る第１の処理サブモジュール８０４１と、
関連セマンティックス表現に基づいて第２のセマンティックス表現を処理して、第２のターゲットセマンティックス表現を得る第２の処理サブモジュール８０４２と、
第１のターゲットセマンティックス表現、第２のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識する認識サブモジュール８０４３と、を含む。

本開示のいくつかの実施例では、第１の処理サブモジュール８０４１は、具体的に、
関連セマンティックス表現と第１のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第１のセマンティックス表現を第１のターゲットセマンティックス表現とすることができる。

第２の処理サブモジュールは、具体的に、
関連セマンティックス表現と第２のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第２のセマンティックス表現を第２のターゲットセマンティックス表現とする。

本開示のいくつかの実施例では、第１のモダリティは画像モダリティであり、
第１の決定モジュール８０２は、具体的に、
第１のモダリティデータを分割して、複数の画像ブロックを得て、複数の画像ブロックがそれぞれ複数の画像ピクセル情報を含み、
複数の画像ピクセル情報に対してそれぞれセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、
複数の画像ブロックセマンティックス表現を第１のセマンティックス表現とする。

本開示のいくつかの実施例では、第２のモダリティはテキストモダリティであり、
第１の決定モジュール８０２は、さらに、
第２のモダリティデータを分割して、複数のテキストシンボルを得て、
複数のテキストシンボルに対してそれぞれセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、
複数のテキストセマンティックス表現を第２のセマンティックス表現とする。

本開示のいくつかの実施例では、第２の決定モジュール８０３は、
第１のセマンティックス表現と第２のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定する決定サブモジュール８０３１と、
第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る符号化サブモジュール８０３２と、を含む。

本開示のいくつかの実施例では、決定サブモジュール８０３１は、具体的に、
第１のセマンティックス表現と第２のセマンティックス表現との間のクラスタリングディスクリプション情報を決定し、
クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現をグラウンドセマンティックス辞書から決定して初期グラウンドセマンティックス表現とし、
グラウンドセマンティックス辞書が、クラスタリングディスクリプション情報、及びクラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を含む。

本開示のいくつかの実施例では、決定サブモジュール８０３１は、具体的に、
ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、類似度情報をクラスタリングディスクリプション情報とし、
ターゲット画像ブロックセマンティックス表現は複数の画像ブロックセマンティックス表現に属し、ターゲットテキストセマンティックス表現は複数のテキストセマンティックス表現に属し、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現はクラスタリングして得られた同じデータカテゴリに属する。

本開示のいくつかの実施例では、符号化サブモジュール８０３２は具体的に、
類似度情報に基づいて、融合重み情報を決定し、
融合重み情報に基づいて第１のセマンティックス表現、第２のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る。

なお、本実施例の図８のセマンティックス認識装置８０は上記実施例のセマンティックス認識装置７０と同じ機能と構造を有し、取得モジュール８０１は、上記実施例の取得モジュール７０１と同じ機能と構造を有し、第１の決定モジュール８０２は、上記実施例の第１の決定モジュール７０２と同じ機能と構造を有し、第２の決定モジュール８０３は上記実施例の第２の決定モジュール７０３と同じ機能と構造を有し、認識モジュール８０４は上記実施例の認識モジュール７０４と同じ機能と構造を有することができる。

なお、前記セマンティックス認識方法の説明は、本実施例のセマンティックス認識装置にも適用されることができる。

本実施例では、第１のモダリティデータと第２のモダリティデータを取得し、第１のモダリティデータの第１のセマンティックス表現を決定し、第２のモダリティデータの第２のセマンティックス表現を決定し、さらに第１のセマンティックス表現と第２のセマンティックス表現との間の関連セマンティックス表現を決定し、第１のセマンティックス表現、第２のセマンティックス表現、及び関連セマンティックス表現に基づいて第１のモダリティデータと第２のモダリティデータとの間のターゲット共有セマンティックスを認識し、関連セマンティックス表現に基づいて、第１のセマンティックス表現と第２のセマンティックス表現に対して細粒度の関連融合を行うことを実現することにより、認識してより正確で豊富なクロスモダリティセマンティックス表現を得ることができ、セマンティックス表現の汎用性と汎化性を効果的に向上させ、セマンティックス認識効果を効果的に向上させる。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラムをさらに提供する。

図９は、本開示の実施例のセマンティックス認識方法を実行するための例示的な電子機器の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び／又は求められる本開示の実現を制限することを意図したものではない。

図９に示すように、電子機器９００は、読み取り専用メモリ（ＲＯＭ）９０２に記憶されているコンピュータプログラム又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムに従って様々な適切な動作及び処理を実行できる計算ユニット９０１を含む。ＲＡＭ９０３には、電子機器９００の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット９０１、ＲＯＭ９０２、及びＲＡＭ９０３は、バス９０４を介して互いに接続されている。バス９０４には、入力／出力（Ｉ／Ｏ）インターフェース９０５も接続されている。

電子機器９００の複数のコンポーネントはＩ／Ｏインターフェース９０５に接続され、キーボード、マウスなどの入力ユニット９０６、各タイプのディスプレイ、スピーカなどの出力ユニット９０７、磁気ディスク、光ディスクなどの記憶ユニット９０８、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット９０９を含む。通信ユニット９０９は、電子機器９００が、インターネットなどのコンピュータネットワーク及び／又は各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット９０１は、処理及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット９０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及びいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット９０１は、前文に記載された各方法及び処理、例えば、セマンティックス認識方法を実行する。例えば、いくつかの実施例では、セマンティックス認識方法を、記憶ユニット９０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介して電子機器９００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ９０３にロードされ、計算ユニット９０１によって実行される場合、前文に記載されたセマンティックス認識方法の１つ又は複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット９０１はセマンティックス認識方法を実行するように、他のいずれかの適切な方式（例えば、ファームウェアを介して）によって構成されてもよい。

本明細書で上記に記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び／又はブロック図に規定された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示のコンテキストでは、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又は上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表すためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力、又は、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常は通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」，又は「ＶＰＳ」と省略する）に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

セマンティックス認識方法であって、
第１のモダリティデータと第２のモダリティデータを取得するステップと、
前記第１のモダリティデータの第１のセマンティックス表現を決定し、前記第２のモダリティデータの第２のセマンティックス表現を決定するステップと、
前記第１のセマンティックス表現と前記第２のセマンティックス表現との間の関連セマンティックス表現を決定するステップと、
前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第１のモダリティデータと前記第２のモダリティデータとの間のターゲット共有セマンティックスを認識するステップと、を含む、
ことを特徴とするセマンティックス認識方法。
前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第１のモダリティデータと前記第２のモダリティデータとの間のターゲット共有セマンティックスを認識するステップは、
前記関連セマンティックス表現に基づいて前記第１のセマンティックス表現を処理して、第１のターゲットセマンティックス表現を得るステップと、
前記関連セマンティックス表現に基づいて前記第２のセマンティックス表現を処理して、第２のターゲットセマンティックス表現を得るステップと、
前記第１のターゲットセマンティックス表現、前記第２のターゲットセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第１のモダリティデータと前記第２のモダリティデータとの間のターゲット共有セマンティックスを認識するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記関連セマンティックス表現に基づいて前記第１のセマンティックス表現を処理して、第１のターゲットセマンティックス表現を得るステップは、
前記関連セマンティックス表現と前記第１のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた前記第１のセマンティックス表現を前記第１のターゲットセマンティックス表現とするステップを含み、
前記関連セマンティックス表現に基づいて前記第２のセマンティックス表現を処理して、第２のターゲットセマンティックス表現を得るステップは、
前記関連セマンティックス表現と前記第２のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた前記第２のセマンティックス表現を前記第２のターゲットセマンティックス表現とするステップを含む、
ことを特徴とする請求項２に記載の方法。
第１のモダリティは画像モダリティであり、
前記第１のモダリティデータの第１のセマンティックス表現を決定するステップは、
前記第１のモダリティデータを分割して、複数の画像ブロックを得るステップであって、前記複数の画像ブロックがそれぞれ、複数の画像ピクセル情報を含むステップと、
前記複数の画像ピクセル情報に対してそれぞれセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得るステップと、
前記複数の画像ブロックセマンティックス表現を前記第１のセマンティックス表現とするステップと、を含む、
ことを特徴とする請求項１に記載の方法。
第２のモダリティはテキストモダリティであり、
前記第２のモダリティデータの第２のセマンティックス表現を決定するステップは、
前記第２のモダリティデータを分割して、複数のテキストシンボルを得るステップと、
前記複数のテキストシンボルに対してそれぞれセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得るステップと、
前記複数のテキストセマンティックス表現を前記第２のセマンティックス表現とするステップと、を含む、
ことを特徴とする請求項４に記載の方法。
前記第１のセマンティックス表現と前記第２のセマンティックス表現との間の関連セマンティックス表現を決定するステップは、
前記第１のセマンティックス表現と前記第２のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定するステップと、
前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得るステップと、を含む、
ことを特徴とする請求項５に記載の方法。
前記第１のセマンティックス表現と前記第２のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定するステップは、
前記第１のセマンティックス表現と前記第２のセマンティックス表現との間のクラスタリングディスクリプション情報を決定するステップと、
前記クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現をグラウンドセマンティックス辞書から決定して初期グラウンドセマンティックス表現とするステップと、を含み、
前記グラウンドセマンティックス辞書が、前記クラスタリングディスクリプション情報、及び前記クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を含む、
ことを特徴とする請求項６に記載の方法。
前記第１のセマンティックス表現と前記第２のセマンティックス表現との間のクラスタリングディスクリプション情報を決定するステップは、
ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、前記類似度情報を前記クラスタリングディスクリプション情報とするステップを含み、
前記ターゲット画像ブロックセマンティックス表現は前記複数の画像ブロックセマンティックス表現に属し、前記ターゲットテキストセマンティックス表現は前記複数のテキストセマンティックス表現に属し、前記ターゲット画像ブロックセマンティックス表現と前記ターゲットテキストセマンティックス表現は、クラスタリングして得られた同じデータカテゴリに属す、
ことを特徴とする請求項７に記載の方法。
前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得るステップは、
前記類似度情報に基づいて、融合重み情報を決定するステップと、
前記融合重み情報に基づいて前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得るステップと、を含む、
ことを特徴とする請求項８に記載の方法。
セマンティックス認識装置であって、
第１のモダリティデータと第２のモダリティデータを取得する取得モジュールと、
前記第１のモダリティデータの第１のセマンティックス表現を決定し、前記第２のモダリティデータの第２のセマンティックス表現を決定する第１の決定モジュールと、
前記第１のセマンティックス表現と前記第２のセマンティックス表現との間の関連セマンティックス表現を決定する第２の決定モジュールと、
前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第１のモダリティデータと前記第２のモダリティデータとの間のターゲット共有セマンティックスを認識する認識モジュールと、を含む、
ことを特徴とするセマンティックス認識装置。
前記認識モジュールは、
前記関連セマンティックス表現に基づいて前記第１のセマンティックス表現を処理して、第１のターゲットセマンティックス表現を得る第１の処理サブモジュールと、
前記関連セマンティックス表現に基づいて前記第２のセマンティックス表現を処理して、第２のターゲットセマンティックス表現を得る第２の処理サブモジュールと、
前記第１のターゲットセマンティックス表現、前記第２のターゲットセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第１のモダリティデータと前記第２のモダリティデータとの間のターゲット共有セマンティックスを認識する認識サブモジュールと、を含む、
ことを特徴とする請求項１０に記載の装置。
前記第１の処理サブモジュールは具体的に、
前記関連セマンティックス表現と前記第１のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた前記第１のセマンティックス表現を前記第１のターゲットセマンティックス表現とし、
前記第２の処理サブモジュールは、具体的に、
前記関連セマンティックス表現と前記第２のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた前記第２のセマンティックス表現を前記第２のターゲットセマンティックス表現とする、
ことを特徴とする請求項１１に記載の装置。
第１のモダリティは画像モダリティであり、
前記第１の決定モジュールは具体的に、
前記第１のモダリティデータを分割して、複数の画像ブロックを得て、前記複数の画像ブロックがそれぞれ、複数の画像ピクセル情報を含み、
前記複数の画像ピクセル情報に対してそれぞれセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、
前記複数の画像ブロックセマンティックス表現を前記第１のセマンティックス表現とする、
ことを特徴とする請求項１０に記載の装置。
第２のモダリティはテキストモダリティであり、
前記第１の決定モジュールは、さらに、
前記第２のモダリティデータを分割して、複数のテキストシンボルを得て、
前記複数のテキストシンボルに対してそれぞれセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、
前記複数のテキストセマンティックス表現を前記第２のセマンティックス表現とする、
ことを特徴とする請求項１３に記載の装置。
前記第２の決定モジュールは、
前記第１のセマンティックス表現と前記第２のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定する決定サブモジュールと、
前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得る符号化サブモジュールと、を含む、
ことを特徴とする請求項１４に記載の装置。
前記決定サブモジュールは、具体的に、
前記第１のセマンティックス表現と前記第２のセマンティックス表現との間のクラスタリングディスクリプション情報を決定し、
前記クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現をグラウンドセマンティックス辞書から決定して初期グラウンドセマンティックス表現とし、
前記グラウンドセマンティックス辞書が、前記クラスタリングディスクリプション情報、及び前記クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を含む、
ことを特徴とする請求項１５に記載の装置。
前記決定サブモジュールは、さらに
ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、前記類似度情報を前記クラスタリングディスクリプション情報とし、
前記ターゲット画像ブロックセマンティックス表現は前記複数の画像ブロックセマンティックス表現に属し、前記ターゲットテキストセマンティックス表現は前記複数のテキストセマンティックス表現に属し、前記ターゲット画像ブロックセマンティックス表現と前記ターゲットテキストセマンティックス表現は、クラスタリングして得られた同じデータカテゴリに属す、
ことを特徴とする請求項１６に記載の装置。
前記符号化サブモジュールは、具体的に、
前記類似度情報に基づいて、融合重み情報を決定し、
前記融合重み情報に基づいて前記第１のセマンティックス表現、前記第２のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得る、
ことを特徴とする請求項１７に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～９のいずれか一項に記載の方法を実行するために、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～９のいずれか一項に記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムはプロセッサによって実行されると、請求項１～９のいずれか一項に記載の方法のステップを実現する、
ことを特徴とするコンピュータプログラム。