JP2023002690A - セマンティックス認識方法、装置、電子機器及び記憶媒体 - Google Patents
セマンティックス認識方法、装置、電子機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2023002690A JP2023002690A JP2022168159A JP2022168159A JP2023002690A JP 2023002690 A JP2023002690 A JP 2023002690A JP 2022168159 A JP2022168159 A JP 2022168159A JP 2022168159 A JP2022168159 A JP 2022168159A JP 2023002690 A JP2023002690 A JP 2023002690A
- Authority
- JP
- Japan
- Prior art keywords
- semantic representation
- semantic
- representation
- target
- semantics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/321—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority
- H04L9/3213—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority using tickets or tokens, e.g. Kerberos
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】セマンティックス認識方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、第1のモダリティデータと第2のモダリティデータを取得し、第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定し、さらに第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定し、第1のセマンティックス表現、第2のセマンティックス表現及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する。【効果】関連セマンティックス表現に基づいて、第1のセマンティックス表現と第2のセマンティックス表現に対して細粒度の関連融合を行うことを実現する。【選択図】図1
Description
本開示は、コンピュータ技術の分野に関し、具体的に、深層学習、自然言語処理などの人工知能技術の分野に関し、特にセマンティックス認識方法、装置、電子機器及び記憶媒体に関する。
人工知能は、コンピュータに、人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術とがある。人工知能ハードウェア技術は一般に、センサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主に、コンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
関連技術では、セマンティックス認識によって得られたセマンティックス表現は汎用性と汎化性に欠けており、セマンティックス認識の効果がよくない。
本開示は、セマンティックス認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
本開示の第1の態様によれば、セマンティックス認識方法を提供し、当該セマンティックス認識方法は、第1のモダリティデータと第2のモダリティデータを取得するステップと、前記第1のモダリティデータの第1のセマンティックス表現を決定し、前記第2のモダリティデータの第2のセマンティックス表現を決定するステップと、前記第1のセマンティックス表現と前記第2のセマンティックス表現との間の関連セマンティックス表現を決定するステップと、前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第1のモダリティデータと前記第2のモダリティデータとの間のターゲット共有セマンティックスを認識するステップと、を含む。
本開示の第2の態様によれば、セマンティックス認識装置を提供し、当該セマンティックス認識装置は、第1のモダリティデータと第2のモダリティデータを取得する取得モジュールと、前記第1のモダリティデータの第1のセマンティックス表現を決定し、前記第2のモダリティデータの第2のセマンティックス表現を決定する第1の決定モジュールと、前記第1のセマンティックス表現と前記第2のセマンティックス表現との間の関連セマンティックス表現を決定する第2の決定モジュールと、前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第1のモダリティデータと前記第2のモダリティデータとの間のターゲット共有セマンティックスを認識する認識モジュールと、を含む。
本開示の第3の態様によれば、電子機器を提供し、当該電子機器は、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、命令は、少なくとも1つのプロセッサが本開示の第1の態様に記載のセマンティックス認識方法を実行するために、少なくとも1つのプロセッサによって実行される。
本開示の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに本開示の第1の態様に記載のセマンティックス認識方法を実行させる。
本開示の第5の態様によれば、コンピュータプログラムを提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の第1の態様に記載のセマンティックス認識方法を実現する。
なお、発明の概要に記載の内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第1の実施例に係る概略図である。
本開示の第2の実施例に係る概略図である。
本開示の第3の実施例に係る概略図である。
本開示の実施例に係る画像テキストペアデータのセマンティックス認識方法の概略フローチャートである。
本開示の実施例に係るテキストデータ又は画像データのセマンティックス認識方法のフローチャートである。
本開示の実施例に係るグラウンドセマンティックス融合エンコーダの概略構成図である。
本開示の第4の実施例に係る概略図である。
本開示の第5の実施例に係る概略図である。
本開示の実施例のセマンティックス認識方法を実行するための例示的な電子機器の概略ブロック図である。
以下、図面と併せて本開示の例示的な実施例を説明するが、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれているが、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
図1は、本開示の第1の実施例に係る概略図である。
なお、本実施例のセマンティックス認識方法の実行主体はセマンティックス認識装置であり、当該装置は、ソフトウェア及び/又はハードウェアによって実現することができ、端末、サーバなどを含むがこれらに限定されない電子機器で構成されてもよい。
本開示の実施例は、深層学習、自然言語処理などの人工知能技術の分野に関する。
人工知能(Artificial Intelligence)は、英語でAIと略す。これは人間の知能を模擬、延長、拡張するための理論、方法、技術及び応用システムを研究、開発するための新しい技術科学である。
深層学習はサンプルデータの内的な規則と表現レベルを学習するものであり、これらの学習プロセスで得られた情報は文字、画像、及び音声などのデータの解釈に大きいに役立つ。その最終的な目標は機械に人間のように分析学習能力を持たせ、文字、画像、及び音声などのデータを認識できるようにさせることである。
自然言語処理は、人間言語(中国語、英語など)をコンピュータで処理、理解、運用するものであり、コンピュータ科学と言語学の交差学科であり、通常は計算言語学と呼ばれる。自然言語は人間が他の動物と区別する根本的な標識であり、言語がないと、人間の思考が不可能であるため、自然言語処理は人工知能の最高タスクと境界を体現している。つまり、コンピュータが自然言語を処理する能力を備える時にこそ、マシンは本当の知能を実現する。
なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。
図1に示すように、当該セマンティックス認識方法は、以下のステップS101~S104を含む。
S101:第1のモダリティデータと第2のモダリティデータを取得する。
本開示の実施例で説明されるセマンティックス認識方法は、複数のデータのセマンティックス認識をサポートすることができ、このデータは、具体的に、例えば、テキストデータ、画像データ、画像テキストペアデータなどであってもよく、それに応じて、複数種類のデータは、それぞれ異なるモダリティ、例えば、画像モダリティ、テキストモダリティ、音声モダリティなどを有することができ、これらに対して限定しない。
第1のモダリティデータに対応するモダリティと第2のモダリティデータに対応するモダリティとは同じであってよく、異なってもよく、これに対して限定しない。
すなわち、第1のモダリティデータと第2のモダリティデータを取得することは、同じモダリティを有するデータを取得するものであってもよく、異なるモダリティを有する第1のモダリティデータと第2のモダリティデータを取得するものであってもよく、これに対して限定しない。
例えば、第1のモダリティデータを取得することは、カメラを用いて画像データを収集して第1のモダリティデータとすることであってもよく、第1のモダリティデータは画像モダリティに対応することができ、さらにテキスト収集装置を用いてテキストデータを収集して第2のモダリティデータとすることができ、第2のモダリティデータはテキストモダリティに対応することができ、これに対して限定しない。
いくつかの実施例では、カメラを用いて画像モダリティを有する画像データを収集し、テキスト収集装置を用いてテキストモダリティを有するテキストデータを収集した後、収集して得られたテキストデータと画像データに対してアラインメント処理を行って、アラインメント処理後の第1のモダリティデータと第2のモダリティデータを得ることもでき、当該アラインメント処理後の第1のモダリティデータと第2のモダリティデータは画像テキストペアデータと呼ぶことができ、これに対して限定しない。
S102:第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定する。
セマンティックス表現は、モダリティデータに対応するセマンティックス情報を説明することができ、当該セマンティックス表現は、データのコンテンツセマンティックス表現、コンテキストセマンティックス表現、データのキーワードセマンティックス表現などであってもよく、具体的に、例えば、データの画像データに対応する画像特徴、テキストデータに対応するテキスト特徴などであってもよく、これに対して限定しない。
第1のモダリティデータに対応するセマンティックス表現は、第1のセマンティックス表現と呼ぶことができ、それに応じて、第2のモダリティデータに対応するセマンティックス表現は、第2のセマンティックス表現と呼ぶこともでき、第1のセマンティックス表現と第2のセマンティックス表現とは、同じであってもよく、異なってもよく、これに対して限定しない。
いくつかの実施例では、第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定することは、第1のモダリティデータと第2のモダリティデータを、それぞれ予めトレーニングされた畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)に入力して、CNNネットワークから出力された第1のモダリティデータに対応する第1のセマンティックス表現と、第2のモダリティデータに対応する第2のセマンティックス表現を得ることができ、これに対して限定しない。
あるいは、第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定することは、特徴抽出アルゴリズムでそれぞれ第1のモダリティデータと第2のモダリティデータに対して特徴抽出を行って、第1のモダリティデータに対応する特徴を得て、当該特徴を第1のセマンティックス表現とし、そして第2のモダリティデータに対応する特徴を得て、当該特徴を第2のセマンティックス表現とすることであってもよく、これに対して限定しない。
S103:第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定する。
第1のセマンティックス表現と第2のセマンティックス表現との間にいくつかの関連するセマンティックス表現があってもよく、当該セマンティックス表現は関連セマンティックス表現と呼ぶことができ、当該関連セマンティックス表現は、第1のセマンティックス表現と第2のセマンティックス表現との間のコンテンツに関連するセマンティックス表現であってもよく、第1のセマンティックス表現と第2のセマンティックス表現との間のコンテキストに関連するセマンティックス表現であってもよく、具体的に、例えば、第1のセマンティックス表現と第2のセマンティックス表現との間の同じセマンティックス表現であってもよく、また、例えば、第1のセマンティックス表現と第2のセマンティックス表現との間の類似度が設定条件を満たすセマンティックス表現であってもよく、これに対して限定しない。
すなわち、第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定することは、第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定した後、第1のセマンティックス表現と第2のセマンティックス表現との間の類似度を決定し、類似度が設定条件を満たすセマンティックス表現を、第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現とすることができる。
例えば、第1のセマンティックス表現と第2のセマンティックス表現との間の類似度に対して対応する類似度閾値を予め設定し、第1のセマンティックス表現と第2のセマンティックス表現との間の類似度を決定し、類似度が類似度閾値より大きい場合、第1のセマンティックス表現と第2のセマンティックス表現を共に第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現とすることができ、これに対して限定しない。
あるいは、第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定することは、第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定した後、第1のセマンティックス表現と第2のセマンティックス表現に対して分割処理を行って、第1のセマンティックス表現と第2のセマンティックス表現にそれぞれ対応する複数のセマンティックス表現を得て、その後、第1のセマンティックス表現に対応する複数のセマンティックス表現と、第2のセマンティックス表現に対応する複数のセマンティックス表現との間の同じ複数のセマンティックス表現を関連セマンティックス表現として決定することであってもよく、これに対して限定しない。
例えば、{今日は晴れ、所々風が強い}という第1のセマンティックス表現を得た後、第1のセマンティックス表現を{「今日は晴れ」と「所々風が強い」}に分割し、第2のセマンティックス表現{今日は晴れ、気温は摂氏12度}を、{「今日は晴れ」と「気温は摂氏12度」}に分割すると仮定すると、その後、上記をそれぞれ分割して得られた、第1のセマンティックス表現と第2のセマンティックス表現に対応する複数のセマンティックス表現の間で、同じセマンティックス表現{今日は晴れ}を、第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現とすることができ、これに対して限定しない。
S104:第1のセマンティックス表現、第2のセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する。
第1のモダリティデータと第2のモダリティデータは、いくつかの同じセマンティックスを有することができ、当該セマンティックスはターゲット共有セマンティックスと呼ぶことができる。
例えば、第1のモダリティデータ(例えば、画像データ)が「誕生日ケーキの上で、ろうそくが燃えている」ことを記述し、第2のモダリティデータ(例えば、テキストデータ)が「誕生日ケーキがおいしい」ことを記述していると仮定すると、第1のモダリティデータと第2のモダリティデータソース間の同じセマンティックスである「誕生日ケーキ」をターゲット共有セマンティックスとすることができ、これに対して限定しない。
いくつかの実施例では、第1のセマンティックス表現、第2のセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識することは、関連セマンティックス表現に基づいて第1のセマンティックス表現と第2のセマンティックス表現に対して融合処理を行って、融合処理後のセマンティックス表現を得て、前記得られたセマンティックス表現を予めトレーニングされたセマンティックスデコーダに入力して、セマンティックスデコーダから出力されたセマンティックス情報を得て、当該セマンティックス情報を第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスとすることができ、あるいは、他の任意の可能な方式で、第1のセマンティックス表現、第2のセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識することを実現することができ、例えば、モデル予測の方式、特徴解析の方式など、これに対して限定しない。
本実施例では、第1のモダリティデータと第2のモダリティデータを取得し、第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定し、さらに第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定し、第1のセマンティックス表現、第2のセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識し、関連セマンティックス表現に基づいて、第1のセマンティックス表現と第2のセマンティックス表現に対して細粒度の関連融合を行うことを実現し、これにより、認識してより正確で豊富なクロスモダリティセマンティックス表現を得ることができ、これにより、セマンティックス表現の汎用性と汎化性を効果的に向上させ、セマンティックス認識効果を効果的に向上させる。
図2は、本開示の第2の実施例に係る概略図である。
図2に示すように、当該セマンティックス認識方法は、以下のステップS201~S204を含む。
S201:第1のモダリティデータと第2のモダリティデータを取得する。
S202:第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定する。
S203:第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定する。
S201~S203の説明は、具体的に、上記の実施例を参照することができ、ここでは説明を省略する。
S204:関連セマンティックス表現に基づいて第1のセマンティックス表現を処理して、第1のターゲットセマンティックス表現を得る。
本開示の実施例第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定した後、関連セマンティックス表現に基づいて第1のセマンティックス表現を処理して、対応するセマンティックス表現を得ることができ、当該セマンティックス表現は第1のターゲットセマンティックス表現と呼ぶことができる。
いくつかの実施例では、関連セマンティックス表現に基づいて第1のセマンティックス表現を処理することは、関連セマンティックス表現と第1のセマンティックス表現に対してスプライス処理を行い、該スプライス処理を行って得られたセマンティックス表現を第1のターゲットセマンティックス表現とすることができ、あるいは、関連セマンティックス表現と第1のセマンティックス表現に対してマッチング処理を行い、関連セマンティックス表現にマッチングするセマンティックス表現を第1のターゲットセマンティックス表現とすることもできる。
もちろん、他の任意の可能な方式で、関連セマンティックス表現に基づいて第1のセマンティックス表現を処理して、第1のターゲットセマンティックス表現を得ることを実現することもでき、これに対して限定しない。
選択的に、いくつかの実施例では、関連セマンティックス表現に基づいて第1のセマンティックス表現を処理して、第1のターゲットセマンティックス表現を得ることは、関連セマンティックス表現と第1のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第1のセマンティックス表現を第1のターゲットセマンティックス表現とすることができる。
すなわち、本開示の実施例では、第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定した後、関連セマンティックス表現と第1のセマンティックス表現に対してアラインメント処理を行い、該アラインメント処理を行って得られた第1のセマンティックス表現を第1のターゲットセマンティックス表現とすることができ、関連セマンティックス表現と第1のセマンティックス表現に対してアラインメント処理を行うため、これによって第1のセマンティックス表現を関連セマンティックス表現空間に統一することを実現することができ、第1のターゲットセマンティックス表現がより多くの関連セマンティックス表現情報を学習することができ、第1のターゲットセマンティックス表現の汎用性を効果的に向上させることができ、それによって、後続のセマンティックス認識方法の実行プロセスにおいて、第1のターゲットセマンティックス表現に基づいて、セマンティックス表現の融合プロセスの実行を便利にすることができる。
例えば、関連セマンティックス表現と第1のセマンティックス表現に対してアラインメント処理を行い、関連セマンティックス表現ベクトルと第1のセマンティックス表現ベクトルを決定し、その後、関連セマンティックス表現ベクトルと第1のセマンティックス表現ベクトルに対してアラインメント処理を行って、アラインメント処理後の表現ベクトルを得て、当該表現ベクトルを第1のターゲットセマンティックス表現とすることができ、これに対して限定しない。
S205:関連セマンティックス表現に基づいて第2のセマンティックス表現を処理して、第2のターゲットセマンティックス表現を得る。
本開示の実施例は、第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定した後、関連セマンティックス表現に基づいて第2のセマンティックス表現を処理して、対応するセマンティックス表現を得ることができ、当該セマンティックス表現は、第2のターゲットセマンティックス表現と呼ぶことができる。
いくつかの実施例では、関連セマンティックス表現に基づいて第2のセマンティックス表現を処理し、関連セマンティックス表現と第2のセマンティックス表現に対してスプライス処理を行い、該スプライス処理を行って得られたセマンティックス表現を第2のターゲットセマンティックス表現とし、あるいは、関連セマンティックス表現と第2のセマンティックス表現に対してマッチング処理を行い、関連セマンティックス表現にマッチングするセマンティックス表現を第2のターゲットセマンティックス表現とすることもできる。
もちろん、他の任意の可能な方式で、関連セマンティックス表現に基づいて第2のセマンティックス表現を処理して、第2のターゲットセマンティックス表現を得ることを実現することもでき、これに対して限定しない。
選択的に、いくつかの実施例では、関連セマンティックス表現に基づいて第2のセマンティックス表現を処理して、第2のターゲットセマンティックス表現を得ることは、関連セマンティックス表現と第2のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第2のセマンティックス表現を第2のターゲットセマンティックス表現とすることであってもよい。
すなわち、本開示の実施例では、第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定した後、関連セマンティックス表現と第2のセマンティックス表現に対してアラインメント処理を行い、該アラインメント処理を行って得られた第2のセマンティックス表現を第2のターゲットセマンティックス表現とすることができ、関連セマンティックス表現と第2のセマンティックス表現に対してアラインメント処理を行うため、これによって第2のセマンティックス表現を関連セマンティックス表現空間に統一することを実現することができ、第2のターゲットセマンティックス表現がより多くの関連セマンティックス表現情報を学習することができ、第2のターゲットセマンティックス表現の汎用性を効果的に向上させることができ、これによって、後続のセマンティックス認識方法の実行プロセスにおいて、第2のターゲットセマンティックス表現に基づいて、セマンティックス表現の融合プロセスの実行を便利にすることができる。
例えば、関連セマンティックス表現と第2のセマンティックス表現に対してアラインメント処理を行うことは、関連セマンティックス表現ベクトルと第2のセマンティックス表現ベクトルを決定し、その後、関連セマンティックス表現ベクトルと第2のセマンティックス表現ベクトルに対してアラインメント処理を行って、アラインメント処理後の表現ベクトルを得て、当該表現ベクトルを第2のターゲットセマンティックス表現とすることであってもよく、これに対して限定しない。
S206:第1のターゲットセマンティックス表現、第2のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する。
本開示の実施例は、第1のターゲットセマンティックス表現、第2のターゲットセマンティックス表現及び関連セマンティックス表現を決定した後、第1のターゲットセマンティックス表現、第2のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識することができ、関連セマンティックス表現に基づいて第1のセマンティックス表現と第2のセマンティックス表現をそれぞれ処理するため、第1のセマンティックス表現と第2のセマンティックス表現を関連セマンティックス表現区間に統一することを実現し、よりロバストな第1のターゲットセマンティックス表現と第2のターゲットセマンティックス表現を得ることができ、これによって第1のターゲットセマンティックス表現、第2のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて、第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する際、ターゲット共有セマンティックスの認識効果を効果的に向上させることができる。
本実施例では、第1のモダリティデータと第2のモダリティデータを取得し、第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定し、さらに第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定し、関連セマンティックス表現に基づいて第1のセマンティックス表現を処理して、第1のターゲットセマンティックス表現を得て、これによって第1のセマンティックス表現を関連セマンティックス表現空間に統一することを実現することができ、第1のターゲットセマンティックス表現がより多くの関連セマンティックス表現情報を学習することができ、これにより、第1のターゲットセマンティックス表現の汎用性を効果的に向上させることができ、それによって、後続のセマンティックス認識方法の実行プロセスにおいて、第1のターゲットセマンティックス表現に基づいて、セマンティックス表現の融合プロセスの実行を便利にすることができ、関連セマンティックス表現に基づいて第2のセマンティックス表現を処理して、第2のターゲットセマンティックス表現を得て、これによって第2のセマンティックス表現を関連セマンティックス表現空間に統一することを実現することができ、第2のターゲットセマンティックス表現がより多くの関連セマンティックス表現情報を学習することができ、第2のターゲットセマンティックス表現の汎用性を効果的に向上させることができ、それによって、後続のセマンティックス認識方法の実行プロセスにおいて、第2のターゲットセマンティックス表現に基づいて、セマンティックス表現の融合プロセスの実行を便利にすることができ、さらに第1のターゲットセマンティックス表現、第2のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識し、第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する際、ターゲット共有セマンティックスの認識効果を効果的に向上させる。
図3は、本開示の第3の実施例に係る概略図である。
図3に示すように、当該セマンティックス認識方法は、S301~S306を含む。
S301:第1のモダリティデータと第2のモダリティデータを取得する。
S301の説明は上記の実施例を参照することができ、ここでは説明を省略する。
S302:第1のモダリティデータの第1のセマンティックス表現を決定する。
選択的に、いくつかの実施例では、第1のモダリティデータの第1のセマンティックス表現を決定することは、第1のモダリティデータを分割して、複数の画像ブロックを得ることであってもよく、複数の画像ブロックがそれぞれ複数の画像ピクセル情報を含み、複数の画像ピクセル情報に対してそれぞれセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、複数の画像ブロックセマンティックス表現を第1のセマンティックス表現とし、第1のモダリティデータに対して分割処理を行うため、データ量の大きい第1のモダリティデータを、より細粒度の画像ブロックに分割することを実現することができ、これによって、画像ブロックに対応する画像ピクセル情報に対してセマンティックス符号化処理を行う際、1回のセマンティックス符号化処理のデータ処理量を効果的に低減することができ、さらに、セマンティックス符号化処理の効率を効果的に向上させ、第1のモダリティデータのセマンティックス符号化効果を効果的に向上させ、第1のセマンティックス表現の精度と参照性を効果的に向上させることができる。
本開示の実施例では、第1のモダリティは、具体的に、例えば、画像モダリティであってもよく、それに応じて、第1のモダリティデータは、具体的に、例えば、画像データであってもよい。
本開示の実施例では、画像データに対して分割処理を行って、画像データを複数の画像ブロックに分割することができ、複数の画像ブロックは、それぞれ複数のピクセルを有することができ、複数の画像ブロックに対応する複数の画像ピクセルを説明するために使用される情報は、画像ピクセル情報と呼ぶことができる。
複数の画像ブロックは対応するセマンティックス表現をそれぞれ有することができ、当該セマンティックス表現は画像ブロックセマンティックス表現と呼ぶことができ、当該画像ブロックセマンティックス表現はコンテキストに関連する画像ブロックセマンティックスを説明することができ、これに対して限定しない。
本開示の実施例は、第1のモダリティデータを分割し、複数の画像ブロックを得た後、それぞれ複数の画像ブロックに対応する複数の画像ピクセル情報に対してセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、複数の画像ブロックセマンティックス表現を第1のセマンティックス表現とすることができる。
例えば、複数の画像ブロックセマンティックス表現を決定することは、第1のモダリティデータVに対して、それをV1、V2、V3、…、Vnなどの複数の画像ブロックに分割することであってもよく、複数の画像ブロックは対応する複数の画像ピクセルv1,…,vnをそれぞれ有することができ、その後、複数の画像ピクセル情報をシーケンスV={[CLS],v1,…,vn}(特殊シンボル[CLS]はシーケンスVの開始シンボルを表す)の形態で予めトレーニングされた視覚エンコーダ(Visual Transformer)に入力することができ、視覚エンコーダの多層の注意メカニズムは、複数の画像ブロックに対応する複数の画像ピクセル情報に対してセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、複数の画像ブロックセマンティックス表現を第1のセマンティックス表現とすることができ、これに対して限定しない。
S303:第2のモダリティデータの第2のセマンティックス表現を決定する。
選択的に、いくつかの実施例では、第2のモダリティデータの第2のセマンティックス表現を決定することは、第2のモダリティデータを分割して、複数のテキストシンボルを得て、複数のテキストシンボルに対してそれぞれセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、複数のテキストセマンティックス表現を第2のセマンティックス表現とすることであってもよく、第2のモダリティデータに対して分割処理を行うため、データ量の大きい第1のモダリティデータを、より細粒度のテキストシンボルに分割することを実現することができ、これによってテキストシンボルに対してセマンティックス符号化処理を行う際、1回のテキストセマンティックス符号化処理のテキストデータ処理量を効果的に低減することができ、さらにセマンティックス符号化処理の効率を効果的に向上させ、第2のモダリティデータのセマンティックス符号化効果を効果的に向上させ、第2のセマンティックス表現の精度と参照性を効果的に向上させることができる。
本開示の実施例では、第2のモダリティは、具体的に、例えば、テキストモダリティであってよく、それに応じて、第2のモダリティデータは具体的に、例えば、テキストデータであってもよく、当該テキストデータは、具体的に、例えば、英語テキストデータ、又は中国語テキストデータであってもよく、これに対して限定しない。
本開示の実施例では、テキストデータに対して分割処理を行って、テキストデータを複数のテキストシンボルに分割することができ、複数のテキストシンボルは、具体的に、例えば、中国語テキストデータ中の単語、漢字であってもよく、又は、例えば、英語テキストデータ中のアルファベット、単語などであってもよく、これに対して限定しない。
例えば、第2のモダリティデータを分割して、複数のテキストシンボルを得ることは、テキスト「私はリンゴを食べるのが好き」を「私」、「好き」、「食べる」、「リンゴ」に分割し、該分割して得られた「私」、「好き」、「食べる」、「リンゴ」を複数のテキストシンボルとすることであってもよい。
複数のテキストシンボルは対応するセマンティックス表現をそれぞれ有することができ、当該セマンティックス表現は、テキストセマンティックス表現と呼ばれることができ、当該テキストセマンティックス表現は、コンテキストに関連するテキストセマンティックスを説明することができ、これに対して限定しない。
本開示の実施例は、第2のモダリティデータを分割し、複数のテキストシンボルを得た後、それぞれ複数のテキストシンボルに対してセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、複数のテキストセマンティックス表現を第2のセマンティックス表現とすることができる。
例えば、複数のテキストセマンティックス表現を決定することは、第2のモダリティデータWに対して、それをt1,…,tmなどの複数のテキストシンボルに分割することができ、その後、複数のテキストシンボルをシーケンスW={[CLS],t1,…,tm}(特殊シンボル[CLS]はシーケンスWの開始シンボルを表す)の形態で予めトレーニングされたテキストエンコーダ(Text Transformer)に入力することができ、テキストエンコーダの多層の注意メカニズムは複数のテキストシンボルに対してセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、複数のテキストセマンティックス表現を第2のセマンティックス表現とすることができ、これに対して限定しない。
S304:第1のセマンティックス表現と第2のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定する。
本開示の実施例では、第1のセマンティックス表現と第2のセマンティックス表現をセマンティックスレベルで統一するために、共有のグラウンドセマンティックス辞書(Grounded Dictionary)を構築することができ、辞書中の各グラウンドセマンティックス表現(grounded token)は、第1のモダリティデータレベルと第2のモダリティデータセマンティックスレベルとの共有セマンティックス表現であってもよく、すなわち第1のセマンティックス表現と第2のセマンティックス表現に対応するグラウンドセマンティックス表現(grounded token)が存在することができ、当該グラウンドセマンティックス辞書は、初期グラウンドセマンティックス表現と呼ばれることができる。
いくつかの実施例では、第1のセマンティックス表現と第2のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定することは、第1のセマンティックス表現と第2のセマンティックス表現に対して解析処理を行って、対応するグラウンドセマンティックス識別子を得ることができ、その後、グラウンドセマンティックス識別子に基づいてグラウンドセマンティックス辞書の中から、認識して当該グラウンドセマンティックス識別子に対応するグラウンドセマンティックス表現を得て、当該グラウンドセマンティックス表現を初期グラウンドセマンティックス表現とすることができ、これに対して限定しない。
別のいくつかの実施例では、第1のセマンティックス表現と第2のセマンティックス表現に基づいて、初期グラウンドセマンティックスを決定することは、第1のセマンティックス表現に対応する複数の画像ブロックセマンティックス表現及び第2のセマンティックス表現に対応する複数のテキストセマンティックス表現に対して、クラスタリング計算処理を行って、第1のセマンティックス表現及び/又は第2のセマンティックス表現に対応する初期グラウンドセマンティックス表現シーケンスG={g1,…,gk}を得ることであってもよい。
選択的に、いくつかの実施例では、第1のセマンティックス表現と第2のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定することは、第1のセマンティックス表現と第2のセマンティックス表現との間のクラスタリングディスクリプション情報を決定し、クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現をグラウンドセマンティックス辞書の中から決定して初期グラウンドセマンティックス表現とすることであってもよく、グラウンドセマンティックス辞書に合わせて初期グラウンドセマンティックス表現を決定するため、セマンティックス認識方法が画像テキストペアデータに限定されず、すなわちグラウンドセマンティックス辞書に基づいて、画像データ、テキストデータなどアラインメント処理されていない画像テキストペアデータを実現して、連合セマンティックス表現を学習することができ、これによって大規模なアラインメント処理されていないものは有効に利用することができ、これによってデータの可用性を効果的に向上させ、セマンティックス認識方法の適用性を効果的に向上させ、また、クラスタリングディスクリプション情報に合わせて、グラウンドセマンティックス辞書の中から初期グラウンドセマンティックス表現を決定するため、初期グラウンドセマンティックス表現の決定効率を効果的に向上させ、グラウンドセマンティックス表現の精度を効果的に向上させることができる。
グラウンドセマンティックス辞書は、さらに、クラスタリングディスクリプション情報、及びクラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を含む。
本開示の実施例では、第1のセマンティックス表現と第2のセマンティックス表現のクラスタリング処理をサポートすることができ、対応するクラスタリング結果を得て、それに応じて、前記クラスタリング結果を説明するための情報は、クラスタリングディスクリプション情報と呼ばれることができ、当該クラスタリングディスクリプション情報は、具体的に、例えば、クラスタリング識別子情報、クラスタリング結果情報などであってもよく、これに対して限定しない。
選択的に、いくつかの実施例では、第1のセマンティックス表現と第2のセマンティックス表現との間のクラスタリングディスクリプション情報を決定することは、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、類似度情報をクラスタリングディスクリプション情報とすることであってもよく、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、類似度情報をクラスタリングディスクリプション情報とするため、クラスタリングディスクリプション情報の精度を効果的に向上させることができ、これによって、クラスタリングディスクリプション情報に基づいて後続のセマンティックス認識方法を実行する場合、クラスタリングディスクリプション情報はより高い参照価値を有することができる。
ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度を説明するための情報は、類似度情報と呼ばれることができ、当該類似度情報は、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度であってもよく、具体的に、例えば、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間のユークリッド距離、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間のベクトルコサインなどであってもよく、これに対して限定しない。
ターゲット画像ブロックセマンティックス表現は複数の画像ブロックセマンティックス表現に属し、ターゲットテキストセマンティックス表現は複数のテキストセマンティックス表現に属し、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現はクラスタリングして得られた同じデータカテゴリに属する。
すなわち、本開示の実施例では、第1のセマンティックス表現と第2のセマンティックス表現との間の類似度を決定することができ、例えば、第1のセマンティックス表現と第2のセマンティックス表現との間のユークリッド距離を決定し、さらに前記決定されたユークリッド距離をターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報とすることができ、又は、第1のセマンティックス表現と第2のセマンティックス表現との間のベクトルコサインを決定し、前記決定されたベクトルコサインをターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報とし、類似度情報をクラスタリングディスクリプション情報とすることもでき、これに対して限定しない。
本開示の実施例は、第1のセマンティックス表現と第2のセマンティックス表現との間のクラスタリングディスクリプション情報を決定した後、グラウンドセマンティックス辞書の中から当該クラスタリングディスクリプション情報にマッチングするクラスタリングディスクリプション情報を決定し、その後、グラウンドセマンティックス辞書中の当該クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を、初期グラウンドセマンティックス表現とすることができ、これに対して限定しない。
S305:第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る。
本開示の実施例は、初期グラウンドセマンティックス表現を決定した後、第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることができ、第1のセマンティックス表現、第2のセマンティックス表現及び初期グラウンドセマンティックス表現に対して融合符号化処理を行って、関連セマンティックス表現を得るため、第1のセマンティックス表現と第2のセマンティックス表現の初期グラウンドセマンティックス表現区間でのアラインメントを実現することができ、初期グラウンドセマンティックス表現区間は、セマンティックス表現において異なるモダリティデータ間のセマンティックス情報を優先的に関連付けることができ、これによって関連セマンティックス表現の汎用性と参照性を効果的に向上させることができる。
本開示の実施例では、第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることは、第1のセマンティックス表現、第2のセマンティックス表現及び初期グラウンドセマンティックス表現を共に予めトレーニングされたエンコーダに入力し、エンコーダによって第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行い、関連セマンティックス表現を出力することであってもよい。
例えば、図4は、本開示の実施例に係る画像テキストペアデータのセマンティックス認識方法の概略フローチャートである。図4に示すように、画像テキストペアデータのうちの画像データを視覚エンコーダに入力して、第1のセマンティックス表現を得て、テキストデータをテキストエンコーダに入力して、第2のセマンティックス表現を得て、その後、第1のセマンティックス表現、第2のセマンティックス表現及びグラウンドセマンティックス辞書中の初期グラウンドセマンティックス表現を、共に予めトレーニングされたグラウンドセマンティックス融合エンコーダに入力して、関連セマンティックス表現を得ることができる。
図5は、本開示の実施例に係るテキストデータ又は画像データのセマンティックス認識方法のフローチャートである。図5に示すように、画像データを視覚エンコーダに入力して、第1のセマンティックス表現を得て、その後、第1のセマンティックス表現とグラウンドセマンティックス辞書の中の初期グラウンドセマンティックス表現を、共に予めトレーニングされたグラウンドセマンティックス融合エンコーダに入力して、画像データに対応する関連セマンティックス表現を得ることができ、また、テキストデータをテキストエンコーダに入力して、第2のセマンティックス表現を得ることもでき、その後、第2のセマンティックス表現とグラウンドセマンティックス辞書の中の初期グラウンドセマンティックス表現を、共に予めトレーニングされたグラウンドセマンティックス融合エンコーダに入力して、テキストデータに対応する関連セマンティックス表現を得ることができる。
選択的に、いくつかの実施例では、第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることは、類似度情報に基づいて、融合重み情報を決定し、融合重み情報に基づいて第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることができる。
本開示の実施例では、類似度情報は、第1のモダリティデータと第2のモダリティデータとの間のセマンティックス関連性の度合いを説明することができ、第1のモダリティデータと第2のモダリティデータとの間のセマンティックス関連性の度合いが異なり、強い相関もあれば、弱い相関もあり、相関がないものさえもあるため、異なるセマンティックス関連性の度合いは異なるセマンティックス融合性の度合いに適合することができ、異なるモダリティデータに対する適応学習モダリティ間のセマンティックス相互作用のために、第1のモダリティデータと第2のモダリティデータとの間のセマンティックス関連性の度合いに基づいて、第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現の融合重み(当該融合重みは融合重み情報と呼ばれることができる)を決定することができ、対応する重みに基づいて第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行うことを支援して、関連セマンティックス表現を得る。
本開示の実施例では、類似度情報に基づいて融合重み情報を決定し、類似度情報は異なるモダリティデータ間のセマンティックス関連性の度合いを特徴づけることができるため、類似度情報に基づいて、融合重み情報を決定する際、異なるモダリティデータ間のセマンティックス関連性の度合いに基づいて、異なるセマンティックス表現間の融合度合いを制御することを実現することができ、融合度合いの基準の未達成と融合度合いの過剰による問題を効果的に回避し、セマンティックス表現融合符号化プロセスの順調な実行を確保し、同セマンティックス表現間の融合符号化効果を効果的に向上させる。
図6は、本開示の実施例に係るグラウンドセマンティックス融合エンコーダの概略構成図である。本開示の実施例では、図6に示すように、第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る際、類似度情報に基づいて、融合重み情報を決定し、融合重み情報に基づいて初期グラウンドセマンティックス表現を架け橋として、第1のセマンティックス表現、第2のセマンティックス表現に対して相互融合符号化を行って、関連セマンティックス表現を得ることができる。
S306:第1のセマンティックス表現、第2のセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する。
S306の説明は、具体的に、上記の実施例を参照することができ、ここでは説明を省略する。
本実施例では、第1のモダリティデータと第2のモダリティデータを取得し、第1のモダリティデータの第1のセマンティックス表現を決定し、さらに第2のモダリティデータの第2のセマンティックス表現を決定し、さらに第1のセマンティックス表現と第2のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定し、第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得ることにより、第1のセマンティックス表現と第2のセマンティックス表現の初期グラウンドセマンティックス表現区間でのアラインメントを実現することができ、初期グラウンドセマンティックス表現区間は、セマンティックス表現において異なるモダリティデータ間のセマンティックス情報を優先的に関連付けることができ、これによって関連セマンティックス表現の汎用性と参照性を効果的に向上させ、関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識し、これによってセマンティックス認識効果を効果的に向上させることができる。
図7は、本開示の第4の実施例に係る概略図である。
図7に示すように、当該セマンティックス認識装置70は、
第1のモダリティデータと第2のモダリティデータを取得する取得モジュール701と、
第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定する第1の決定モジュール702と、
第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定する第2の決定モジュール703と、
第1のセマンティックス表現、第2のセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する認識モジュール704と、を含む。
第1のモダリティデータと第2のモダリティデータを取得する取得モジュール701と、
第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定する第1の決定モジュール702と、
第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定する第2の決定モジュール703と、
第1のセマンティックス表現、第2のセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する認識モジュール704と、を含む。
図8は本開示の第5の実施例に係る概略図である。本開示のいくつかの実施例では、図8に示すように、セマンティックス認識装置80は、取得モジュール801、第1の決定モジュール802、第2の決定モジュール803、認識モジュール804を含み、認識モジュール804は、
関連セマンティックス表現に基づいて第1のセマンティックス表現を処理して、第1のターゲットセマンティックス表現を得る第1の処理サブモジュール8041と、
関連セマンティックス表現に基づいて第2のセマンティックス表現を処理して、第2のターゲットセマンティックス表現を得る第2の処理サブモジュール8042と、
第1のターゲットセマンティックス表現、第2のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する認識サブモジュール8043と、を含む。
関連セマンティックス表現に基づいて第1のセマンティックス表現を処理して、第1のターゲットセマンティックス表現を得る第1の処理サブモジュール8041と、
関連セマンティックス表現に基づいて第2のセマンティックス表現を処理して、第2のターゲットセマンティックス表現を得る第2の処理サブモジュール8042と、
第1のターゲットセマンティックス表現、第2のターゲットセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識する認識サブモジュール8043と、を含む。
本開示のいくつかの実施例では、第1の処理サブモジュール8041は、具体的に、
関連セマンティックス表現と第1のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第1のセマンティックス表現を第1のターゲットセマンティックス表現とすることができる。
関連セマンティックス表現と第1のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第1のセマンティックス表現を第1のターゲットセマンティックス表現とすることができる。
第2の処理サブモジュールは、具体的に、
関連セマンティックス表現と第2のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第2のセマンティックス表現を第2のターゲットセマンティックス表現とする。
関連セマンティックス表現と第2のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた第2のセマンティックス表現を第2のターゲットセマンティックス表現とする。
本開示のいくつかの実施例では、第1のモダリティは画像モダリティであり、
第1の決定モジュール802は、具体的に、
第1のモダリティデータを分割して、複数の画像ブロックを得て、複数の画像ブロックがそれぞれ複数の画像ピクセル情報を含み、
複数の画像ピクセル情報に対してそれぞれセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、
複数の画像ブロックセマンティックス表現を第1のセマンティックス表現とする。
第1の決定モジュール802は、具体的に、
第1のモダリティデータを分割して、複数の画像ブロックを得て、複数の画像ブロックがそれぞれ複数の画像ピクセル情報を含み、
複数の画像ピクセル情報に対してそれぞれセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、
複数の画像ブロックセマンティックス表現を第1のセマンティックス表現とする。
本開示のいくつかの実施例では、第2のモダリティはテキストモダリティであり、
第1の決定モジュール802は、さらに、
第2のモダリティデータを分割して、複数のテキストシンボルを得て、
複数のテキストシンボルに対してそれぞれセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、
複数のテキストセマンティックス表現を第2のセマンティックス表現とする。
第1の決定モジュール802は、さらに、
第2のモダリティデータを分割して、複数のテキストシンボルを得て、
複数のテキストシンボルに対してそれぞれセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、
複数のテキストセマンティックス表現を第2のセマンティックス表現とする。
本開示のいくつかの実施例では、第2の決定モジュール803は、
第1のセマンティックス表現と第2のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定する決定サブモジュール8031と、
第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る符号化サブモジュール8032と、を含む。
第1のセマンティックス表現と第2のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定する決定サブモジュール8031と、
第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る符号化サブモジュール8032と、を含む。
本開示のいくつかの実施例では、決定サブモジュール8031は、具体的に、
第1のセマンティックス表現と第2のセマンティックス表現との間のクラスタリングディスクリプション情報を決定し、
クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現をグラウンドセマンティックス辞書から決定して初期グラウンドセマンティックス表現とし、
グラウンドセマンティックス辞書が、クラスタリングディスクリプション情報、及びクラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を含む。
第1のセマンティックス表現と第2のセマンティックス表現との間のクラスタリングディスクリプション情報を決定し、
クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現をグラウンドセマンティックス辞書から決定して初期グラウンドセマンティックス表現とし、
グラウンドセマンティックス辞書が、クラスタリングディスクリプション情報、及びクラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を含む。
本開示のいくつかの実施例では、決定サブモジュール8031は、具体的に、
ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、類似度情報をクラスタリングディスクリプション情報とし、
ターゲット画像ブロックセマンティックス表現は複数の画像ブロックセマンティックス表現に属し、ターゲットテキストセマンティックス表現は複数のテキストセマンティックス表現に属し、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現はクラスタリングして得られた同じデータカテゴリに属する。
ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、類似度情報をクラスタリングディスクリプション情報とし、
ターゲット画像ブロックセマンティックス表現は複数の画像ブロックセマンティックス表現に属し、ターゲットテキストセマンティックス表現は複数のテキストセマンティックス表現に属し、ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現はクラスタリングして得られた同じデータカテゴリに属する。
本開示のいくつかの実施例では、符号化サブモジュール8032は具体的に、
類似度情報に基づいて、融合重み情報を決定し、
融合重み情報に基づいて第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る。
類似度情報に基づいて、融合重み情報を決定し、
融合重み情報に基づいて第1のセマンティックス表現、第2のセマンティックス表現、及び初期グラウンドセマンティックス表現に対して融合符号化を行って、関連セマンティックス表現を得る。
なお、本実施例の図8のセマンティックス認識装置80は上記実施例のセマンティックス認識装置70と同じ機能と構造を有し、取得モジュール801は、上記実施例の取得モジュール701と同じ機能と構造を有し、第1の決定モジュール802は、上記実施例の第1の決定モジュール702と同じ機能と構造を有し、第2の決定モジュール803は上記実施例の第2の決定モジュール703と同じ機能と構造を有し、認識モジュール804は上記実施例の認識モジュール704と同じ機能と構造を有することができる。
なお、前記セマンティックス認識方法の説明は、本実施例のセマンティックス認識装置にも適用されることができる。
本実施例では、第1のモダリティデータと第2のモダリティデータを取得し、第1のモダリティデータの第1のセマンティックス表現を決定し、第2のモダリティデータの第2のセマンティックス表現を決定し、さらに第1のセマンティックス表現と第2のセマンティックス表現との間の関連セマンティックス表現を決定し、第1のセマンティックス表現、第2のセマンティックス表現、及び関連セマンティックス表現に基づいて第1のモダリティデータと第2のモダリティデータとの間のターゲット共有セマンティックスを認識し、関連セマンティックス表現に基づいて、第1のセマンティックス表現と第2のセマンティックス表現に対して細粒度の関連融合を行うことを実現することにより、認識してより正確で豊富なクロスモダリティセマンティックス表現を得ることができ、セマンティックス表現の汎用性と汎化性を効果的に向上させ、セマンティックス認識効果を効果的に向上させる。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラムをさらに提供する。
図9は、本開示の実施例のセマンティックス認識方法を実行するための例示的な電子機器の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は求められる本開示の実現を制限することを意図したものではない。
図9に示すように、電子機器900は、読み取り専用メモリ(ROM)902に記憶されているコンピュータプログラム又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに従って様々な適切な動作及び処理を実行できる計算ユニット901を含む。RAM 903には、電子機器900の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット901、ROM 902、及びRAM 903は、バス904を介して互いに接続されている。バス904には、入力/出力(I/O)インターフェース905も接続されている。
電子機器900の複数のコンポーネントはI/Oインターフェース905に接続され、キーボード、マウスなどの入力ユニット906、各タイプのディスプレイ、スピーカなどの出力ユニット907、磁気ディスク、光ディスクなどの記憶ユニット908、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット909を含む。通信ユニット909は、電子機器900が、インターネットなどのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット901は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット901のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、及びいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット901は、前文に記載された各方法及び処理、例えば、セマンティックス認識方法を実行する。例えば、いくつかの実施例では、セマンティックス認識方法を、記憶ユニット908などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM 902及び/又は通信ユニット909を介して電子機器900にロード及び/又はインストールすることができる。コンピュータプログラムがRAM 903にロードされ、計算ユニット901によって実行される場合、前文に記載されたセマンティックス認識方法の1つ又は複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット901はセマンティックス認識方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
本明細書で上記に記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示のコンテキストでは、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又は上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表すためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、又は、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常は通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」,又は「VPS」と省略する)に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。
Claims (21)
- セマンティックス認識方法であって、
第1のモダリティデータと第2のモダリティデータを取得するステップと、
前記第1のモダリティデータの第1のセマンティックス表現を決定し、前記第2のモダリティデータの第2のセマンティックス表現を決定するステップと、
前記第1のセマンティックス表現と前記第2のセマンティックス表現との間の関連セマンティックス表現を決定するステップと、
前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第1のモダリティデータと前記第2のモダリティデータとの間のターゲット共有セマンティックスを認識するステップと、を含む、
ことを特徴とするセマンティックス認識方法。 - 前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第1のモダリティデータと前記第2のモダリティデータとの間のターゲット共有セマンティックスを認識するステップは、
前記関連セマンティックス表現に基づいて前記第1のセマンティックス表現を処理して、第1のターゲットセマンティックス表現を得るステップと、
前記関連セマンティックス表現に基づいて前記第2のセマンティックス表現を処理して、第2のターゲットセマンティックス表現を得るステップと、
前記第1のターゲットセマンティックス表現、前記第2のターゲットセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第1のモダリティデータと前記第2のモダリティデータとの間のターゲット共有セマンティックスを認識するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記関連セマンティックス表現に基づいて前記第1のセマンティックス表現を処理して、第1のターゲットセマンティックス表現を得るステップは、
前記関連セマンティックス表現と前記第1のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた前記第1のセマンティックス表現を前記第1のターゲットセマンティックス表現とするステップを含み、
前記関連セマンティックス表現に基づいて前記第2のセマンティックス表現を処理して、第2のターゲットセマンティックス表現を得るステップは、
前記関連セマンティックス表現と前記第2のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた前記第2のセマンティックス表現を前記第2のターゲットセマンティックス表現とするステップを含む、
ことを特徴とする請求項2に記載の方法。 - 第1のモダリティは画像モダリティであり、
前記第1のモダリティデータの第1のセマンティックス表現を決定するステップは、
前記第1のモダリティデータを分割して、複数の画像ブロックを得るステップであって、前記複数の画像ブロックがそれぞれ、複数の画像ピクセル情報を含むステップと、
前記複数の画像ピクセル情報に対してそれぞれセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得るステップと、
前記複数の画像ブロックセマンティックス表現を前記第1のセマンティックス表現とするステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 第2のモダリティはテキストモダリティであり、
前記第2のモダリティデータの第2のセマンティックス表現を決定するステップは、
前記第2のモダリティデータを分割して、複数のテキストシンボルを得るステップと、
前記複数のテキストシンボルに対してそれぞれセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得るステップと、
前記複数のテキストセマンティックス表現を前記第2のセマンティックス表現とするステップと、を含む、
ことを特徴とする請求項4に記載の方法。 - 前記第1のセマンティックス表現と前記第2のセマンティックス表現との間の関連セマンティックス表現を決定するステップは、
前記第1のセマンティックス表現と前記第2のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定するステップと、
前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得るステップと、を含む、
ことを特徴とする請求項5に記載の方法。 - 前記第1のセマンティックス表現と前記第2のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定するステップは、
前記第1のセマンティックス表現と前記第2のセマンティックス表現との間のクラスタリングディスクリプション情報を決定するステップと、
前記クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現をグラウンドセマンティックス辞書から決定して初期グラウンドセマンティックス表現とするステップと、を含み、
前記グラウンドセマンティックス辞書が、前記クラスタリングディスクリプション情報、及び前記クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を含む、
ことを特徴とする請求項6に記載の方法。 - 前記第1のセマンティックス表現と前記第2のセマンティックス表現との間のクラスタリングディスクリプション情報を決定するステップは、
ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、前記類似度情報を前記クラスタリングディスクリプション情報とするステップを含み、
前記ターゲット画像ブロックセマンティックス表現は前記複数の画像ブロックセマンティックス表現に属し、前記ターゲットテキストセマンティックス表現は前記複数のテキストセマンティックス表現に属し、前記ターゲット画像ブロックセマンティックス表現と前記ターゲットテキストセマンティックス表現は、クラスタリングして得られた同じデータカテゴリに属す、
ことを特徴とする請求項7に記載の方法。 - 前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得るステップは、
前記類似度情報に基づいて、融合重み情報を決定するステップと、
前記融合重み情報に基づいて前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得るステップと、を含む、
ことを特徴とする請求項8に記載の方法。 - セマンティックス認識装置であって、
第1のモダリティデータと第2のモダリティデータを取得する取得モジュールと、
前記第1のモダリティデータの第1のセマンティックス表現を決定し、前記第2のモダリティデータの第2のセマンティックス表現を決定する第1の決定モジュールと、
前記第1のセマンティックス表現と前記第2のセマンティックス表現との間の関連セマンティックス表現を決定する第2の決定モジュールと、
前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第1のモダリティデータと前記第2のモダリティデータとの間のターゲット共有セマンティックスを認識する認識モジュールと、を含む、
ことを特徴とするセマンティックス認識装置。 - 前記認識モジュールは、
前記関連セマンティックス表現に基づいて前記第1のセマンティックス表現を処理して、第1のターゲットセマンティックス表現を得る第1の処理サブモジュールと、
前記関連セマンティックス表現に基づいて前記第2のセマンティックス表現を処理して、第2のターゲットセマンティックス表現を得る第2の処理サブモジュールと、
前記第1のターゲットセマンティックス表現、前記第2のターゲットセマンティックス表現、及び前記関連セマンティックス表現に基づいて前記第1のモダリティデータと前記第2のモダリティデータとの間のターゲット共有セマンティックスを認識する認識サブモジュールと、を含む、
ことを特徴とする請求項10に記載の装置。 - 前記第1の処理サブモジュールは具体的に、
前記関連セマンティックス表現と前記第1のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた前記第1のセマンティックス表現を前記第1のターゲットセマンティックス表現とし、
前記第2の処理サブモジュールは、具体的に、
前記関連セマンティックス表現と前記第2のセマンティックス表現に対してアラインメント処理を行い、アラインメント処理を行って得られた前記第2のセマンティックス表現を前記第2のターゲットセマンティックス表現とする、
ことを特徴とする請求項11に記載の装置。 - 第1のモダリティは画像モダリティであり、
前記第1の決定モジュールは具体的に、
前記第1のモダリティデータを分割して、複数の画像ブロックを得て、前記複数の画像ブロックがそれぞれ、複数の画像ピクセル情報を含み、
前記複数の画像ピクセル情報に対してそれぞれセマンティックス符号化処理を行って、対応する複数の画像ブロックセマンティックス表現を得て、
前記複数の画像ブロックセマンティックス表現を前記第1のセマンティックス表現とする、
ことを特徴とする請求項10に記載の装置。 - 第2のモダリティはテキストモダリティであり、
前記第1の決定モジュールは、さらに、
前記第2のモダリティデータを分割して、複数のテキストシンボルを得て、
前記複数のテキストシンボルに対してそれぞれセマンティックス符号化処理を行って、対応する複数のテキストセマンティックス表現を得て、
前記複数のテキストセマンティックス表現を前記第2のセマンティックス表現とする、
ことを特徴とする請求項13に記載の装置。 - 前記第2の決定モジュールは、
前記第1のセマンティックス表現と前記第2のセマンティックス表現に基づいて、初期グラウンドセマンティックス表現を決定する決定サブモジュールと、
前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得る符号化サブモジュールと、を含む、
ことを特徴とする請求項14に記載の装置。 - 前記決定サブモジュールは、具体的に、
前記第1のセマンティックス表現と前記第2のセマンティックス表現との間のクラスタリングディスクリプション情報を決定し、
前記クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現をグラウンドセマンティックス辞書から決定して初期グラウンドセマンティックス表現とし、
前記グラウンドセマンティックス辞書が、前記クラスタリングディスクリプション情報、及び前記クラスタリングディスクリプション情報にマッチングするグラウンドセマンティックス表現を含む、
ことを特徴とする請求項15に記載の装置。 - 前記決定サブモジュールは、さらに
ターゲット画像ブロックセマンティックス表現とターゲットテキストセマンティックス表現との間の類似度情報を決定し、前記類似度情報を前記クラスタリングディスクリプション情報とし、
前記ターゲット画像ブロックセマンティックス表現は前記複数の画像ブロックセマンティックス表現に属し、前記ターゲットテキストセマンティックス表現は前記複数のテキストセマンティックス表現に属し、前記ターゲット画像ブロックセマンティックス表現と前記ターゲットテキストセマンティックス表現は、クラスタリングして得られた同じデータカテゴリに属す、
ことを特徴とする請求項16に記載の装置。 - 前記符号化サブモジュールは、具体的に、
前記類似度情報に基づいて、融合重み情報を決定し、
前記融合重み情報に基づいて前記第1のセマンティックス表現、前記第2のセマンティックス表現、及び前記初期グラウンドセマンティックス表現に対して融合符号化を行って、前記関連セマンティックス表現を得る、
ことを特徴とする請求項17に記載の装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~9のいずれか一項に記載の方法を実行するために、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~9のいずれか一項に記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、前記コンピュータプログラムはプロセッサによって実行されると、請求項1~9のいずれか一項に記載の方法のステップを実現する、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111639537.9A CN114417878B (zh) | 2021-12-29 | 2021-12-29 | 语义识别方法、装置、电子设备及存储介质 |
| CN202111639537.9 | 2021-12-29 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2023002690A true JP2023002690A (ja) | 2023-01-10 |
Family
ID=81269208
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022168159A Pending JP2023002690A (ja) | 2021-12-29 | 2022-10-20 | セマンティックス認識方法、装置、電子機器及び記憶媒体 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20230114673A1 (ja) |
| EP (1) | EP4191544A1 (ja) |
| JP (1) | JP2023002690A (ja) |
| CN (1) | CN114417878B (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2025075221A1 (ko) * | 2023-10-05 | 2025-04-10 | 엘지전자 주식회사 | 무선 통신 시스템에서 어텐션 맵에 기초하여 시멘틱 통신을 수행하는 방법 및 장치 |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115062118B (zh) * | 2022-07-26 | 2023-01-31 | 神州医疗科技股份有限公司 | 双通道信息抽取方法、装置、电子设备和介质 |
| CN117113281B (zh) * | 2023-10-20 | 2024-01-26 | 光轮智能(北京)科技有限公司 | 多模态数据的处理方法、设备、智能体和介质 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
| JP2020532017A (ja) * | 2017-10-31 | 2020-11-05 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 画像質問応答方法、装置、システムおよび記憶媒体 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107562812B (zh) * | 2017-08-11 | 2021-01-15 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
| CN108595636A (zh) * | 2018-04-25 | 2018-09-28 | 复旦大学 | 基于深度跨模态相关性学习的手绘草图的图像检索方法 |
| US11074253B2 (en) * | 2018-11-02 | 2021-07-27 | International Business Machines Corporation | Method and system for supporting inductive reasoning queries over multi-modal data from relational databases |
| CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
| EP3896581A1 (en) * | 2020-04-14 | 2021-10-20 | Naver Corporation | Learning to rank with cross-modal graph convolutions |
| CN112560496B (zh) * | 2020-12-09 | 2024-02-02 | 北京百度网讯科技有限公司 | 语义分析模型的训练方法、装置、电子设备及存储介质 |
| CN113033622B (zh) * | 2021-03-05 | 2023-02-03 | 北京百度网讯科技有限公司 | 跨模态检索模型的训练方法、装置、设备和存储介质 |
| CN113360683B (zh) * | 2021-06-30 | 2024-04-19 | 北京百度网讯科技有限公司 | 训练跨模态检索模型的方法以及跨模态检索方法和装置 |
| CN113240056B (zh) * | 2021-07-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 多模态数据联合学习模型训练方法及装置 |
-
2021
- 2021-12-29 CN CN202111639537.9A patent/CN114417878B/zh active Active
-
2022
- 2022-10-20 JP JP2022168159A patent/JP2023002690A/ja active Pending
- 2022-11-24 EP EP22209356.9A patent/EP4191544A1/en not_active Withdrawn
- 2022-11-29 US US18/059,645 patent/US20230114673A1/en active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
| JP2020532017A (ja) * | 2017-10-31 | 2020-11-05 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 画像質問応答方法、装置、システムおよび記憶媒体 |
Non-Patent Citations (2)
| Title |
|---|
| LI, WEI ET AL.: "Visual question answering with attention transfer and a cross-modal gating mechanism", PATTERN RECOGNITION LETTERS [ONLINE], JPN6023046462, 29 February 2020 (2020-02-29), ISSN: 0005339052 * |
| 馬田英雄ほか: "Visual QAのためのニューラルネットアーキテクチャの提案", 第11回データ工学と情報マネジメントに関するフォーラム (第17回日本データベース学会年次大会) [, JPN6023046463, 19 April 2019 (2019-04-19), ISSN: 0005339053 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2025075221A1 (ko) * | 2023-10-05 | 2025-04-10 | 엘지전자 주식회사 | 무선 통신 시스템에서 어텐션 맵에 기초하여 시멘틱 통신을 수행하는 방법 및 장치 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4191544A1 (en) | 2023-06-07 |
| CN114417878B (zh) | 2023-04-18 |
| CN114417878A (zh) | 2022-04-29 |
| US20230114673A1 (en) | 2023-04-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7301922B2 (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
| CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
| JP7413630B2 (ja) | 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体 | |
| US20210312139A1 (en) | Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium | |
| CN112100332B (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
| US10831796B2 (en) | Tone optimization for digital content | |
| CN111639163A (zh) | 问题生成模型的训练方法、问题生成方法及其相关设备 | |
| JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
| US11455335B2 (en) | Image retrieval using interactive natural language dialog | |
| JP2022046759A (ja) | 検索方法、装置、電子機器及び記憶媒体 | |
| CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
| CN113407850B (zh) | 一种虚拟形象的确定和获取方法、装置以及电子设备 | |
| JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
| WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
| JP2023015215A (ja) | テキスト情報の抽出方法、装置、電子機器及び記憶媒体 | |
| US12073299B2 (en) | Systems and methods for using contrastive pre-training to generate text and code embeddings | |
| WO2025020611A1 (zh) | 会话应答方法和装置、电子设备、存储介质 | |
| CN116913278A (zh) | 语音处理方法、装置、设备和存储介质 | |
| CN113360683A (zh) | 训练跨模态检索模型的方法以及跨模态检索方法和装置 | |
| CN117573817B (zh) | 模型训练方法、相关性确定方法、装置、设备及存储介质 | |
| CN111753062B (zh) | 一种会话应答方案确定方法、装置、设备及介质 | |
| CN115114477B (zh) | 一种视频的信息处理方法、装置、计算机设备和存储介质 | |
| CN114861639B (zh) | 提问信息生成方法、装置、电子设备及存储介质 | |
| JP2023025126A (ja) | 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
| JP2024507029A (ja) | ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221020 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231101 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240604 |