FR3148662A1

FR3148662A1 - Method and device for determining depth using a pseudo-stereoscopic vision system.

Info

Publication number: FR3148662A1
Application number: FR2304623A
Authority: FR
Inventors: Hai Li
Original assignee: PSA Automobiles SA
Current assignee: PSA Automobiles SA
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2024-11-15

Abstract

L’invention concerne un procédé et un dispositif de détermination de profondeur par un système de vision monoscopique embarqué dans un véhicule (10) en mouvement, le système de vision monoscopique comprenant un ensemble de caméras d’au moins deux caméras (11, 12) disposées de manière à acquérir chacune une image d’une scène tridimensionnelle selon un point de vue différent. Des données représentatives d’images acquises par les caméras (11, 12) sont reçues, des données représentatives d’un déplacement de la première caméra (11) sont déterminées, les images acquises sont rectifiées, des premières profondeurs sont prédites à partir d’une méthode apprise pour le système monoscopique et des deuxièmes profondeurs sont prédites selon une méthode apprise pour un système pseudo-stéréoscopique utilisant des disparités associées à des pixels déterminées à partir de deux images acquises à deux instant temporels d’acquisition distincts. Figure pour l’abrégé : Figure 1 The invention relates to a method and a device for determining depth by a monoscopic vision system on board a moving vehicle (10), the monoscopic vision system comprising a set of cameras of at least two cameras (11, 12) arranged so as to each acquire an image of a three-dimensional scene from a different point of view. Data representative of images acquired by the cameras (11, 12) are received, data representative of a movement of the first camera (11) are determined, the acquired images are rectified, first depths are predicted from a method learned for the monoscopic system and second depths are predicted according to a method learned for a pseudo-stereoscopic system using disparities associated with pixels determined from two images acquired at two distinct acquisition time instants. Figure for the abstract: Figure 1

Description

Method and device for determining depth using a pseudo-stereoscopic vision system.

La présente invention concerne les procédés et dispositifs de détermination d’une profondeur par système de vision monoscopique embarqué dans un véhicule, par exemple dans un véhicule automobile. La présente invention concerne également un procédé et un dispositif de mesurage d’une telle profondeur. La présente invention concerne également un procédé et un dispositif de contrôle d’un ou plusieurs systèmes ADAS embarqués dans un véhicule à partir de la profondeur déterminée.The present invention relates to methods and devices for determining a depth by means of a monoscopic vision system embedded in a vehicle, for example in a motor vehicle. The present invention also relates to a method and a device for measuring such a depth. The present invention also relates to a method and a device for controlling one or more ADAS systems embedded in a vehicle based on the determined depth.

Technological background

De nombreux véhicules modernes sont équipés de systèmes d’aide à la conduite dits ADAS (de l’anglais « Advanced Driver-Assistance System » ou en français « Système d’aide à la conduite avancé »). De tels systèmes ADAS sont des systèmes de sécurité passifs et actifs conçus pour éliminer la part d'erreur humaine dans la conduite de véhicules de tous types. Les ADAS utilisent des technologies avancées pour assister le conducteur pendant la conduite et améliorer ainsi ses performances. Les ADAS utilisent une combinaison de technologies de capteurs pour percevoir l’environnement autour d’un véhicule, puis fournissent des informations au conducteur ou agissent sur certains systèmes du véhicule.Many modern vehicles are equipped with so-called ADAS (Advanced Driver Assistance System). Such ADAS are passive and active safety systems designed to eliminate human error in the operation of vehicles of all types. ADAS use advanced technologies to assist the driver while driving and thus improve their performance. ADAS use a combination of sensor technologies to perceive the environment around a vehicle and then provide information to the driver or act on certain vehicle systems.

Il existe plusieurs niveaux d’ADAS, tels que les caméras de recul et les capteurs d'angle mort, les systèmes d'alerte de franchissement de ligne, les régulateurs de vitesse adaptatifs ou encore les systèmes de stationnement automatique.There are several levels of ADAS, such as rearview cameras and blind spot sensors, lane departure warning systems, adaptive cruise control and automatic parking systems.

Les ADAS embarqués dans un véhicule sont alimentés par des données obtenues d’un ou plusieurs capteurs embarqués tels que, par exemple, des caméras. Ces caméras permettent notamment de détecter et de situer d’autres usagers de la route ou d’éventuels obstacles présents autour d’un véhicule afin, par exemple :
- d’adapter l’éclairage du véhicule en fonction de la présence d’autres usagers ;
- de réguler de façon automatique la vitesse du véhicule ;
- d’agir sur le système de freinage en cas de risque d’impact avec un objet.ADAS embedded in a vehicle are powered by data obtained from one or more embedded sensors such as, for example, cameras. These cameras make it possible in particular to detect and locate other road users or possible obstacles present around a vehicle in order, for example:
- to adapt the vehicle's lighting depending on the presence of other users;
- to automatically regulate the vehicle speed;
- to act on the braking system in the event of a risk of impact with an object.

De la qualité des données émises par un système de vision dépend donc le bon fonctionnement des périphériques d’aides à la conduite utilisant ces données.The proper functioning of the driving assistance devices using this data therefore depends on the quality of the data emitted by a vision system.

Summary of the present invention

Un objet de la présente invention est de résoudre au moins l’un des problèmes de l’arrière-plan technologique décrit précédemment.An object of the present invention is to solve at least one of the problems of the technological background described above.

Un autre objet de la présente invention est d’améliorer la qualité des données issues de ces systèmes de vision.Another object of the present invention is to improve the quality of the data from these vision systems.

Un autre objet de la présente invention est d’améliorer la sécurité routière.Another object of the present invention is to improve road safety.

Selon un premier aspect, la présente invention concerne un procédé de détermination d’une profondeur par un système de vision monoscopique embarqué dans un véhicule en mouvement, le système de vision monoscopique comprenant une première caméra apte à coopérer avec au moins une deuxième caméra d’un ensemble de caméras d’au moins deux caméras disposées de manière à acquérir chacune une image d’une scène tridimensionnelle selon un point de vue différent,
le procédé étant caractérisé en ce qu’il comprend les étapes suivantes :
- réception de premières et deuxièmes données respectivement représentatives d’une première et deuxième images acquises par la première caméra de l’ensemble de caméras respectivement à un premier instant temporel d’acquisition et à un deuxième instant temporel d’acquisition ;
- détermination de troisièmes données représentatives d’un déplacement de la première caméra entre le premier instant temporel d’acquisition et le deuxième instant temporel d’acquisition en fonction des première et deuxième données ;
- prédiction de premières profondeurs associées à un premier ensemble de pixels de la première image par le système de vision monoscopique à partir d’un premier modèle de prédiction appris et supervisé par un système stéréoscopique composé de la première caméra et de la au moins une deuxième caméra,
les premières profondeurs étant prédites en fonction des premières données ;
- rectification des première et deuxième images en fonction des troisièmes données pour obtenir une première image rectifiée et une deuxième image rectifiée ;
- détermination de valeurs de disparité associées à un deuxième ensemble de pixels de la première image rectifiée correspondant à un ensemble de pixels de la deuxième image rectifiée ; et
- prédiction de deuxièmes profondeurs associées au deuxième ensemble de pixels par un système de vision pseudo-stéréoscopique composé de la première caméra en mouvement à partir d’un deuxième modèle de prédiction appris et supervisé par le système de vision monoscopique,
les deuxièmes profondeurs étant prédites en fonction des valeurs de disparité et en fonction d’une distance séparant des positions de la première caméra au premier instant temporel d’acquisition et au deuxième instant temporel d’acquisition, la distance étant déterminée à partir des troisièmes données.According to a first aspect, the present invention relates to a method for determining a depth by a monoscopic vision system embedded in a moving vehicle, the monoscopic vision system comprising a first camera capable of cooperating with at least one second camera of a set of cameras of at least two cameras arranged so as to each acquire an image of a three-dimensional scene from a different point of view,
the method being characterized in that it comprises the following steps:
- receiving first and second data respectively representative of a first and second image acquired by the first camera of the set of cameras respectively at a first acquisition time instant and at a second acquisition time instant;
- determination of third data representative of a movement of the first camera between the first acquisition time instant and the second acquisition time instant as a function of the first and second data;
- prediction of first depths associated with a first set of pixels of the first image by the monoscopic vision system from a first prediction model learned and supervised by a stereoscopic system composed of the first camera and at least one second camera,
the first depths being predicted based on the first data;
- rectifying the first and second images based on the third data to obtain a first rectified image and a second rectified image;
- determining disparity values associated with a second set of pixels of the first rectified image corresponding to a set of pixels of the second rectified image; and
- prediction of second depths associated with the second set of pixels by a pseudo-stereoscopic vision system composed of the first moving camera from a second prediction model learned and supervised by the monoscopic vision system,
the second depths being predicted as a function of the disparity values and as a function of a distance separating positions of the first camera at the first acquisition time instant and at the second acquisition time instant, the distance being determined from the third data.

Le procédé permet ainsi de calculer la profondeur d’un objet dans la première image vu par le système de vision monoscopique avec la précision métrique du système de vision stéréoscopique.The method thus makes it possible to calculate the depth of an object in the first image seen by the monoscopic vision system with the metric precision of the stereoscopic vision system.

Selon une variante de procédé, une supervision du deuxième modèle de prédiction est obtenu par minimisation d’une fonction de perte définie par la fonction suivante :
avec :
- la deuxième profondeur prédite pour un pixel de la première image, et
- la première profondeur prédite pour un pixel de la première image.According to a method variant, supervision of the second prediction model is obtained by minimizing a loss function defined by the following function:
with :
- the second predicted depth for a pixel of the first image, and
- the first predicted depth for a pixel from the first image.

La supervision du système de vision pseudo-stéréoscopique par le système de vision monoscopique permet ainsi d’obtenir des premières et deuxièmes profondeurs cohérentes.Supervision of the pseudo-stereoscopic vision system by the monoscopic vision system thus makes it possible to obtain coherent first and second depths.

Selon une autre variante, le procédé comprend en outre les étapes de :
- prédiction de troisièmes profondeurs associées à un ensemble de pixels de la deuxième image par le système de vision monoscopique à partir du premier modèle de prédiction,
les troisièmes profondeurs étant prédites en fonction des deuxièmes données ;
- détermination d’un masque d’objets dynamiques associé à la première image et représentatif d’un troisième ensemble de pixels de la première image associés à un objet en mouvement dans la scène tridimensionnelle,
l’apprentissage du deuxième modèle de prédiction étant en outre fonction du masque d’objets dynamiques.According to another variant, the method further comprises the steps of:
- prediction of third depths associated with a set of pixels of the second image by the monoscopic vision system from the first prediction model,
the third depths being predicted based on the second data;
- determination of a dynamic object mask associated with the first image and representative of a third set of pixels of the first image associated with a moving object in the three-dimensional scene,
the learning of the second prediction model being further a function of the dynamic object mask.

L’utilisation du masque d’objets dynamiques pour l’apprentissage du deuxième modèle de prédiction permet ainsi d’exclure des pixels associés à des objets en mouvement durant la phase d’apprentissage.The use of the dynamic object mask for training the second prediction model thus makes it possible to exclude pixels associated with moving objects during the training phase.

Selon une autre variante, le procédé comprend en outre une étape de détermination d’un premier masque de visibilité associé à la première image et représentatif d’un quatrième ensemble de pixels de la première image ayant au moins un pixel correspondant dans la deuxième image à partir des premières et deuxièmes données,
l’apprentissage du deuxième modèle de prédiction étant en outre fonction du premier masque de visibilité.According to another variant, the method further comprises a step of determining a first visibility mask associated with the first image and representative of a fourth set of pixels of the first image having at least one corresponding pixel in the second image from the first and second data,
the learning of the second prediction model being furthermore a function of the first visibility mask.

L’utilisation du premier masque de visibilité pour l’apprentissage du deuxième modèle de prédiction permet ainsi d’exclure des pixels n’ayant pas de pixel correspondant dans la deuxième image durant la phase d’apprentissage.Using the first visibility mask to train the second prediction model thus makes it possible to exclude pixels that do not have a corresponding pixel in the second image during the training phase.

Selon une variante supplémentaire, le procédé comprend en outre les étapes de :
- réception de quatrièmes données représentatives d’une troisième image acquise par la au moins une deuxième caméra au premier instant temporel d’acquisition ;
- prédiction de quatrièmes profondeurs associées à un cinquième ensemble de pixels de la première image par le système de vision stéréoscopique à partir des premières et troisièmes données,
l’apprentissage du premier modèle de prédiction étant en outre fonction des quatrièmes profondeurs.According to a further variant, the method further comprises the steps of:
- reception of fourth data representative of a third image acquired by the at least one second camera at the first time instant of acquisition;
- prediction of fourth depths associated with a fifth set of pixels of the first image by the stereoscopic vision system from the first and third data,
the learning of the first prediction model being further a function of the fourth depths.

La supervision du système de vision monoscopique par le système de vision stéréoscopique permet ainsi d’ajuster les profondeurs calculées par le système de vision monoscopique et d’obtenir la précision métrique du système de vision stéréoscopique pour le système de vision monoscopique.The supervision of the monoscopic vision system by the stereoscopic vision system thus makes it possible to adjust the depths calculated by the monoscopic vision system and to obtain the metric precision of the stereoscopic vision system for the monoscopic vision system.

Selon une autre variante du procédé, une supervision du premier modèle de prédiction est obtenu par minimisation d’une fonction de perte définie par la fonction suivante :
avec :
- la première profondeur prédite pour un pixel de la première image, et
- la quatrième profondeur prédite pour un pixel de la première image.According to another variant of the method, a supervision of the first prediction model is obtained by minimizing a loss function defined by the following function:
with :
- the first predicted depth for a pixel of the first image, and
- the fourth predicted depth for a pixel from the first image.

Selon une variante, le procédé comprend en outre une étape de détermination d’un deuxième masque de visibilité associé à la première image et représentatif d’un sixième ensemble de pixels de la première image ayant au moins un pixel correspondant dans la troisième image à partir des premières et quatrièmes données,
l’apprentissage du premier modèle de prédiction étant en outre fonction du deuxième masque de visibilité.According to a variant, the method further comprises a step of determining a second visibility mask associated with the first image and representative of a sixth set of pixels of the first image having at least one corresponding pixel in the third image from the first and fourth data,
the learning of the first prediction model being furthermore a function of the second visibility mask.

L’utilisation du deuxième masque de visibilité pour l’apprentissage du premier modèle de prédiction permet ainsi d’exclure des valeurs aberrantes de profondeurs prédites par le système de vision stéréoscopique.Using the second visibility mask to train the first prediction model thus makes it possible to exclude aberrant depth values predicted by the stereoscopic vision system.

Selon un deuxième aspect, la présente invention concerne un dispositif de détermination d’une profondeur par un système de vision monoscopique embarqué dans un véhicule, le dispositif comprenant une mémoire associée à au moins un processeur configuré pour la mise en œuvre des étapes du procédé selon le premier aspect de la présente invention.According to a second aspect, the present invention relates to a device for determining a depth by a monoscopic vision system on board a vehicle, the device comprising a memory associated with at least one processor configured for implementing the steps of the method according to the first aspect of the present invention.

Selon un troisième aspect, la présente invention concerne un véhicule, par exemple de type automobile, comprenant un dispositif tel que décrit ci-dessus selon le deuxième aspect de la présente invention.According to a third aspect, the present invention relates to a vehicle, for example of the automobile type, comprising a device as described above according to the second aspect of the present invention.

Selon un quatrième aspect, la présente invention concerne un programme d’ordinateur qui comporte des instructions adaptées pour l’exécution des étapes du procédé selon le premier aspect de la présente invention, ceci notamment lorsque le programme d’ordinateur est exécuté par au moins un processeur.According to a fourth aspect, the present invention relates to a computer program which comprises instructions adapted for the execution of the steps of the method according to the first aspect of the present invention, this in particular when the computer program is executed by at least one processor.

Un tel programme d’ordinateur peut utiliser n’importe quel langage de programmation et être sous la forme d’un code source, d’un code objet, ou d’un code intermédiaire entre un code source et un code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.Such a computer program may use any programming language and may be in the form of source code, object code, or code intermediate between source code and object code, such as in a partially compiled form, or in any other desirable form.

Selon un cinquième aspect, la présente invention concerne un support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur comprenant des instructions pour l’exécution des étapes du procédé selon le premier aspect de la présente invention.According to a fifth aspect, the present invention relates to a computer-readable recording medium on which is recorded a computer program comprising instructions for carrying out the steps of the method according to the first aspect of the present invention.

D’une part, le support d’enregistrement peut être n'importe quel entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une mémoire ROM, un CD-ROM ou une mémoire ROM de type circuit microélectronique, ou encore un moyen d'enregistrement magnétique ou un disque dur.On the one hand, the recording medium may be any entity or device capable of storing the program. For example, the medium may include a storage medium, such as a ROM memory, a CD-ROM or a microelectronic circuit type ROM memory, or a magnetic recording medium or a hard disk.

D'autre part, ce support d’enregistrement peut également être un support transmissible tel qu'un signal électrique ou optique, un tel signal pouvant être acheminé via un câble électrique ou optique, par radio classique ou hertzienne ou par faisceau laser autodirigé ou par d'autres moyens. Le programme d’ordinateur selon la présente invention peut être en particulier téléchargé sur un réseau de type Internet.On the other hand, this recording medium may also be a transmissible medium such as an electrical or optical signal, such a signal being able to be conveyed via an electrical or optical cable, by conventional or hertzian radio or by self-directed laser beam or by other means. The computer program according to the present invention may in particular be downloaded from a network such as the Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme d’ordinateur est incorporé, le circuit intégré étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.Alternatively, the recording medium may be an integrated circuit in which the computer program is incorporated, the integrated circuit being adapted to perform or to be used in performing the method in question.

Brief description of the figures

D’autres caractéristiques et avantages de la présente invention ressortiront de la description des exemples de réalisation particuliers et non limitatifs de la présente invention ci-après, en référence aux figures 1 à 4 annexées, sur lesquelles :Other characteristics and advantages of the present invention will emerge from the description of the particular and non-limiting exemplary embodiments of the present invention below, with reference to the appended figures 1 to 4, in which:

illustre schématiquement un système de vision comprenant un ensemble de caméras d’au moins deux caméras équipant un véhicule, selon un exemple de réalisation particulier et non limitatif de la présente invention ; schematically illustrates a vision system comprising a set of cameras of at least two cameras equipping a vehicle, according to a particular and non-limiting exemplary embodiment of the present invention;

illustre schématiquement un dispositif configuré pour la détermination d’une profondeur par système de vision monoscopique embarqué dans le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention ; schematically illustrates a device configured for the determination of a depth by monoscopic vision system on board the vehicle of the , according to a particular and non-limiting exemplary embodiment of the present invention;

illustre un organigramme des différentes opérations d’un processus de détermination d’une profondeur par système de vision monoscopique embarqué dans le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention ; illustrates a flowchart of the different operations of a process of determining a depth by monoscopic vision system on board the vehicle of the , according to a particular and non-limiting exemplary embodiment of the present invention;

illustre un organigramme des différentes étapes d’un procédé de de détermination d’une profondeur par système de vision monoscopique embarqué dans le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention. illustrates a flowchart of the different stages of a process for determining a depth using a monoscopic vision system on board the vehicle of the , according to a particular and non-limiting exemplary embodiment of the present invention.

Description des exemples de réalisationDescription of examples of implementation

Un procédé et un dispositif de détermination d’une profondeur par système de vision monoscopique embarqué dans un véhicule vont maintenant être décrits dans ce qui va suivre en référence conjointement aux figures 1 à 4. Des mêmes éléments sont identifiés avec des mêmes signes de référence tout au long de la description qui va suivre.A method and a device for determining a depth by means of a monoscopic vision system on board a vehicle will now be described in the following with joint reference to Figures 1 to 4. The same elements are identified with the same reference signs throughout the description which follows.

Selon un exemple particulier et non limitatif de réalisation de la présente invention, un procédé de détermination d’une profondeur par système de vision monoscopique embarqué dans un véhicule est par exemple mis en œuvre par un calculateur du système embarqué du véhicule contrôlant ce système de vision.According to a particular and non-limiting example of embodiment of the present invention, a method for determining a depth by a monoscopic vision system on board a vehicle is for example implemented by a computer of the on-board system of the vehicle controlling this vision system.

Le système de vision monoscopique comprend une première caméra apte à coopérer avec au moins une deuxième caméra d’un ensemble de caméras d’au moins deux caméras disposées de manière à acquérir chacune une image d’une scène tridimensionnelle selon un point de vue différent.The monoscopic vision system comprises a first camera capable of cooperating with at least one second camera of a set of cameras of at least two cameras arranged so as to each acquire an image of a three-dimensional scene from a different point of view.

A cet effet, le procédé de détermination d’une profondeur par un système de vision monoscopique embarqué dans un véhicule comprend réception de premières et deuxièmes données respectivement représentatives d’une première et deuxième images acquises par la première caméra de l’ensemble de caméras respectivement à un premier instant temporel d’acquisition et à un deuxième instant temporel d’acquisition, la détermination de troisièmes données représentatives d’un déplacement de la première caméra entre le premier instant temporel d’acquisition et le deuxième instant temporel d’acquisition en fonction des première et deuxième données et la prédiction de premières profondeurs associées à un premier ensemble de pixels de la première image par le système de vision monoscopique à partir d’un premier modèle de prédiction appris et supervisé par un système stéréoscopique composé de la première caméra et de la au moins une deuxième caméra.For this purpose, the method for determining a depth by a monoscopic vision system embedded in a vehicle comprises receiving first and second data respectively representative of a first and second image acquired by the first camera of the set of cameras respectively at a first acquisition time instant and at a second acquisition time instant, determining third data representative of a movement of the first camera between the first acquisition time instant and the second acquisition time instant as a function of the first and second data and predicting first depths associated with a first set of pixels of the first image by the monoscopic vision system from a first prediction model learned and supervised by a stereoscopic system composed of the first camera and the at least one second camera.

Le procédé comprend aussi la rectification des première et deuxième images en fonction des troisièmes données pour obtenir une première image rectifiée et une deuxième image rectifiée, la détermination de valeurs de disparité associées à un deuxième ensemble de pixels de la première image rectifiée correspondant à un ensemble de pixels de la deuxième image rectifiée et la prédiction de deuxièmes profondeurs associées au deuxième ensemble de pixels par un système de vision pseudo-stéréoscopique composé de la première caméra en mouvement à partir d’un deuxième modèle de prédiction appris et supervisé par le système de vision monoscopique, les deuxièmes profondeurs étant prédites en fonction des valeurs de disparité et en fonction d’une distance séparant des positions de la première caméra au premier instant temporel d’acquisition et au deuxième instant temporel d’acquisition, la distance étant déterminée à partir des troisièmes données.The method also comprises rectifying the first and second images based on the third data to obtain a first rectified image and a second rectified image, determining disparity values associated with a second set of pixels of the first rectified image corresponding to a set of pixels of the second rectified image and predicting second depths associated with the second set of pixels by a pseudo-stereoscopic vision system composed of the first moving camera from a second prediction model learned and supervised by the monoscopic vision system, the second depths being predicted based on the disparity values and based on a distance separating positions of the first camera at the first acquisition time instant and at the second acquisition time instant, the distance being determined from the third data.

La illustre schématiquement un système de vision comprenant un ensemble de caméras d’au moins deux caméras équipant un véhicule, selon un exemple de réalisation particulier et non limitatif de la présente invention.There schematically illustrates a vision system comprising a set of cameras of at least two cameras equipping a vehicle, according to a particular and non-limiting exemplary embodiment of the present invention.

Un tel environnement 1 correspond, par exemple, à un environnement routier formé d’un réseau de routes accessibles pour le véhicule 10.Such an environment 1 corresponds, for example, to a road environment formed by a network of roads accessible to the vehicle 10.

Dans cet exemple, le véhicule 10 correspond à un véhicule à moteur thermique, à moteur(s) électrique(s) ou encore un véhicule hybride avec un moteur thermique et un ou plusieurs moteurs électriques. Le véhicule 10 correspond ainsi, par exemple, à un véhicule terrestre tel une automobile, un camion, un car, une moto. Enfin, le véhicule 10 correspond à un véhicule autonome ou non, c’est-à-dire un véhicule circulant selon un niveau d’autonomie déterminé ou sous la supervision totale du conducteur.In this example, the vehicle 10 corresponds to a vehicle with a thermal engine, an electric engine(s) or a hybrid vehicle with a thermal engine and one or more electric engines. The vehicle 10 thus corresponds, for example, to a land vehicle such as an automobile, a truck, a coach, a motorcycle. Finally, the vehicle 10 corresponds to an autonomous vehicle or not, that is to say a vehicle traveling according to a determined level of autonomy or under the total supervision of the driver.

Le véhicule 10 comprend avantageusement plusieurs caméras 11, 12 embarquées, chacune configurée pour acquérir des images d’une scène dans l’environnement du véhicule 10. Cet ensemble de caméras 11, 12 forme un système de vision stéréoscopique. Deux caméras 11 et 12 sont illustrées sur la . La présente invention ne se limite cependant pas à un système de vision comprenant deux caméras mais s’étend à tout système de vision comprenant 2 ou plus caméras, par exemple 2, 3, 4 ou 5 caméras. Chaque caméra 11, 12 forme également un système de vision monoscopique.The vehicle 10 advantageously comprises several on-board cameras 11, 12, each configured to acquire images of a scene in the environment of the vehicle 10. This set of cameras 11, 12 forms a stereoscopic vision system. Two cameras 11 and 12 are illustrated in the . The present invention is however not limited to a vision system comprising two cameras but extends to any vision system comprising 2 or more cameras, for example 2, 3, 4 or 5 cameras. Each camera 11, 12 also forms a monoscopic vision system.

Les deux caméras 11, 12 disposent de paramètres intrinsèques connus. Ces paramètres se composent notamment de :
- la distance focale f1 de la première caméra 11 ;
- la distance focale f2 de la deuxième caméra 12 ;
- les distorsions qui sont dues aux imperfections du système optique de chaque caméra ;
- la direction C1 de l’axe optique de la première caméra 11 ;
- la direction C2 de l’axe optique de la deuxième caméra 12 ; et
- les résolutions respectives des caméras 11, 12.Both cameras 11, 12 have known intrinsic parameters. These parameters consist in particular of:
- the focal length f1 of the first camera 11;
- the focal length f2 of the second camera 12;
- distortions which are due to imperfections in the optical system of each camera;
- the direction C1 of the optical axis of the first camera 11;
- the direction C2 of the optical axis of the second camera 12; and
- the respective resolutions of cameras 11, 12.

Les paramètres intrinsèques caractérisent la transformation qui associe, pour un point image, les coordonnées caméra aux coordonnées pixel, dans chaque caméra. Ces paramètres ne changent pas si l'on déplace la caméra.The intrinsic parameters characterize the transformation that associates, for an image point, the camera coordinates with the pixel coordinates, in each camera. These parameters do not change if the camera is moved.

Les distorsions, qui sont dues aux imperfections du système optique telles que des défauts de forme et de positionnement des lentilles des caméras, vont dévier les faisceaux lumineux et donc induire un écart de positionnement pour le point projeté par rapport à un modèle idéal. Il est possible alors de compléter le modèle de caméra en y introduisant les trois distorsions qui génèrent le plus d’effets, à savoir les distorsions radiales, de décentrage et prismatiques, induites par des défauts de courbure, de parallélisme des lentilles et de coaxialité des axes optiques. Dans cet exemple, les caméras sont supposées parfaites, c’est-à-dire que les distorsions ne sont pas prises en compte ou que leur correction est traitée au moment de l’acquisition d’une image.Distortions, which are due to imperfections in the optical system such as defects in the shape and positioning of camera lenses, will deflect the light beams and therefore induce a positioning deviation for the projected point compared to an ideal model. It is then possible to complete the camera model by introducing the three distortions that generate the most effects, namely radial, decentering and prismatic distortions, induced by defects in curvature, parallelism of the lenses and coaxiality of the optical axes. In this example, the cameras are assumed to be perfect, that is to say that the distortions are not taken into account or that their correction is processed at the time of image acquisition.

Ces deux caméras 11, 12 sont disposées de manière à acquérir chacune une image d’une scène selon un point de vue différent, le premier point de vue est par exemple localisé sur ou dans le rétroviseur gauche du véhicule 10 ou en haut du pare-brise du véhicule 10, le deuxième point de vue est par exemple localisé sur ou dans le rétroviseur droit du véhicule 10 ou en haut du pare-brise du véhicule 10. Dans le cas où les deux caméras sont situées en haut du pare-brise du véhicule, celles-ci sont alors placées à une certaine distance. Dans cet exemple, la première caméra 11 est située en haut du pare-brise du véhicule 10, la deuxième caméra 12 est située dans le rétroviseur droit du véhicule 10.These two cameras 11, 12 are arranged so as to each acquire an image of a scene according to a different point of view, the first point of view is for example located on or in the left rearview mirror of the vehicle 10 or at the top of the windshield of the vehicle 10, the second point of view is for example located on or in the right rearview mirror of the vehicle 10 or at the top of the windshield of the vehicle 10. In the case where the two cameras are located at the top of the windshield of the vehicle, they are then placed at a certain distance. In this example, the first camera 11 is located at the top of the windshield of the vehicle 10, the second camera 12 is located in the right rearview mirror of the vehicle 10.

Un premier repère est associé à la première caméra 11 :
- la direction de l’axe y est définie par la position de la deuxième caméra 12, de manière à placer la deuxième caméra 12 sur l’axe y de la première caméra 11. La distance B séparant les deux caméras 11, 12 est appelée base de référence (en anglais « baseline ») et la direction séparant les deux caméras 11, 12 est celle de l’axe y ;
- la direction de l’axe x est définie orthogonale à celle de l’axe y et orthogonale à celle de l’axe optique C1 de la première caméra 11 ;
- la direction de l’axe z est définie orthogonale aux directions des axes x et y.
Les trois axes x, y et z forment ainsi un repère orthonormé.A first marker is associated with the first camera 11:
- the direction of the y axis is defined by the position of the second camera 12, so as to place the second camera 12 on the y axis of the first camera 11. The distance B separating the two cameras 11, 12 is called the reference base and the direction separating the two cameras 11, 12 is that of the y axis;
- the direction of the x axis is defined orthogonal to that of the y axis and orthogonal to that of the optical axis C1 of the first camera 11;
- the direction of the z axis is defined orthogonal to the directions of the x and y axes.
The three axes x, y and z thus form an orthonormal reference frame.

Les paramètres extrinsèques liés à la position des caméras 11, 12 sont les paramètres suivants :
- 3 translations dans les directions x, y et z : Tx, Ty et Tz constituant le vecteur translation T ; et
- 3 rotations autour des axes x, y et z : Rx, Ry et Rz, constituant la matrice de rotation R.The extrinsic parameters related to the position of cameras 11, 12 are the following parameters:
- 3 translations in the x, y and z directions: Tx, Ty and Tz constituting the translation vector T; and
- 3 rotations around the x, y and z axes: Rx, Ry and Rz, constituting the rotation matrix R.

Déterminer les paramètres extrinsèques constitue le problème de la calibration d'un système de vision stéréoscopique.Determining the extrinsic parameters constitutes the problem of calibrating a stereoscopic vision system.

Une contrainte principale du système de vision stéréoscopique utilisé dans l’automobile est, par exemple, la grande distance entre les deux caméras. En effet, pour pouvoir couvrir une plage de mesure de 200 mètres, le « baseline » doit atteindre 60cm pour les caméras couramment utilisées dans ce domaine.A major constraint of the stereoscopic vision system used in the automobile industry is, for example, the large distance between the two cameras. Indeed, to be able to cover a measuring range of 200 meters, the "baseline" must reach 60cm for the cameras commonly used in this field.

Les deux caméras 11, 12 font l’acquisition d’images d’une scène se situant devant le véhicule 10, la première caméra couvrant seule un premier champ d’acquisition 13, la deuxième caméra couvrant seule un deuxième champ d’acquisition 14 et les deux caméras 11, 12 couvrant toutes deux un troisième champ d’acquisition 15. Les premier et troisième champs d’acquisition 13, 15 permettent ainsi une vision monoscopique de la scène par la première caméra 11, les deuxième et troisième champs d’acquisition 14, 15 permettent une vision monoscopique de la scène par la deuxième caméra 12 et le troisième champ d’acquisition 15 permet une vision stéréoscopique de la scène par le système de vision stéréoscopique composé des deux caméras 11, 12.The two cameras 11, 12 acquire images of a scene located in front of the vehicle 10, the first camera alone covering a first acquisition field 13, the second camera alone covering a second acquisition field 14 and the two cameras 11, 12 both covering a third acquisition field 15. The first and third acquisition fields 13, 15 thus allow a monoscopic vision of the scene by the first camera 11, the second and third acquisition fields 14, 15 allow a monoscopic vision of the scene by the second camera 12 and the third acquisition field 15 allows a stereoscopic vision of the scene by the stereoscopic vision system composed of the two cameras 11, 12.

Un obstacle 18 est placé dans le champ d’acquisition des caméras, par exemple dans le troisième champ d’acquisition 15. La présence de l’obstacle 18 définit un champ d’occlusion pour le système de vision stéréoscopique composé ici des trois champs 16, 17 et 19.An obstacle 18 is placed in the acquisition field of the cameras, for example in the third acquisition field 15. The presence of the obstacle 18 defines an occlusion field for the stereoscopic vision system composed here of the three fields 16, 17 and 19.

Parmi ces trois champs, le champ 16 est visible depuis la deuxième caméra 12. La partie de la scène présente dans ce champ 16 est donc observable à l’aide du système de vision monoscopique composé de la deuxième caméra 12.Among these three fields, field 16 is visible from the second camera 12. The part of the scene present in this field 16 is therefore observable using the monoscopic vision system composed of the second camera 12.

Le champ 17 est quant à lui visible depuis la première caméra 11. La partie de la scène présente dans ce champ 17 est donc observable à l’aide du système de vision monoscopique composé de la deuxième caméra 11.Field 17 is visible from the first camera 11. The part of the scene present in this field 17 is therefore observable using the monoscopic vision system composed of the second camera 11.

Enfin, le champ 19 n’est visible depuis aucune des caméras. La partie de la scène présente dans ce champ 19 n’est donc pas observable.Finally, field 19 is not visible from any of the cameras. The part of the scene present in this field 19 is therefore not observable.

Les directions C1, C2 des axes optiques représentatifs d’une orientation du champ de vision de chaque caméra sont orientées non parallèlement de manière à obtenir le troisième champ d’acquisition 15 de l’environnement 1 le plus large possible.The directions C1, C2 of the optical axes representing an orientation of the field of vision of each camera are oriented non-parallel so as to obtain the third acquisition field 15 of the environment 1 as wide as possible.

Selon une variante, le système de vision est en outre configuré pour prendre des images de scènes situées sur les côtés ou derrière le véhicule 10 à l’aide de caméras placées et orientées différemment.According to one variant, the vision system is further configured to take images of scenes located to the sides or behind the vehicle 10 using differently placed and oriented cameras.

Les images acquises par les caméras 11, 12 à un instant temporel d’acquisition t1 donné se présentent sous la forme de données représentant des pixels caractérisés par :
- des coordonnées dans chaque image ; et
- des données relatives aux couleurs et luminosité des objets de la scène observée sous forme par exemple de coordonnées colorimétriques RGB (de l’anglais « Red Green Blue », en français « Rouge Vert Bleu ») ou TSL (Ton, Saturation, Luminosité).The images acquired by the cameras 11, 12 at a given acquisition time instant t1 are presented in the form of data representing pixels characterized by:
- coordinates in each image; and
- data relating to the colors and brightness of objects in the observed scene in the form, for example, of RGB colorimetric coordinates (from the English “Red Green Blue”) or TSL (Tone, Saturation, Brightness).

Les images acquises par les caméras 11, 12 représentent des vues d’une même scène prises à des points de vue différents, les position des caméras étant distinctes. Sur cette scène se trouvent par exemple :
- des bâtiments ;
- des infrastructures routières ;
- d’autres usagers immobiles, par exemple un véhicule stationné ; et/ou
- d’autres usagers mobiles, par exemple un autre véhicule, un cycliste ou un piéton en mouvement.The images acquired by the cameras 11, 12 represent views of the same scene taken from different viewpoints, the positions of the cameras being distinct. On this scene are for example:
- buildings;
- road infrastructure;
- other stationary users, for example a parked vehicle; and/or
- other mobile users, for example another vehicle, a cyclist or a moving pedestrian.

Ces images sont envoyées à un calculateur d’un dispositif équipant le véhicule 10 ou stockées dans une mémoire d’un dispositif accessible à un calculateur d’un dispositif équipant le véhicule 10.These images are sent to a computer of a device equipping the vehicle 10 or stored in a memory of a device accessible to a computer of a device equipping the vehicle 10.

La illustre schématiquement un dispositif 4 configuré pour la détermination d’une profondeur par un système de vision monoscopique embarqué dans un véhicule 10, selon un exemple de réalisation particulier et non limitatif de la présente invention. Le dispositif 4 correspond par exemple à un dispositif embarqué dans le premier véhicule 10, par exemple un calculateur.There schematically illustrates a device 4 configured for the determination of a depth by a monoscopic vision system embedded in a vehicle 10, according to a particular and non-limiting exemplary embodiment of the present invention. The device 4 corresponds for example to a device embedded in the first vehicle 10, for example a calculator.

Le dispositif 4 est par exemple configuré pour la mise en œuvre des opérations et/ou étapes décrites en regard des figures 1, 3 et 4. Des exemples d’un tel dispositif 4 comprennent, sans y être limités, un équipement électronique embarqué tel qu’un ordinateur de bord d’un véhicule, un calculateur électronique tel qu’une UCE (« Unité de Commande Electronique »), un téléphone intelligent, une tablette, un ordinateur portable. Les éléments du dispositif 4, individuellement ou en combinaison, peuvent être intégrés dans un unique circuit intégré, dans plusieurs circuits intégrés, et/ou dans des composants discrets. Le dispositif 4 peut être réalisé sous la forme de circuits électroniques ou de modules logiciels (ou informatiques) ou encore d’une combinaison de circuits électroniques et de modules logiciels.The device 4 is for example configured for the implementation of the operations and/or steps described with regard to FIGS. 1, 3 and 4. Examples of such a device 4 include, but are not limited to, on-board electronic equipment such as an on-board computer of a vehicle, an electronic calculator such as an ECU (“Electronic Control Unit”), a smartphone, a tablet, a laptop. The elements of the device 4, individually or in combination, can be integrated in a single integrated circuit, in several integrated circuits, and/or in discrete components. The device 4 can be produced in the form of electronic circuits or software (or computer) modules or even a combination of electronic circuits and software modules.

Le dispositif 4 comprend un (ou plusieurs) processeur(s) 40 configurés pour exécuter des instructions pour la réalisation des étapes du procédé et/ou pour l’exécution des instructions du ou des logiciels embarqués dans le dispositif 4. Le processeur 40 peut inclure de la mémoire intégrée, une interface d’entrée/sortie, et différents circuits connus de l’homme du métier. Le dispositif 4 comprend en outre au moins une mémoire 41 correspondant par exemple à une mémoire volatile et/ou non volatile et/ou comprend un dispositif de stockage mémoire qui peut comprendre de la mémoire volatile et/ou non volatile, telle que EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, disque magnétique ou optique.The device 4 comprises one (or more) processor(s) 40 configured to execute instructions for carrying out the steps of the method and/or for executing the instructions of the software(s) embedded in the device 4. The processor 40 may include integrated memory, an input/output interface, and various circuits known to those skilled in the art. The device 4 further comprises at least one memory 41 corresponding for example to a volatile and/or non-volatile memory and/or comprises a memory storage device which may comprise volatile and/or non-volatile memory, such as EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, magnetic or optical disk.

Le code informatique du ou des logiciels embarqués comprenant les instructions à charger et exécuter par le processeur est par exemple stocké sur la mémoire 41.The computer code of the embedded software(s) comprising the instructions to be loaded and executed by the processor is for example stored in memory 41.

Selon différents exemples de réalisation particuliers et non limitatifs, le dispositif 4 est couplé en communication avec d’autres dispositifs ou systèmes similaires (par exemple d’autres calculateurs) et/ou avec des dispositifs de communication, par exemple une TCU (de l’anglais « Telematic Control Unit » ou en français « Unité de Contrôle Télématique »), par exemple par l’intermédiaire d’un bus de communication ou au travers de ports d’entrée / sortie dédiés.According to various particular and non-limiting exemplary embodiments, the device 4 is coupled in communication with other similar devices or systems (for example other computers) and/or with communication devices, for example a TCU (from the English “Telematic Control Unit” or in French “Telematic Control Unit”), for example via a communication bus or through dedicated input/output ports.

Selon un exemple de réalisation particulier et non limitatif, le dispositif 4 comprend un bloc 42 d’éléments d’interface pour communiquer avec des dispositifs externes. Les éléments d’interface du bloc 42 comprennent une ou plusieurs des interfaces suivantes :
- interface radiofréquence RF, par exemple de type Wi-Fi® (selon IEEE 802.11), par exemple dans les bandes de fréquence à 2,4 ou 5 GHz, ou de type Bluetooth® (selon IEEE 802.15.1), dans la bande de fréquence à 2,4 GHz, ou de type Sigfox utilisant une technologie radio UBN (de l’anglais Ultra Narrow Band, en français bande ultra étroite), ou LoRa dans la bande de fréquence 868 MHz, LTE (de l’anglais « Long-Term Evolution » ou en français « Evolution à long terme »), LTE-Advanced (ou en français LTE-avancé) ;
- interface USB (de l’anglais « Universal Serial Bus » ou « Bus Universel en Série » en français) ;
interface HDMI (de l’anglais « High Definition Multimedia Interface », ou « Interface Multimedia Haute Definition » en français) ;
- interface LIN (de l’anglais « Local Interconnect Network », ou en français « Réseau interconnecté local »).According to a particular and non-limiting exemplary embodiment, the device 4 comprises a block 42 of interface elements for communicating with external devices. The interface elements of the block 42 comprise one or more of the following interfaces:
- RF radio frequency interface, for example of the Wi-Fi® type (according to IEEE 802.11), for example in the 2.4 or 5 GHz frequency bands, or of the Bluetooth® type (according to IEEE 802.15.1), in the 2.4 GHz frequency band, or of the Sigfox type using UBN (Ultra Narrow Band) radio technology, or LoRa in the 868 MHz frequency band, LTE (Long-Term Evolution), LTE-Advanced;
- USB interface (from the English “Universal Serial Bus” or “Universal Serial Bus” in French);
HDMI interface (from the English “High Definition Multimedia Interface”);
- LIN interface (from the English “Local Interconnect Network”).

Selon un autre exemple de réalisation particulier et non limitatif, le dispositif 4 comprend une interface de communication 43 qui permet d’établir une communication avec d’autres dispositifs (tels que d’autres calculateurs du système embarqué) via un canal de communication 430. L’interface de communication 43 correspond par exemple à un transmetteur configuré pour transmettre et recevoir des informations et/ou des données via le canal de communication 430. L’interface de communication 43 correspond par exemple à un réseau filaire de type CAN (de l’anglais « Controller Area Network » ou en français « Réseau de contrôleurs »), CAN FD (de l’anglais « Controller Area Network Flexible Data-Rate » ou en français « Réseau de contrôleurs à débit de données flexible »), FlexRay (standardisé par la norme ISO 17458) ou Ethernet (standardisé par la norme ISO/IEC 802-3).According to another particular and non-limiting exemplary embodiment, the device 4 comprises a communication interface 43 which makes it possible to establish communication with other devices (such as other computers of the on-board system) via a communication channel 430. The communication interface 43 corresponds for example to a transmitter configured to transmit and receive information and/or data via the communication channel 430. The communication interface 43 corresponds for example to a wired network of the CAN (Controller Area Network), CAN FD (Controller Area Network Flexible Data-Rate), FlexRay (standardized by the ISO 17458 standard) or Ethernet (standardized by the ISO/IEC 802-3 standard).

Selon un exemple de réalisation particulier et non limitatif, le dispositif 4 peut fournir des signaux de sortie à un ou plusieurs dispositifs externes, tels qu’un écran d’affichage 440, tactile ou non, un ou des haut-parleurs 450 et/ou d’autres périphériques 460 (système de projection) via respectivement les interfaces de sortie 44, 45, 46. Selon une variante, l’un ou l’autre des dispositifs externes est intégré au dispositif 4.According to a particular and non-limiting exemplary embodiment, the device 4 can provide output signals to one or more external devices, such as a display screen 440, touch-sensitive or not, one or more speakers 450 and/or other peripherals 460 (projection system) via the output interfaces 44, 45, 46 respectively. According to a variant, one or other of the external devices is integrated into the device 4.

La illustre un organigramme des différentes opérations d’un processus 2 de détermination d’une profondeur par système de vision monoscopique embarqué dans le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention.There illustrates a flowchart of the different operations of a process 2 for determining a depth by means of a monoscopic vision system on board the vehicle of the , according to a particular and non-limiting exemplary embodiment of the present invention.

Le processus est par exemple mis en œuvre par un ou plusieurs processeurs d’un ou plusieurs calculateurs embarqués dans le véhicule 10, par exemple par un calculateur contrôlant le système de vision monoscopique.The process is for example implemented by one or more processors of one or more computers on board the vehicle 10, for example by a computer controlling the monoscopic vision system.

Dans une première opération 21, le calculateur reçoit des premières données représentatives d’une première image acquise par une première caméra 11 de l’ensemble de caméras à un premier instant temporel d’acquisition t1.In a first operation 21, the calculator receives first data representative of a first image acquired by a first camera 11 of the set of cameras at a first acquisition time instant t1.

Dans une deuxième opération 22, le calculateur reçoit des deuxièmes données représentatives d’une deuxième image acquise par la première caméra 11 de l’ensemble de caméras à un deuxième instant temporel d’acquisition t2, l’instant temporel d’acquisition t2 étant antérieur à l’instant temporel d’acquisition t1.In a second operation 22, the calculator receives second data representative of a second image acquired by the first camera 11 of the set of cameras at a second acquisition time instant t2, the acquisition time instant t2 being prior to the acquisition time instant t1.

Les deux images acquises correspondent à deux vues d’une même scène se déroulant aux alentours du véhicule 10 à deux instants temporels d’acquisition t1 et t2 distincts.The two acquired images correspond to two views of the same scene taking place around vehicle 10 at two distinct acquisition times t1 and t2.

Les points de vue de la première caméra 11 aux deux instants temporels d’acquisition t1 et t2 ne sont pas les mêmes, en effet, la première caméra 11 s’est déplacée entre ces deux instants. Des paramètres extrinsèques liés au déplacement de la première caméras 11 entre ces deux instants sont les paramètres suivants :
- 3 translations dans les directions x, y et z : T’x, T’y et T’z constituant le vecteur translation T’ ; et
- 3 rotations autour des axes x, y et z : R’x, R’y et R’z, constituant la matrice de rotation R’.The viewpoints of the first camera 11 at the two acquisition time instants t1 and t2 are not the same, in fact, the first camera 11 has moved between these two instants. Extrinsic parameters related to the movement of the first camera 11 between these two instants are the following parameters:
- 3 translations in the x, y and z directions: T'x, T'y and T'z constituting the translation vector T'; and
- 3 rotations around the x, y and z axes: R'x, R'y and R'z, constituting the rotation matrix R'.

Dans une troisième opération 23, des troisièmes données représentatives du déplacement de la première caméra 11 entre le premier instant temporel d’acquisition t1 et le deuxième instant temporel d’acquisition t2 sont déterminées en fonction des première et deuxième données. Ces données sont, par exemple, déterminés par un calculateur associé au système de vision monoscopique. La détermination de ces données est connue de l’homme du métier et présentée, par exemple, dans le document Unsupervised Learning of Depth and Ego-Motion from Video de Tinghui Zhou, Matthew Brown, Noah Snavely et David G. Lowe paru le 1^eraoût 2017.In a third operation 23, third data representative of the movement of the first camera 11 between the first acquisition time instant t1 and the second acquisition time instant t2 are determined as a function of the first and second data. These data are, for example, determined by a computer associated with the monoscopic vision system. The determination of these data is known to those skilled in the art and presented, for example, in the document Unsupervised Learning of Depth and Ego-Motion from Video by Tinghui Zhou, Matthew Brown, Noah Snavely and David G. Lowe published on ^August 1, 2017.

Dans une quatrième étape 24, des premières profondeurs associées à un premier ensemble de pixels de la première image sont prédites par le système de vision monoscopique composé de la première caméra 11 à partir d’un premier modèle de prédiction appris par un système stéréoscopique composé de la première caméra 11 et de la deuxième caméra 12.In a fourth step 24, first depths associated with a first set of pixels of the first image are predicted by the monoscopic vision system composed of the first camera 11 from a first prediction model learned by a stereoscopic system composed of the first camera 11 and the second camera 12.

Dans une opération 28, des troisièmes profondeurs associées à un ensemble de pixels de la deuxième image sont prédites par le système de vision monoscopique à partir du premier modèle de prédiction, les troisièmes profondeurs étant prédites en fonction des deuxièmes données.In an operation 28, third depths associated with a set of pixels of the second image are predicted by the monoscopic vision system from the first prediction model, the third depths being predicted based on the second data.

Une méthode de prédiction de profondeur par un système de vision monoscopique est décrite dans le document : HR-Depth : High Resolution Self-Supervised Monocular Depth Estimation de Xiaoyang Lyu, Liang Liu, Mengmeng Wang, Xin Kong,Lina Liu, Yong Liu, Xinxin Chen, et Yi Yuan paru le 14 décembre 2020.A depth prediction method by a monoscopic vision system is described in the paper: HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation by Xiaoyang Lyu, Liang Liu, Mengmeng Wang, Xin Kong, Lina Liu, Yong Liu, Xinxin Chen, and Yi Yuan published on December 14, 2020.

Une telle méthode de prédiction de profondeur est mise en œuvre par un réseau de neurones convolutif. Afin d’améliorer la qualité des données de sortie, c’est-à-dire afin d’améliorer la prédiction des profondeurs par le réseau de neurones convolutif, il convient d’ajuster ses paramètres d’entrée. L’ajustement de ces paramètres d’entrée se fait, par exemple, par un apprentissage effectué via la reconstruction d’une image.Such a depth prediction method is implemented by a convolutional neural network. In order to improve the quality of the output data, i.e. to improve the prediction of depths by the convolutional neural network, its input parameters must be adjusted. The adjustment of these input parameters is done, for example, by learning via the reconstruction of an image.

Une quatrième et une cinquième images sont reconstruites à partir des première et deuxième images, des troisièmes données relatives au déplacement de la première caméra 11 entre les instants temporels d’acquisition t1 et t2 et à partir des premières et troisièmes profondeurs prédites.A fourth and a fifth images are reconstructed from the first and second images, from the third data relating to the movement of the first camera 11 between the acquisition time instants t1 and t2 and from the first and third predicted depths.

Les quatrième et respectivement cinquième images sont reconstruites à l’aide de la formule suivante :The fourth and fifth images respectively are reconstructed using the following formula:

avec :
- une fonction pour passer de coordonnées homogènes à des coordonnées pixels en supprimant une dimension d’un vecteur ;
- une matrice intrinsèque de la caméra 11 associée à la projection d’un point de l’espace aux coordonnées en 3 dimensions dans l’image aux coordonnées en 2 dimensions ;
- une matrice de déplacement entre les positions de la caméra 11 au deuxième instant temporel d’acquisition t2 et au premier instant temporel d’acquisition t1 pour la reconstruction de la quatrième image, respectivement une matrice de déplacement entre les positions de la caméra 11 au premier instant temporel d’acquisition t1 et au deuxième instant temporel d’acquisition t2 pour la reconstruction de la cinquième image ;
- une fonction de rétroprojection dans la scène d’un pixel en fonction de sa profondeur ;
- est une première profondeur du pixel de la première image prédite par le système de vision monoscopique pour la reconstruction de la quatrième image, respectivement une troisième profondeur du pixel de la deuxième image prédite par le système de vision monoscopique pour la reconstruction de la cinquième image.with :
- a function to convert from homogeneous coordinates to pixel coordinates by removing one dimension from a vector;
- an intrinsic matrix of the camera 11 associated with the projection of a point in space at 3-dimensional coordinates into the image at 2-dimensional coordinates;
- a displacement matrix between the positions of the camera 11 at the second acquisition time instant t2 and at the first acquisition time instant t1 for the reconstruction of the fourth image, respectively a displacement matrix between the positions of the camera 11 at the first acquisition time instant t1 and at the second acquisition time instant t2 for the reconstruction of the fifth image;
- a function of backprojection into the scene of a pixel according to its depth;
- is a first depth of the pixel of the first image predicted by the monoscopic vision system for the reconstruction of the fourth image, respectively a third pixel depth of the second image predicted by the monoscopic vision system for the reconstruction of the fifth image.

Une première erreur de reconstruction est déterminée pour chaque pixel de la deuxième image en comparant la deuxième image à la quatrième image.A first reconstruction error is determined for each pixel of the second image by comparing the second image to the fourth image.

De la même manière, une deuxième erreur de reconstruction est déterminée pour chaque pixel de la première image en comparant la première image à la cinquième image.Similarly, a second reconstruction error is determined for each pixel of the first image by comparing the first image to the fifth image.

Les première et respectivement deuxième erreurs sont déterminées par la fonction de perte suivante :The first and second errors respectively are determined by the following loss function:

Avec :
- est une valeur du pixel dans la deuxième image, respectivement la première image ;
- est une valeur du pixel dans l’image reconstruite : la quatrième image, respectivement la cinquième image ;
- SSIM (de l’anglais « structural similarity index measure », en français « mesure de l'indice de similarité structurelle ») est une fonction qui prend en compte une structure locale ; et
- est un facteur de pondération dépendant notamment du type d’environnement.With :
- is a pixel value in the second image, respectively the first image;
- is a pixel value in the reconstructed image: the fourth image, respectively the fifth image ;
- SSIM (from the English "structural similarity index measure") is a function which takes into account a local structure; and
- is a weighting factor depending in particular on the type of environment.

Une troisième erreur de reconstruction est déterminée à partir des première et deuxième erreurs de reconstruction. Cette troisième erreur de reconstruction est définie par la fonction de perte suivante :A third reconstruction error is determined from the first and second reconstruction errors. This third reconstruction error is defined by the following loss function:

avec :
- la première erreur de reconstruction pour un pixel pour un système de vision monoscopique ;
- la deuxième erreur de reconstruction pour un pixel pour un système de vision monoscopique.with :
- the first reconstruction error for a pixel for a monoscopic vision system;
- the second reconstruction error for a pixel for a monoscopic vision system.

Les paramètres d’entrée du réseau de neurones convolutif sont alors ajustés en minimisant la troisième erreur de reconstruction. Le réseau de neurones convolutif est alors dit auto-supervisé car il est en mesure d’ajuster de façon autonome ses paramètres d’entrée afin d’améliorer les données de sortie, ici les premiers et deuxièmes paramètres géométriques.The input parameters of the convolutional neural network are then adjusted by minimizing the third reconstruction error. The convolutional neural network is then said to be self-supervised because it is able to autonomously adjust its input parameters in order to improve the output data, here the first and second geometric parameters.

Pour améliorer l’apprentissage automatique précédemment présenté, un deuxième masque de visibilité associé à la première image est, par exemple, déterminé dans une opération 33. Ce deuxième masque de visibilité est représentatif d’un sixième ensemble de pixels de la première image ayant au moins un pixel correspondant dans la troisième image, celui-ci est déterminé par toute méthode connue de l’homme du métier à partir des première et troisième images.To improve the machine learning previously presented, a second visibility mask associated with the first image is, for example, determined in an operation 33. This second visibility mask is representative of a sixth set of pixels of the first image having at least one corresponding pixel in the third image, this is determined by any method known to those skilled in the art from the first and third images.

Par exemple, un deuxième masque de visibilité associé au sixième ensemble de pixels de la première image est déterminé. Ce deuxième masque de visibilité est obtenu par comparaison respective des première et deuxième erreurs de reconstruction précédemment définies à des valeurs seuil prédéfinies et est obtenu par exemple par la fonction suivante :
[Math 4]
avec :
- une fonction rendant 0 ou 1 ;
- l’union des pixels ;
- la première erreur de reconstruction pour un pixel de la deuxième image pour un système de vision monoscopique ;
- la deuxième erreur de reconstruction pour un pixel de la première image pour un système de vision monoscopique ;
- un opérateur ET ; et
- , et des paramètres déterminés.For example, a second visibility mask associated with the sixth set of pixels of the first image is determined. This second visibility mask is obtained by respective comparison of the first and second reconstruction errors previously defined to predefined threshold values and is obtained for example by the following function:
[Math 4]
with :
- a function returning 0 or 1;
- the union of pixels;
- the first reconstruction error for a pixel of the second image for a monoscopic vision system;
- the second reconstruction error for a pixel of the first image for a monoscopic vision system;
- an AND operator; and
- , And determined parameters.

L’erreur du pixel non visible dans l’image cible, mais visible dans l’image source, doit dépasser un certain niveau défini par la valeur , lorsque l’erreur de la reconstruction de l’autre sens doit être inférieure à un certain niveau défini par la valeur . La différence notable entre et est liée à la maturité de l’entrainement du modèle d’apprentissage.The error of the pixel not visible in the target image, but visible in the source image, must exceed a certain level defined by the value , when the error of the reconstruction of the other direction must be less than a certain level defined by the value . The notable difference between And is related to the maturity of the training of the learning model.

Le symbole ⋃ signifie l’union des pixels, sous condition que le nombre de pixels de cet union soit plus grand que le critère . Par expérience la valeur de est, par exemple, supérieure à 4 pixels. Le symbole l indique le masque de visibilité résulte d’un opérateur logique, soit 1 ou 0.The symbol ⋃ means the union of pixels, provided that the number of pixels in this union is greater than the criterion . From experience the value of is, for example, greater than 4 pixels. The symbol l indicates the visibility mask results from a logical operator, either 1 or 0.

Afin d’améliorer la précision de la prédiction de premières profondeurs pour le système de vision monoscopique, la méthode de prédiction utilisée est supervisée à l’aide de données issues du système de vision stéréoscopique composé de la première caméra 11 et de la deuxième caméra 12.In order to improve the accuracy of the first depth prediction for the monoscopic vision system, the prediction method used is supervised using data from the stereoscopic vision system composed of the first camera 11 and the second camera 12.

La prédiction de la profondeur par le système de vision monoscopique n’est pas d’une précision métrique. Il est donc utile, afin d’améliorer la pertinence des premières profondeurs prédites, de mettre en place un apprentissage automatique supervisé (en anglais « knowledge distillation ») du réseau de neurones convolutif permettant de définir la première profondeur via le système de vision monoscopique.The depth prediction by the monoscopic vision system is not metrically accurate. It is therefore useful, in order to improve the relevance of the first predicted depths, to implement supervised machine learning (in English “knowledge distillation”) of the convolutional neural network allowing to define the first depth via the monoscopic vision system.

Suivant un mode de réalisation, dans une opération 31, le calculateur reçoit des quatrièmes données représentatives d’une troisième image acquise par la deuxième caméra 12 au premier instant temporel d’acquisition t1.According to one embodiment, in an operation 31, the calculator receives fourth data representative of a third image acquired by the second camera 12 at the first acquisition time instant t1.

Les première et troisième images acquises correspondent à deux vues d’une même scène se déroulant aux alentours du véhicule 10 à un même instant temporel d’acquisition t1 depuis des points de vue situés à deux positions distinctes.The first and third images acquired correspond to two views of the same scene taking place around the vehicle 10 at the same acquisition time instant t1 from viewpoints located at two distinct positions.

Ces deux images sont deux images acquises par le système de vision stéréoscopique constitué des deux caméras 11, 12.These two images are two images acquired by the stereoscopic vision system consisting of the two cameras 11, 12.

Dans une opération 32, des quatrièmes profondeurs associées à un cinquième ensemble de pixels de la première image sont prédites par le système de vision stéréoscopique à partir des premières et troisièmes images suivant toute méthode connue de l’homme du métier. L’apprentissage du premier modèle de prédiction est, par exemple, fonction des quatrièmes profondeurs.In an operation 32, fourth depths associated with a fifth set of pixels of the first image are predicted by the stereoscopic vision system from the first and third images according to any method known to those skilled in the art. The training of the first prediction model is, for example, a function of the fourth depths.

Ce calcul est d’une précision métrique, c’est-à-dire que la profondeur mesurée ici est absolue et non relative. Dans le cas où les paramètres extrinsèques du système restent inchangés, ce calcul de profondeur est très précis.This calculation is metrically accurate, meaning that the depth measured here is absolute and not relative. In the case where the extrinsic parameters of the system remain unchanged, this depth calculation is very accurate.

Suivant un exemple de réalisation, le réseau de neurones convolutif permettant de calculer la première profondeur est entraîné sous supervision du système de vision stéréoscopique de manière à minimiser l’erreur de calcul définie par la fonction de perte suivante :According to an exemplary implementation, the convolutional neural network used to calculate the first depth is trained under the supervision of the stereoscopic vision system so as to minimize the calculation error defined by the following loss function:

avec :
- la première profondeur prédite pour un pixel de la première image, et
- la quatrième profondeur prédite pour un pixel de la première image.with :
- the first predicted depth for a pixel of the first image, and
- the fourth predicted depth for a pixel from the first image.

Ainsi, les calculs de premières profondeurs sont affinés, les quatrièmes profondeurs permettant d’obtenir des premières profondeurs prédites par le système de vision monoscopique cohérentes avec des quatrièmes profondeurs prédites par le système de vision stéréoscopique.Thus, the calculations of first depths are refined, the fourth depths making it possible to obtain first depths predicted by the monoscopic vision system consistent with fourth depths predicted by the stereoscopic vision system.

A l’aide des troisièmes données représentatives du déplacement de la première caméra 11 entre le premier instant temporel d’acquisition t1 et le deuxième instant temporel d’acquisition t2 déterminées lors de l’opération 23, la première caméra 11 en mouvement constitue un système de vision pseudo-stéréoscopique dont les paramètres extrinsèques sont définis à l’aide des troisièmes données.Using the third data representative of the movement of the first camera 11 between the first acquisition time instant t1 and the second acquisition time instant t2 determined during operation 23, the first moving camera 11 constitutes a pseudo-stereoscopic vision system whose extrinsic parameters are defined using the third data.

Un système stéréoscopique dispose de données extrinsèques relatives au positionnement de deux caméras : leur orientation relative et la distance séparant les deux caméras, aussi appelée « Baseline » (en français « base de référence »). Pour le système pseudo-stéréoscopique, ces données sont obtenues à partir des troisièmes données, la « base de référence » étant la distance parcourue par la première caméra 11 entre les deux instants temporels d’acquisition t1 et t2.A stereoscopic system has extrinsic data relating to the positioning of two cameras: their relative orientation and the distance separating the two cameras, also called the “baseline”. For the pseudo-stereoscopic system, these data are obtained from the third data, the “baseline” being the distance traveled by the first camera 11 between the two acquisition time instants t1 and t2.

La « base de référence » est déterminée à partir des troisièmes données comme étant la norme du vecteur de translation T’ précédemment défini.The “reference base” is determined from the third data as the norm of the translation vector T’ previously defined.

Afin de faciliter l’analyse des première et deuxième images acquises, les première et deuxième images sont rectifiées dans une opération 25, suivant une méthode connue de l’homme du métier. Une telle méthode est décrite, par exemple, dans « Rectification Projective d’Images Stéréo non Calibrées Infrarouges avec prise en compte globale de la minimisation des distorsions » de Benoit Ducarouge, Thierry Sentenac, Florian Bugarin et Michel Devy du 16 juillet 2009.In order to facilitate the analysis of the first and second acquired images, the first and second images are rectified in an operation 25, according to a method known to those skilled in the art. Such a method is described, for example, in “Projective Rectification of Non-Calibrated Infrared Stereo Images with Global Consideration of Distortion Minimization” by Benoit Ducarouge, Thierry Sentenac, Florian Bugarin and Michel Devy of July 16, 2009.

La méthode de rectification consiste à réorienter les lignes épipolaires pour qu’elles soient parallèles avec l’axe horizontal de l’image. Cette méthode est décrite par une transformation qui projette les épipoles à l’infini et dont les points correspondants sont nécessairement sur une même ordonnée.The rectification method consists of reorienting the epipolar lines so that they are parallel with the horizontal axis of the image. This method is described by a transformation that projects the epipoles to infinity and whose corresponding points are necessarily on the same ordinate.

Un algorithme de rectification consiste, par exemple, en 4 étapes :
- Faire pivoter (virtuellement) la première caméra 11 dans sa position au premier instant temporel d’acquisition t1 pour que l'épipole aille à l'infini le long de l'axe horizontal du repère qui lui est associé;
- Appliquer la même rotation à la première caméra 11 dans sa position à l’instant temporel d’acquisition t2 pour se retrouver dans la configuration géométrique initiale;
- Faire pivoter la première caméra 11 dans sa position à l’instant temporel d’acquisition t2 de la rotation associée à la matrice de rotation ‘R’’, correspondant au paramètre extrinsèque du système de vision pseudo-stéréoscopique ;
- Ajuster l'échelle dans les deux repères caméras.A rectification algorithm consists, for example, of 4 steps:
- Rotate (virtually) the first camera 11 in its position at the first acquisition time instant t1 so that the epipole goes to infinity along the horizontal axis of the reference frame associated with it;
- Apply the same rotation to the first camera 11 in its position at the acquisition time instant t2 to find itself in the initial geometric configuration;
- Rotating the first camera 11 into its position at the acquisition time instant t2 of the rotation associated with the rotation matrix 'R'', corresponding to the extrinsic parameter of the pseudo-stereoscopic vision system;
- Adjust the scale in both camera markers.

La rectification simplifie la mise en correspondance des pixels des images. Le pixel correspondant dans la deuxième image à un pixel de la première image (et réciproquement) est positionné sur la même ligne. A partir de la connaissance de la géométrie épipolaire et donc d’une matrice fondamentale du système de vision pseudo-stéréoscopique, l’objectif est alors de déterminer une paire de transformations projectives, appelée homographies, qui réorientent les projections épipolaires parallèlement aux lignes des images, donc à l’axe horizontal des caméras rectifiées.Rectification simplifies the matching of image pixels. The corresponding pixel in the second image to a pixel in the first image (and vice versa) is positioned on the same line. From the knowledge of the epipolar geometry and therefore of a fundamental matrix of the pseudo-stereoscopic vision system, the objective is then to determine a pair of projective transformations, called homographies, which reorient the epipolar projections parallel to the image lines, therefore to the horizontal axis of the rectified cameras.

L’opération 26 suivante consiste à la détermination de valeurs de disparité associées à un deuxième ensemble de pixels de la première image rectifiée correspondant à un ensemble de pixels de la deuxième image rectifiée.The following operation 26 consists of determining disparity values associated with a second set of pixels of the first rectified image corresponding to a set of pixels of the second rectified image.

La détermination d’un ensemble de pixels dans la deuxième image correspondant à un deuxième ensemble de pixels de la première image, cette opération est appelée « appariement stéréo » (en anglais « feature matching »).Determining which set of pixels in the second image corresponds to a second set of pixels in the first image is called feature matching.

L'appariement stéréo ou l'estimation de la disparité est le processus de recherche des pixels dans les vues stéréoscopiques, ici pseudo-stéréoscopiques, qui correspondent au même point 3D dans la scène tridimensionnelle. La géométrie épipolaire rectifiée simplifie ce processus de recherche de correspondances sur une même ligne épipolaire. Il n'est pas nécessaire de calculer les coordonnées du point 3D pour trouver le pixel correspondant sur la même ligne de l'autre image. La disparité est la distance d entre un pixel et sa correspondance dans l'autre image. Cette disparité est horizontale lorsque les images sont rectifiées, l’horizontalité étant définie suivant une direction x de la première image.Stereo matching or disparity estimation is the process of finding pixels in stereoscopic, here pseudo-stereoscopic, views that correspond to the same 3D point in the three-dimensional scene. Rectified epipolar geometry simplifies this process of finding correspondences on the same epipolar line. It is not necessary to calculate the coordinates of the 3D point to find the corresponding pixel on the same line of the other image. Disparity is the distance d between a pixel and its correspondence in the other image. This disparity is horizontal when the images are rectified, the horizontality being defined along an x direction of the first image.

Les données de sortie de cette opération 26 sont des premières disparités représentatives d’un déplacement entre chaque pixel du deuxième ensemble de pixels de la première image et un pixel correspondant dans la deuxième image.The output data of this operation 26 are first disparities representative of a displacement between each pixel of the second set of pixels of the first image and a corresponding pixel in the second image.

De la même manière, suivant un exemple de réalisation, des deuxièmes disparités sont associées à des pixels de la deuxième image, représentatives d’un déplacement entre chaque pixel de la deuxième image et un pixel correspondant dans le deuxième ensemble de pixels de la première image.Similarly, according to an exemplary embodiment, second disparities are associated with pixels of the second image, representative of a displacement between each pixel of the second image and a corresponding pixel in the second set of pixels of the first image.

Dans une opération 27, une deuxième profondeur associée à des pixels du deuxième ensemble de pixels de la première image est calculée en fonction de premières disparités associées à ces pixels. La deuxième profondeur (« depth » en anglais) associée à un pixel est calculée, par exemple, suivant une formule connue de l’homme du métier :In an operation 27, a second depth associated with pixels of the second set of pixels of the first image is calculated as a function of first disparities associated with these pixels. The second depth associated with a pixel is calculated, for example, according to a formula known to those skilled in the art:

Avec :
- est la profondeur du pixel de la première image ;
- est la distance focale f1 de la première caméra 11 en unité pixel ;
- la distance entre les deux positions de la première caméra 11 aux deux instants temporels d’acquisition t1 et t2 ;
- est la première disparité du pixel en unité pixel, définie comme le déplacement horizontal d’un pixel de la première image à la deuxième image.With :
- is the pixel depth of the first image;
- is the focal length f1 of the first camera 11 in pixel units;
- the distance between the two positions of the first camera 11 at the two acquisition time instants t1 and t2;
- is the first disparity of the pixel in pixel units, defined as the horizontal displacement of one pixel from the first frame to the second frame.

Le modèle de prédiction de profondeur pour le système de vision pseudo-stéréoscopique est alors entraîné. Un apprentissage automatique consiste à reconstruire une sixième et septième images à partir des première et deuxième images, et à partir des premières et deuxièmes disparités.The depth prediction model for the pseudo-stereoscopic vision system is then trained. Machine learning consists of reconstructing a sixth and seventh image from the first and second images, and from the first and second disparities.

Les sixième et respectivement septième images sont reconstruites à l’aide de la formule suivante :The sixth and seventh images respectively are reconstructed using the following formula:

avec :
- l’abscisse d’un pixel de la sixième image, respectivement septième image ;
- l’abscisse d’un pixel de la première image, respectivement deuxième image ; et
- une disparité déterminée pour un pixel de la première image, respectivement deuxième image.with :
- the abscissa of a pixel of the sixth image, respectively seventh image;
- the abscissa of a pixel of the first image, respectively second image; and
- a disparity determined for a pixel of the first image, respectively second image.

Une quatrième erreur de reconstruction est déterminée pour chaque pixel de la deuxième image en comparant la deuxième image à la sixième image.A fourth reconstruction error is determined for each pixel in the second image by comparing the second image to the sixth image.

De la même manière, une cinquième erreur de reconstruction est déterminée pour chaque pixel de la première image en comparant la première image à la septième image.Similarly, a fifth reconstruction error is determined for each pixel of the first image by comparing the first image to the seventh image.

Les quatrième et respectivement cinquième erreurs de reconstruction sont déterminées par la fonction de perte suivante :
[Math 8]
Avec :
- est une valeur du pixel dans la deuxième image, respectivement la première image ;
- est une valeur du pixel dans l’image reconstruite : la sixième image, respectivement la septième image ;
- SSIM (de l’anglais « structural similarity index measure », en français « mesure de l'indice de similarité structurelle ») est une fonction qui prend en compte une structure locale ; et
- est un facteur de pondération dépendant notamment du type d’environnement.The fourth and fifth reconstruction errors respectively are determined by the following loss function:
[Math 8]
With :
- is a pixel value in the second image, respectively the first image;
- is a pixel value in the reconstructed image: the sixth image, respectively the seventh image ;
- SSIM (from the English "structural similarity index measure") is a function which takes into account a local structure; and
- is a weighting factor depending in particular on the type of environment.

Une sixième erreur de reconstruction est déterminée à partir des quatrième et cinquième erreurs de reconstruction. Cette sixième erreur de reconstruction est définie par la fonction de perte suivante :
[Math 9]
avec :
- la quatrième erreur de reconstruction pour un pixel pour un système de vision pseudo-stéréoscopique utilisant une méthode de calcul de disparité ;
- la cinquième erreur de reconstruction pour un pixel pour un système de vision pseudo-stéréoscopique utilisant une méthode de calcul de disparité.A sixth reconstruction error is determined from the fourth and fifth reconstruction errors. This sixth reconstruction error is defined by the following loss function:
[Math 9]
with :
- the fourth reconstruction error for a pixel for a pseudo-stereoscopic vision system using a disparity calculation method;
- the fifth reconstruction error for a pixel for a pseudo-stereoscopic vision system using a disparity calculation method.

Les paramètres d’entrée du réseau de neurones convolutif sont alors ajustés en minimisant la sixième erreur. Le réseau de neurones convolutif est alors dit auto-supervisé car il est en mesure d’ajuster de façon autonome ses paramètres d’entrée afin d’améliorer les données de sortie, ici les premières et deuxièmes disparités.The input parameters of the convolutional neural network are then adjusted by minimizing the sixth error. The convolutional neural network is then said to be self-supervised because it is able to autonomously adjust its input parameters in order to improve the output data, here the first and second disparities.

Il est possible qu’un pixel de la première image ne trouve pas de pixel correspondant dans la troisième image. Ce phénomène s’explique par le fait que des zones de la première image peuvent être occluses dans la troisième image. En effet, la différence de point de vue de la première caméra 11 aux deux instants temporels d’acquisition t1 et t2 ne permet pas à la première caméra 11 de voir tous les éléments de la scène à deux instants temporels d’acquisition distincts. Un objet présent dans la scène, par exemple l’obstacle 18, peut masquer un second objet de la scène, le second objet étant visible du point de vue de la première caméra 11 à l’instant temporel d’acquisition t1 mais étant masqué par l’obstacle 18 du point de vue de la première caméra 11 à l’instant temporel d’acquisition t2.It is possible that a pixel of the first image does not find a corresponding pixel in the third image. This phenomenon is explained by the fact that areas of the first image may be occluded in the third image. Indeed, the difference in viewpoint of the first camera 11 at the two acquisition time instants t1 and t2 does not allow the first camera 11 to see all the elements of the scene at two distinct acquisition time instants. An object present in the scene, for example the obstacle 18, may mask a second object of the scene, the second object being visible from the viewpoint of the first camera 11 at the acquisition time instant t1 but being masked by the obstacle 18 from the viewpoint of the first camera 11 at the acquisition time instant t2.

Dans une opération 29, un premier masque de visibilité associé à un quatrième ensemble de pixels de la première image est déterminé. Ce masque de visibilité est obtenu par comparaison respective des quatrième et cinquième erreurs à des valeurs seuil prédéfinies et est obtenu par exemple par la fonction suivante :
[Math 10]
avec :
- une fonction rendant 0 ou 1 ;
- l’union des pixels ;
- la quatrième erreur de reconstruction pour un pixel de la deuxième image pour un système de vision pseudo-stéréoscopique utilisant une méthode de calcul de disparité ;
- la cinquième erreur de reconstruction pour un pixel de la première image pour un système de vision pseudo-stéréoscopique utilisant une méthode de calcul de disparité ;
- un opérateur ET ; et
- , et des paramètres déterminés.In an operation 29, a first visibility mask associated with a fourth set of pixels of the first image is determined. This visibility mask is obtained by respective comparison of the fourth and fifth errors to predefined threshold values and is obtained for example by the following function:
[Math 10]
with :
- a function returning 0 or 1;
- the union of pixels;
- the fourth reconstruction error for a pixel of the second image for a pseudo-stereoscopic vision system using a disparity calculation method;
- the fifth reconstruction error for a pixel of the first image for a pseudo-stereoscopic vision system using a disparity calculation method;
- an AND operator; and
- , And determined parameters.

Ainsi, la définition d’un premier masque de visibilité permet d’identifier les zones où la reconstruction d’image n’est pas valide. L’utilisation du premier masque de visibilité dans les calculs des erreurs de reconstruction permet de ne pas prendre en compte les pixels non visibles dans une image et permet ainsi de ne pas prendre en considération ces pixels lors des calculs d’erreur de reconstruction. L’apprentissage du deuxième modèle de prédiction de profondeur est alors amélioré.Thus, defining a first visibility mask makes it possible to identify areas where the image reconstruction is not valid. Using the first visibility mask in the reconstruction error calculations makes it possible to not take into account pixels that are not visible in an image and thus makes it possible to not take these pixels into consideration when calculating reconstruction errors. The learning of the second depth prediction model is then improved.

Il est possible qu’un pixel de la première image soit associé à un objet en mouvement dans la scène tridimensionnelle. Un tel objet se trouve alors à deux positions dans la scène tridimensionnelle différentes aux instants temporels d’acquisition t1 et t2. Le système de vision pseudo-stéréoscopique ne peut pas prédire une deuxième profondeur pour ce pixel de la première image.It is possible that a pixel of the first image is associated with a moving object in the three-dimensional scene. Such an object is then at two different positions in the three-dimensional scene at the acquisition times t1 and t2. The pseudo-stereoscopic vision system cannot predict a second depth for this pixel of the first image.

Selon un exemple de réalisation, il convient donc de déterminer un masque d’objets dynamiques représentatif d’un troisième ensemble de pixels de la première image associés à des objets en mouvement dans la scène tridimensionnelle.According to an exemplary embodiment, it is therefore appropriate to determine a mask of dynamic objects representative of a third set of pixels of the first image associated with objects in motion in the three-dimensional scene.

Dans une opération 30, un masque des objets dynamiques est défini, par exemple, à l’aide des formules suivantes :In an operation 30, a mask of the dynamic objects is defined, for example, using the following formulas:

Avec :
- est le masque pour l’environnement statique appliqué au pixel de la première image ;
- est la matrice de déplacement de la première caméra 11 entre le premier instant temporel d’acquisition t1 et le deuxième instant temporel d’acquisition t2 ;
- est la rétroprojection d’un pixel avec sa profondeur correspondante ;
- est la troisième profondeur d’un pixel source de la troisième image calculée pour le système de vision monoscopique ;
- est la première profondeur d’un pixel cible de la première image calculée pour le système de vision monoscopique ;
- est le masque pour l’environnement dynamique appliqué au pixel de la première image ;
- est la matrice intrinsèque de la première caméra 11 ;
- est l’erreur au carré (L2 norme) ;
- transforme le vecteur du pixel à la coordonnée homogène en ajoutant une dimension au vecteur des coordonnées du pixel pour permettre la multiplication de matrices.With :
- is the mask for the static environment applied to the pixel of the first image;
- is the displacement matrix of the first camera 11 between the first acquisition time instant t1 and the second acquisition time instant t2;
- is the back projection of a pixel with its depth corresponding;
- is the third depth of a source pixel of the third image calculated for the monoscopic vision system;
- is the first depth of a target pixel of the first image calculated for the monoscopic vision system;
- is the mask for the dynamic environment applied to the pixel of the first image;
- is the intrinsic matrix of the first camera 11;
- is the squared error (L2 norm);
- transforms the pixel vector to the homogeneous coordinate by adding a dimension to the pixel coordinate vector to allow matrix multiplication.

L’hypothèse de est que les points statiques dans l’espace 3D ne changent pas leurs positions pendant la durée séparant deux images consécutives. Le masque est construit par une fonction exponentielle avec un hyperparamètre pour trouver un bon critère pour . Le caractère statique des objets est ainsi considéré de manière relative, la pondération étant mise en œuvre via la fonction exponentielle.The hypothesis of is that static points in 3D space do not change their positions during the time between two consecutive frames. The mask is constructed by an exponential function with a hyperparameter to find a good criterion for The static nature of objects is thus considered in a relative manner, the weighting being implemented via the exponential function.

L’apprentissage du deuxième modèle de prédiction est alors fonction de ce masque d’objets dynamiques.The learning of the second prediction model is then a function of this mask of dynamic objects.

Ainsi, la définition d’un masque d’objets dynamiques permet d’identifier les zones où la reconstruction d’image n’est pas valide. L’utilisation du masque d’objets dynamiques dans les calculs des erreurs de reconstruction permet de ne pas prendre en compte les pixels d’une image associés à des objets en mouvement et permet ainsi de ne pas prendre en considération ces pixels lors des calculs d’erreur de reconstruction. L’apprentissage du deuxième modèle de prédiction de profondeur est alors encore amélioré.Thus, defining a dynamic object mask makes it possible to identify areas where the image reconstruction is not valid. Using the dynamic object mask in the reconstruction error calculations makes it possible to not take into account the pixels of an image associated with moving objects and thus makes it possible to not take these pixels into consideration when calculating the reconstruction error. The learning of the second depth prediction model is then further improved.

Suivant un exemple de réalisation, le réseau de neurones convolutif permettant de calculer la deuxième profondeur est entraîné sous supervision du système de vision monoscopique de manière à minimiser l’erreur de calcul définie par la fonction de perte suivante :According to an exemplary implementation, the convolutional neural network used to calculate the second depth is trained under the supervision of the monoscopic vision system so as to minimize the calculation error defined by the following loss function:

avec :
- la deuxième profondeur prédite pour un pixel de la première image, et
- la première profondeur prédite pour un pixel de la première imagewith :
- the second predicted depth for a pixel of the first image, and
- the first predicted depth for a pixel from the first image

Ainsi, les premières et deuxièmes profondeurs sont cohérentes.So the first and second depths are consistent.

Il est à noter que le modèle de prédiction pour le système pseudo-stéréoscopique appris par le système de vision monoscopique, ainsi que le modèle de prédiction pour le système monoscopique appris par le système de vision stéréoscopique permettent d’obtenir des premières, deuxièmes et quatrièmes profondeurs cohérentes pour les trois modèles de prédiction. Ainsi, un ADAS qui utilise une ou plusieurs des profondeurs précédemment obtenues dispose de données d’entrée homogènes et cohérentes.It is noteworthy that the prediction model for the pseudo-stereoscopic system learned by the monoscopic vision system, as well as the prediction model for the monoscopic system learned by the stereoscopic vision system, allow to obtain consistent first, second and fourth depths for the three prediction models. Thus, an ADAS that uses one or more of the previously obtained depths has homogeneous and consistent input data.

Si un ADAS utilise les premières ou deuxièmes profondeurs comme donnée d’entrée pour déterminer la distance entre une partie du véhicule 10, par exemple le pare-chocs avant, et un autre usager présent sur la route, l’ADAS est alors en mesure de déterminer précisément cette distance. Par exemple, si l’ADAS a pour fonction d’agir sur un système de freinage du véhicule 10 en cas de risque de collision avec un autre usager de la route et que la distance séparant le véhicule 10 de ce même usager de la route diminue fortement, alors l’ADAS est en mesure de détecter ce rapprochement soudain et d’agir sur le système de freinage du véhicule 10 pour éviter un éventuel accident.If an ADAS uses the first or second depths as input data to determine the distance between a part of the vehicle 10, for example the front bumper, and another user present on the road, the ADAS is then able to determine this distance precisely. For example, if the ADAS has the function of acting on a braking system of the vehicle 10 in the event of a risk of collision with another road user and the distance separating the vehicle 10 from this same road user decreases significantly, then the ADAS is able to detect this sudden approach and act on the braking system of the vehicle 10 to avoid a possible accident.

La illustre un organigramme des différentes étapes d’un procédé de de détermination d’une profondeur par système de vision monoscopique embarqué dans le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention. Le procédé est par exemple mis en œuvre par un dispositif embarqué dans le premier véhicule 10 ou par le dispositif 4 de la .There illustrates a flowchart of the different stages of a process for determining a depth using a monoscopic vision system on board the vehicle of the , according to a particular and non-limiting exemplary embodiment of the present invention. The method is for example implemented by a device on board the first vehicle 10 or by the device 4 of the .

Dans une première étape 21, des premières données représentatives d’une première image acquise par une première caméra 11 dudit ensemble de caméras à un premier instant temporel d’acquisition t1 sont reçues.In a first step 21, first data representative of a first image acquired by a first camera 11 of said set of cameras at a first acquisition time instant t1 are received.

Dans une deuxième étape 22, des deuxièmes données représentatives d’une deuxième image acquise par la première caméra 11 de l’ensemble de caméras à un deuxième instant temporel d’acquisition t2 sont reçues.In a second step 22, second data representative of a second image acquired by the first camera 11 of the set of cameras at a second acquisition time instant t2 are received.

Dans une troisième étape 23, des troisièmes données représentatives d’un déplacement de la première caméra 11 entre le premier instant temporel d’acquisition t1 et le deuxième instant temporel d’acquisition t2 sont déterminées en fonction des première et deuxième données.In a third step 23, third data representative of a movement of the first camera 11 between the first acquisition time instant t1 and the second acquisition time instant t2 are determined as a function of the first and second data.

Dans une étape 24, de premières profondeurs associées à un premier ensemble de pixels de la première image sont prédites par le système de vision monoscopique à partir d’un premier modèle de prédiction appris et supervisé par un système stéréoscopique composé de la première caméra 11 et de la au moins une deuxième caméra 12,
les premières profondeurs étant prédites en fonction des premières données, c’est-à-dire en fonction de la première image.In a step 24, first depths associated with a first set of pixels of the first image are predicted by the monoscopic vision system from a first prediction model learned and supervised by a stereoscopic system composed of the first camera 11 and the at least one second camera 12,
the first depths being predicted based on the first data, that is, based on the first image.

Dans une étape 25, les première et deuxième images sont rectifiées en fonction des troisièmes données pour obtenir une première image rectifiée et une deuxième image rectifiée. Les première et deuxième images sont obtenues à partir d’un système de vision composé de la première caméra 11 en mouvement appelé système de vision pseudo-stéréoscopique.In a step 25, the first and second images are rectified according to the third data to obtain a first rectified image and a second rectified image. The first and second images are obtained from a vision system composed of the first moving camera 11 called a pseudo-stereoscopic vision system.

Dans une étape 26, des valeurs de disparité associées à un deuxième ensemble de pixels de la première image rectifiée correspondant à un ensemble de pixels de la deuxième image rectifiée sont déterminées.In a step 26, disparity values associated with a second set of pixels of the first rectified image corresponding to a set of pixels of the second rectified image are determined.

Dans une étape 27, des deuxièmes profondeurs associées au deuxième ensemble de pixels sont prédites par le système de vision pseudo-stéréoscopique composé de la première caméra 11 en mouvement à partir d’un deuxième modèle de prédiction appris et supervisé par le système de vision monoscopique. Les deuxièmes profondeurs sont prédites en fonction des valeurs de disparité et en fonction d’une distance séparant des positions de la première caméra 11 au premier instant temporel d’acquisition t1 et au deuxième instant temporel d’acquisition t2, la distance appelée « base de référence » étant déterminée à partir des troisièmes données.In a step 27, second depths associated with the second set of pixels are predicted by the pseudo-stereoscopic vision system composed of the first moving camera 11 from a second prediction model learned and supervised by the monoscopic vision system. The second depths are predicted as a function of the disparity values and as a function of a distance separating positions of the first camera 11 at the first acquisition time instant t1 and at the second acquisition time instant t2, the distance called “reference base” being determined from the third data.

Selon une variante, les variantes et exemples des opérations décrits en relation avec les figures 1 et 3 s’appliquent aux étapes du procédé de la .Alternatively, the variants and examples of the operations described in relation to Figures 1 and 3 apply to the steps of the method of the .

Bien entendu, la présente invention ne se limite pas aux exemples de réalisation décrits ci-avant mais s’étend à un procédé de détermination d’une profondeur par système de vision monoscopique embarqué dans un véhicule, qui inclurait des étapes secondaires sans pour cela sortir de la portée de la présente invention. Il en serait de même d’un dispositif configuré pour la mise en œuvre d’un tel procédé.Of course, the present invention is not limited to the exemplary embodiments described above but extends to a method for determining a depth by a monoscopic vision system embedded in a vehicle, which would include secondary steps without thereby departing from the scope of the present invention. The same would apply to a device configured for implementing such a method.

La présente invention concerne également un véhicule, par exemple automobile ou plus généralement un véhicule autonome à moteur terrestre, comprenant le dispositif 4 de la .The present invention also relates to a vehicle, for example an automobile or more generally an autonomous land-powered vehicle, comprising the device 4 of the .

Claims

Method for determining a depth by a monoscopic vision system on board a moving vehicle (10), the monoscopic vision system comprising a first camera (11) capable of cooperating with at least one second camera (12) of a set of cameras of at least two cameras (11, 12) arranged so as to each acquire an image of a three-dimensional scene from a different point of view,
said method being characterized in that it comprises the following steps:
- reception (21, 22) of first and second data respectively representative of a first and second image acquired by said first camera (11) of said set of cameras respectively at a first acquisition time instant and at a second acquisition time instant;
- determination (23) of third data representative of a movement of the first camera (11) between said first acquisition time instant and said second acquisition time instant as a function of said first and second data;
- prediction (24) of first depths associated with a first set of pixels of said first image by said monoscopic vision system from a first prediction model learned and supervised by a stereoscopic system composed of the first camera (11) and the at least one second camera (12),
said first depths being predicted based on said first data;
- rectification (25) of said first and second images as a function of said third data to obtain respectively a first rectified image and a second rectified image;
- determining disparity values (26) associated with a second set of pixels of said first rectified image corresponding to a set of pixels of said second rectified image; and
- prediction (27) of second depths associated with said second set of pixels by a pseudo-stereoscopic vision system composed of the first camera (11) in motion from a second prediction model learned and supervised by said monoscopic vision system,
said second depths being predicted as a function of said disparity values and as a function of a distance separating positions of the first camera (11) at the first acquisition time instant and at the second acquisition time instant, said distance being determined from said third data.

Method according to claim 1, for which a supervision of said second prediction model is obtained by minimization of a loss function defined by the following function:
with :
- the second predicted depth for a pixel of the first image, and
- the first predicted depth for a pixel from the first image.

Method according to one of claims 1 to 2, further comprising the steps of:
- prediction (28) of third depths associated with a set of pixels of the second image by said monoscopic vision system from said first prediction model,
said third depths being predicted based on said second data;
- determination (30) of a mask of dynamic objects associated with said first image and representative of a third set of pixels of the first image associated with a moving object in said three-dimensional scene,
the learning of said second prediction model being furthermore a function of said dynamic object mask.

Method according to one of claims 1 to 3, further comprising a step of determining (29) a first visibility mask associated with said first image and representative of a fourth set of pixels of the first image having at least one corresponding pixel in said second image from said first and second data,
the learning of said second prediction model being furthermore a function of said first visibility mask.

Method according to one of claims 1 to 4, further comprising the steps of:
- reception (31) of fourth data representative of a third image acquired by said at least one second camera (12) at said first acquisition time instant;
- prediction (32) of fourth depths associated with a fifth set of pixels of the first image by said stereoscopic vision system from said first and third data,
the learning of said first prediction model being furthermore a function of said fourth depths.

Method according to claim 5, for which a supervision of said first prediction model is obtained by minimization of a loss function defined by the following function:
with :
- the first predicted depth for a pixel of the first image, and
- the fourth predicted depth for a pixel from the first image.

Method according to one of claims 5 to 6, further comprising a step of determining (33) a second visibility mask associated with said first image and representative of a sixth set of pixels of the first image having at least one corresponding pixel in said third image from said first and fourth data,
the learning of said first prediction model being furthermore a function of said second visibility mask.

Computer program comprising instructions for implementing the method according to any one of the preceding claims, when these instructions are executed by a processor.

Device (4) for determining a depth by a vision system on board a vehicle (10), said device (4) comprising a memory (41) associated with at least one processor (40) configured for implementing the steps of the method according to any one of claims 1 to 7.

Vehicle (10) comprising the device (4) according to claim 9.