WO2019042728A2 - RECOGNIZING TRANSPORT PARTICIPANTS ON A TRANSPORT ROUTE - Google Patents
RECOGNIZING TRANSPORT PARTICIPANTS ON A TRANSPORT ROUTE Download PDFInfo
- Publication number
- WO2019042728A2 WO2019042728A2 PCT/EP2018/071494 EP2018071494W WO2019042728A2 WO 2019042728 A2 WO2019042728 A2 WO 2019042728A2 EP 2018071494 W EP2018071494 W EP 2018071494W WO 2019042728 A2 WO2019042728 A2 WO 2019042728A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- road users
- traffic route
- traffic
- image
- object detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0108—Measuring and analyzing of parameters relative to traffic conditions based on the source of data
- G08G1/0116—Measuring and analyzing of parameters relative to traffic conditions based on the source of data from roadside infrastructure, e.g. beacons
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
- G08G1/0145—Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/017—Detecting movement of traffic to be counted or controlled identifying vehicles
- G08G1/0175—Detecting movement of traffic to be counted or controlled identifying vehicles by photographing vehicles, e.g. when violating traffic rules
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/04—Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
Definitions
- the invention relates to a method for detecting road users on a traffic route in a map provided by a camera taking the image, the method generating a plurality of area proposals for possible objects, which in of the map by applying a scoped generator to the map, providing object detection for all scoped proposals by applying an object scouting device to all scoped proposals to detect the traffic route and / or the road users by classifying taking into account a predetermined confidence level, and outputting of detection data received from the object detection for the detected traffic route and / or the detected road users.
- the invention also relates to a device for detecting road users on a traffic route in an image, wherein the device comprises at least one camera that records the image of the traffic route, and a device that is configured to provide a plurality of range proposals for possible objects, the in the figure, by applying a range suggestion generator to the mapping, to provide object detection for all range suggestions to detect the traffic route and / or the road users by classifying taking into account a predetermined confidence level, and to output detection data obtained from the object detection received for the detected traffic route and / or the detected road users.
- the invention also relates to a method of providing traffic guidance comprising detecting traffic participants on a traffic route in a sequence of successive images provided by a camera comprising the sequence of images of the traffic route, determining a used capacity of the traffic route provided by the road users, identifying individual actual speed and / or position of each of the road users to determine respective individual actual tracks, determining at least one respective nominal track for each of the road users, and communicating the specific nominal lanes to the respective road users.
- the invention also relates to a traffic guidance system for providing traffic guidance comprising at least one device for detecting traffic participants on a traffic route in a sequence of successive images, and a device configured to detect traffic participants on the traffic route in the sequence of successive images to determine a used capacity of the traffic route provided by the road users, to identify individual actual speed and / or position of each of the road users, to determine respective individual actual tracks, to determine at least one respective nominal track for each of the road users, and certain nominal lanes to the respective road users to communicate.
- the invention also relates to a computer program product having a program for a processing device.
- the invention thus relates to the use of data from at least one camera, in particular video data in an outdoor environment for traffic monitoring.
- a more efficient approach is based on providing adaptive time windows for each lane of the road based on real-time traffic density data through advanced communication systems of a corresponding set of sensor technology for observing the traffic scenario.
- the concept of autonomous vehicles allows the application of overall road control devices that interact directly with the individual vehicles and identify the most efficient and safest navigation path in both urban traffic scenarios and Allow heavy traffic hubs.
- the service road and intersection control device may provide at least navigation information about optimal lane and stripe selection along with the most useful speed recommendations.
- the conventional traffic control system is based on stop panels, traffic lights or the insertion of recessed loop detectors for vehicle detection and automatic
- traditional systems employ intersection control mechanisms that usually assign equal or preprogrammed time slots for each intersection lane, with the temporal switchover pattern being limited to establishing uniform vehicle flows for man-driven non-automated automobiles.
- the invention proposes methods, devices and computer program products according to the independent claims.
- the invention teaches providing the range suggestions prior to the step of providing object detection, wherein filtering is performed based on respective filter data based on a relevance of the range suggestions the road user and / or the traffic route.
- the invention in connection with a respective generic device for detecting traffic participants on a traffic route in a sequence of consecutive maps, the invention teaches that the device is further configured to provide area range suggestions before providing object detection, wherein the filtering is based on corresponding filter data is estimated, which are estimated based on a relevance of the range proposals in connection with the road users and / or the traffic route.
- the invention particularly teaches the detection of road users on the traffic route by applying a method according to the invention for detecting
- the invention also teaches in particular for a traffic control system of the generic type that the device for detecting road users is configured according to the invention.
- the invention is based on the finding that proper detection of road users on a traffic route can be a good concept to reduce the overall vehicle latency through camera-based traffic monitoring associated with each autonomous and automated automobile or vehicle. This allows optimizing the traffic flow and the roadway efficiency or
- the invention allows road users or vehicles to be connected to a central intersection control system that employs video infrastructure to check the recommended lanes for the individual vehicles.
- the video infrastructure can be provided by one or more cameras. This makes it possible to replace conventional traffic lights by the intersection control device.
- the crossing control device occasionally too
- Called intersection management control device has both the ability to detect and for communication and control, and may additionally be associated with preferably each of the approaching road users or vehicles to coordinate their individual trajectories, allowing a more adaptive and smarter traffic flow control.
- a time window-based intersection control mechanism having adequate temporal resolution additionally allows coordinating a preferably uniform vehicle flow, wherein the idling stop or the complete stopping of the vehicle at traffic lights can be smoothed or avoided, or remaining anticipatory movements, such as Adjusting a speed of a particular vehicle to the trajectory of a predetermined vehicle to provide substantially stationary traffic.
- the invention results in that substantially all vehicles move at the same time and faster, so that the crossing efficiency can be significantly increased. With autonomous and automated road users or vehicles, traffic lights for managing traffic intersections are therefore unnecessary.
- the innovative concept can also be applied to feeder for motorways, for the merging of lanes in general, and the like.
- the detection of road users on a traffic route in particular the automatic vehicle detection framework of the traffic
- junction control system based on Deep Convolutional Neural Networks. This allows to readily consider that vehicles usually appear in pictures taken by the camera because of their variable distance from the camera at different scales.
- the device In order to detect the road users or vehicles of varying sizes, the device must in each case search for objects in several scales in the images or images. However, the search for multiple scales entails a high latency and could result in lower detection precision.
- the invention allows to carry out self-commissioning. It automatically estimates and uses scene layout information such as floor space or the like.
- the invention also allows a scale of the floor area to be estimated from a long-term observation of the appearing vehicles having different scales. This may be based on self-consistent analysis or regression, and the like. For this purpose, the acquisition of scaling information and / or
- Land surface information from a long-term traffic observation can be provided, which can also help to speed up the detection.
- the scaling information may be automatically included in the RPN.
- the invention begins with detecting objects in all scales. After a sufficient number of objects, namely, road users, preferably vehicles, has been detected at several different areas in the image or image, the invention is capable of estimating a layout of the floor area of the scene. This makes the invention more robust and faster, since the number of scales for searching for an item at different positions in the image or image can be reduced.
- Self-startup can therefore also be helpful if the camera position is reset, for example, during regular maintenance, service work that is usually provided from time to time, and thus there is no need to provide additional effort, such as technical assistance or startup ,
- the term "road user” can be applied to any user who participates in the traffic, and thus a road user can be a vehicle, a bicycle, a pedestrian, etc.
- the term "traffic route” corresponds to any one on land based area that is provided so that road users can move on it.
- a traffic route can thus be a highway, a road, an avenue, a highway, but also a sidewalk and the like.
- the invention is not limited to outdoor applications. It may also be applied to indoor applications such as warehousing in a warehouse where autonomous vehicles can transport goods to and from predefined storage locations and the like.
- a "traffic route” may be formed by a predefined area for the autonomous vehicles on which the autonomous vehicles can be moved
- the predefined area may be a specific section of a floor intended for transportation, in particular within the warehouse
- the camera is used to capture images related to a certain predetermined view.
- the camera is configured to take more than one image or only one image, in particular to capture a sequence of successive images of the same view.
- the camera may preferably consist of a video camera.
- the camera provides image data that is provided to an image processing device that is preferably capable of real-time pre-processing a large amount of image data to reduce the volume of data to be transmitted to the intersection controller.
- the image processing unit may be formed of on-board processing, edge computing, and the like.
- the image processing unit is preferably part of the camera. However, it may be provided by a separate unit communicatively connected to the camera.
- Real-time pre-processing means real-time detection and monitoring of road users, such as vehicles, bicycles, pedestrians, and the like, including lane calculation and simulation.
- the camera and the image processing unit may be part of an infrastructure unit that may include a street lamp mast, a building, and the like.
- the infrastructure unit may include the camera. It may additionally comprise a FLIR, an LPR, a RADAR and the like.
- the infrastructure unit can form a device according to the invention.
- a detection frame may be provided which enables the inventive method to be carried out and to constitute the inventive device.
- the coverage framework may be able to Scene and street layout data, for example, related to the floor area or the like may be used as additional knowledge to improve the efficiency and robustness of a detection algorithm by automatically cropping the object scales.
- the detection frame therefore makes it possible to create a virtual three-dimensional scene of the objects recorded in the images.
- it may be the size of the visible 2D object that is useful for object recognition.
- the detection frame is capable of performing self-commissioning.
- the detection frame may gradually acquire data about the scene layout, data from a long-term observation by analyzing appearing quantities and scales of the detected road users and / or the detected traffic route.
- the detection frame may be able to estimate the layout of the floor area of the scene.
- the layout of the floor space can thus be gradually tuned and improved over time.
- the new setting of the camera, in particular the camera position can therefore be considered and automatically adjusted.
- the capture frame may also allow an operator to directly input certain data associated with the scene, particularly the bottom surface of the scene. This can be accomplished by providing certain parameters of visible floor space which can be provided in advance as commissioning. In this context, manual commissioning can be provided.
- a first image of the sequence of successive images is optionally selected and defined as the image to be processed.
- the first image does not need to be the first mapping of the sequence of images.
- this map may be any of the sequence of maps.
- a particular selection unit may be provided which selects the first image from a database in which the sequence of images is stored, at least in part, for example, temporarily stored.
- an image provided by the camera is directly defined as the image to be processed and subjected to the inventive process.
- a range proposal generator generates a plurality of range suggestions to process possible objects recorded in the image.
- a range suggestion generator may be a computing unit, such as a computer having a microprocessor, a Digital Signal Processing (DSP) or the like, controlled by a particular computer program to generate the range suggestions.
- DSP Digital Signal Processing
- Object detection is preferably provided for all area proposals by applying an object detection apparatus to all area proposals to detect the traffic route and / or road users while considering a predetermined level of confidence.
- the object detection leads to the generation of acquisition data for the detected traffic route and / or the detected road users who are issued for further processing or reporting.
- the method may be continued by selecting another mapping of the sequence of consecutive mappings than the image to be processed.
- filtering of the range proposals is provided before performing the step of providing object detection, wherein the filtering is performed based on respective filter data estimated based on a relevance of the range suggestions associated with the road users and / or the traffic route become.
- the filtering is performed based on respective filter data estimated based on a relevance of the range suggestions associated with the road users and / or the traffic route become.
- Filtering the range suggestions therefore results in a reduction in the number of range suggestions produced by the range suggestion generator.
- the filtering is performed based on respective filter data that is estimated based on a relevance of the range suggestions in connection with the road users and / or the traffic route, in particular the floor area of the scene.
- scale information prior to the step of performing object detection, wherein scale information is acquired from long-term observation of the detected vehicles on the ground surface.
- scale information is acquired from long-term observation of the detected vehicles on the ground surface.
- a floor surface scaling off the self-commissioning phase are derived. This makes it possible to improve the invention and to reduce the effort, in particular in connection with the execution of the object detection.
- the filter data is estimated based on a scene captured by the image to be processed, in particular the traffic route included in the scene. This makes it possible to provide the scaling so that the object detection can be improved. In particular, if it is assumed that predetermined classes of objects are detected, the scaling can be additionally taken into account in order to reduce the effort for object detection. Over time, the scaling data can become more precise.
- the filter data provide an observation area for an object that is classified by the object detection as a road user.
- the observation area may be derived by identifying one or more areas within the image to be processed where predefined object classes may or may not appear.
- the road user is a vehicle, a bicycle, a pedestrian
- the classification provided by the object detection can be improved.
- the invention may also allow filter data to be updated in dependence on the data of the object detection. It is therefore possible to improve existing filter data by further carrying out the invention. Over time, the filter data can become more precise.
- the observation area may be, for example, a horizon derived from the image to be processed.
- a horizon derived from the image to be processed.
- objects such as vehicles, bicycles, pedestrians, and the like may not appear above the horizon. Range proposals above the horizon can thus be eliminated from further processing.
- the size of the range suggestions may be more precise by using the filtering. As far as the vehicles are concerned, the size can be selected by considering the scene and the position at which a particular range suggestion should appear.
- deep learning methods and / or artificial intelligence can be used.
- the infrastructure unit may employ deep learning techniques and / or artificial intelligence along with the inventive concept to perform road user detection, such as vehicle detection, vehicle identification, vehicle tracking, and the like.
- the infrastructure unit may also employ deep learning techniques and / or artificial intelligence to learn from long-term observations a relationship between visible object scaling associated with the location of the object on the floor surface of the intersection, particularly in a particular image to be processed. It may also learn long-term observations relating to the area and area of a field containing valid observations that may be provided by the horizon line or the like.
- the infrastructure unit may also employ the deep learning method and artificial intelligence, and may apply the knowledge gained about scales related to the detected objects, taking into account a location in the map to be processed, to optimize the performance parameters of the object recognition procedure, such as Example latency, reliability and distance range, where objects beyond the horizon line need not be taken into account.
- At least one of the road users requests a desired train, which causes the determination of a specific nominal track for the road user and the communication of the determined nominal track to the road user. This allows to consider certain wishes of the road user.
- the infrastructure unit may check the request and determine the nominal lane by taking into account lanes of all road users.
- the nominal track can then be announced to the road user, so that the road user can drive on the nominal track. This can also result in a better flow of traffic as the infrastructure unit can accommodate most, especially all lanes of current road users.
- testing of a specific nominal track by simulation be included for the road user.
- an S / W based check of the webs may be provided prior to shipment.
- retrieving an actual speed and / or position of at least one of the road users is included to determine its actual trajectory.
- the speed of the road users is automatically adjusted as a function of the used capacity of the traffic route.
- automatically adjusting the speed of at least one of the road users is included as the road user approaches a predetermined transit pattern for the traffic route.
- These Improvement may relate in particular to autonomous driving, preferably indoors as well as outdoors.
- Each of the infrastructure units may be capable of bidirectionally communicating the road users, in particular detected vehicles, to receive inquiries from the road users and respective intersection control devices and dispatch instructions to the road users.
- the infrastructure unit may also be able to receive requests and command data from the road users and the intersection control devices, as well as resend dispatch of processed object information.
- all of the infrastructure units are preferably interconnected and may form a mesh network topology for bidirectional communication, vehicle requests, and commands from the intersection controller to avoid single fault locations and increase the area of the intersection area by applying refreshes and iterations.
- the infrastructure unit may communicate with preferably all of the approaching road users, particularly vehicles that reach the communication area, and may query the coordinates of requested destinations and forward the requests to the intersection controller.
- At least one of the infrastructure units located at the intersection or access may also host a central intersection control system which may preferably collect traffic data from all of the infrastructure units, including requests from the road users, particularly from the vehicles.
- the intersection control device may coordinate a plurality of self-propelled autonomous or automated road users or vehicles requesting access to a respective exclusive trajectory on the traffic route, in particular one or more lanes to the intersection. In this way, a specific passage for a particular road user can be reserved. Further, the intersection control device may be the
- the intersection controller may handle requests from the road user, particularly vehicles, and provide uninterrupted scheduling and control.
- the intersection control device may assign each of the road users, in particular vehicles, a specific time slot or lane in the prevailing transit pattern.
- the communication between the intersection control device and the road users or vehicles can be carried out by the infrastructure units.
- intersection control device may interrogate any precise location and speed of preference of each of the individual road users, particularly the vehicles, and may calculate their individual lanes for precisely controlling the position of each of the road users at a particular time.
- intersection control device can both a conventional coordination mechanism in the form of a Deterministic state machine and artificial intelligence based on a coordination mechanism in the form of monitored and rule-based machine learning techniques.
- intersection controller may decide to grant or deny the request in response to the prevailing traffic flow and to the basic intersection control policy.
- the intersection controller may apply on-board simulation analysis to test the functionality of proposed vehicle lanes. Uninterrupted and ongoing intersection simulation can help to avoid collisions.
- the road user must be slowed down in order to wait for a later reservation permit. In the worst case, the road user can be stopped completely before he gets permission to enter the intersection.
- the speed of the individual vehicle may be automatically adjusted as it approaches a four-scene pass pattern so that the vehicle enters the projected trajectory at the correct time and time slot Overall pattern can flow continuously undisturbed uninterrupted.
- any one of the intersection controllers organizes, preferably all
- Junction control devices preferably the approaching vehicles into virtual batches, rather than coordinating the overall traffic flow based on the individual vehicles.
- the Heavy Traffic Cooperative Truth Control may cause the vehicle to follow another to share joint acceleration maneuvers on a feed forward control path through vehicle-to-vehicle communication.
- the intersection control device is preferably connected to at least one camera-based surveillance sensor (CCTV camera) to control video data of the prevailing traffic scenario.
- CCTV camera camera-based surveillance sensor
- the intersection control device may host an on-board image processing system capable of identifying the individual road users, especially vehicles, on the basis of the appearance to temporarily draw an individual identity index allowing fully automated tracking and re-identification in the case where the vehicle reappears in the field of view of adjacent camera sensors downstream of the traffic route.
- the intersection control apparatus may host on-board image processing capable of identifying the individual road users, particularly vehicles, based on automatic number plate recognition by means of Optical Character Recognition (OCR) or the like.
- OCR Optical Character Recognition
- intersection control device may host an on-board vision system capable of identifying and tracking pedestrians, especially pedestrians, outside of crosswalks.
- the onboard vision system may also be configured to identify and track pedestrians.
- Intersection control device configured to be pedestrian outside the crosswalk and to follow it on the traffic route, in particular, if the traffic route is a road, or at the intersection, to trigger the execution of a special collision avoidance procedure, offering new road users to the road users, especially nearby vehicles. and assign route data.
- all the infrastructure units with the crossing control unit which can be replaced by a
- Junction control device is provided to communicate.
- FIG Have a variety of range proposals for the detection of objects and three exemplary classified objects;
- Figure 2 shows in a schematic three-dimensional sketch a scaling function according to the invention for filtering proposals using estimated scaled filters
- Figure 3 is a schematic two-dimensional sketch which is a projection of Figure 2 in a plane used to estimate the scaling functions;
- FIG. 4 shows the figure to be processed according to FIG. 1, wherein the range proposals are filtered according to the invention, and additionally shows that FIG Range proposals get smaller as they approach the horizon; shows a schematic flowchart showing a method for detecting road users on a traffic route according to the invention; shows a schematic sketch scale compared to recognition for VGG-M networks, where bins are determined by uniformly distributed patterns; Figure 10 shows a schematic occlusion sketch as compared to recognition for VGG-M-Net, where bins are determined by uniformly distributed patterns, and with a maximum occlusion ratio set to 0.5.
- the detailed embodiments described below are concerned with how the invention is particularly subjected to autonomous driving.
- the invention is not limited to outdoor applications but can also be applied in indoor applications, such as warehouse applications, particularly with regard to warehousing and the like.
- Autonomous driving still remains a major challenge in that the environment as picked up by one or more cameras set up to observe images of vehicles as traffic participant changes that can occur quickly and unexpectedly.
- Vehicles for example, can be parked on the roadside, various initiatives and events in the city center can affect the traffic, and the like. In particular, the presence of more people may result in a higher chance of someone crossing the street.
- infrastructure-based mapping has the potential to complement the single vehicle point of view and accelerate the deployment of fully autonomous vehicles. More particularly, the invention relates to the detection and detection of road users, such as vehicles, from the foresight of surveillance cameras, which substantially impart to the vehicles a perception of the vehicle ahead of them and behind a corner.
- the cameras may be a component of one or more devices according to the invention. There is great potential in using the static view of a surveillance camera, which can provide better and faster capture.
- the invention relates to range proposals that form an important feature of modern detection algorithms.
- the invention proposes a simple extension of the R-CNN (Regional-based Convolutional Neural Network) and shows that ranking proposals in relation to a scene geometry can result in less false positive results by reducing suggestions in overloaded areas where respective algorithms are usually prone to error.
- R-CNN Registered-based Convolutional Neural Network
- the invention gives less false negative results since it increases recognition by containing more suggestions where they are most needed, for example for small vehicles at the distance.
- experimentation is made with the UA DETRAC data set, which can improve on the Vanilla Faster R-CNN (VGG-16) by more than 19%. This improvement can be largely maintained when switching to a Faster VGG-M network.
- VGG-16 Vanilla Faster R-CNN
- it is proposed to generate 3D object proposals by using scene geometry using calibrated monocular or stereo camera arrangement. An automatic estimate of the approximate scene geometry in terms of a true-to-scale layout is proposed.
- This information is incorporated into a detector to produce range suggestions.
- the inventive approach takes into account that the scene is largely static but usually does not require camera calibration information.
- the invention extends Faster R-CNN in conjunction with object detection to incorporate proposed geometric suggestions.
- Geometric proposals encode the scene layout of a static camera in a simple and effective way.
- the Faster R-CNN detection can work in at least two stages. In a first stage, a full Region Proposal Network (RPN) is provided which can take the complete image or image that is to be processed at the input and generate class-agnostic object suggestions.
- RPN Region Proposal Network
- the second stage is based on a classification network that classifies the incoming proposals into given object classes.
- the convolutional layers are shared for both tasks, that is, generating proposals and classifying them.
- Geometric extension to RPN Typically, an image or image that is to be processed may potentially contain a few large objects and a few or more small objects. However, this is usually not considered in the Faster R-CNN algorithm, particularly due to the RPN which suggests an equal amount of objects across scales.
- a relationship between the range suggestions and the scene geometry is retrieved using an object scale estimate. First, the safest objects are captured. Then, a pixel-by-pixel scale estimate is estimated as a proxy for the actual scene geometry. Finally, the RPN proposals were curtailed.
- the scale layout for the image to be processed or the image to be processed is estimated, that is, an image scale function describing the scale of the object in view of its position in the image. In this case, this corresponds to the expected size of a road user or vehicle in a certain image position.
- the second order polynomial suffices to represent a flat scene layout from a homographic projection. This assumption is plausible in most street scenes, as traffic routes visible from the surveillance camera are mostly flat.
- the approximation of the scale layout compensates for the size variations of the objects or vehicles, for example automobiles of different sizes and the like, in view of the sufficient number of acquisitions. This is illustrated by a test estimation according to FIG.
- the turcstablayout automatically provides a horizon estimate, which is also indicated in Figures 2 to 4 by the reference numeral 50.
- s (x) is the scale estimate of the object at position x as described in equation (1)
- b is the object's actual bounding rectangle size
- o represents the acceptable deviation of the default size from the scale function Value set to 0.3 for all different embodiments based on the observed variants in the training data.
- the original scale function estimate is the pixel position
- b ' is the size of the bus sense.
- Faster R-CNN can separate the object bounding rectangles into anchor scales and expected ratios.
- the scale set of anchor rectangles can be ⁇ 8, 16, 32 ⁇ . This may be appropriate for most acquisition benchmarks, such as PASCAL VOC.
- applying the Faster R-CNN to the standard anchorage standards on the UA-DETRAC standard can be seriously lower than expected because most vehicles are much smaller than the smallest standard scale.
- the range suggestions corresponding to the smallest anchor rectangles must therefore serve for any object smaller than its adjusted size in contrast to the actual concept of anchor scales. This problem can be remedied by extending the set with smaller scales in the sequence, that is ⁇ 1, 2, 4 ⁇ , for which results may be shown in FIG.
- FIG. 6 shows in a schematic sketch the scale compared to recognition for a VGG-M network, where bins have been determined to be uniformly distributing patterns.
- FIG. 6 shows a sketch 52 in which an ordinate 54 is associated with recognition in%, and an abscissa 56 is assigned to the average vehicle size (pixel 2 ).
- the tuples of bins concern bin 58 corresponding to FRCNN, bin 60 corresponding to FRCNN + GP, bin 62 corresponding to FRCNN + BW, and bin 64 corresponding to FRCNN + BW + PG.
- quantized scales may also be used in connection with the training data be experimented. However, it has been found that both techniques result in similar performances, so below only the simple extension to the scale set of the anchors in RPN is considered.
- a second limitation of the Faster R-CNN to smaller objects can be given by the quasar resolution of its CNN function block. This issue has been identified several times in semantic segmentation, which allows quasar granularity to limit pixel-by-pixel resolution.
- the functional distance is reduced from 16 to 18 by removing the last max-pooling layer from the base function networks on all the models experimented.
- this may result in a smaller respective field on the input image or on the input image being processed. Although this may not affect all of the small objects that the model needs to view a larger area in the object, this can reduce recognition for the larger vehicles in the experiments for which the context becomes too scarce. This effect may be more apparent in smaller functional models, such as FGG-M, while larger models seem more robust and potentially maintain sufficiently large respective fields.
- the parameters are preferably initialized with the pre-trained ImageNet model, and the learning of the first f 4 convolutional layers can be skipped.
- the low-level functions in the basic Faster R-CNN model can still be those that are actually trained only for the image net classification tasks. Of course, that does not need to be an optimal setting.
- a multi-level training approach may be used, and these initial convolutional layers skipped in the standard training stage of the Faster R-CNN may also be learned.
- the default strategy can be maintained and the parameters of the intimal convolution layers of the networks are not learned.
- the training policy may continue on the full network after the original convolution layers are also unlocked. Alternatively, one could also study a strategy similar to warm-up training, with very small learning raids.
- VGG_CNN_M_1024 with 5 convolutional and 3 fully connected layers.
- VGG-M Below this network is called VGG-M.
- VGG-16 with 13 convolutional and 3 fully connected layers.
- NMS threshold is quite critical for typical object detectors. Since only vehicles with less than or equal to 50% occlusion are included in the validation rate, it may theoretically make sense to use an NMS threshold of 0.5.
- a stricter value for the Faster R-CNN parameter FG_THRESH that is, 0.7 instead of 0.5, may be used for detection to be considered as a positive class during training of the classification network. This value is for everyone optimal results since the online UA DETRAC rating uses IoU of 0.7 to count a detection as correct.
- BW barbs and whistles
- Figure 7 shows a schematic sketch 66 having an ordinate as Figure 6 and an abscissa 68 assigned to a major occlusion ratio.
- the tuple of the bins 58 to 64 corresponding to the bins according to FIG. 6 are shown.
- Recognition improves only slightly when the geometric proposals are applied to the Vanilla Faster R-CNN, demonstrating the limited capability of the model. It can be seen, however, that the Faster R-CNN with Beils and Whistles function significantly worse as the occlusion ratio increases, and in fact does not improve for any occlusion ratio level. This result explains the importance of a larger receptive field that provides greater context for the object on the image or image being processed, thus allowing better occlusion manipulation.
- the complete UA DETRAC train set (60 video sequences or pictures) is used. PASCAL VOC 2007 and 2012 Trainval image sets are also included, as is done in the validation phase. It can be seen that some of the traffic scenarios in the UA-DETRAC test satellite are relatively denser and more crowded than, comparatively, the video sequences in the training set. However, most of the results obtained for the online challenge are consistent with these scores during the validation phase. Overall, it can be improved by an impressive 19.5% in terms of AP compared to the Vanilla Faster R-CNN means from 57, 08% to 67, 57%. It can be noted that the effect of adding geometric suggestions is not as strong as observed during validation. It is believed that this is due to the fact that a large number of small scale objects are ignored during online evaluation. This may be due to the marked ignored detections in the image or image being processed. These results are shown in Table 3.
- Figure 1 shows in a schematic view an image 16 to be processed, with all range suggestions 18 generated by a range suggestion generator.
- the figure 16 to be processed further shows a traffic route 14 having a plurality of lanes on which vehicles 12 drive as road users.
- FIG. 1 three rectangles 20, 22, 24 are provided.
- the rectangle 20 is located in an upper portion of the image 16 to be processed so that this rectangle is too large because the road users to be captured in this portion of the image 16 to be processed are much smaller.
- the rectangle 24 in the lower section of the On the other hand, Figure 16 to be processed is too small to contain a road user or a vehicle.
- a rectangle 22 in the lower portion of the image 16 to be processed is adapted to contain a road user or a vehicle.
- the size of the rectangle coincides with the vehicle 12.
- the image 16 to be processed is a single image of a video stream of a camera, not shown.
- Figure 2 shows a three-dimensional sketch showing filter suggestions using the estimated scale filters and the image scale function, respectively.
- a vertical axis 28 corresponds to the size of the object in units of pixels 2 .
- the axes 30, 32 refer to positions.
- a plane 26 defines an area where surface points 28 may be located. Points 28 refer to positions of reliable detections in the image or image 16 that is to be processed, which can be used to estimate the scale functions.
- a line defines the horizon 50.
- Figure 3 shows a projection of the plane 26 in the direction of the axis 28 from above.
- the horizon 50 is parallel to the axis 32 which intersects the axis 30 at the value 100.
- the points 28 are located only below the horizon 50, that is, at values greater than 100 of the axis 30. In the area of the horizon 50, there is a small scale, wherein in the area of the axis 32 is a large scale.
- FIG. 5 shows in an exemplary embodiment a schematic flow diagram of a method 10 for detecting road users 12, here vehicles, on a traffic route 14 in a sequence of successive images provided by a camera recording the sequence of images of the traffic route 14. The sequence of images is currently provided by a video stream.
- a first map of the sequence of consecutive images is selected and the first image is defined as an image 16 to be processed. Then, at step 42, a
- Range Suggestion Generator is applied to Figure 16, which is to be processed, which may be provided by selective RP (Faster R-CNN) search, sliding windows, and the like.
- the range proposal generator generates a plurality of range suggestions 18 for possible objects recorded in the image 16 to be processed. Then, at step 44, it is checked if filters are available. If not, the method continues with step 46 by presenting all range suggestions 18 of the range suggestion generator also shown in FIG. Then, the method continues with step 72, wherein object detection is provided for all area proposals 18 to detect road users 12, taking into account a pre-defined level of confidence. In method step 74, reliable detections (with a high result) are collected. At step 76, it is checked whether enough detections have been made to allow a filter estimate. If not (n), the method continues with step 40 and selects another mapping of the sequence of consecutive mappings to improve the number of acquisitions achieved.
- RP Raster R-CNN
- step 78 filters are estimated, such as scale filters, aspect ratio filters, a horizon, and the like.
- the estimated filters are provided to control suggestion filtering, as discussed below. If the filters are estimated in step 78, the method continues to step 40, as described above.
- step 44 If it is determined at step 44 that filters are available (y), the method continues to step 48 using suggestion filters as discussed above. The method then proceeds to step 70 by applying filtered suggestions to the image 16 to be processed, which is also shown in FIG. Then, as discussed above, the method continues to step 73.
- camera calibration information may be received and provided to step 78 to enhance the filter estimation.
- the proposed GP-FRCNN approach has the potential to overcome the classification failures of the basic RPN and, as a result, can achieve more or less similar performance regardless of the scale of the object.
- the inventors' findings also suggest that one can not simply accommodate the geometric layout to reclassify proposals and then expect desired improvements, but instead a number of scale changes are preferably provided.
- the various functions and embodiments discussed herein may be performed in a different, different order and / or concurrently with each other in various ways. Further, one or more of the functions and / or embodiments described above may be optional, or preferably combined in an arbitrary manner, as desired.
- step 76
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
Die Erfindung betrifft ein Verfahren (10) zum Erfassen von Verkehrsteilnehmern (12) auf einem Verkehrsweg (14) in einer Abbildung, umfassend: - Erzeugen (42) einer Vielzahl von Bereichsvorschlägen (18) für mögliche Objekte, die in der Abbildung (16) aufgezeichnet sind, durch Anwenden eines Bereichsvorschlaggenerators; - Bereitstellen von Objekterfassung (72) für alle Bereichsvorschläge (18), um den Verkehrsweg (14) und/oder die Verkehrsteilnehmer (12) durch Klassifizieren unter Berücksichtigung eines vordefinierten Vertrauensniveaus zu erfassen; - Ausgeben von Erfassungsdaten, die durch die Objekterfassung empfangen werden; und - Bereitstellen eines Filterns (48) für die Bereichsvorschläge (18) vor dem Schritt des Bereitstellens von Objekterfassung, wobei das Filtern basierend auf jeweiligen Filterdaten ausgeführt wird,die basierend auf einer Relevanz der Bereichsvorschläge (18) in Zusammenhang mit den Verkehrsteilnehmern (12) und/oder dem Verkehrsweg (14) geschätzt werden.The invention relates to a method (10) for detecting road users (12) on a traffic route (14) in an image, comprising: - generating (42) a plurality of range proposals (18) for possible objects shown in the illustration (16) recorded by applying a range proposal generator; - providing object detection (72) for all area proposals (18) to detect the traffic route (14) and / or the road users (12) by classification taking into account a predefined confidence level; Outputting detection data received by the object detection; and providing filtering (48) for the range suggestions (18) before the step of providing object detection, the filtering being performed based on respective filter data based on a relevance of the range suggestions (18) associated with the traffic participants (12). and / or the traffic route (14).
Description
BESCHREIBUNG DESCRIPTION
ERFASSEN VON VERKEHRS EILNEHMERN AUF EINEM VERKEHRSWEG Die Erfindung betrifft ein Verfahren zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Abbildung, die von einer Kamera, die die Abbildung aufnimmt, bereitgestellt wird, wobei das Verfahren Erzeugen einer Vielzahl von Bereichsvorschlägen für mögliche Objekte, die in der Abbildung aufgezeichnet sind, indem ein Bereichsvorschlaggenerator auf die Abbildung angewandt wird, Bereitstellen von Objekterfassung für alle Bereichsvorschläge, indem ein Objekterfassungsgerät auf alle Bereichsvorschläge angewandt wird, um den Verkehrsweg und/oder die Verkehrsteilnehmer durch Klassifizieren unter Berücksichtigen eines vorbestimmten Vertrauensniveaus zu erfassen, und Ausgeben von Erfassungsdaten, die von der Objekterfassung für den erfassten Verkehrsweg und/oder die erfassten Verkehrsteilnehmer empfangen werden, umfasst. Die Erfindung betrifft auch eine Vorrichtung zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Abbildung, wobei die Vorrichtung mindestens eine Kamera, die die Abbildung des Verkehrswegs aufnimmt, und ein Gerät umfasst, das konfiguriert ist, um eine Vielzahl von Bereichsvorschlägen für mögliche Objekte, die in der Abbildung aufgezeichnet sind, zu erzeugen, indem ein Bereichsvorschlaggenerator auf die Abbildung angewandt wird, Objekterfassung für alle Bereichsvorschläge bereitzustellen, um den Verkehrsweg und/oder die Verkehrsteilnehmer durch Klassifizieren unter Berücksichtigung eines vorbestimmten Vertrauensniveaus zu erfassen, und Erfassungsdaten auszugeben, die von der Objekterfassung für den erfassten Verkehrsweg und/oder die erfassten Verkehrsteilnehmer empfangen werden. Außerdem betrifft die Erfindung auch ein Verfahren zum Bereitstellen von Verkehrsführung, die das Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Sequenz aufeinanderfolgender Abbildungen umfasst, die von einer Kamera bereitgestellt werden, die die Sequenz von Abbildungen des Verkehrswegs aufnimmt, Bestimmen einer verwendeten Kapazität des Verkehrswegs, der durch die Verkehrsteilnehmer bereitgestellt wird, Identifizieren individueller tatsächlicher Geschwindigkeit und/oder Position jedes der Verkehrsteilnehmer, um jeweilige individuelle tatsächliche Bahnen zu bestimmen, Bestimmen mindestens einer jeweiligen Nennbahn für jeden der Verkehrsteilnehmer, und Kommunizieren der bestimmten Nennbahnen zu den jeweiligen Verkehrsteilnehmern. Ferner betrifft die Erfindung auch ein VerkehrsleitSystem, um Verkehrsführung bereitzustellen, das mindestens eine Vorrichtung zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Sequenz aufeinanderfolgender Abbildungen, und ein Gerät umfasst, das konfiguriert ist, um Verkehrsteilnehmer auf dem Verkehrsweg in der Sequenz aufeinanderfolgender Abbildungen zu erfassen, eine verwendete Kapazität des Verkehrswegs zu bestimmen, der durch die Verkehrsteilnehmer bereitgestellt wird, individuelle tatsächliche Geschwindigkeit und/oder Position jedes der Verkehrsteilnehmer zu identifizieren, um jeweilige individuelle tatsächliche Bahnen zu bestimmen, mindestens eine jeweilige Nennbahn für jeden der Verkehrsteilnehmer zu bestimmen, und die bestimmten Nennbahnen zu den jeweiligen Verkehrsteilnehmern zu kommunizieren. Schließlich betrifft die Erfindung auch ein Computerprogrammprodukt, das ein Programm für eine Verarbeitungsvorrichtung aufweist . The invention relates to a method for detecting road users on a traffic route in a map provided by a camera taking the image, the method generating a plurality of area proposals for possible objects, which in of the map by applying a scoped generator to the map, providing object detection for all scoped proposals by applying an object scouting device to all scoped proposals to detect the traffic route and / or the road users by classifying taking into account a predetermined confidence level, and outputting of detection data received from the object detection for the detected traffic route and / or the detected road users. The invention also relates to a device for detecting road users on a traffic route in an image, wherein the device comprises at least one camera that records the image of the traffic route, and a device that is configured to provide a plurality of range proposals for possible objects, the in the figure, by applying a range suggestion generator to the mapping, to provide object detection for all range suggestions to detect the traffic route and / or the road users by classifying taking into account a predetermined confidence level, and to output detection data obtained from the object detection received for the detected traffic route and / or the detected road users. Moreover, the invention also relates to a method of providing traffic guidance comprising detecting traffic participants on a traffic route in a sequence of successive images provided by a camera comprising the sequence of images of the traffic route, determining a used capacity of the traffic route provided by the road users, identifying individual actual speed and / or position of each of the road users to determine respective individual actual tracks, determining at least one respective nominal track for each of the road users, and communicating the specific nominal lanes to the respective road users. Further, the invention also relates to a traffic guidance system for providing traffic guidance comprising at least one device for detecting traffic participants on a traffic route in a sequence of successive images, and a device configured to detect traffic participants on the traffic route in the sequence of successive images to determine a used capacity of the traffic route provided by the road users, to identify individual actual speed and / or position of each of the road users, to determine respective individual actual tracks, to determine at least one respective nominal track for each of the road users, and certain nominal lanes to the respective road users to communicate. Finally, the invention also relates to a computer program product having a program for a processing device.
Aktuelle Verfahren und Vorrichtungen werden gewöhnlich an auf Kamera basierende Überwachung und Steuerung von Verkehrsknotenpunkten angewandt. Das kann eine automatische Bestimmung und Zuweisung jeweils eines adaptiven Zeitfensters und/oder einer Spur eines Verkehrswegs oder eines vollständigen Wegs jeweils zu jedem der Fahrzeuge auf dem Verkehrsweg, als Verkehrsteilnehmer aufweisen. Current methods and devices are commonly applied to camera-based monitoring and control of traffic junctions. This may include automatic determination and assignment of an adaptive time window and / or a lane of a traffic route or a complete route to each of the vehicles on the traffic route, as road users.
Bisher wurden Überwachung und Steuerung von Verkehrsknotenpunkten gewöhnlich von herkömmlichenSo far, monitoring and control of traffic junctions have usually been conventional
Steuersystemen mit statischem Licht, vom Fahrzeug betätigten Ampelsteuersystemen, jeweiligem Kreisverkehr, Extraspuren, die während Stoßzeiten bereitgestellt werden, und dergleichen bereitgestellt. Die Erfindung betrifft folglich das Verwenden von Daten mindestens einer Kamera, insbesondere von Videodaten in einer Umgebung im Freien zur Verkehrsüberwachung. Control systems with static light, operated by the vehicle Traffic light control systems, respective roundabout, extra lanes provided during peak times, and the like. The invention thus relates to the use of data from at least one camera, in particular video data in an outdoor environment for traffic monitoring.
Das Wachstum und das Ausmaß von Fahrzeugen machen das Verkehrsmanagement laufend schwieriger. Existierende und herkömmliche Verkehrsmanagementsteuersysteme basieren auf Timingmechanismen, wie zum Beispiel Ampeln, die üblicherweise gleiche Zeitfenster für jede Kreuzungsspur bereitstellen, was zu inhärenter Ineffizienz durch nicht gleichförmigen Verkehrsfluss führt. Außerdem können während Stoßzeiten Kreisverkehre und Extraspuren bereitgestellt werden, die typischerweise eine größere Landfläche erfordern oder das Abreißen benachbarter Strukturen für ihren Bau bedingen. The growth and scale of vehicles makes traffic management more difficult. Existing and conventional traffic management control systems are based on timing mechanisms, such as traffic lights, which typically provide equal time windows for each intersection track, resulting in inherent inefficiency due to non-uniform traffic flow. In addition, at peak times, roundabouts and extra tracks may be provided which typically require greater land area or require demolition of adjacent structures for their construction.
Ein effizienterer Ansatz basiert auf dem Bereitstellen adaptiver Zeitfenster für jede Spur der Straße basierend auf Echtzeit- Verkehrsdichtedaten durch fortschrittliche Kommunikationssysteme eines entsprechenden Satzes von Sensortechnologie zum Beobachten des Verkehrsszenarios. A more efficient approach is based on providing adaptive time windows for each lane of the road based on real-time traffic density data through advanced communication systems of a corresponding set of sensor technology for observing the traffic scenario.
Autonome Fahrzeuge oder selbstfahrende Automobile werden zunehmend machbarer, und die Interkommunikation zwischen mehreren Fahrzeugen bzw. Automobilen und lokalen Kreuzungssteuerungvorrichtungen erlauben automatische Wechselwirkung . Autonomous vehicles or self-driving automobiles are becoming increasingly feasible, and the intercommunication between multiple vehicles and local intersection control devices allow automatic interaction.
Obwohl aktuelle Verfahren zur Fahrzeugkoordination für das Fahren auf offener Straße zum Arbeiten mit menschlichen Fahrern konzipiert sind, erlaubt das Konzept autonomer Fahrzeuge das Anwenden von Gesamtstraßensteuervorrichtungen, die direkt mit den einzelnen Fahrzeugen interagieren und das Identifizieren des effizientesten und sichersten Navigationswegs sowohl bei Stadtverkehrsszenarien als auch bei Schwerverkehrsknotenpunkten erlauben . In dem Fall von von Menschen gefahrenen Automobilen, können die Betriebsstraße und Kreuzungssteuervorrichtung mindestens Navigationsinformationen über optimale Spur- und Streifenauswahl gemeinsam mit dienlichsten Geschwindigkeitsempfehlungen bereitstellen . Although current vehicle coordination techniques are designed for driving on the open road to work with human drivers, the concept of autonomous vehicles allows the application of overall road control devices that interact directly with the individual vehicles and identify the most efficient and safest navigation path in both urban traffic scenarios and Allow heavy traffic hubs. In the case of automobiles driven by humans, the service road and intersection control device may provide at least navigation information about optimal lane and stripe selection along with the most useful speed recommendations.
Das herkömmliche Verkehrssteuersystem basiert auf Stopptafeln, Ampeln oder dem Einsetzen eingelassener Schleifendetektoren zur Fahrzeugerfassung und automatischerThe conventional traffic control system is based on stop panels, traffic lights or the insertion of recessed loop detectors for vehicle detection and automatic
Geschwindigkeitskontrolldisplays, um die Fahrer zu informieren. Für die Verkehrsflusssteuerung wenden traditionelle Systeme Kreuzungssteuermechanismen an, die gewöhnlich gleiche oder vorprogrammierte Zeitfenster für jede Kreuzungsspur zuweisen, wobei das zeitliche Umschaltmuster zum Einrichten gleichförmiger Fahrzeugströme für von Menschen gefahrene nicht automatisierte Automobile beschränkt ist. Speed control displays to inform drivers. For traffic flow control, traditional systems employ intersection control mechanisms that usually assign equal or preprogrammed time slots for each intersection lane, with the temporal switchover pattern being limited to establishing uniform vehicle flows for man-driven non-automated automobiles.
Angesichts des Stands der Technik verbleibt eine Notwendigkeit, die Verkehrssteuerung zu verbessern, um den Verkehrsfluss zu verbessern und Staus auf dem Verkehrsweg zu verringern. In view of the prior art, there remains a need to improve traffic control in order to improve traffic flow and reduce congestion on the traffic route.
Um den oben erwähnten Gegenstand zu meistern, schlägt die Erfindung Verfahren, Vorrichtungen und Computerprogrammprodukte gemäß den unabhängigen Ansprüchen vor. In order to cope with the above-mentioned subject matter, the invention proposes methods, devices and computer program products according to the independent claims.
Weitere Verbesserungen können durch Merkmale der abhängigen Ansprüche erzielt werden. Im Hinblick auf ein generisches Verfahren zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg, lehrt die Erfindung insbesondere das Bereitstellen der Bereichsvorschläge vor dem Schritt des Bereitstellens von Objekterfassung, wobei Filtern basierend auf jeweiligen Filterdaten ausgeführt wird, die basierend auf einer Relevanz der Bereichsvorschläge hinsichtlich der Verkehrsteilnehmer und/oder des Verkehrswegs geschätzt werden . Further improvements may be achieved by features of the dependent claims. In particular, with regard to a generic method for detecting road users on a traffic route, the invention teaches providing the range suggestions prior to the step of providing object detection, wherein filtering is performed based on respective filter data based on a relevance of the range suggestions the road user and / or the traffic route.
In Zusammenhang mit einer jeweiligen generischen Vorrichtung zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg in einer Sequenz aufeinanderfolgender Abbildungen, lehrt die Erfindung insbesondere, dass das Gerät ferner konfiguriert ist, um ein Filtern für die Bereichsvorschläge bereitzustellen, bevor Objekterfassung bereitgestellt wird, wobei das Filtern basierend auf jeweiligen Filterdaten ausgeführt wird, die basierend auf einer Relevanz der Bereichsvorschläge in Zusammenhang mit den Verkehrsteilnehmern und/oder dem Verkehrsweg geschätzt werden. In particular, in connection with a respective generic device for detecting traffic participants on a traffic route in a sequence of consecutive maps, the invention teaches that the device is further configured to provide area range suggestions before providing object detection, wherein the filtering is based on corresponding filter data is estimated, which are estimated based on a relevance of the range proposals in connection with the road users and / or the traffic route.
Im Hinblick auf ein generisches Verfahren zum Bereitstellen von Verkehrsführung, lehrt die Erfindung insbesondere das Erfassen von Verkehrsteilnehmern auf dem Verkehrsweg durch Anwenden eines erfindungsgemäßen Verfahrens zum Erfassen vonWith regard to a generic method for providing traffic guidance, the invention particularly teaches the detection of road users on the traffic route by applying a method according to the invention for detecting
Verkehrsteilnehmern auf einem Verkehrsweg. Die Erfindung lehrt auch insbesondere für ein Verkehrsleitsystem der generischen Art, dass die Vorrichtung zum Erfassen von Verkehrsteilnehmern erfindungsgemäß konfiguriert ist. Road users on a traffic route. The invention also teaches in particular for a traffic control system of the generic type that the device for detecting road users is configured according to the invention.
Die Erfindung basiert auf der Feststellung, dass richtige Erfassung von Verkehrsteilnehmern auf einem Verkehrsweg ein gutes Konzept sein kann, um die allgemeine Fahrzeugwartezeit durch auf Kamera basierende Verkehrsüberwachung verbunden mit jeweils autonomen und automatisierten Automobilen oder Fahrzeugen zu verringern. Das erlaubt das Optimieren des Verkehrsflusses und der Fahrbahneffizienz bzw.The invention is based on the finding that proper detection of road users on a traffic route can be a good concept to reduce the overall vehicle latency through camera-based traffic monitoring associated with each autonomous and automated automobile or vehicle. This allows optimizing the traffic flow and the roadway efficiency or
Verkehrswegeffizienz, insbesondere in Anbetracht des Konzepts autonomer Verkehrsteilnehmer, wie zum Beispiel Fahrzeuge, Automobile, LKWs und dergleichen. Autonome Fahrzeuge sind mit gegenseitiger Kommunikationsinfrastruktur ausgestattet, die Mittel zur Fahrzeugkoordination und Verkehrsflusssteuerung ohne die Einschränkungen für das signifikante Beschleunigen oder Verlangsamen oder unnützes Anhalten bereitstellt. Transport path efficiency, in particular in view of the concept of autonomous road users, such as vehicles, automobiles, trucks and the like. Autonomous vehicles are equipped with mutual communication infrastructure, the means of vehicle coordination and traffic flow control without provides the limitations for significant acceleration or slowing or useless stopping.
Die Erfindung erlaubt es Verkehrsteilnehmern bzw. Fahrzeugen insbesondere, mit einem zentralen Kreuzungssteuersystem verbunden zu sein, das Videoinfrastruktur zum Prüfen der angeratenen Bahnen für die einzelnen Fahrzeuge einsetzt. Die Videoinfrastruktur kann durch eine oder mehrere Kameras bereitgestellt werden. Das erlaubt es, herkömmliche Ampeln durch die Kreuzungssteuervorrichtung zu ersetzen. In particular, the invention allows road users or vehicles to be connected to a central intersection control system that employs video infrastructure to check the recommended lanes for the individual vehicles. The video infrastructure can be provided by one or more cameras. This makes it possible to replace conventional traffic lights by the intersection control device.
Die Kreuzungssteuervorrichtung, gelegentlich auchThe crossing control device, occasionally too
Kreuzungsmanagement-Steuervorrichtung genannt, hat sowohl die Fähigkeit zur Erfassung als auch zur Kommunikation und Steuerung, und sie kann zusätzlich mit bevorzugt jedem der sich nähernden Verkehrsteilnehmer bzw. Fahrzeuge verknüpft sein, um ihre einzelnen Bahnverläufe zu koordinieren, was eine adaptivere und intelligentere Verkehrsflusssteuerung ermöglicht. Außerdem erlaubt ein auf Zeitfenster basierender Kreuzungssteuermechanismus, der angemessene zeitliche Auflösung aufweist, zusätzlich das Koordinieren eines bevorzugt gleichmäßigen Fahrzeugflusses, wobei das Anhalten im Leerlauf oder das vollständige Stoppen des Fahrzeugs an Ampeln geglättet oder vermieden werden kann, bzw. restliche vorwegnehmende Bewegungen, wie zum Beispiel Anpassen einer Geschwindigkeit eines bestimmten Fahrzeugs an den Bahnverlauf eines vorbestimmten Fahrzeugs, um einen im Wesentlichen stationären Verkehr zu schaffen. Called intersection management control device, has both the ability to detect and for communication and control, and may additionally be associated with preferably each of the approaching road users or vehicles to coordinate their individual trajectories, allowing a more adaptive and smarter traffic flow control. In addition, a time window-based intersection control mechanism having adequate temporal resolution additionally allows coordinating a preferably uniform vehicle flow, wherein the idling stop or the complete stopping of the vehicle at traffic lights can be smoothed or avoided, or remaining anticipatory movements, such as Adjusting a speed of a particular vehicle to the trajectory of a predetermined vehicle to provide substantially stationary traffic.
Die Erfindung resultiert darin, dass sich im Wesentlichen alle Fahrzeuge gleichzeitig und schneller bewegen, so dass die Kreuzungseffizienz signifikant erhöht werden kann. Mit autonomen und automatisierten Verkehrsteilnehmern bzw. Fahrzeugen, werden Ampeln zum Verwalten von Verkehrskreuzungen folglich entbehrlich. Das erfinderische Konzept kann auch an Zubringer zum Erreichen von Autobahnen, für das Zusammenführen von Fahrspuren im Allgemeinen, und dergleichen angewandt werden. The invention results in that substantially all vehicles move at the same time and faster, so that the crossing efficiency can be significantly increased. With autonomous and automated road users or vehicles, traffic lights for managing traffic intersections are therefore unnecessary. The innovative concept can also be applied to feeder for motorways, for the merging of lanes in general, and the like.
Bei einer bestimmten Ausführungsform kann das Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg, insbesondere der automatische Fahrzeugerfassungsrahmen des Verkehr-In a specific embodiment, the detection of road users on a traffic route, in particular the automatic vehicle detection framework of the traffic
Kreuzungssteuersystems, auf Deep Convolutional Neural Networks basieren. Das erlaubt es, ohne Weiteres in Betracht zu ziehen, dass Fahrzeuge gewöhnlich in Bildern bzw. Abbildungen, die durch die Kamera aufgenommen werden, aufgrund ihrer variablen Entfernung von der Kamera in unterschiedlichen Maßstäben erscheinen. Um die Verkehrsteilnehmer bzw. Fahrzeuge variierender Größen zu erfassen, muss die Vorrichtung jeweils nach Objekten in mehreren Maßstäben in den Bildern oder Abbildungen suchen. Die Suche nach mehreren Maßstäben zieht jedoch eine hohe Latenzzeit nach sich und könnte in niedrigerer Erfassungspräzision resultieren. In diesem Hinblick erlaubt es die Erfindung, Selbstinbetriebnahme auszuführen. Sie schätzt und verwendet automatisch Szenen-Layoutinformationen wie zum Beispiel hinsichtlich einer Bodenfläche oder dergleichen. Junction control system, based on Deep Convolutional Neural Networks. This allows to readily consider that vehicles usually appear in pictures taken by the camera because of their variable distance from the camera at different scales. In order to detect the road users or vehicles of varying sizes, the device must in each case search for objects in several scales in the images or images. However, the search for multiple scales entails a high latency and could result in lower detection precision. In this regard, the invention allows to carry out self-commissioning. It automatically estimates and uses scene layout information such as floor space or the like.
Außerdem erlaubt es die Erfindung auch, einen Maßstab der Bodenfläche ausgehend von einer Langzeitbeobachtung der erscheinenden Fahrzeuge mit unterschiedlichen Maßstäben zu schätzen. Das kann auf selbstkonsistenter Analyse oder auf einer Regression und dergleichen basieren. Zu diesem Zweck kann die Erfassung von Skalierungsinformationen und/oderIn addition, the invention also allows a scale of the floor area to be estimated from a long-term observation of the appearing vehicles having different scales. This may be based on self-consistent analysis or regression, and the like. For this purpose, the acquisition of scaling information and / or
Bodenflächeninformationen aus einer Langzeitverkehrsbeobachtung bereitgestellt werden, was ebenfalls helfen kann, die Erfassung zu beschleunigen. Die Skalierungsinformationen können zum Beispiel automatisch in dem RPN enthalten sein. Land surface information from a long-term traffic observation can be provided, which can also help to speed up the detection. For example, the scaling information may be automatically included in the RPN.
Das Beginnen des erfinderischen Verfahrens oder der erfinderischen Vorrichtung erfordert keine Kenntnis über die vorliegende Szene. Die Erfindung beginnt mit Erfassen von Objekten in allen Maßstäben. Nachdem eine ausreichende Anzahl von Objekten, nämlich von Verkehrsteilnehmern, bevorzugt Fahrzeugen, an mehreren unterschiedlichen Bereichen in dem Bild bzw. der Abbildung erfasst wurde, ist die Erfindung fähig, ein Layout der Bodenfläche der Szene zu schätzen. Das macht die Erfindung robuster und schneller, da die Anzahl von Maßstäben zum Suchen nach einem Gegenstand an unterschiedlichen Lagen in dem Bild bzw. der Abbildung, verringert werden kann. Starting the inventive method or apparatus requires no knowledge of the present scene. The invention begins with detecting objects in all scales. After a sufficient number of objects, namely, road users, preferably vehicles, has been detected at several different areas in the image or image, the invention is capable of estimating a layout of the floor area of the scene. This makes the invention more robust and faster, since the number of scales for searching for an item at different positions in the image or image can be reduced.
Selbstinbetriebnahme kann folglich auch hilfreich sein, falls die Kameraposition neu eingestellt wird, zum Beispiel während regelmäßiger Wartung, Servicearbeit, die gewöhnlich von Zeit zu Zeit bereitgestellt wird, so dass es folglich nicht erforderlich ist, zusätzlichen Aufwand bereitzustellen, wie zum Beispiel technische Unterstützung oder Inbetriebnahme. Self-startup can therefore also be helpful if the camera position is reset, for example, during regular maintenance, service work that is usually provided from time to time, and thus there is no need to provide additional effort, such as technical assistance or startup ,
Im Allgemeinen kann der Begriff „Verkehrsteilnehmer" auf einen beliebigen Benutzer, der am Verkehr teilnimmt, angewandt werden. Ein Verkehrsteilnehmer kann folglich ein Fahrzeug, ein Fahrrad, ein Fußgänger und dergleichen sein. In dieser Hinsicht entspricht der Begriff „Verkehrsweg" einer beliebigen auf Land basierenden Fläche, die bereitgestellt wird, damit sich Verkehrsteilnehmer auf ihr bewegen können. Ein Verkehrsweg kann folglich eine Landstraße, eine Straße, eine Allee, eine Autobahn aber auch ein Bürgersteig und dergleichen sein. Zu bemerken ist jedoch, dass die Erfindung nicht auf Anwendungen im Freien beschränkt ist. Sie kann auch an Anwendungen in Innenräumen angewandt werden, zum Beispiel an Lagerhaltung in einem Lager, wo autonome Fahrzeuge Waren von und zu vordefinierten Lagerpositionen und dergleichen transportieren können. In general, the term "road user" can be applied to any user who participates in the traffic, and thus a road user can be a vehicle, a bicycle, a pedestrian, etc. In this regard, the term "traffic route" corresponds to any one on land based area that is provided so that road users can move on it. A traffic route can thus be a highway, a road, an avenue, a highway, but also a sidewalk and the like. It should be noted, however, that the invention is not limited to outdoor applications. It may also be applied to indoor applications such as warehousing in a warehouse where autonomous vehicles can transport goods to and from predefined storage locations and the like.
In diesem Zusammenhang kann ein „Verkehrsweg" durch eine vordefinierte Fläche für die autonomen Fahrzeuge, auf der die autonomen Fahrzeuge bewegt werden können, gebildet sein. Die vordefinierte Fläche kann ein bestimmter Abschnitt eines Bodens sein, der für Transport bestimmt ist, insbesondere innerhalb des Lagers . Die Kamera wird verwendet, um Bilder bzw. Abbildungen in Zusammenhang mit einer gewissen vorbestimmten Sicht aufzunehmen. Die Kamera ist konfiguriert, um mehr als nur ein Bild bzw. nur eine Abbildung aufzunehmen, um insbesondere eine Sequenz aufeinanderfolgender Abbildungen derselben Ansicht aufzunehmen. In dieser Hinsicht kann die Kamera bevorzugt aus einer Videokamera bestehen. Die Kamera stellt Bilddaten bzw. Abbildungsdaten bereit, die zu einer Bildverarbeitungsvorrichtung geliefert werden, die bevorzugt zur Echtzeit-Vorverarbeitung einer großen Menge von Bilddaten bzw. Abbildungsdaten fähig ist, um das Datenvolumen, das zu der Kreuzungssteuervorrichtung zu übertragen ist, zu verringern. Die Bildverarbeitungseinheit kann aus einer Onboard- Verarbeitung, Edge Computing und dergleichen gebildet sein. In this context, a "traffic route" may be formed by a predefined area for the autonomous vehicles on which the autonomous vehicles can be moved The predefined area may be a specific section of a floor intended for transportation, in particular within the warehouse , The camera is used to capture images related to a certain predetermined view. The camera is configured to take more than one image or only one image, in particular to capture a sequence of successive images of the same view. In this regard, the camera may preferably consist of a video camera. The camera provides image data that is provided to an image processing device that is preferably capable of real-time pre-processing a large amount of image data to reduce the volume of data to be transmitted to the intersection controller. The image processing unit may be formed of on-board processing, edge computing, and the like.
In diesem Zusammenhang ist die Bildverarbeitungseinheit bevorzugt Teil der Kamera. Sie kann jedoch durch eine separate Einheit, die kommunikativ mit der Kamera verbunden ist, bereitgestellt werden. Echtzeit-Vorverarbeitung bedeutet Echtzeiterfassung und Überwachung von Verkehrsteilnehmern, wie zum Beispiel von Fahrzeugen, Fahrrädern, Fußgängern und dergleichen, darunter Bahnberechnung und -Simulation. Die Kamera sowie die Bildverarbeitungseinheit können Teil einer Infrastruktureinheit sein, die einen Straßenlaternenmast, ein Gebäude und dergleichen umfassen kann. Die Infrastruktureinheit kann die Kamera umfassen. Sie kann zusätzlich einen FLIR, einen LPR, einen RADAR und dergleichen aufweisen. Die Infrastruktureinheit kann eine erfindungsgemäße Vorrichtung bilden . In this context, the image processing unit is preferably part of the camera. However, it may be provided by a separate unit communicatively connected to the camera. Real-time pre-processing means real-time detection and monitoring of road users, such as vehicles, bicycles, pedestrians, and the like, including lane calculation and simulation. The camera and the image processing unit may be part of an infrastructure unit that may include a street lamp mast, a building, and the like. The infrastructure unit may include the camera. It may additionally comprise a FLIR, an LPR, a RADAR and the like. The infrastructure unit can form a device according to the invention.
Um die Erfindung auszuführen, kann ein Erfassungsrahmen bereitgestellt werden, der das Ausführen des erfinderischen Verfahrens ermöglicht und die erfinderische Vorrichtung bilden kann. In dieser Hinsicht kann der Erfassungsrahmen fähig sein, Szenen- und Straßenlayoutdaten zum Beispiel in Zusammenhang mit der Bodenfläche oder dergleichen als eine zusätzliche Kenntnis zu verwenden, um die Effizienz und Robustheit eines Erfassungsalgorithmus durch automatisches Beschneiden der Objektmaßstäbe zu verbessern. Das bedeutet, dass es die Kenntnis des Layouts der Bodenfläche erlaubt, dass die Kamera die internen Maßstäbe mit absoluten realen Maßstäben in Beziehung bringen kann . Der Erfassungsrahmen erlaubt es daher, eine virtuelle dreidimensionale Szene der Objekte zu schaffen, die in den Bildern bzw. Abbildungen aufgezeichnet wurden. Insbesondere kann es die Größe des sichtbaren 2D-Objekts sein, die zur Objekterkennung hilfreich ist. Bevorzugt ist der Erfassungsrahmen fähig, Selbstinbetriebnahme auszuführen. Das bedeutet, dass der Erfassungsrahmen in einer anfänglichen Phase allmählich Daten über das Szenenlayout, Daten aus einer Langzeitbeobachtung durch Analysieren erscheinender Größen und Maßstäbe der erfassten Verkehrsteilnehmer und/oder des erfassten Verkehrswegs erfassen kann. Nachdem der Erfassungsrahmen eine ausreichende Anzahl von Verkehrsteilnehmern bevorzugt an mehreren unterschiedlichen Bereichen in dem Bild bzw. in der Abbildung erfasst hat, kann er fähig sein, das Layout der Bodenfläche der Szene zu schätzen. Das Layout der Bodenfläche kann folglich allmählich abgestimmt und im Laufe der Zeit verbessert werden. Das Neueinstellen der Kamera, insbesondere der Kameraposition, kann daher berücksichtigt und automatisch abgeglichen werden. Der Erfassungsrahmen kann es einem Bediener auch erlauben, direkt bestimmte Daten in Zusammenhang mit der Szene einzugeben, insbesondere die Bodenfläche der Szene. Das kann verwirklicht werden, indem bestimmte Parameter sichtbarer Bodenfläche bereitgestellt werden, die vorab als Inbetriebnahme bereitgestellt werden können. In diesem Zusammenhang kann manuelle Inbetriebnahme bereitgestellt werden. Falls die Kenntnis über das Szenenlayout verfügbar ist, kann ein Suchraum für den Maßstab während der Mitverfolgung von Verkehrsteilnehmern verringert werden. Erfindungsgemäß wird optional eine erste Abbildung der Sequenz aufeinanderfolgender Abbildungen ausgewählt und als die zu verarbeitende Abbildung definiert. Die erste Abbildung braucht nicht die erste Abbildung der Sequenz von Abbildungen zu sein. Im Allgemeinen ist es möglich, dass diese Abbildung eine beliebige der Sequenz von Abbildungen sein kann. Bevorzugt ist es jedoch die Abbildung, die einen frühesten Zeitstempel hat. Zum Zweck der Auswahl kann eine bestimmte Auswahleinheit bereitgestellt werden, die die erste Abbildung aus einer Datenbank auswählt, in der die Sequenz von Abbildungen gespeichert ist, mindestens teilweise, zum Beispiel vorübergehend gespeichert ist. Es kann jedoch vorgesehen sein, dass eine Abbildung, die von der Kamera geliefert wird, unmittelbar als die zu verarbeitende Abbildung definiert und dem erfinderischen Verfahren unterzogen wird. In order to carry out the invention, a detection frame may be provided which enables the inventive method to be carried out and to constitute the inventive device. In this regard, the coverage framework may be able to Scene and street layout data, for example, related to the floor area or the like may be used as additional knowledge to improve the efficiency and robustness of a detection algorithm by automatically cropping the object scales. This means that knowing the layout of the floor space allows the camera to relate the internal scales to absolute real scales. The detection frame therefore makes it possible to create a virtual three-dimensional scene of the objects recorded in the images. In particular, it may be the size of the visible 2D object that is useful for object recognition. Preferably, the detection frame is capable of performing self-commissioning. That is, in an initial phase, the detection frame may gradually acquire data about the scene layout, data from a long-term observation by analyzing appearing quantities and scales of the detected road users and / or the detected traffic route. After the detection frame has detected a sufficient number of road users, preferably at several different areas in the image or image, it may be able to estimate the layout of the floor area of the scene. The layout of the floor space can thus be gradually tuned and improved over time. The new setting of the camera, in particular the camera position, can therefore be considered and automatically adjusted. The capture frame may also allow an operator to directly input certain data associated with the scene, particularly the bottom surface of the scene. This can be accomplished by providing certain parameters of visible floor space which can be provided in advance as commissioning. In this context, manual commissioning can be provided. if the Knowledge of the scene layout is available, a search space for the scale during the tracking of road users can be reduced. According to the invention, a first image of the sequence of successive images is optionally selected and defined as the image to be processed. The first image does not need to be the first mapping of the sequence of images. In general, it is possible that this map may be any of the sequence of maps. Preferably, however, it is the image that has an earliest timestamp. For purposes of selection, a particular selection unit may be provided which selects the first image from a database in which the sequence of images is stored, at least in part, for example, temporarily stored. However, it may be provided that an image provided by the camera is directly defined as the image to be processed and subjected to the inventive process.
Dann erzeugt ein Bereichsvorschlaggenerator eine Vielzahl von Bereichsvorschlägen, um mögliche Objekte, die in der Abbildung aufgezeichnet sind, zu verarbeiten. DerThen, a range proposal generator generates a plurality of range suggestions to process possible objects recorded in the image. The
Bereichsvorschlaggenerator kann eine Recheneinheit sein, wie zum Beispiel ein Computer, der einen Mikroprozessor hat, eine digitale Signalverarbeitungseinheit (Digital Signal Processing DSP) oder dergleichen, die von einem bestimmten Computerprogramm gesteuert wird, um die Bereichsvorschläge zu erzeugen . A range suggestion generator may be a computing unit, such as a computer having a microprocessor, a Digital Signal Processing (DSP) or the like, controlled by a particular computer program to generate the range suggestions.
Eine Objekterfassung wird bevorzugt für alle Bereichsvorschläge bereitgestellt, indem ein Objekterfassungsgerät auf alle Bereichsvorschläge angewandt wird, um den Verkehrsweg und/oder die Verkehrsteilnehmer zu erfassen, während ein vorbestimmtes Vertrauensniveau berücksichtigt wird. Die Objekterfassung führt zum Erzeugen von Erfassungsdaten für den erfassten Verkehrsweg und/oder die erfassten Verkehrsteilnehmer, die für weitere Verarbeitung oder Meldung ausgegeben werden. Object detection is preferably provided for all area proposals by applying an object detection apparatus to all area proposals to detect the traffic route and / or road users while considering a predetermined level of confidence. The object detection leads to the generation of acquisition data for the detected traffic route and / or the detected road users who are issued for further processing or reporting.
Dann kann das Verfahren durch Auswählen einer anderen Abbildung der Sequenz aufeinanderfolgender Abbildungen als die Abbildung, die zu verarbeiten ist, fortgesetzt werden. Then, the method may be continued by selecting another mapping of the sequence of consecutive mappings than the image to be processed.
Gemäß einem Aspekt der Erfindung wird ein Filtern der Bereichsvorschläge bereitgestellt, bevor der Schritt des Bereitstellens von Objekterfassung ausgeführt wird, wobei das Filtern basierend auf jeweiligen Filterdaten ausgeführt wird, die basierend auf einer Relevanz der Bereichsvorschläge in Zusammenhang mit den Verkehrsteilnehmern und/oder dem Verkehrsweg geschätzt werden. Das erlaubt es, die Bodenfläche der Szene zu finden, basierend auf dieser Feststellung kann der Aufwand für die Objekterfassung verringert werden, weil die Anzahl von Bereichsvorschlägen verringert werden kann. Insbesondere falls die Bodenfläche bzw. der Verkehrsweg verfügbar ist, können die erzeugten Bereichsvorschläge derart ausgewählt werden, dass nur die Bereichsvorschläge, die in relevanten erfassten Objekten resultieren können, während der Objekterfassung berücksichtigt werden. According to one aspect of the invention, filtering of the range proposals is provided before performing the step of providing object detection, wherein the filtering is performed based on respective filter data estimated based on a relevance of the range suggestions associated with the road users and / or the traffic route become. This makes it possible to find the bottom surface of the scene, based on this finding, the cost of object detection can be reduced because the number of range suggestions can be reduced. In particular, if the floor area or the traffic route is available, the generated area suggestions may be selected such that only the area suggestions that may result in relevant detected objects are taken into account during the object detection.
Das Filtern der Bereichsvorschläge resultiert daher in einer Verringerung der Anzahl aller Bereichsvorschläge, die von dem Bereichsvorschlaggenerator erzeugt werden. Das Filtern wird basierend auf jeweiligen Filterdaten ausgeführt, die basierend auf einer Relevanz der Bereichsvorschläge in Zusammenhang mit den Verkehrsteilnehmern und/oder dem Verkehrsweg, insbesondere der Bodenfläche der Szene, geschätzt werden. Filtering the range suggestions therefore results in a reduction in the number of range suggestions produced by the range suggestion generator. The filtering is performed based on respective filter data that is estimated based on a relevance of the range suggestions in connection with the road users and / or the traffic route, in particular the floor area of the scene.
Gemäß einer beispielhaften Verbesserung werdenAccording to an exemplary improvement
Maßstabinformationen vor dem Schritt des Ausführens von Objekterfassung bereitgestellt, wobei Maßstabinformationen aus Langzeitbeobachtung der erfassten Fahrzeuge auf der Bodenfläche erfasst werden. Insbesondere kann ein Bodenflächenskalieren aus der Selbstinbetriebnahmephase abgeleitet werden. Das erlaubt es, die Erfindung zu verbessern und den Aufwand insbesondere in Zusammenhang mit der Ausführung der Objekterfassung zu verringern . Provided scale information prior to the step of performing object detection, wherein scale information is acquired from long-term observation of the detected vehicles on the ground surface. In particular, a floor surface scaling off the self-commissioning phase are derived. This makes it possible to improve the invention and to reduce the effort, in particular in connection with the execution of the object detection.
Bevorzugt werden die Filterdaten basierend auf einer Szene geschätzt, die durch die zu verarbeitende Abbildung aufgenommen wurde, insbesondere der Verkehrsweg, der in der Szene enthalten ist. Das erlaubt es, das Skalieren derart bereitzustellen, dass die Objekterfassung verbessert werden kann. Insbesondere, falls angenommen wird, dass vorbestimmte Klassen von Objekten erfasst werden, kann das Skalieren zusätzlich berücksichtigt werden, um den Aufwand für Objekterfassung zu verringern. Im Laufe der Zeit können die Skalierungsdaten präziser werden. Preferably, the filter data is estimated based on a scene captured by the image to be processed, in particular the traffic route included in the scene. This makes it possible to provide the scaling so that the object detection can be improved. In particular, if it is assumed that predetermined classes of objects are detected, the scaling can be additionally taken into account in order to reduce the effort for object detection. Over time, the scaling data can become more precise.
Außerdem wird vorgeschlagen, dass die Filterdaten einen Beobachtungsbereich für ein Objekt, das von der Objekterfassung als Verkehrsteilnehmer eingestuft wird, bereitstellen. Der Beobachtungsbereich kann durch Identifizieren einer oder mehrerer Flächen innerhalb der Abbildung, die zu verarbeiten ist, abgeleitet werden, wo vordefinierte Objektklassen erscheinen bzw. nicht erscheinen können. Insbesondere falls der Verkehrsteilnehmer ein Fahrzeug, ein Fahrrad, ein Fußgänger ist, kann die Klassifikation, die durch die Objekterfassung bereitgestellt wird, verbessert werden. Die Erfindung kann es auch erlauben, dass Filterdaten in Abhängigkeit von den Daten der Objekterfassung aktualisiert werden. Es ist daher möglich, vorhandene Filterdaten durch weiteres Ausführen der Erfindung zu verbessern. Im Laufe der Zeit können die Filterdaten präziser werden. In addition, it is proposed that the filter data provide an observation area for an object that is classified by the object detection as a road user. The observation area may be derived by identifying one or more areas within the image to be processed where predefined object classes may or may not appear. In particular, if the road user is a vehicle, a bicycle, a pedestrian, the classification provided by the object detection can be improved. The invention may also allow filter data to be updated in dependence on the data of the object detection. It is therefore possible to improve existing filter data by further carrying out the invention. Over time, the filter data can become more precise.
Der Beobachtungsbereich kann zum Beispiel ein Horizont sein, der aus der zu verarbeitenden Abbildung abgeleitet wird. Gewöhnlich können Objekte, wie zum Beispiel Fahrzeuge, Fahrräder, Fußgänger und dergleichen, nicht oberhalb des Horizonts erscheinen. Bereichsvorschläge oberhalb des Horizonts können folglich aus weiterer Verarbeitung ausgeschieden werden. The observation area may be, for example, a horizon derived from the image to be processed. Usually, objects such as vehicles, bicycles, pedestrians, and the like may not appear above the horizon. Range proposals above the horizon can thus be eliminated from further processing.
Außerdem kann die Größe der Bereichsvorschläge durch Einsatz des Filterns präziser sein. Was die Fahrzeuge betrifft, kann die Größe durch Berücksichtigung der Szene und der Position, an der ein bestimmter Bereichsvorschlag erscheinen soll, ausgewählt werden . Bevorzugt können Deep-Learning-Verfahren und/oder künstliche Intelligenz eingesetzt werden. Die Infrastruktureinheit kann zum Beispiel Deep-Learning-Verfahren und/oder künstliche Intelligenz gemeinsam mit dem erfinderischen Konzept einsetzen, um Verkehrsteilnehmererfassung auszuführen, wie zum Beispiel Fahrzeugerfassung, Fahrzeugidentifikation, Fahrzeugmitverfolgung und dergleichen. In addition, the size of the range suggestions may be more precise by using the filtering. As far as the vehicles are concerned, the size can be selected by considering the scene and the position at which a particular range suggestion should appear. Preferably, deep learning methods and / or artificial intelligence can be used. For example, the infrastructure unit may employ deep learning techniques and / or artificial intelligence along with the inventive concept to perform road user detection, such as vehicle detection, vehicle identification, vehicle tracking, and the like.
Die Infrastruktureinheit kann ferner die Deep-Learning-Verfahren und/oder künstliche Intelligenz einsetzen, um aus Langzeitbeobachtungen eine Beziehung zwischen sichtbarer Objektskalierung in Zusammenhang mit der Lage des Objekts auf der Bodenfläche der Kreuzung insbesondere in einer bestimmten zu verarbeitenden Abbildung zu lernen. Sie kann auch Langzeitbeobachtungen in Zusammenhang mit dem Bereich und der Fläche eines Felds lernen, das gültige Beobachtungen enthält, die durch die Horizontlinie oder dergleichen bereitgestellt werden können. DieThe infrastructure unit may also employ deep learning techniques and / or artificial intelligence to learn from long-term observations a relationship between visible object scaling associated with the location of the object on the floor surface of the intersection, particularly in a particular image to be processed. It may also learn long-term observations relating to the area and area of a field containing valid observations that may be provided by the horizon line or the like. The
Infrastruktureinheit kann auch das Deep-Learning-Verfahren und künstliche Intelligenz einsetzen und kann die gewonnenen Kenntnisse über Maßstäbe in Zusammenhang mit den erfassten Objekten unter Berücksichtigung einer Lage in der Abbildung, die zu verarbeiten ist, zum Optimieren der Leistungsparameter der Obj ekterkennungsvorgehensweise anwenden, wie zum Beispiel Latenz, Zuverlässigkeit und Entfernungsbereich, wobei Objekte über die Horizontlinie hinaus nicht mehr berücksichtigt werden müssen . The infrastructure unit may also employ the deep learning method and artificial intelligence, and may apply the knowledge gained about scales related to the detected objects, taking into account a location in the map to be processed, to optimize the performance parameters of the object recognition procedure, such as Example latency, reliability and distance range, where objects beyond the horizon line need not be taken into account.
Ferner wird beispielhaft vorgeschlagen, dass mindestens einer der Verkehrsteilnehmer eine gewünschte Bahn anfragt, was das Bestimmen einer bestimmten Nennbahn für den Verkehrsteilnehmer und das Kommunizieren der bestimmten Nennbahn zu dem Verkehrsteilnehmer veranlasst. Das erlaubt es, bestimmte Wünsche des Verkehrsteilnehmers zu berücksichtigen. DieFurthermore, it is proposed by way of example that at least one of the road users requests a desired train, which causes the determination of a specific nominal track for the road user and the communication of the determined nominal track to the road user. This allows to consider certain wishes of the road user. The
Infrastruktureinheit kann zum Beispiel die Anfrage prüfen und die Nennbahn durch Berücksichtigen von Bahnen aller Verkehrsteilnehmer bestimmen. Die Nennbahn kann dann dem Verkehrsteilnehmer bekannt gegeben werden, so dass der Verkehrsteilnehmer auf der Nennbahn fahren kann. Das kann auch in einem besseren Verkehrsfluss resultieren, da die Infrastruktureinheit die meisten, insbesondere alle Bahnen der gegenwärtigen Verkehrsteilnehmer berücksichtigen kann. For example, the infrastructure unit may check the request and determine the nominal lane by taking into account lanes of all road users. The nominal track can then be announced to the road user, so that the road user can drive on the nominal track. This can also result in a better flow of traffic as the infrastructure unit can accommodate most, especially all lanes of current road users.
Beispielhaft wird auch vorgeschlagen, dass das Prüfen einer bestimmten Nennbahn durch Simulation für den Verkehrsteilnehmer enthalten ist. Insbesondere kann eine S/W-basierte Prüfung der Bahnen vor ihrem Versand bereitgestellt werden. By way of example, it is also proposed that the testing of a specific nominal track by simulation be included for the road user. In particular, an S / W based check of the webs may be provided prior to shipment.
Bei einer anderen beispielhaften Verbesserung ist das Abfragen einer tatsächlichen Geschwindigkeit und/oder Position mindestens eines der Verkehrsteilnehmer enthalten, um seine tatsächliche Bahn zu bestimmen. In another example enhancement, retrieving an actual speed and / or position of at least one of the road users is included to determine its actual trajectory.
Bei einer weiteren beispielhaften Verbesserung wird in Abhängigkeit von der eingesetzten Kapazität des Verkehrswegs die Geschwindigkeit der Verkehrsteilnehmer automatisch angepasst. In a further exemplary improvement, the speed of the road users is automatically adjusted as a function of the used capacity of the traffic route.
Gemäß einer anderen Verbesserung ist das automatische Anpassen der Geschwindigkeit mindestens eines der Verkehrsteilnehmer enthalten, während sich der Verkehrsteilnehmer einem vorbestimmten Durchfahrtmuster für den Verkehrsweg nähert. Diese Verbesserung kann insbesondere autonomes Fahren, bevorzugt in Innenräumen sowie auch im Freien, betreffen. In another refinement, automatically adjusting the speed of at least one of the road users is included as the road user approaches a predetermined transit pattern for the traffic route. These Improvement may relate in particular to autonomous driving, preferably indoors as well as outdoors.
Jede der Infrastruktureinheiten, insbesondere erfinderische Vorrichtungen, kann zur bidirektionalen Kommunikation der Verkehrsteilnehmer fähig sein, insbesondere erfasste Fahrzeuge, um Anfragen von den Verkehrsteilnehmern und jeweiligen Kreuzungssteuervorrichtungen und Versandbefehle zu den Verkehrsteilnehmern zu empfangen. Each of the infrastructure units, in particular inventive devices, may be capable of bidirectionally communicating the road users, in particular detected vehicles, to receive inquiries from the road users and respective intersection control devices and dispatch instructions to the road users.
Die Infrastruktureinheit kann auch fähig sein, Anfragen und Befehlsdaten von den Verkehrsteilnehmern und den Kreuzungssteuervorrichtungen zu empfangen sowie Versand verarbeiteter Objektinformationen erneut zu senden. The infrastructure unit may also be able to receive requests and command data from the road users and the intersection control devices, as well as resend dispatch of processed object information.
Bevorzugt sind alle Infrastruktureinheiten bzw. erfinderischen Vorrichtungen bevorzugt miteinander verbunden und können eine Maschennetzwerktopologie für bidirektionale Kommunikation, Fahrzeuganfragen und Befehle von der Kreuzungssteuervorrichtung bilden, um Einzelfehlerstellen zu vermeiden und den Bereich der Kreuzungsfläche durch Anwenden von Auffrischungen und Wiederholungen zu erhöhen. Preferably, all of the infrastructure units are preferably interconnected and may form a mesh network topology for bidirectional communication, vehicle requests, and commands from the intersection controller to avoid single fault locations and increase the area of the intersection area by applying refreshes and iterations.
Bevorzugter kann die Infrastruktureinheit mit bevorzugt allen der sich nähernden Verkehrsteilnehmer, insbesondere mit Fahrzeugen, die den Kommunikationsbereich erreichen, kommunizieren und kann die Koordinaten angefragter Zielorte abfragen und die Anfragen zu der Kreuzungssteuervorrichtung weiterleiten . More preferably, the infrastructure unit may communicate with preferably all of the approaching road users, particularly vehicles that reach the communication area, and may query the coordinates of requested destinations and forward the requests to the intersection controller.
Mindestens eine der Infrastruktureinheiten, die an der Kreuzung oder Zufahrt positioniert sind, kann auch ein zentrales Kreuzungssteuersystem bzw. eine Kreuzungssteuervorrichtung hosten, das/die Verkehrsdaten bevorzugt aus allen Infrastruktureinheiten sammeln kann, darunter Anfrage von den Verkehrsteilnehmern, insbesondere von den Fahrzeugen. Die Kreuzungssteuervorrichtung kann mehrere selbst fahrende autonome oder automatisierte Verkehrsteilnehmer bzw. Fahrzeuge, die um Zugriff auf einen jeweiligen exklusiven Bahnverlauf auf dem Verkehrsweg anfragen, insbesondere eine oder mehrere Spuren zu der Kreuzung, koordinieren. Auf diese Art kann eine bestimmte Passage für einen bestimmten Verkehrsteilnehmer reserviert werden . Ferner kann die Kreuzungssteuervorrichtung dieAt least one of the infrastructure units located at the intersection or access may also host a central intersection control system which may preferably collect traffic data from all of the infrastructure units, including requests from the road users, particularly from the vehicles. The intersection control device may coordinate a plurality of self-propelled autonomous or automated road users or vehicles requesting access to a respective exclusive trajectory on the traffic route, in particular one or more lanes to the intersection. In this way, a specific passage for a particular road user can be reserved. Further, the intersection control device may be the
Reservierungsanfrage von dem Verkehrsteilnehmer, insbesondere dem Fahrzeug, empfangen und kann einen Bahnverlauf berechnen, der unmittelbar in Bezug auf die tatsächlichen Verkehrsdaten, die insbesondere von externen Sensoren empfangen werden, gemeinsam mit den Wegdaten anderer Fahrzeuge vorab simuliert werden kann. Die Kreuzungssteuervorrichtung kann Anfragen von dem Verkehrsteilnehmer, insbesondere von Fahrzeugen, handhaben und ununterbrochene Verlaufsplanung und Steuerung bereitstellen. Außerdem kann die Kreuzungssteuervorrichtung jedem der Verkehrsteilnehmer, insbesondere Fahrzeugen, ein spezifisches Zeitfenster oder eine Spur in dem vorherrschenden Durchfahrtmuster zuweisen. Die Kommunikation zwischen der Kreuzungssteuervorrichtung und den Verkehrsteilnehmern bzw. Fahrzeugen kann durch die Infrastruktureinheiten erfolgen. Reservation request from the road user, in particular the vehicle received and can calculate a trajectory that can be simulated directly in relation to the actual traffic data that are received in particular from external sensors, together with the path data of other vehicles in advance. The intersection controller may handle requests from the road user, particularly vehicles, and provide uninterrupted scheduling and control. In addition, the intersection control device may assign each of the road users, in particular vehicles, a specific time slot or lane in the prevailing transit pattern. The communication between the intersection control device and the road users or vehicles can be carried out by the infrastructure units.
Außerdem kann die Kreuzungssteuervorrichtung eine beliebige präzise Lage und Geschwindigkeit bevorzugt jedes der einzelnen Verkehrsteilnehmer, insbesondere der Fahrzeuge, abfragen, und kann ihre individuellen Bahnen zum präzisen Steuern der Position jedes der Verkehrsteilnehmer zu einer bestimmten Zeit berechnen. Außerdem kann die Kreuzungssteuervorrichtung sowohl einen herkömmlichen Koordinationsmechanismus in der Form einer deterministischen Zustandsmaschine sowie künstliche Intelligenz basierend auf einem Koordinationsmechanismus in der Form überwachter und auf Regeln basierender Maschinenlerntechniken anwenden . In addition, the intersection control device may interrogate any precise location and speed of preference of each of the individual road users, particularly the vehicles, and may calculate their individual lanes for precisely controlling the position of each of the road users at a particular time. In addition, the intersection control device can both a conventional coordination mechanism in the form of a Deterministic state machine and artificial intelligence based on a coordination mechanism in the form of monitored and rule-based machine learning techniques.
Die Kreuzungssteuervorrichtung kann über das Gewähren oder Zurückweisen der Anfrage in Abhängigkeit von dem vorherrschenden Verkehrsfluss und an die grundlegende Kreuzungssteuerpolitik ausgerichtet entscheiden. The intersection controller may decide to grant or deny the request in response to the prevailing traffic flow and to the basic intersection control policy.
Bevorzugt kann die Kreuzungssteuervorrichtung Onboard- Simulationsanalyse anwenden, um die Funktionalität vorgeschlagener Fahrzeugbahnen zu prüfen. Ununterbrochene und andauernde Kreuzungssimulation kann helfen, Zusammenstöße zu vermeiden. Preferably, the intersection controller may apply on-board simulation analysis to test the functionality of proposed vehicle lanes. Uninterrupted and ongoing intersection simulation can help to avoid collisions.
Falls die Anfrage eines individuellen Verkehrsteilnehmers nicht gewährt werden kann, muss der Verkehrsteilnehmer verlangsamt werden, um auf eine spätere Reservierungsgenehmigung zu warten. Schlimmstenfalls kann der Verkehrsteilnehmer vollständig angehalten werden, bevor er Erlaubnis zum Einfahren in die Kreuzung erhält. If the request of an individual road user can not be granted, the road user must be slowed down in order to wait for a later reservation permit. In the worst case, the road user can be stopped completely before he gets permission to enter the intersection.
Bevorzugt, falls das Fahrzeug automatisch gefahren oder automatisch gesteuert wird, kann die Geschwindigkeit des einzelnen Fahrzeugs automatisch angepasst werden, während es sich einem Vierszenen-Durchfahrmuster nähert, so dass das Fahrzeug in den projizierten Bahnverlauf zur richtigen Zeit und im richtigen Zeitfenster einfährt, während das Gesamtmuster beständig ununterbrochen ungestört fließen kann. Preferably, if the vehicle is automatically driven or automatically controlled, the speed of the individual vehicle may be automatically adjusted as it approaches a four-scene pass pattern so that the vehicle enters the projected trajectory at the correct time and time slot Overall pattern can flow continuously undisturbed uninterrupted.
Bei Bedingungen mit schwerem Verkehr organisiert eine beliebige der Kreuzungssteuervorrichtungen, bevorzugt alleIn heavy traffic conditions, any one of the intersection controllers organizes, preferably all
Kreuzungssteuervorrichtungen, bevorzugt die sich nähernden Fahrzeuge in virtuelle Chargen, statt den Gesamtverkehrsfluss auf der Basis der einzelnen Fahrzeuge zu koordinieren. Die Schwerverkehr-Kooperativ-Wahrheitskontrolle (Heavy Traffic Cooperative Truth Control) kann das Fahrzeug veranlassen, einem anderen zu folgen, um gemeinsame Beschleunigungsmanöver auf einem Feed-Forward-Steuerweg durch Fahrzeug-zu-Fahrzeug- Kommunikation zu teilen. Junction control devices, preferably the approaching vehicles into virtual batches, rather than coordinating the overall traffic flow based on the individual vehicles. The Heavy Traffic Cooperative Truth Control may cause the vehicle to follow another to share joint acceleration maneuvers on a feed forward control path through vehicle-to-vehicle communication.
Bevorzugt ist die Kreuzungssteuervorrichtung bevorzugt mit mindestens einem auf Kamera basierenden Überwachungssensor (CCTV-Kamera) verbunden, um Videodaten des vorherrschenden Verkehrsszenarios zu steuern. Preferably, the intersection control device is preferably connected to at least one camera-based surveillance sensor (CCTV camera) to control video data of the prevailing traffic scenario.
Bevorzugt kann die Kreuzungssteuervorrichtung ein Onboard- Bildverarbeitungssystem hosten, das fähig ist, die individuellen Verkehrsteilnehmer, insbesondere Fahrzeuge, auf der Basis des Erscheinens zu identifizieren, um vorübergehend einen individuellen Identitätsindex zu zeichnen, der voll automatisiertes Mitverfolgen und Neuidentifikation in dem Fall erlaubt, in dem das Fahrzeug in dem Blickfeld benachbarter Kamerasensoren stromabwärts des Verkehrswegs wieder erscheint. Preferably, the intersection control device may host an on-board image processing system capable of identifying the individual road users, especially vehicles, on the basis of the appearance to temporarily draw an individual identity index allowing fully automated tracking and re-identification in the case where the vehicle reappears in the field of view of adjacent camera sensors downstream of the traffic route.
Für diesen Zweck kann die Kreuzungssteuervorrichtung eine Onboard-Bildverarbeitung hosten, die fähig ist, die einzelnen Verkehrsteilnehmer, insbesondere Fahrzeuge, auf der Basis automatischer Nummernschilderkennung mittels optischer Zeichenerkennung (Optical Character Recognition - OCR) oder dergleichen zu identifizieren. For this purpose, the intersection control apparatus may host on-board image processing capable of identifying the individual road users, particularly vehicles, based on automatic number plate recognition by means of Optical Character Recognition (OCR) or the like.
Außerdem kann die Kreuzungssteuervorrichtung ein Onboard- Bildverarbeitungssystem hosten, das fähig ist, Fußgänger, insbesondere Fußgänger außerhalb von Zebrastreifen zu identifizieren und mitzuverfolgen . In addition, the intersection control device may host an on-board vision system capable of identifying and tracking pedestrians, especially pedestrians, outside of crosswalks.
Das Onboard-Bildverarbeitungssystem kann auch konfiguriert sein, um Fußgänger zu identifizieren und mitzuverfolgen . Bevorzugt kann das Onboard-Bildverarbeitungssystem derThe onboard vision system may also be configured to identify and track pedestrians. Preferably, the onboard image processing system of
Kreuzungssteuervorrichtung konfiguriert sein, um Fußgänger außerhalb des Zebrastreifens zu identifizieren und auf dem Verkehrsweg mitzuverfolgen, insbesondere, falls der Verkehrsweg eine Straße ist, oder auf der Kreuzung, um die Ausführung einer speziellen Zusammenstoßschutzvorgehensweise auszulösen, die den Verkehrsteilnehmern, insbesondere Fahrzeugen, die sich in unmittelbarer Nähe befinden, neue Verlaufs- und Wegdaten zuzuweisen . Intersection control device configured to be pedestrian outside the crosswalk and to follow it on the traffic route, in particular, if the traffic route is a road, or at the intersection, to trigger the execution of a special collision avoidance procedure, offering new road users to the road users, especially nearby vehicles. and assign route data.
Bevorzugt können alle Infrastruktureinheiten mit der Kreuzungssteuereinheit, die durch einePreferably, all the infrastructure units with the crossing control unit, which can be replaced by a
Kreuzungssteuervorrichtung bereitgestellt wird, kommunizieren. Junction control device is provided to communicate.
Die Lehren der vorliegenden Erfindung können ohne Weiteres verstanden werden, und mindestens einige zusätzliche spezifische Einzelheiten ergeben sich bei der Betrachtung der folgenden ausführlichen Beschreibung mindestens einer beispielhaften Ausführungsform verbunden mit den begleitenden Zeichnungen, in welchen Fig. 1 schematisch eine zu verarbeitende Abbildung zeigt, die eine Vielzahl von Bereichsvorschlägen für das Erfassen von Objekten sowie drei beispielhafte klassifizierte Objekte aufweist; The teachings of the present invention may be readily understood, and at least some additional specific details will become apparent upon consideration of the following detailed description of at least one exemplary embodiment, taken in conjunction with the accompanying drawings, in which: FIG Have a variety of range proposals for the detection of objects and three exemplary classified objects;
Fig. 2 in einer schematischen dreidimensionalen Skizze eine erfindungsgemäße Skalierfunktion für das Filtern von Vorschlägen unter Verwenden geschätzter skalierter Filter zeigt; Figure 2 shows in a schematic three-dimensional sketch a scaling function according to the invention for filtering proposals using estimated scaled filters;
Fig. 3 eine schematische zweidimensionale Skizze zeigt, die eine Projektion der Figur 2 in einer Ebene ist, die verwendet wird, um die Skalierfunktionen zu schätzen; Figure 3 is a schematic two-dimensional sketch which is a projection of Figure 2 in a plane used to estimate the scaling functions;
Fig. 4 die Abbildung, die gemäß Figur 1 zu verarbeiten ist, zeigt, wobei die Bereichsvorschläge erfindungsgemäß gefiltert werden, und zusätzlich zeigt, dass Bereichsvorschläge kleiner werden, während sie sich dem Horizont nähern; ein schematisches Flussdiagramm zeigt, das ein Verfahren zum Erfassen von Verkehrsteilnehmern auf einem Verkehrsweg gemäß der Erfindung zeigt; eine schematische Skizzenskala verglichen mit Wiedererkennung für VGG-M-Netzwerke zeigt, wobei Bins durch gleichmäßig verteilte Muster bestimmt werden; eine schematische Okklusionsskizze im Vergleich zu Wiedererkennung für VGG-M-Net zwerke zeigt, wobei Bins durch gleichmäßig verteilte Muster bestimmt werden, und wobei ein maximales Okklusionsverhältnis auf 0,5 gestellt ist. FIG. 4 shows the figure to be processed according to FIG. 1, wherein the range proposals are filtered according to the invention, and additionally shows that FIG Range proposals get smaller as they approach the horizon; shows a schematic flowchart showing a method for detecting road users on a traffic route according to the invention; shows a schematic sketch scale compared to recognition for VGG-M networks, where bins are determined by uniformly distributed patterns; Figure 10 shows a schematic occlusion sketch as compared to recognition for VGG-M-Net, where bins are determined by uniformly distributed patterns, and with a maximum occlusion ratio set to 0.5.
Die ausführlichen Ausführungsformen, die unten beschrieben sind, befassen sich damit, wie die Erfindung insbesondere autonomem Fahren unterzogen wird. Die Erfindung ist jedoch nicht auf Anwendungen im Freien beschränkt, sondern kann auch in Innenraumanwendungen angewandt werden, wie zum Beispiel bei Lagerhallenanwendungen, insbesondere im Hinblick auf das Lagern von Waren und dergleichen. The detailed embodiments described below are concerned with how the invention is particularly subjected to autonomous driving. However, the invention is not limited to outdoor applications but can also be applied in indoor applications, such as warehouse applications, particularly with regard to warehousing and the like.
Autonomes Fahren bleibt immer noch eine große Herausforderung, bei der die Umgebung, wie sie von einer oder mehreren Kameras aufgenommen wird, die eingerichtet sind, um Bilder bzw. Abbildungen von Fahrzeugen als Verkehrsteilnehmeränderungen, die schnell und unerwartet auftreten können, beobachtet wird. Fahrzeuge können zum Beispiel am Straßenrand geparkt werden, diverse Initiativen und Ereignisse in der Stadtmitte können sich auf den Verkehr auswirken, und dergleichen. Insbesondere kann die Gegenwart von mehr Leuten in einer höheren Wahrscheinlichkeit, dass jemand die Straße überquert, resultieren . In diesem Zusammenhang hat auf Infrastruktur basierendes Erfassen das Potenzial, den Einzelfahrzeug-Standpunkt zu ergänzen und die Einführung voll autonomer Fahrzeuge zu beschleunigen. Die Erfindung betrifft insbesondere das Erfassen und Erkennen von Verkehrsteilnehmern, wie zum Beispiel von Fahrzeugen, aus der Voraussicht von Überwachungskameras, die im Wesentlichen den Fahrzeugen eine Wahrnehmung über das Fahrzeug vor ihnen hinaus und hinter einer Ecke verleihen. Autonomous driving still remains a major challenge in that the environment as picked up by one or more cameras set up to observe images of vehicles as traffic participant changes that can occur quickly and unexpectedly. Vehicles, for example, can be parked on the roadside, various initiatives and events in the city center can affect the traffic, and the like. In particular, the presence of more people may result in a higher chance of someone crossing the street. In this context, infrastructure-based mapping has the potential to complement the single vehicle point of view and accelerate the deployment of fully autonomous vehicles. More particularly, the invention relates to the detection and detection of road users, such as vehicles, from the foresight of surveillance cameras, which substantially impart to the vehicles a perception of the vehicle ahead of them and behind a corner.
Die Kameras können ein Bauteil einer oder mehrerer erfindungsgemäßer Vorrichtungen sein. Es besteht ein großes Potenzial in der Nutzung der statischen Sicht einer Überwachungskamera, die eine bessere und schnellere Erfassung ergeben kann. The cameras may be a component of one or more devices according to the invention. There is great potential in using the static view of a surveillance camera, which can provide better and faster capture.
Die Erfindung betrifft insbesondere Bereichsvorschläge, die ein wichtiges Merkmal moderner Erfassungsalgorithmen bilden. In diesem Zusammenhang schlägt die Erfindung eine einfache Erweiterung des Faster R-CNN (Regional-based Convolutional Neural Network) vor und zeigt, dass das Einstufen von Vorschlägen in Zusammenhang mit einer Szenengeometrie in weniger falschen positiven Resultaten resultieren kann, indem Vorschläge in überladenen Bereichen verringert werden, wo jeweilige Algorithmen gewöhnlich für Fehler anfällig sind. In particular, the invention relates to range proposals that form an important feature of modern detection algorithms. In this regard, the invention proposes a simple extension of the R-CNN (Regional-based Convolutional Neural Network) and shows that ranking proposals in relation to a scene geometry can result in less false positive results by reducing suggestions in overloaded areas where respective algorithms are usually prone to error.
Außerdem ergibt die Erfindung weniger falsche negative Resultate, da sie Wiedererkennung durch Enthalten von mehr Vorschlägen, wo sie am nötigsten sind, zum Beispiel für kleine Fahrzeuge an der Entfernung erhöht. In Zusammenhang mit einer solchen Ausführungsform wird mit dem UA-DETRAC-Datensatz experimentiert, der auf dem Vanilla Faster R-CNN (VGG-16) um etwa mehr als 19 % verbessern kann. Diese Verbesserung kann weitgehend beim Umschalten auf ein Faster VGG-M-Netzwerk aufrechterhalten werden. Erfindungsgemäß wird vorgeschlagen, 3D-Obj ektvorschläge zu erzeugen, indem Szenengeometrie unter Verwenden kalibrierter monokularer oder Stereokameraanordnung genutzt wird. Eine automatische Schätzung der ungefähren Szenengeometrie im Sinne eines maßstabgerechten Layouts wird vorgeschlagen. In addition, the invention gives less false negative results since it increases recognition by containing more suggestions where they are most needed, for example for small vehicles at the distance. In connection with such an embodiment, experimentation is made with the UA DETRAC data set, which can improve on the Vanilla Faster R-CNN (VGG-16) by more than 19%. This improvement can be largely maintained when switching to a Faster VGG-M network. According to the invention, it is proposed to generate 3D object proposals by using scene geometry using calibrated monocular or stereo camera arrangement. An automatic estimate of the approximate scene geometry in terms of a true-to-scale layout is proposed.
Diese Informationen werden in einen Detektor eingebaut, um Bereichsvorschläge zu erzeugen. Der erfinderische Ansatz berücksichtigt, dass die Szene weitgehend statisch ist, aber gewöhnlich keine Kamerakalibrierungsinformationen bzw. -daten benötigt . This information is incorporated into a detector to produce range suggestions. The inventive approach takes into account that the scene is largely static but usually does not require camera calibration information.
Die Bedeutung von Hochauflösungsfunktionen wird in der Literatur semantischer Segmentierung ebenfalls angesprochen, wo das Ziel darin besteht, präzise Objektgrenzen und hochwertige Semantiken zu bestimmen. Für dichte Vorhersageaufgaben werden typischerweise Ent-Faltungen eingesetzt. Es wurde jedoch auch eine einfachere Alternative vorgeschlagen, nämlich das Entfernen von Max-Pooling-Schichten für dichte Funktionskarten, und das Einsetzen erweiterter Faltungen, um die Kontaktgröße so groß wie möglich zu halten, ohne die Anzahl von Parametern zu erhöhen. Das Entfernen von Pooling-Schichten kann auch das Erfassen von kleinformatigen Fußgängern betreffen. Sie berücksichtigen jedoch keine erweiterten Faltungen. The importance of high-resolution functions is also addressed in the semantic segmentation literature, where the goal is to determine precise object boundaries and high-quality semantics. For dense prediction tasks, de-convolutions are typically used. However, a simpler alternative has been proposed, namely the removal of max-pooling layers for dense function maps, and the use of extended convolutions to maximize contact size without increasing the number of parameters. Removing pooling layers can also affect capturing small-format pedestrians. However, they do not take into account extended folds.
Die Erfindung erweitert Faster R-CNN in Zusammenhang mit Objekterfassung, um vorgeschlagene geometrische Vorschläge einzugliedern. Geometrische Vorschläge codieren das Szenenlayout einer statischen Kamera auf eine einfache und effektive Art. Im Allgemeinen kann das Faster R-CNN-Detektion in mindestens zwei Etappen arbeiten. Bei einer ersten Etappe wird ein volles Faltungs-Bereichsvorschlagsnetzwerk (Region Proposal Network - RPN) bereitgestellt, das das vollständige Bild bzw. die vollständige Abbildung, das/die zu verarbeiten ist, an dem Eingang nimmt und klassenagnostische Objektvorschläge erzeugen kann . Die zweite Stufe basiert auf einem Klassifizierungsnetzwerk, das die eingehenden Vorschläge in gegebene Objektklassen einstuft. Die Faltungsschichten werden für beide Aufgaben, das heißt Erzeugen von Vorschlägen und deren Klassifizieren, gemeinsam verwendet . The invention extends Faster R-CNN in conjunction with object detection to incorporate proposed geometric suggestions. Geometric proposals encode the scene layout of a static camera in a simple and effective way. In general, the Faster R-CNN detection can work in at least two stages. In a first stage, a full Region Proposal Network (RPN) is provided which can take the complete image or image that is to be processed at the input and generate class-agnostic object suggestions. The second stage is based on a classification network that classifies the incoming proposals into given object classes. The convolutional layers are shared for both tasks, that is, generating proposals and classifying them.
Geometrische Erweiterung auf RPN Gewöhnlich kann ein Bild bzw. eine Abbildung, das/die zu verarbeiten ist, potenziell einige wenige große Objekte und einige oder mehrere kleine Objekte enthalten. Das wird jedoch üblicherweise nicht in dem Faster R-CNN-Algorithmus insbesondere aufgrund des RPN, das eine gleiche Menge von Objekten über Maßstäbe hinweg vorschlägt, berücksichtigt. Eine Beziehung zwischen den Bereichsvorschlägen und der Szenengeometrie wird mittels einer Objekt-Maßstab-Schätzung wieder ermittelt. Zuerst werden die sichersten Objekte erfasst. Dann wird eine pixelweise Maßstabschätzung als ein Proxy für die tatsächliche Szenengeometrie geschätzt. Abschließend wurden die RPN- Vorschläge beschnitten. Geometric extension to RPN Typically, an image or image that is to be processed may potentially contain a few large objects and a few or more small objects. However, this is usually not considered in the Faster R-CNN algorithm, particularly due to the RPN which suggests an equal amount of objects across scales. A relationship between the range suggestions and the scene geometry is retrieved using an object scale estimate. First, the safest objects are captured. Then, a pixel-by-pixel scale estimate is estimated as a proxy for the actual scene geometry. Finally, the RPN proposals were curtailed.
Anfängliche Erfassungen Die sichersten (mit hohen Resultaten)Initial observations The safest (with high results)
Verkehrsteilnehmererfassungen bzw. Fahrzeugerfassungen werden verwendet, um automatisch dieses Layout, das in Figur 1 gezeigt ist, zu schätzen. Über eine Ansicht anfänglicher Sekunden einer Videosequenz, zum Beispiel Daten 10 s zuverlässiger Erfassungen, reichen für eine wirklich zuverlässige Maßstabschätzung. Zu bemerken ist, dass die sichersten Erfassungen im Allgemeinen nicht okkludiert und nicht trunkiert sind. Road user surveys are used to automatically estimate this layout, shown in FIG. An initial seconds view of a video sequence, such as data from 10s of reliable acquisitions, is enough for a truly reliable scale estimation. It should be noted that the safest detections are generally not occluded and not truncated.
Pixelweise Maßstabschätzung Dann wird das Maßstablayout für das zu verarbeitende Bild bzw. die zu verarbeitende Abbildung geschätzt, das heißt eine Bildmaßstabfunktion, die den Maßstab des Objekts angesichts seiner Position in dem Bild beschreibt. In diesem Fall entspricht das der erwarteten Größe eines Verkehrsteilnehmers bzw. Fahrzeugs in einer bestimmten Bildposition. Pixel-wise scale estimation Then, the scale layout for the image to be processed or the image to be processed is estimated, that is, an image scale function describing the scale of the object in view of its position in the image. In this case, this corresponds to the expected size of a road user or vehicle in a certain image position.
Nehmen wir einen anfänglichen Satz von Erfassungen an Positionen {x}iN an, wobei die x die Mitte von Erfassungs- Begrenzungsrechtecken sind und N die Anzahl anfänglicher Erfassungen ist. Es wird auf die Schätzung einer Maßstabfunktion (x) abgezielt, die die Größe des Objekt-Begrenzungsrechtecks in Pixel2 an jeder Pixelkoordinate präsentiert. Es wird ein Polynom zweiten Ranges angenommen, um die Funktion zu approximieren und anhand der Methode der kleinsten Fehlerquadrate anzupassen: Suppose an initial set of acquisitions at positions {x} i N , where x is the center of capture bounding rectangles and N is the number of initial acquisitions. It is aimed at estimating a scale function (x) that presents the size of the object bounding rectangle in pixel 2 at each pixel coordinate. A second rank polynomial is assumed to approximate the function and to fit it using the least squares method:
(1) wobei p2, Pi und po Parameter, die zu schätzen sind, sind. Notizen zur Polynom-Anpassung (1) where p 2 , Pi and po are parameters to be estimated. Notes on polynomial adaptation
Das Polynom zweiten Ranges reicht, um ein flaches Szenenlayout aus einer homographischen Projektion darzustellen. Diese Annahme ist bei den meisten Straßenszenen plausibel, da Verkehrswege, die von der Überwachungskamera sichtbar sind, meistens flach bzw. eben sind. Die Approximation des Maßstablayouts kompensiert für die Größenschwankungen der Objekte bzw. Fahrzeuge, zum Beispiel Automobile unterschiedlicher Größe und dergleichen, angesichts der ausreichenden Anzahl von Erfassungen. Das wird durch eine Testschätzung gemäß Figur 2 veranschaulicht. Das Maßstablayout stellt automatisch eine Horizontschätzung bereit, die auch in den Figuren 2 bis 4 durch das Bezugszeichen 50 angegeben ist. Vorschlagbeschneiden The second order polynomial suffices to represent a flat scene layout from a homographic projection. This assumption is plausible in most street scenes, as traffic routes visible from the surveillance camera are mostly flat. The approximation of the scale layout compensates for the size variations of the objects or vehicles, for example automobiles of different sizes and the like, in view of the sufficient number of acquisitions. This is illustrated by a test estimation according to FIG. The Maßstablayout automatically provides a horizon estimate, which is also indicated in Figures 2 to 4 by the reference numeral 50. proposal pruning
Innerhalb des RPN-Moduls des vorgeschlagenen GP-FRCNN, werden Objektvorschläge gemäß Folgendem beschnitten: Within the RPN module of the proposed GP-FRCNN, object proposals are clipped as follows:
II s( ) - b II II s () - b II
< σ <σ
s( ) s ()
(2) (2)
Hier ist s (x) die Maßstabschätzung des Objekts an der Position x, wie in der Gleichung (1) beschrieben, und b ist die tatsächliche Begrenzungs-Rechteckgröße des Objekts, o stellt die akzeptable Abweichung der Vorschlagsgröße von der Maßstabfunktion dar. Gegenwärtig wird ihr Wert für alle unterschiedlichen Ausführungsformen basierend auf den beobachteten Varianten in den Trainingsdaten auf 0,3 festgelegt. Here, s (x) is the scale estimate of the object at position x as described in equation (1), and b is the object's actual bounding rectangle size, o represents the acceptable deviation of the default size from the scale function Value set to 0.3 for all different embodiments based on the observed variants in the training data.
Über eine Objektklasse hinaus Beyond an object class
Für den DETARC-Challenge werden nur Fahrzeuge als Zielerfassung für die Schätzung des Maßstablayouts berücksichtigt. Zu bemerken ist jedoch, dass die Gleichungen (1), (2) auch für das Schätzen anderer Objektgrößen gelten können. For the DETARC Challenge, only vehicles are considered as target acquisition for the estimation of the scale layout. It should be noted, however, that equations (1), (2) can also apply to the estimation of other object sizes.
Mit einer gegebenen einzelnen korrekten Maßstabbeobachtung eines anderen Objekts, zum Beispiel eines Busses, als ein gewisses Fahrzeug, kann man die Maßstabschätzungsfunktion s (x) daran durch einfaches Skalieren mit dem Faktor -^— anpassen, wobei s (x) s(x) With a given single correct scale observation of another object, for example a bus, as a certain vehicle, one can adjust the scale estimator s (x) by simply scaling it with the factor - ^ -, where s (x) s (x)
die ursprüngliche Maßstabfunktionsschätzung der Pixelposition ist, und b' die Größe der Buserfassung ist. the original scale function estimate is the pixel position, and b 'is the size of the bus sense.
Feinabstimmung für Faster R-CNN Fine tuning for Faster R-CNN
Der Einsatz geometrischer Vorschläge ist eine einfache Erweiterung zu dem Vanilla Faster R-CNN, aber die einfache Integration kann die Leistung verschlechtern. Unten wird Anpassung vorgeschlagen, um das Modell bzw. das Verfahren zu verbessern. Die Anpassungen können für unterschiedliche Modelleinstellungen gelten, zum Beispiel die Auswahl des Netzwerks . The use of geometric suggestions is a simple extension to the Vanilla Faster R-CNN, but its ease of integration can degrade performance. Below is Adaptation proposed to improve the model or process. The adjustments may apply to different model settings, for example the selection of the network.
Spezifische Anker-Maßstäbe Specific anchor scales
Während des Trainings können Faster R-CNN die Objekt- Begrenzungsrechtecke in Anker-Maßstäbe und erwartete Verhältnisse trennen. Standardmäßig kann der Maßstabsatz von Anker-Rechtecken {8, 16, 32} sein. Das kann für die meisten Erfassungs-Benchmarks, wie zum Beispiel PASCAL VOC, geeignet sein. Das Anwenden des Faster R-CNN mit den Standard- Ankermaßstäben auf den UA-DETRAC-Standard kann jedoch schwerwiegend hinter den Erwartungen zurückbleiben, weil die meisten Fahrzeuge viel kleiner sind als der kleinste Standardmaßstab. Die Bereichsvorschläge, die den kleinsten Anker-Rechtecken entsprechen, müssen folglich für jedes Objekt dienen, das kleiner ist als seine eingestellte Größe im Kontrast zu dem eigentlichen Konzept von Anker-Maßstäben. Dieses Problem kann behoben werden, indem der Satz mit kleineren Maßstäben in der Sequenz erweitert wird, das heißt {1, 2, 4}, wofür Resultate in Figur 6 gezeigt sein können. Figur 6 zeigt in einer schematischen Skizze den Maßstab im Vergleich zu Wiedererkennung für ein VGG-M-Netzwerk, wobei Bins als Muster gleichmäßig verteilend bestimmt wurden. Figur 6 zeigt eine Skizze 52, in der eine Ordinate 54 der Wiedererkennung in % zugeordnet ist, und eine Abszisse 56 der mittleren Fahrzeuggröße (Pixel2) zugeordnet ist. Die Tupel von Bins betreffen einen Bin 58, der dem FRCNN entspricht, einen Bin 60, der dem FRCNN+GP entspricht, einen Bin 62, der dem FRCNN+BW entspricht, sowie einen Bin 64, der dem FRCNN+BW+PG entspricht. Bei einer alternativen Ausführungsform kann auch mit quantisierten Maßstäben in Zusammenhang mit den Trainingsdaten experimentiert werden. Es hat sich jedoch herausgestellt, dass beide Techniken in ähnlichen Leistungen resultieren, weshalb unten nur die einfache Erweiterung auf den Maßstabssatz der Anker in RPN berücksichtigt wird. During training, Faster R-CNN can separate the object bounding rectangles into anchor scales and expected ratios. By default, the scale set of anchor rectangles can be {8, 16, 32}. This may be appropriate for most acquisition benchmarks, such as PASCAL VOC. However, applying the Faster R-CNN to the standard anchorage standards on the UA-DETRAC standard can be seriously lower than expected because most vehicles are much smaller than the smallest standard scale. The range suggestions corresponding to the smallest anchor rectangles must therefore serve for any object smaller than its adjusted size in contrast to the actual concept of anchor scales. This problem can be remedied by extending the set with smaller scales in the sequence, that is {1, 2, 4}, for which results may be shown in FIG. Figure 6 shows in a schematic sketch the scale compared to recognition for a VGG-M network, where bins have been determined to be uniformly distributing patterns. FIG. 6 shows a sketch 52 in which an ordinate 54 is associated with recognition in%, and an abscissa 56 is assigned to the average vehicle size (pixel 2 ). The tuples of bins concern bin 58 corresponding to FRCNN, bin 60 corresponding to FRCNN + GP, bin 62 corresponding to FRCNN + BW, and bin 64 corresponding to FRCNN + BW + PG. In an alternative embodiment, quantized scales may also be used in connection with the training data be experimented. However, it has been found that both techniques result in similar performances, so below only the simple extension to the scale set of the anchors in RPN is considered.
Funktionskarten mit höherer Auflösung Function maps with higher resolution
Eine zweite Einschränkung des Faster R-CNN auf kleinere Objekte kann durch die Quasar-Auflösung seines CNN-Funktionsblocks gegeben werden. Dieses Problem wurde mehrere Male bei semantischer Segmentierung festgestellt, wodurch eine Quasar- Granularität die pixelweise Auflösung einschränken kann. A second limitation of the Faster R-CNN to smaller objects can be given by the quasar resolution of its CNN function block. This issue has been identified several times in semantic segmentation, which allows quasar granularity to limit pixel-by-pixel resolution.
Daher wird vor dem Vorschlag des Faster R-CNN und der Klassifikationsanlage eine Finderfunktionskarte vorgeschlagen. Ausführlicher wird der Funktionsabstand von 16 zu 18 durch Entfernen der letzten Max-Pooling-Schicht von den Basisfunktionsnetzwerken an allen experimentierten Modellen verringert . Therefore, before the proposal of the Faster R-CNN and the classification system, a Finder function map is proposed. In more detail, the functional distance is reduced from 16 to 18 by removing the last max-pooling layer from the base function networks on all the models experimented.
Das kann effektiv zur Erhöhung der Anzahl von Stellen auf dem Bild bzw. der Abbildung führen, an welchen nach dem Objekt zu suchen ist, was in einem signifikanten Gewinn an Wiedererkennung für die kleinen Fahrzeuge resultiert, wie aus Figur 6 ersichtlich ist . This can effectively result in increasing the number of digits on the image or map to search for the object, resulting in a significant gain in recognition for the small vehicles, as seen in FIG.
Ferner ist zu bemerken, dass das in einem kleineren jeweiligen Feld auf dem eingegebenen Bild bzw. auf der eingegebenen Abbildung, das/die zu verarbeiten ist, resultieren kann. Obwohl das eventuell nicht alle kleinen Objekte, für die das Modell eine größere Fläche in dem Objekt betrachten muss, betrifft, kann das die Wiedererkennung für die größeren Fahrzeuge in den Experimenten, für die der Kontext zu knapp wird, verringern. Diese Wirkung kann bei kleineren Funktionsmodellen, wie zum Beispiel FGG-M, offensichtlicher sein, während größere Modelle robuster scheinen und potentiell ausreichend große jeweilige Felder aufrechterhalten. It should also be noted that this may result in a smaller respective field on the input image or on the input image being processed. Although this may not affect all of the small objects that the model needs to view a larger area in the object, this can reduce recognition for the larger vehicles in the experiments for which the context becomes too scarce. This effect may be more apparent in smaller functional models, such as FGG-M, while larger models seem more robust and potentially maintain sufficiently large respective fields.
Mehrstufentraining Multi-stage training
Das Lernen der Parameter für alle Faltungsschichten der Erfassungsaufgabe ist nicht einfach, weshalb bei der Standardstrategie zum Trainieren des Faster R-CNN-Modells die Parameter bevorzugt mit dem vortrainierten ImageNet-Modell initialisiert werden, und das Lernen der ersten f 4 Faltungsschichten übersprungen werden kann. Das bedeutet, dass die Funktionen niedrigen Niveaus in dem grundlegenden Faster R- CNN-Modell immer noch diejenigen sein können, die tatsächlich nur für die Bild-Nettoklassifizierungsaufgäbe trainiert werden. Das braucht natürlich keine optimale Einstellung zu sein. Es kann jedoch ein mehrstufiger Trainingsansatz herangezogen werden, und diese anfänglichen Faltungsschichten, die in dem Standard-Trainingsstadium der Faster R-CNN übersprungen werden, können ebenfalls gelernt werden. In dem ersten Stadium kann die Standardstrategie beibehalten werden, und die Parameter der intimalen Faltungsschichten der Netzwerke werden nicht gelernt. Bei dem zweiten Stadium kann die Trainingsvorgehensweise auf dem vollständigen Netzwerk fortgesetzt werden, nachdem die ursprünglichen Faltungsschichten ebenfalls entriegelt sind. Alternativ könnte man auch eine Strategie einem Aufwärmtraining ähnlich, mit sehr kleinen Lern-Raids untersuchen. Learning the parameters for all convolutional layers of the acquisition task is not easy, so in the standard strategy for training the Faster R-CNN model, the parameters are preferably initialized with the pre-trained ImageNet model, and the learning of the first f 4 convolutional layers can be skipped. This means that the low-level functions in the basic Faster R-CNN model can still be those that are actually trained only for the image net classification tasks. Of course, that does not need to be an optimal setting. However, a multi-level training approach may be used, and these initial convolutional layers skipped in the standard training stage of the Faster R-CNN may also be learned. In the first stage, the default strategy can be maintained and the parameters of the intimal convolution layers of the networks are not learned. At the second stage, the training policy may continue on the full network after the original convolution layers are also unlocked. Alternatively, one could also study a strategy similar to warm-up training, with very small learning raids.
Experimente und Resultate Die Einzelheiten der Experimente und die Resultate der erfindungsgemäßen Ansätze auf dem UA-DETRAC werden bereitgestellt, was ein sehr umfassender Datensatz für Überwachungsszenarien ist. Der Datensatz besteht aus 100 Videosequenzen (60 für das Training, 40 für das Testen), die reale Verkehrsszenen bei unterschiedlichen Wetterbedingungen präsentieren . Netzwerkaufbauten Experiments and Results The details of the experiments and the results of the inventive approaches on the UA-DETRAC are provided, which is a very comprehensive record for surveillance scenarios. The dataset consists of 100 video sequences (60 for training, 40 for testing) that present real traffic scenes in different weather conditions. Network structures
Zwei unterschiedliche Varianten der VGG-Netzwerkaufbauten werden verwendet. Die erste ist VGG_CNN_M_1024 mit 5 Faltungs- und 3 vollständig verbundenen Schichten. Unten wird dieses Netzwerk VGG-M genannt. Die zweite ist VGG-16 mit 13 Faltungs- und 3 vollständig verbundenen Schichten. Trainingsstrategie Two different variants of the VGG network structures are used. The first is VGG_CNN_M_1024 with 5 convolutional and 3 fully connected layers. Below this network is called VGG-M. The second is VGG-16 with 13 convolutional and 3 fully connected layers. training strategy
Die folgende Strategie ist in dem ursprünglichen Bericht des UA- DETRAC-Datensatzes zum Auswählen von Round-Truth-The following strategy is described in the original report of the UA DETRAC dataset for selecting round-truth
Fahrzeuganmerkungen zum Trainieren der Modelle beschrieben. Das bedeutet, dass nur Fahrzeuge mit weniger oder gleich 50 % Okklusion und 50 % Trunkierung enthalten sind. Um die Modelle robust zu machen und übermäßige Anpassung an DETRAC-Szenarien zu vermeiden, wurden PASCAL VOC 2007- und 2012-Trainval-Bildsätze gemeinsam mit den DETRAC-Bildern verwendet, um die Modelle zu trainieren. Das Training wird für alle 20 Standardklassen des PASCAL VOC-Datensatzes erstellt. Die Bewertungen zeigen, dass das Training für alle 20 Klassen im Allgemeinen leicht besser sein kann als das Training nur für Fahrzeuge. Für alle Experimente wird der Ende-an-Ende-Ansatz des Faster R-CNN zum Modelltraining verwendet, der sowohl RPN als auch das Klassifizierungsnetzwerk gleichzeitig trainiert. Vehicle notes for training the models described. This means that only vehicles with less than or equal to 50% occlusion and 50% truncation are included. To make the models robust and avoid excessive adaptation to DETRAC scenarios, PASCAL VOC 2007 and 2012 Trainval image sets were used along with the DETRAC images to train the models. Training is created for all 20 standard classes of the PASCAL VOC record. The ratings show that training for all 20 classes in general can be slightly better than training for vehicles only. For all experiments, the end-to-end approach of the Faster R-CNN is used for model training, which trains both RPN and the classification network simultaneously.
Die Auswahl des NMS-Schwellenwerts ist für typische Objektdetektoren recht kritisch. Da nur Fahrzeuge mit weniger oder gleich 50 % Okklusion in dem Validierungssatz berücksichtigt werden, kann es theoretisch sinnvoll sein, einen NMS-Schwellenwert von 0,5 zu verwenden. Außerdem kann ein strikterer Wert für den Faster R-CNN-Parameter FG_THRESH, das heißt 0,7 an Stelle von 0,5, für eine Erfassung, die während des Trainings des Klassifizierungsnetzwerks als eine positive Klasse zu betrachten ist, verwendet werden. Dieser Wert ist für alle gegenwärtigen Resultate optimal, da die Online-UA-DETRAC- Bewertung IoU von 0,7 verwendet, um eine Erfassung als richtig zu zählen. Validierung The selection of the NMS threshold is quite critical for typical object detectors. Since only vehicles with less than or equal to 50% occlusion are included in the validation rate, it may theoretically make sense to use an NMS threshold of 0.5. In addition, a stricter value for the Faster R-CNN parameter FG_THRESH, that is, 0.7 instead of 0.5, may be used for detection to be considered as a positive class during training of the classification network. This value is for everyone optimal results since the online UA DETRAC rating uses IoU of 0.7 to count a detection as correct. validation
Es wird davon ausgegangen, dass die Verteilungen der Fahrzeugdaten in den Trainings- und Testsätzen ähnlich sind, weshalb es sinnvoll ist, einen Validierungssatz für umfassende Bewertungen herauszunehmen. Bei der vorliegenden Ausführungsform werden 36 Videos ausgewählt, die unterschiedliche Gesichtspunkte und Wetterbedingungen in einem Validierungssatz aufweisen. Die restlichen 24 Videos werden verwendet, um die Modelle in dieser Validierungsphase zu trainieren. It is assumed that the distributions of the vehicle data in the training and test sets are similar, so it makes sense to remove a validation set for comprehensive assessments. In the present embodiment, 36 videos are selected that have different viewpoints and weather conditions in a validation set. The remaining 24 videos are used to train the models in this validation phase.
Um das Modell zu trainieren, werden alle Rahmen aus den ausgewählten 24 Videos des Trainingssatzes verwendet. Zum Testen wird jeder zehnte Rahmen aus den 36 Sequenzen des Validierungssatzes berücksichtigt. Das erlaubt es, schnell mehrere Ansätze zu bewerten, darunter Verbesserungen und Verfeinerungen für das Faster R-CN-Rahmenwerk . In Tabelle 1 bemerkt man, dass eine signifikante Verbesserung hinsichtlich der mittleren Präzision (Average Precision - AP) nach dem Aufnehmen von PASCAL VOC-Datensätzen erzielt werden kann. Das vorgeschlagene Verfahren kann ausführlich unter Verwendung eines kleineren VGG-M-Netzwerkes in Zusammenhang mit unterschiedlichen Aspekten bewertet werden, darunter die Fähigkeit, Maßstabänderungen zu bewältigen, und unterschiedliche Niveaus von Okklusion. To train the model, all frames from the selected 24 videos of the training set are used. For testing, every tenth frame from the 36 sequences of the validation set is considered. This allows us to quickly evaluate multiple approaches, including enhancements and refinements to the Faster R-CN framework. In Table 1, it is noted that a significant improvement in average precision (AP) can be achieved after recording PASCAL VOC data sets. The proposed method can be evaluated in detail using a smaller VGG-M network in conjunction with different aspects, including the ability to handle scale changes and different levels of occlusion.
Verfahren AP (%) Geschwindigkeit Procedure AP (%) speed
(fps) (Fps)
Faster RCNN 58, 9 12 Faster RCNN 58, 9 12
Faster RCNN 64, 1 11 Faster RCNN 64, 1 11
+ Extraanker 68, 8 11 + hochauflösende 72, 3 8 + Extra anchor 68, 8 11 + high-resolution 72, 3 8
Funktionskarten function cards
+ GP GP-FRCNN 78,7 8 + GP GP-FRCNN 78,7 8
+ Mehrstufen80, 9 8 + Multistage80, 9 8
training training
Tabelle 1 Table 1
Maßstabinvarianz Hier wird berichtet, dass das abschließende Modell fähig ist, die Maßstabinvarianzeigenschaft des ursprünglichen Detektors zu verstärken. Es wird gezeigt, dass die Fusion geometrischer Vorschläge und einer modifizierten Version des Faster R-CNN fähig ist, die Detektor-Wiedererkennung ungeachtet des Maßstabs des Objekts signifikant zu verbessern. Scale Invariance Here it is reported that the final model is capable of enhancing the scale invariance characteristic of the original detector. It is shown that the fusion of geometric proposals and a modified version of the Faster R-CNN is able to significantly improve detector recognition regardless of the scale of the object.
Die Resultate werden gemäß Figur 6 gemeldet. Man bemerkt, dass der grundlegende Ansatz die Leistung für das Erfassen von Fahrzeugen mit kleineren Maßstäben signifikant verfehlt. Das Hinzufügen der geometrischen Vorschläge (Geometrie Proposais - GP) durch Verwenden des erfinderischen vorgeschlagenen Maßstablayouts (Figuren 1 bis 4) hilft eventuell überhaupt nicht. Das gibt an, dass grundlegende Modelle nicht genug Fähigkeit zum Handhaben von Objekten mit kleineren Maßstäben, wie oben besprochen, haben. The results are reported according to FIG. It is noted that the basic approach significantly misses performance for capturing smaller scale vehicles. The addition of the Geometric Proposals (GP) by using the inventive proposed scale layout (Figures 1 to 4) may not help at all. This indicates that basic models do not have enough ability to handle smaller scale objects as discussed above.
In Zusammenhang mit kleinen Objekten kann jedoch eine Verbesserung erzielt werden, indem Beils und Whistles (BW) in das Netzwerk eingeführt werden, zum Beispiel Extraanker, die auf kleinere Objekte abzielen, und der Funktionsabstand verringert wird, um Funktionskarten mit höherer Auflösung zu erlauben. Obwohl höhere Wiedererkennung für die kleineren Fahrzeuge erzielt werden kann, kann diese Änderungen eine negative Auswirkung auf das Erfassen größerer Fahrzeuge haben. In Figur 6 ist sichtbar, dass Wiedererkennung konsistent nach BW sinkt. Das zeigt, dass das Erhöhen der Auflösung der Funktionskarten eventuell nicht immer helfen kann. Da dadurch das effektive rezeptive Feld auf dem zu verarbeitenden Bild bzw. der zu verarbeitenden Abbildung verringert werden kann, kann das Erfassen größerer Objekte für das Netzwerk schwierig zu handhaben werden. Die vorgeschlagenen geometrischen Vorschläge (GP) , die eventuell zuvor ineffektiv waren, können jedoch einen substanziellen Gewinn hinsichtlich der Wiedererkennung für kleinere und mittlere Fahrzeuge bringen, und auch im Gleichlauf mit dem Linienmodell für die größeren Objekte arbeiten. Es ist eine beeindruckende Feststellung, dass geometrisch konsistente Vorschläge die Kapazität des Detektors für kleinere Objekte wesentlich verstärken können, ohne die Leistung für die größeren Objekte zu verschlechtern. However, in the context of small objects, an improvement can be achieved by introducing barbs and whistles (BW) into the network, for example extra anchors aimed at smaller objects, and reducing the functional distance to allow higher resolution function maps. Although higher recognition may be achieved for the smaller vehicles, these changes may have a negative impact on capturing larger vehicles. In FIG. 6 it can be seen that recognition consistently decreases to BW. This shows that increasing the resolution of the feature cards may not always be helpful. As this can reduce the effective receptive field on the image or image being processed, capturing larger objects for the network may become difficult to handle. However, the proposed Geometrical Proposals (GPs), which may have previously been ineffective, can provide a substantial gain in recognition for smaller and medium vehicles, and also work in synchronism with the line model for the larger objects. It is an impressive statement that geometrically consistent proposals can significantly increase the detector's capacity for smaller objects without degrading performance for the larger objects.
Bessere Okklusionshandhabung Better occlusion handling
Hier kann bewertet werden, wie gut die Modelle hinsichtlich der Handhabung unterschiedlicher Okklusionsniveaus sind.Here it can be assessed how good the models are in terms of handling different occlusion levels.
Interessanterweise bemerkt man eine ähnliche Tendenz, dass das Einführen der Beils and Whistles (BW) gemeinsam mit den geometrischen Vorschlägen (GP) fähig sein kann, die Einstufungsversagensfälle des RPN zu meistern und die besten Resultate bereitstellen kann. Interestingly, one notes a similar tendency that the introduction of the Beils and Whistles (BW) together with the Geometric Proposals (GP) may be able to master the classification failures of the RPN and provide the best results.
Gemäß Figur 7 wird die Wiedererkennung aller Modelle in Zusammenhang mit unterschiedlichen Okklusionsniveaus vorgeführt. Figur 7 zeigt eine schematische Skizze 66, die eine Ordinate als Figur 6 und eine Abszisse 68 hat, die einem Hauptokklusionsverhältnis zugewiesen ist. In der Skizze 66 ist das Tupel der Bins 58 bis 64 entsprechend den Bins gemäß Figur 6 gezeigt. Die Wiedererkennung verbessert sich nur leicht, wenn die geometrischen Vorschläge an das Vanilla Faster R-CNN angewandt werden, was die beschränkte Fähigkeit des Modells aufzeigt. Man sieht jedoch, dass das Faster R-CNN mit Beils and Whistles mit zunehmendem Okklusionsverhältnis signifikant schlechter funktioniert, und sich in der Tat für kein Okklusionsverhältnisniveau verbessert. Dieses Resultat erklärt die Bedeutung eines größeren rezeptiven Felds, das größeren Kontext für das Objekt auf dem zu verarbeitenden Bild bzw. der zu verarbeitenden Abbildung bereitstellt und daher bessere Okklusionshandhabung erlaubt. According to FIG. 7, the recognition of all models in connection with different occlusion levels is demonstrated. Figure 7 shows a schematic sketch 66 having an ordinate as Figure 6 and an abscissa 68 assigned to a major occlusion ratio. In the sketch 66, the tuple of the bins 58 to 64 corresponding to the bins according to FIG. 6 are shown. Recognition improves only slightly when the geometric proposals are applied to the Vanilla Faster R-CNN, demonstrating the limited capability of the model. It can be seen, however, that the Faster R-CNN with Beils and Whistles function significantly worse as the occlusion ratio increases, and in fact does not improve for any occlusion ratio level. This result explains the importance of a larger receptive field that provides greater context for the object on the image or image being processed, thus allowing better occlusion manipulation.
Die oben stehenden Feststellungen können auch hinsichtlich der mittleren Präzision erfolgen. Diese Resultate sind in Tabelle 1 bereitgestellt. In dem Fall des UA-DTERAC, ist das Verhältnis der Objektgröße zur Bildgröße im Vergleich dazu ziemlich klein, was in einem typischen Bild eines PASCAL VOC-Datensatzes beobachtet wird. Die Aufgabe wird leichter, wenn mehr geeignete Ankermaßstäbe erlaubt werden, um die Regressionsparameter zu lernen. Man kann bemerken, dass das Hinzufügen zusätzlicher Maßstäbe für die Anker-Rechtecke zum Erfassen kleinerer Fahrzeuge den AP signifikant auf 68,8 % verbessert. Wie oben beschrieben, kann das Erhöhen der Auflösung der Funktionskarten mehr Vorschläge erlauben und kann weiter beim Erfassen kleinerer Objekte helfen. Natürlich kann das die Rechenzeit erhöhen. Des Weiteren kann man bemerken, dass die vorgeschlagene Erweiterung auf das RPN durch Eingliedern von Maßstablayout, das geometrische Vorschläge bietet, den AP um mehr als 6 % anhebt. Dieses Resultat fasst den Gewinn zusammen, den man in den Figuren 6 und 7 für unterschiedliche Objektmaßstäbe und Okklusionsniveaus bemerken kann. Schließlich kann Mehrstufentraining, wie oben beschrieben, den AP weiter auf beachtliche 89,9 % verbessern. The above findings can also be made in terms of average precision. These results are provided in Table 1. In the case of the UA-DTERAC, the ratio of the object size to the image size is rather small by comparison, which is observed in a typical image of a PASCAL VOC data set. The task becomes easier if more suitable anchor measures are allowed to learn the regression parameters. It can be seen that adding additional scales for the anchor rectangles to detect smaller vehicles significantly improves the AP to 68.8%. As described above, increasing the resolution of the function maps may allow more suggestions and may further aid in capturing smaller objects. Of course this can increase the computing time. Furthermore, it can be noted that the proposed extension to the RPN by incorporating scale layout, which offers geometric suggestions, raises the AP by more than 6%. This result summarizes the gain that can be seen in Figures 6 and 7 for different object scales and occlusion levels. Finally, multi-level training, as described above, can further improve the AP to a remarkable 89.9%.
Letztendlich kann auch der vorgeschlagene Ansatz unter Verwenden des größeren VGG-16-Netzwerks bewertet werden. Diese Resultate sind in Tabelle 2 gezeigt. Insgesamt können leicht bessere Resultate erzielt werden, verlieren aber die Hälfte der Rahmenrate. Kooperativ kann beobachtet werden, dass kleinere Netzwerke (VGG-M) signifikant mehr von den geometrischen Vorschlägen profitieren. Man kann bemerken, dass die Maßstabänderungen das größere Modell (VGG-16) signifikant besser funktionieren lassen als das kleinere (VGG-M) . Die vorgeschlagenen geometrischen Vorschläge verringern jedoch die Leistungsspalte wieder. Finally, the proposed approach may be evaluated using the larger VGG-16 network. These results are shown in Table 2. Overall, slightly better results can be achieved but lose half the frame rate. Cooperatively it can be observed that smaller Networks (VGG-M) benefit significantly more from the geometric proposals. It can be noted that the scale changes make the larger model (VGG-16) function significantly better than the smaller one (VGG-M). However, the proposed geometric proposals reduce the power column again.
Tabelle 2 Der UA-DETRAC-Challenge Table 2 The UA DETRAC Challenge
Unten werden die Resultate für den UA-DETRAC-Erfassungs- Challenge berichtet, und im Zeitpunkt der Verfassung sind alle derzeit auf der Website hinsichtlich der mittleren Präzision verfügbaren Resultate besser. The results for the UA-DETRAC Acquisition Challenge are reported below, and at the time of writing, all results currently available on the website are better in terms of average precision.
Um die Modelle zu trainieren, wird der vollständige UA-DETRAC- Train-Set (60 Videosequenzen oder Bilder) verwendet. PASCAL VOC 2007 und 2012 Trainval-Bildsätze sind ebenfalls enthalten, wie es in der Validierungsphase erfolgt. Man kann beobachten, dass ein Teil der Verkehrsszenarien in dem UA-DETRAC-Test-Sat z relativ dichter und überladener sind als vergleichsweise die Videosequenzen in dem Trainingssatz. Die meisten Resultate, die für den Online-Challenge erhalten werden, stimmen jedoch mit diesen Bewertungen während der Validierungsphase überein. Insgesamt kann es um beeindruckende 19,5 % hinsichtlich des AP im Vergleich zu dem Vanilla Faster R-CNN verbessert werden, das heißt von 57, 08 % auf 67, 57 %. Man kann bemerken, dass die Auswirkung des Hinzufügens geometrischer Vorschläge nicht so stark ist wie während der Validierung beobachtet. Man vermutet, dass dies auf die Tatsache zurückzuführen ist, dass eine große Anzahl von Objekten kleinen Maßstabs während Online-Bewertung ignoriert werden. Das kann an den markierten ignorierten Erkennungen in dem Bild bzw. der Abbildung, das/die zu verarbeiten ist, liegen. Diese Resultate sind in Tabelle 3 gezeigt. To train the models, the complete UA DETRAC train set (60 video sequences or pictures) is used. PASCAL VOC 2007 and 2012 Trainval image sets are also included, as is done in the validation phase. It can be seen that some of the traffic scenarios in the UA-DETRAC test satellite are relatively denser and more crowded than, comparatively, the video sequences in the training set. However, most of the results obtained for the online challenge are consistent with these scores during the validation phase. Overall, it can be improved by an impressive 19.5% in terms of AP compared to the Vanilla Faster R-CNN means from 57, 08% to 67, 57%. It can be noted that the effect of adding geometric suggestions is not as strong as observed during validation. It is believed that this is due to the fact that a large number of small scale objects are ignored during online evaluation. This may be due to the marked ignored detections in the image or image being processed. These results are shown in Table 3.
Tabelle 3 Table 3
Figur 1 zeigt in einer schematischen Ansicht eine Abbildung 16, die zu verarbeiten ist, mit allen Bereichsvorschlägen 18, die durch einen Bereichsvorschlaggenerator erzeugt werden. Die zu verarbeitende Abbildung 16 zeigt ferner einen Verkehrsweg 14, der eine Vielzahl von Fahrbahnen hat, auf welchen Fahrzeuge 12 als Verkehrsteilnehmer fahren. Figure 1 shows in a schematic view an image 16 to be processed, with all range suggestions 18 generated by a range suggestion generator. The figure 16 to be processed further shows a traffic route 14 having a plurality of lanes on which vehicles 12 drive as road users.
Wie aus Figur 1 ersichtlich ist, werden drei Rechtecke 20, 22, 24 bereitgestellt. Das Rechteck 20 befindet sich in einem oberen Abschnitt der zu verarbeitenden Abbildung 16, so dass dieses Rechteck zu groß ist, weil die Verkehrsteilnehmer, die in diesem Abschnitt der zu verarbeitenden Abbildung 16 zu erfassen sind, viel kleiner sind. Das Rechteck 24 in dem unteren Abschnitt der zu verarbeitenden Abbildung 16 ist hingegen zu klein, um einen Verkehrsteilnehmer bzw. ein Fahrzeug zu enthalten. Im Gegensatz dazu ist ein Rechteck 22 in dem unteren Abschnitt der zu verarbeitenden Abbildung 16 angepasst, um einen Verkehrsteilnehmer bzw. ein Fahrzeug zu enthalten. Die Größe des Rechtecks stimmt mit dem Fahrzeug 12 überein. Die zu verarbeitende Abbildung 16 ist eine einzelne Abbildung eines Videostreams einer Kamera, die nicht gezeigt ist. Figur 2 zeigt eine dreidimensionale Skizze, die Filtervorschläge zeigt, die die geschätzten Maßstabfilter bzw. die Bildmaßstabfunktion verwenden. Eine vertikale Achse 28 entspricht der Größe des Objekts in Einheiten von Pixeln2. Die Achsen 30, 32 verweisen auf Positionen. Eine Ebene 26 definiert eine Fläche, wo Flächenpunkte 28 angeordnet sein können. Die Punkte 28 verweisen auf Positionen zuverlässiger Erfassungen in der Abbildung oder dem Bild 16, die/das zu verarbeiten ist, die verwendet werden können, um die Maßstabfunktionen zu schätzen. Wie man sieht, definiert eine Linie den Horizont 50. Figur 3 zeigt eine Projektion der Ebene 26 in die Richtung der Achse 28 von oben. Wie man sieht, liegt der Horizont 50 parallel zu der Achse 32, die die Achse 30 an dem Wert 100 kreuzt. Die Punkte 28 befinden sich nur unter dem Horizont 50, das heißt an Werten größer als 100 der Achse 30. In dem Bereich des Horizonts 50, befindet sich ein kleiner Maßstab, wobei sich in dem Bereich der Achse 32 ein großer Maßstab befindet. As can be seen in FIG. 1, three rectangles 20, 22, 24 are provided. The rectangle 20 is located in an upper portion of the image 16 to be processed so that this rectangle is too large because the road users to be captured in this portion of the image 16 to be processed are much smaller. The rectangle 24 in the lower section of the On the other hand, Figure 16 to be processed is too small to contain a road user or a vehicle. In contrast, a rectangle 22 in the lower portion of the image 16 to be processed is adapted to contain a road user or a vehicle. The size of the rectangle coincides with the vehicle 12. The image 16 to be processed is a single image of a video stream of a camera, not shown. Figure 2 shows a three-dimensional sketch showing filter suggestions using the estimated scale filters and the image scale function, respectively. A vertical axis 28 corresponds to the size of the object in units of pixels 2 . The axes 30, 32 refer to positions. A plane 26 defines an area where surface points 28 may be located. Points 28 refer to positions of reliable detections in the image or image 16 that is to be processed, which can be used to estimate the scale functions. As can be seen, a line defines the horizon 50. Figure 3 shows a projection of the plane 26 in the direction of the axis 28 from above. As can be seen, the horizon 50 is parallel to the axis 32 which intersects the axis 30 at the value 100. The points 28 are located only below the horizon 50, that is, at values greater than 100 of the axis 30. In the area of the horizon 50, there is a small scale, wherein in the area of the axis 32 is a large scale.
Figur 4 zeigt eine Wirkung der Erfindung, nämlich dass Bereichsvorschläge viel präziser sind. Zuerst werden sie nur unter dem Horizont 50 bereitgestellt. Außerdem ist die Größe der Bereichsvorschläge 34 besser an den Maßstab angepasst. Das resultiert in präziserem und schnellerem Erfassen von Fahrzeugen 12 durch die Rechtecke 36. Der Grund dafür ist, dass die Rechtecke 36 derart bemessen sind, dass sie in Abhängigkeit von einem Maßstab und einer Position in der zu verarbeitenden Abbildung 16 besser an Größen von Fahrzeugen 12 angepasst sind. Objektvorschläge werden, während sie sich dem Horizont 50 nähern, kleiner . Figur 5 zeigt in einer beispielhaften Ausführungsform ein schematisches Flussdiagramm eines Verfahrens 10 zum Erfassen von Verkehrsteilnehmern 12, hier von Fahrzeugen, auf einem Verkehrsweg 14 in einer Sequenz aufeinanderfolgender Abbildungen, die durch eine Kamera bereitgestellt werden, die die Sequenz von Abbildungen des Verkehrswegs 14 aufzeichnet. Die Sequenz von Abbildungen wird gegenwärtig durch einen Videostream bereitgestellt . Figure 4 shows an effect of the invention, namely that range suggestions are much more precise. First, they are deployed only below the horizon 50. In addition, the size of the range suggestions 34 is better adapted to the scale. This results in more accurate and faster detection of vehicles 12 by the rectangles 36. The reason for this is that the rectangles 36 are dimensioned to vary depending on a scale and position in the vehicle Figure 16 are better adapted to sizes of vehicles 12. Object suggestions become smaller as they approach horizon 50. FIG. 5 shows in an exemplary embodiment a schematic flow diagram of a method 10 for detecting road users 12, here vehicles, on a traffic route 14 in a sequence of successive images provided by a camera recording the sequence of images of the traffic route 14. The sequence of images is currently provided by a video stream.
Bei Schritt 40 wird eine erste Abbildung der Sequenz aufeinanderfolgender Abbildungen ausgewählt, und die erste Abbildung wird als eine Abbildung 16, die zu verarbeiten ist, definiert. Dann wird bei Schritt 42 einAt step 40, a first map of the sequence of consecutive images is selected and the first image is defined as an image 16 to be processed. Then, at step 42, a
Bereichsvorschlaggenerator auf die Abbildung 16, die zu verarbeiten ist, angewandt, der durch selektive RP (Faster R- CNN) -Suche, Gleitfenster und dergleichen bereitgestellt werden kann. Der Bereichsvorschlaggenerator erzeugt eine Vielzahl von Bereichsvorschlägen 18 für mögliche Objekte, die in der zu verarbeitenden Abbildung 16 aufgezeichnet sind. Dann, bei Schritt 44, wird geprüft, ob Filter verfügbar sind. Falls nicht, setzt das Verfahren mit Schritt 46 fort, indem alle Bereichsvorschläge 18 des Bereichsvorschlaggenerators, der in Figur 1 ebenfalls gezeigt ist, präsentiert werden. Dann setzt das Verfahren mit Schritt 72 fort, wobei Objekterfassung für alle Bereichsvorschläge 18 bereitgestellt wird, um die Verkehrsteilnehmer 12 zu erfassen, wobei ein vorab definiertes Vertrauensniveau berücksichtigt wird. In dem Verfahrensschritt 74 werden zuverlässige Erfassungen (mit hohem Resultat) gesammelt . Bei Schritt 76 wird geprüft, ob ausreichend Erfassungen erzielt wurden, um eine Filterschätzung zu erlauben. Falls nicht (n) , setzt das Verfahren mit Schritt 40 fort und wählt eine andere Abbildung der Sequenz aufeinanderfolgender Abbildungen aus, um die Anzahl erzielter Erfassungen zu verbessern. Range Suggestion Generator is applied to Figure 16, which is to be processed, which may be provided by selective RP (Faster R-CNN) search, sliding windows, and the like. The range proposal generator generates a plurality of range suggestions 18 for possible objects recorded in the image 16 to be processed. Then, at step 44, it is checked if filters are available. If not, the method continues with step 46 by presenting all range suggestions 18 of the range suggestion generator also shown in FIG. Then, the method continues with step 72, wherein object detection is provided for all area proposals 18 to detect road users 12, taking into account a pre-defined level of confidence. In method step 74, reliable detections (with a high result) are collected. At step 76, it is checked whether enough detections have been made to allow a filter estimate. If not (n), the method continues with step 40 and selects another mapping of the sequence of consecutive mappings to improve the number of acquisitions achieved.
Falls in Schritt 76 ausreichend Erfassungen erzielt wurden (y) , setzt das Verfahren mit Schritt 78 fort. Bei Schritt 78 werden Filter geschätzt, wie zum Beispiel Maßstabfilter, Seitenverhältnisfilter, ein Horizont und dergleichen. Die geschätzten Filter werden geliefert, um eine Vorschlagfilterung, wie unten besprochen, zu steuern. Wenn die Filter in Schritt 78 geschätzt werden, geht das Verfahren weiter zu Schritt 40, wie oben beschrieben. If sufficient detections have been made in step 76 (y), the method continues with step 78. At step 78, filters are estimated, such as scale filters, aspect ratio filters, a horizon, and the like. The estimated filters are provided to control suggestion filtering, as discussed below. If the filters are estimated in step 78, the method continues to step 40, as described above.
Wenn bei Schritt 44 ermittelt wird, dass Filter verfügbar sind (y) , geht das Verfahren weiter zu Schritt 48, indem es Vorschlagfiltern wie oben besprochen anwendet. Das Verfahren setzt dann mit Schritt 70 fort, indem gefilterte Vorschläge auf die zu verarbeitende Abbildung 16 angewandt werden, was ebenfalls in Figur 4 gezeigt ist. Dann geht das Verfahren, wie oben besprochen, weiter zu Schritt 73. If it is determined at step 44 that filters are available (y), the method continues to step 48 using suggestion filters as discussed above. The method then proceeds to step 70 by applying filtered suggestions to the image 16 to be processed, which is also shown in FIG. Then, as discussed above, the method continues to step 73.
Optional können bei Schritt 80 Kamerakalibrierungsinformationen bzw. -daten empfangen und zu Schritt 78 geliefert werden, um die Filterschätzung zu verstärken. Optionally, at step 80, camera calibration information may be received and provided to step 78 to enhance the filter estimation.
Wie durch diese Offenbarung gezeigt, hat der vorgeschlagene GP- FRCNN-Ansatz das Potenzial, die Einstufungsversagen des grundlegenden RPN zu überkommen, und kann als ein Resultat mehr oder weniger ähnliche Leistung unabhängig von dem Maßstab des Objekts erzielen. Die Feststellungen der Erfinder deuten auch an, dass man nicht einfach das geometrische Layout aufnehmen kann, um Vorschläge neu einzustufen, und dann gewünschte Verbesserungen erwarten kann, stattdessen wird eine Anzahl von Maßstabänderungen bevorzugt bereitgestellt. Falls gewünscht, können die unterschiedlichen Funktionen und Ausführungsformen, die hier besprochen sind, in einer unterschiedlichen abweichenden Reihenfolge und/oder gleichzeitig miteinander auf diverse Arten ausgeführt werden. Ferner kann nach Wunsch eine oder mehrere der oben beschriebenen Funktionen und/oder Ausführungsformen optional sein oder bevorzugt auf eine willkürliche Art kombiniert werden. As demonstrated by this disclosure, the proposed GP-FRCNN approach has the potential to overcome the classification failures of the basic RPN and, as a result, can achieve more or less similar performance regardless of the scale of the object. The inventors' findings also suggest that one can not simply accommodate the geometric layout to reclassify proposals and then expect desired improvements, but instead a number of scale changes are preferably provided. If desired, the various functions and embodiments discussed herein may be performed in a different, different order and / or concurrently with each other in various ways. Further, one or more of the functions and / or embodiments described above may be optional, or preferably combined in an arbitrary manner, as desired.
Obwohl diverse Aspekte der Erfindung in den unabhängigen Ansprüchen dargelegt sind, umfassen andere Aspekte der Erfindung andere Kombinationen von Merkmalen aus den beschriebenen Ausführungsformen und/oder den abhängigen Ansprüchen, mit den Merkmalen der unabhängigen Ansprüche, und nur die Kombination, die in den Ansprüchen dargelegt ist. Although various aspects of the invention are set forth in the independent claims, other aspects of the invention encompass other combinations of features from the described embodiments and / or the dependent claims, with the features of the independent claims, and only the combination set forth in the claims ,
Es wird auch vermerkt, dass, obwohl oben Stehendes beispielhafte Ausführungsformen der Erfindung beschreibt, diese Beschreibung nicht als den Schutzbereich einschränkend betrachtet werden sollte. Vielmehr gibt es mehrere Variationen und Änderungen, die ohne Abweichen von dem Schutzbereich der vorliegenden Erfindung, wie er in den abhängigen Ansprüchen geschützt wird, vorgenommen werden können. It is also noted that although the above describes exemplary embodiments of the invention, this description should not be considered as limiting the scope of protection. Rather, there are several variations and changes that can be made without departing from the scope of the present invention as protected by the dependent claims.
BEZUGSZEICHEN Verfahren REFERENCE SIGNS Procedure
Fahrzeug vehicle
Straße Street
Abbildung Illustration
Bereichsvorschlag range proposal
Rechteck rectangle
Rechteck rectangle
Rechteck rectangle
Ebene level
Achse axis
Achse axis
Achse axis
Bereichsvorschlag range proposal
Rechteck rectangle
Punkte Points
Schritt step
Schritt step
Schritt step
Schritt step
Schritt step
Horizont horizon
Skizze sketch
Ordinate ordinate
Abszisse abscissa
Bin am
Bin am
Bin am
Bin am
Skizze sketch
Abszisse abscissa
Schritt step
Schritt step
Schritt step
Schritt 76 Schrittstep 76 step
78 Schritt78 step
80 Schritt80 step
Y a n nein Y a no
Claims
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE102017215079.3 | 2017-08-29 | ||
| DE102017215079.3A DE102017215079A1 (en) | 2017-08-29 | 2017-08-29 | Capturing road users on a traffic route |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| WO2019042728A2 true WO2019042728A2 (en) | 2019-03-07 |
| WO2019042728A3 WO2019042728A3 (en) | 2019-04-25 |
Family
ID=63259495
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2018/071494 Ceased WO2019042728A2 (en) | 2017-08-29 | 2018-08-08 | RECOGNIZING TRANSPORT PARTICIPANTS ON A TRANSPORT ROUTE |
Country Status (2)
| Country | Link |
|---|---|
| DE (1) | DE102017215079A1 (en) |
| WO (1) | WO2019042728A2 (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113139427A (en) * | 2021-03-12 | 2021-07-20 | 浙江智慧视频安防创新中心有限公司 | Steam pipe network intelligent monitoring method, system and equipment based on deep learning |
| CN113807270A (en) * | 2021-09-22 | 2021-12-17 | 北京百度网讯科技有限公司 | Road congestion detection method and device and electronic equipment |
| US11743998B2 (en) | 2019-10-10 | 2023-08-29 | CGF Counsel Group Frankfurt AG | Device within a pole and method |
| CN117710795A (en) * | 2024-02-06 | 2024-03-15 | 成都同步新创科技股份有限公司 | Machine room line safety detection method and system based on deep learning |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102019007057B4 (en) | 2019-10-10 | 2022-06-30 | CGF Counsel Group Frankfurt AG | OUTDOOR DEVICE WITH ELECTRONIC COMPONENT |
| DE102021117613A1 (en) | 2021-07-08 | 2023-01-12 | Valeo Schalter Und Sensoren Gmbh | METHOD OF OPERATING A PARKING ASSISTANCE SYSTEM, COMPUTER PROGRAM PRODUCT AND PARKING ASSISTANCE SYSTEM |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102473307B (en) * | 2010-03-15 | 2015-05-27 | 松下电器产业株式会社 | Method and apparatus for trajectory estimation, and method for segmentation |
| US9947077B2 (en) * | 2013-12-31 | 2018-04-17 | Thomson Licensing | Video object tracking in traffic monitoring |
| CN104658279B (en) * | 2015-02-17 | 2017-04-12 | 公安部交通管理科学研究所 | Real-time optimization signal control method and system based on video traffic state monitoring |
| JP6604019B2 (en) * | 2015-04-14 | 2019-11-13 | ソニー株式会社 | Image processing apparatus, image processing method, and image processing system |
-
2017
- 2017-08-29 DE DE102017215079.3A patent/DE102017215079A1/en active Pending
-
2018
- 2018-08-08 WO PCT/EP2018/071494 patent/WO2019042728A2/en not_active Ceased
Non-Patent Citations (1)
| Title |
|---|
| None |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11743998B2 (en) | 2019-10-10 | 2023-08-29 | CGF Counsel Group Frankfurt AG | Device within a pole and method |
| CN113139427A (en) * | 2021-03-12 | 2021-07-20 | 浙江智慧视频安防创新中心有限公司 | Steam pipe network intelligent monitoring method, system and equipment based on deep learning |
| CN113807270A (en) * | 2021-09-22 | 2021-12-17 | 北京百度网讯科技有限公司 | Road congestion detection method and device and electronic equipment |
| US11887473B2 (en) | 2021-09-22 | 2024-01-30 | Beijing Baidu Netcom Science Technology Co., Ltd. | Road congestion detection method and device, and electronic device |
| CN117710795A (en) * | 2024-02-06 | 2024-03-15 | 成都同步新创科技股份有限公司 | Machine room line safety detection method and system based on deep learning |
| CN117710795B (en) * | 2024-02-06 | 2024-06-07 | 成都同步新创科技股份有限公司 | Machine room line safety detection method and system based on deep learning |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2019042728A3 (en) | 2019-04-25 |
| DE102017215079A1 (en) | 2019-02-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2019042728A2 (en) | RECOGNIZING TRANSPORT PARTICIPANTS ON A TRANSPORT ROUTE | |
| DE102017204404B3 (en) | A method and predicting device for predicting a behavior of an object in an environment of a motor vehicle and a motor vehicle | |
| DE102021112349A1 (en) | VEHICLE OPERATION USING A DYNAMIC ALLOCATION GRID | |
| DE102020134834B4 (en) | Object tracking to support autonomous vehicle navigation | |
| DE112018006665T5 (en) | PROCEDURE FOR ACCESSING ADDITIONAL PERCEPTIONAL DATA FROM OTHER VEHICLES | |
| DE102015203016B4 (en) | Method and device for optical self-localization of a motor vehicle in an environment | |
| EP2979261B1 (en) | Backend for driver assistance systems | |
| DE102016212700A1 (en) | Method and system for controlling a vehicle | |
| DE102019115455A1 (en) | FOCUS-BASED MARKING OF SENSOR DATA | |
| DE112017007050T5 (en) | Information processing apparatus, information processing method and information processing program | |
| DE102017116213A1 (en) | ROAD RECOGNITION WITH REVERSING CAMERA | |
| DE102021127118A1 (en) | Identifying objects with LiDAR | |
| DE102019122266A1 (en) | Park management systems and procedures | |
| DE102019131701A1 (en) | METHOD AND DEVICE FOR IMPROVED LOCAL DECISIONS BASED ON THE SURROUNDINGS | |
| DE102018104270A1 (en) | Method for predicting the behavior of at least one pedestrian | |
| DE102013210836A1 (en) | Detecting a motionless object at intersections of traffic routes | |
| DE102021133340A1 (en) | CROSS-MODALITY ACTIVE LEARNING FOR OBJECT RECOGNITION | |
| WO2013029722A2 (en) | Method for representing surroundings | |
| DE102019131700A1 (en) | METHOD AND DEVICE FOR IMPROVED LOCAL DECISIONS BASED ON THE SURROUNDINGS | |
| DE112022001546T5 (en) | Systems and methods for generating object recognition labels using foveal image magnification for autonomous driving | |
| DE102020110379A1 (en) | DRIVER ASSISTANCE SYSTEM, ELECTRONIC DEVICE AND OPERATING PROCEDURES FOR IT | |
| EP2387017B1 (en) | Method and device for generating traffic data from digital aerial image sequences | |
| EP2521070A2 (en) | Method and system for recording a static or dynamic scene, for determining raw events and detecting free areas in an area under observation | |
| DE102019106048A1 (en) | VEHICLE DISPLAY WITH EXTENDED REALITY | |
| WO2023030858A1 (en) | Method and assistance device for supporting vehicle functions in a parking lot, and motor vehicle |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18756389 Country of ref document: EP Kind code of ref document: A2 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 18756389 Country of ref document: EP Kind code of ref document: A2 |