WO2020226603A1 - Automated method and system for determining an extent to which information is recognized and automated method for verifying familiarization with an electronic document - Google Patents
Automated method and system for determining an extent to which information is recognized and automated method for verifying familiarization with an electronic document Download PDFInfo
- Publication number
- WO2020226603A1 WO2020226603A1 PCT/UA2020/000050 UA2020000050W WO2020226603A1 WO 2020226603 A1 WO2020226603 A1 WO 2020226603A1 UA 2020000050 W UA2020000050 W UA 2020000050W WO 2020226603 A1 WO2020226603 A1 WO 2020226603A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- subject
- multimedia information
- data
- information
- module
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/13—Ophthalmic microscopes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B17/00—Teaching reading
- G09B17/04—Teaching reading for increasing the rate of reading; Reading rate control
Definitions
- the present invention relates to technologies that include means and methods for tracking the movement of the eyes of subjects, and relates to a method and system for automatically determining the amount of reading or recognition by a subject of certain areas when presenting multimedia information.
- the invention makes it possible to establish whether the subject was familiar with the visual information presented to him, in particular text information and / or figurative information, to what extent, and whether this volume was sufficient to confirm the subject's familiarization with the content of text fragments of the presented multimedia information, whether the subject read the presented information, in particular whether the subject has read the textual information.
- the invention makes it possible to objectively establish whether a certain subject has read textual information, and to what extent, and whether it corresponds to a certain amount, established as sufficient for the subject to recognize the content of the presented text fragments in the presented multimedia information.
- the invention relates to a method for verifying familiarization with an electronic document, in particular, involving a method and / or a system for automatically determining the amount of reading or recognition by a subject of certain areas when presenting multimedia information.
- Eye tracking technologies provide for the assessment of certain characteristics of eye movements, in particular, determining the point at which the gaze is directed, or the coordinates of the point of intersection of the optical axis of the eye (eyeball) with the plane of a certain object, in particular the plane of the device on which it is presented / a certain visual stimulus is presented.
- the use of eye tracking systems eye tracking or oculography) in various fields, and in particular for determining the reading of a subject, is known.
- US 2012/0237084 A1 (20.09.2012) describes a method and system for identifying text and its position in visual media content, for example, a document displayed on a computer monitor or other display device, allowing to determine whether the subject interacted with the text, the level interactions of the subject with the text, for example, whether the subject considered the text, whether the subject read the text, whether the subject perceived the text and understood it, or other types of interaction of the subject with the text.
- the determination is carried out on the basis of data obtained from the eye tracking device, and the emotional response determination system can be used separately or together.
- the method provides for the identification of a part of the visual media content constituting the text, determining the position of the identified text of the visual media content, collecting data from the subject's eyes while viewing the visual media content regarding the pupil size, blinking and gaze coordinates, generating the subject's gaze patterns based on the collected data with eye movements, determining whether the subject interacts with the identified text based on at least a certain position of the identified text and the generated gaze pattern, determining the level of interaction of the subject with the identified text, in particular determining whether the subject has read or familiarized with the identified text, and determining the subject's emotional reaction to the identified text.
- the known methods and systems provide for the use of specialized equipment for tracking eye movements, which cannot always be provided for laboratory conditions and research institutions, and especially in everyday life.
- studying eye movements even with the involvement of specially adapted equipment for this, there is a question of choosing data for further processing and interpretation.
- latent attention which is observed on recordings of eye movements, when the gaze follows and the fixation points pass by the real object of attention with only a short fixation time, difficulties arise in establishing an unambiguous connection between the results of the study of eye movement and the cognitive process of a particular subject.
- the problem that is solved within the framework of this invention lies in areas where decision-making essentially depends on whether the subject (person) has actually read the information presented, in particular, whether he has read a certain document.
- the present invention allows it to be applied in such industries as education, legal practice, public sectors and the like.
- An object of the present invention is to provide the ability to automatically determine and evaluate the subject's recognition volume and reading volume with high accuracy when viewing multimedia information on various devices, such as a personal computer or laptop, tablet, smartphone, virtual screen, or any other appropriate device or display.
- the invention allows in real time to check whether the subject is familiar with the presented information, to determine its volume, to determine the recognition by the subject of text sections, tables, images, etc. when presenting multimedia information and the amount of information, the content of which was recognized by the subject, in particular, to check the reading of text parts in the presented multimedia information or reading any electronic document.
- the basis of the invention is to provide a method and a system for automated determination with high accuracy of the volume of information recognition by a subject when presenting multimedia information, in particular the amount of readable information, it is even better to determine the amount of information read using widespread electronic devices suitable for displaying multimedia information, video recording, processing, storing and transmitting data.
- Another object of the invention was to provide an automated method for signing electronic documents when establishing that it was the verified subject who read a certain volume of a certain document.
- an automated method for determining the amount of information recognition by a subject when presenting multimedia information provides for the provision of multimedia information, fixing and processing data on the subject's eye movements using a video device and determining the amount of recognition by the subject of the presented multimedia information, the method being carried out using a system comprising :
- APK-P - user hardware and software complex
- a video device a multimedia information display module, a data reception and transmission module, a video stream data recording module from a video device, a data storage module, a data processing module, are combined or integrated, and
- AIC-VP a remote hardware and software complex for interaction with a user
- AIC-VP a multimedia information display module, a data reception and transmission module, a data storage module, a user subject verification module, a data processing module capable of working and training an artificial neural network
- calibration is carried out taking into account the individual anatomical parameters of the eyes when presenting to the subject moving visual stimuli and the task of tracking;
- the data of eye movements and / or gaze are recorded on the APK-P, taking into account behavioral reactions in the form of at least one of the blinking of the eyes, and / or head movements, and / or changes in the coordinates of the previously marked points on the face, individual points of view are determined at each moment in time in the coordinates of the plane of the multimedia information display module APC-P when presenting information, and the received information is transmitted to the remote APC-VP in which:
- the density of all gazes and the gaze density defined as reading are calculated from the number in each structural element, and appropriate threshold values for the calculated densities are set, which separate the statistical noise;
- the multimedia information presented to the subject is text fragments without images and / or tables or with images and / or tables in well-known formats for presenting electronic documents, or video information that contains text fragments and / or images and / or tables.
- the method includes the additional step of verifying the face of the subject based on visual data about the subject entered into the distant APC-VI before providing the multimedia information to the subject.
- the method includes verifying the identity of the subject prior to each subsequent step of providing the subject with multimedia information or electronic document.
- the method includes calibrating the parameters of the eyes with certain behavioral responses prior to each step of providing the subject with multimedia information or electronic document.
- a display device for multimedia information or, for example, an electronic document is a television, a computer monitor, a smartphone display, a tablet display, or any other device capable of displaying multimedia information.
- the video fixing device used is, in particular, a web camera or video camera connected or integrated into the APC-P, in particular into a computer, smartphone, tablet or any video device capable of receiving and transmitting video data.
- the number of gaze transitions from certain text to related materials, in particular tables and images, and the time spent on such transitions, when presenting multimedia information are determined and optionally presented on the multimedia information display module.
- a map of gaze data density and / or gaze data density, defined as read, and / or overlapping area of an area where the data density of all gazes and the gaze data density, defined as read, exceed threshold values is generated, and optionally presented module for displaying multimedia information.
- the percentage of the structured units viewed from the total number of units in the presentation of multimedia information in which the view has not been determined to be read is calculated and optionally presented on the display unit of the multimedia information.
- the percentage of the building blocks in which the gaze has been determined to be read is calculated from the total number of building blocks when presenting multimedia information, and optionally presented on the multimedia display module.
- the ratio of the volume of the structural elements viewed, in which the gaze was not defined as reading, to the volume of the structural elements, in which the gaze was defined as reading is calculated when presenting multimedia information, and optionally presented on the multimedia display module.
- a read verification certificate is generated in the APC-VP, in particular as an electronic read verification certificate document, and optionally stored in a data storage unit.
- the read verification certificate is downloaded to the APC-P.
- all received subject data is stored in the data storage unit APC-VP and optionally APC-P.
- Another important aspect of the invention is an automated system for determining the scope of information recognition by a subject when presenting multimedia information, including:
- AIC-P the user's hardware and software complex
- W a module for receiving and transmitting data, configured to receive and transmit the received information to a remote AIC for interaction with a user (AIC-VP),
- data processing module including:
- APK-VP remote APK for user interaction
- a module for receiving and transmitting data configured to receive and transmit the received and processed information to the APC-P
- - a unit for calculating the ratio of the overlapping area of the area where the data density of all views and the data density of the views, defined as reading, exceeds the threshold values, to the total area of all structural elements defined in the presented multimedia information, - block for establishing the amount of information recognized by the subject,
- the APC-VP of the automated system further comprises a module for controlling the modes of presentation of multimedia information on the APC-P.
- the module for displaying multimedia information APC-P and / or APC-VP is configured to present multimedia information to a subject, which is an electronic document, text fragments without images and / or tables, or with images and / or tables in known formats for presenting electronic documents or video information that contains text fragments and / or images and / or tables.
- the identity verification module of the user subject is configured to verify based on visual data about the subject that are entered into the remote APC-IP, before the first and / or before each session of presenting the multimedia information or electronic document to the subject.
- an eye parameter calibration unit is configured to calibrate the parameters of eyes with certain behavioral responses before the first and / or before each session of presentation of multimedia information or an electronic document to the subject.
- the module for displaying multimedia information or an electronic document in the APC-P and / or APC-VP is a TV screen, a computer monitor, a smartphone display, a tablet display, or any other device capable of displaying multimedia information.
- a video fixing device is, in particular, a webcam or video camera connected or integrated into the APC-P, in particular into a computer, smartphone, tablet or any video device capable of receiving and transmitting video data.
- the APC-VP data processing module comprises a unit for generating a map of gaze data density and / or gaze data density defined as reading and / or overlapping area of an area where the data density of all gazes and the gaze data density determined as reading exceeds the thresholds where the card is suitable for presentation on the media display module.
- the APC-VP data processing module contains a unit for calculating the percentage of viewed structural elements from the total number of structural elements when presenting multimedia information in which the view is not was defined as reading, in particular the number of transitions of the gaze from a particular text to related materials.
- the APC-VP data processing module comprises a unit for calculating the percentage of structural elements in which the gaze was determined to be reading from the total number of structural elements when presenting multimedia information.
- the APC-VP data processing module comprises a unit for calculating the ratio of the volume of viewed structural elements, in which the gaze was not defined as reading, to the volume of structural elements, in which the gaze was determined as reading, when presenting multimedia information.
- the APC-VP data processing module contains a unit for presenting statistical information about the behavior of a subject during reading, in particular, data on the amount of information read, reading speed, information perception complexity, data on various aspects of eye movement and certificate generation reading checks, in particular as an electronic document, upon completion of each session or series of sessions of presenting multimedia information or a fragment thereof.
- Another important aspect of the invention is an automated method for verifying the familiarization of a subject with an electronic document, which provides for a preliminary determination of the volume of information recognition, in particular, the volume of a read document sufficient to generate a certificate of signing an electronic document by a verified subject, verification of the subject's identity based on previously entered into the hardware and software a complex (AIC) of visual data about a subject at the beginning of a session of presenting an electronic document to a subject and during each subsequent session of presenting the same document to the same subject, determining the volume of information recognition, in particular the volume of a read document by a verified subject when presenting an electronic document for all sessions of presenting one and the same document using the eye-tracking technology on the APC, and in the event that the subject confirms the end of the session / sessions of acquaintance with the document volume and approves the signing, and if a certain amount of information recognized by the verified subject, including the volume of the read document, is equal to or greater than the predetermined volume, a document signing certificate is generated.
- Determination of the volume of information recognition, in particular the volume of a read document, by a verified subject in the method of signing an electronic document can be carried out using the method disclosed herein for automatically determining the volume of information recognition.
- the determination of the scope of information recognition, in particular the amount of the read document by the verified subject is carried out using the system for automated determination of the scope of information recognition described herein.
- Another aspect of the invention is a computer-readable storage medium containing program code executable on a computer for performing operations of the methods described herein.
- FIG. 1 Automated system for determining the volume of information recognition
- APC-P (10) video recording device, (20) module for displaying multimedia information, (30) module for receiving and transmitting data, (50) module for recording from a video recording device for video stream data, (40) data storage module, (70 ) a data processing module, (80) a data processing unit for a video stream from a video recording device APK-P, (90) a unit for calibrating eye parameters, (100) a unit for determining individual points of view at each time point in plane coordinates of the multimedia information display unit;
- (2) APC-VP (21) module for displaying multimedia information, (31) module for receiving and transmitting data, (41) module for storing data, (61) module for verifying the identity of the user subject (71) module for processing data, configured for the operation and training of an artificial neural network, (81) a unit for operation and training of an artificial neural network, (91) a unit for classifying fragments of multimedia information into structural elements, (101) a unit for processing video stream data from a video recording device APK-P, (111) a setting unit correspondence between individual gaze points and a fragment of multimedia information presented at this time, (121) a unit for establishing the reliability of attributing each individual gaze of a subject to reading, (131) a unit for generating multiple gaze data and aggregating multiple gaze data into a coordinate system of classified structural elements of the presented multimedia information , (141) calculation block by quantity in each structural element not the data density of all gazes and the gaze data density defined as reading, and setting appropriate thresholds for the calculated densities, (151) block for calculating the ratio of the area of overlap of the
- FIG. 2 Indicators in time series.
- FIG. 3 Filtering using BPOGV, FPOGV.
- FIG. 4 Filters only gaze movements on the screen.
- FIG. 5 Convolutional neural network, architecture with 113,006 trainable parameters.
- FIG. 6 Classification of each group of fixations (observations grouped by FPOGID).
- the existing methods and systems for tracking eye movements for various purposes provide for the use of specialized video devices - eye trackers.
- attention is focused on determining the exact coordinate positions of the smallest structural elements of the text, in particular a word, even better than a letter, and on tracing the trajectories and basic patterns of movement.
- eye-trackers depending on the method on which the system is based, in particular, the dark pupil or the bright pupil, and the significant influence on the obtained data of certain behavioral reactions.
- Known methods do not offer methods of remote processing of eye tracking data obtained from non-specialized eye tracking devices, in particular, using a standard webcam, which can be defined for example as web tracking, or any video device that is attached or integrated into any electronic device for personal use, capable of receiving, processing, transmitting and optionally storing data, where such a method has a high definition accuracy and is easily accessible to the user.
- a standard webcam which can be defined for example as web tracking, or any video device that is attached or integrated into any electronic device for personal use, capable of receiving, processing, transmitting and optionally storing data, where such a method has a high definition accuracy and is easily accessible to the user.
- this invention proposes a combination in a certain way into an automated system of software and hardware configured to perform certain functions, as described herein.
- the use of an artificial neural network is envisaged, through training of which, at the initial stage, template models for determining the density of a gaze in certain structural elements of multimedia information, in particular an electronic document, have been created, and subsequently made it possible to achieve 96% accuracy in determining the volume of recognition of the presented multimedia information and determining the volume of information read.
- the described method and system which was named StoryLook, allows the subject-user to track and save all reading materials and associated read metadata, search and filter content by reading template parameters (for example, the time and speed of fixation allows you to separate the region of interest within text); receive after processing various analytical annotations, receive assistance options in real time while familiarizing with the content of multimedia information, in particular reading (for example, automated translation).
- the system automatically tracks eye movements and correlates them with information such as text on the screen, which allows for real-time processing of read patterns and saves all metadata for further analysis.
- the claimed invention had to transform a common standard video device, in particular a webcam, into an eye-tracking device.
- machine learning was applied to build a system of eye gaze tracking and recognition of specific eye movements during reading, together with the introduction of new elements and improvement of the known ones, as well as through new connections and a certain sequence of actions, it was possible to effectively solve the problem of reading verification.
- the implementation of the invention provides for the use of conventional video devices, in particular, connected, built-in or integrated into any electronic devices, for example a tablet, smartphone, laptop, personal computer or other suitable, which requires the creation of an adapted hardware and software complex (AIC), where the choice of data is also important for video recording, video recording method, data processing method, transmission and selection of criteria for interpretation.
- AIC hardware and software complex
- GazePoint eye When collecting data to track human activity, a tracker was used, for example GazePoint eye, which made it possible to obtain gaze coordinates with an error angle of no more than 1-1.5 degrees after calibration. During each session, GazePoint Analysis records video and screen images along with tabular gaze movement data.
- the entire data set consisted of 2 parts: 51 time series of reads and 85 - "non-reads". Each study participant had to do the following: read 2- minute text; find specific information and things in the images, watch a 3-minute video.
- Anti-aliasing eliminates one important feature - microsaccades.
- a saccade is a fast, simultaneous movement of both eyes between two points.
- Microsaccades are movement within a single fixation that provides an answer to how users fix their gaze. While anti-aliasing is not an ideal choice when it comes to saccades, it does help approximate word detection.
- time sequence processing windows with a width of 100 values were chosen (which roughly corresponds to the average time for reading one section on A4 paper). This resulted in splitting all datasets into 24,568 reads and 14288 non-reads of many time series with a length of 100 values, allowing for 90% overlap.
- Reading clustering models The main task was to classify each group of fixations (observations, grouped by FPOGID) as one of three main patterns: saccades, line transitions, regressions (Fig. 6).
- the main obstacle that emerged at this stage was the labeling of the dataset, since 60 Hz data is inherently difficult to label. This also turned out to be a problem for clustering. Some of the minor issues that have been addressed are the high similarity between regressions and line transitions, and scrolling fixes that appear to be outliers. The reading classification algorithm was used to exclude fixations during scrolling.
- the entire dataset was filtered from points to saccades only.
- FPOGID fixation identifier
- all the identified saccades were divided into minimum / maximum values with a naive algorithm along the horizontal axis, and the minimum saccades were divided into groups of line transitions and regressions.
- clustering was used using the K-means method on three main functions of saccades: the projection of line transitions along the horizontal axis, the angle of line transitions along the horizontal axis and the difference from the previous saccade.
- One of the examples of automated processing of multimedia information is the creation of a complete text document with video in the following sequence: identification of static frames in the video (with a threshold deviation between images), separation of sheets (text fragments) from the frame, the following are combined sheets in a single "panoramic" picture, separating text into the displayed document, identifying points of interest.
- Some of the main findings of the study show that an algorithm that builds on the foresight of the previous machine learning (ML) model can account for gaze movements (regressions, sweeps, and saccades) and calculate relative reading speed; an algorithm that provides information about a reader's interest provides a weighting factor for a given word, which may be important to the reader.
- ML machine learning
- an automated system for implementing a method for determining the amount of information recognition by a subject when presenting multimedia information, in particular, determining the amount of reading by a subject of structural elements of multimedia information or an electronic document defined as text.
- the selected parameters for the targeted training of the artificial neural network allow the subsequent determination of the reliability of attributing each individual gaze of the subject to reading.
- An automated method for determining the amount of information recognition by a subject is carried out as follows.
- the parameters of the eyes are calibrated taking into account the individual anatomical parameters of the eyes when the subject is presented with moving visual stimuli and the task of tracking. Calibration can be performed both once, and several times, or multiple times as necessary, in particular at a certain frequency or before each session of presenting the multimedia information to the subject.
- the connection of the interaction of the subject with the multimedia information is confirmed by verifying the identity of the subject in the module (61), before providing the subject with the multimedia information based on the visual data about the subject, which is entered into the remote APC-VP, once or several times, or multiple times, for example, at a certain frequency or before each subsequent presentation of the multimedia information to the subject, or after interruption of the browsing session for a predetermined time before each presentation of the multimedia information after such interruption.
- Identification / verification of the identity of the subject can occur by entering data about the subject into the database of the data storage module of the corresponding device in advance or during the first access of the subject to the APC-P. In subsequent sessions, the subject's access to the multimedia information in relation to which the determination of the recognition and / or reading volume in any particular mode is provided is compared parameters of the subject with those available in the database during the entire period of the session or sessions of information processing by the subject.
- the system can be used to log into the system using existing accounts, including social media accounts, etc., including audio and / or photo and / or video captured data of the subject, in particular his appearance, for example, facial features and the like.
- multimedia information is loaded onto the remote APC-VP (2) and using the fragment classification unit (91) is classified its fragments into structural elements based on characteristics - text, images, table, etc. (all other information other than text, images or tables).
- the classified information is transmitted from the remote APK-VP (2) to the APK-P
- the display of multimedia information can occur on any suitable display means, for example, a TV screen, a computer or laptop monitor, a smartphone display, a tablet display, and the like.
- the data of eye movements and / or gaze is recorded, taking into account behavioral reactions in the form of at least one of blinking eyes and / or head movements, and / or changes in the coordinates of pre-marked points on the face, and in the data processing unit of the video stream (80) of the data processing module (70) using the unit for determining individual points (100), individual points of view are determined at each time point in the plane coordinates of the multimedia information display unit (20 ) APK-P (1) when presenting multimedia information.
- any video device capable of receiving and transmitting video data is used as a video recording device, in particular, a webcam or video camera connected or integrated into the APK-P (1), in particular, it can be used connected to a personal electronic device ( personal computer, telephone, smartphone, tablet, etc.) photo and / or video camera or built into the specified device, or other.
- a personal electronic device personal computer, telephone, smartphone, tablet, etc.
- the specified data of a set of gaze is aggregated into a coordinate system of classified structural elements of the presented multimedia information in the unit for generating and aggregating a set of gaze data (131).
- the data density of all views and the data density of the views defined as reading are calculated in the calculation unit (151) by the number in each structural element, and the corresponding threshold values for the calculated densities are set, which separates the statistical noise.
- the data processing module (71) optionally in a separate block, which is associated with blocks (81) - (181), determine the number of transitions from a certain text to related materials, in particular tables and / or images, and / or another, and the time spent on such transitions, which are taken into account when determining behavioral reactions when reading and "not reading".
- the ratio of the overlapping area of the area (151) determines the ratio of the area of overlap of the area where the data density of all views and the data density of the views, defined as reading, exceeds the threshold values, to the total area of all structural elements defined in the presented multimedia information, and set the amount of information recognized by the subject using the unit (161) for establishing the amount of information recognized by the subject, after which the read information is determined using the unit (171) for establishing the amount of textual information read by the subject.
- Multimedia information to be processed by a subject is any kind of information capable of being displayed on various devices, and may contain text or text fragments (in particular, for example, inscriptions, numbers, tables, images, text fragments without images and / or tables, or with images and / or tables, in well-known electronic document presentation formats, for example, it is an electronic document, an electronic book (for example, a production document, educational material, electronic testing material, entertainment material, etc.) and / or video information that contains text fragments and / or images, and / or tables.
- the multimedia information loaded into the APC-VP its classification is carried out by separating from the entire volume of content fragments containing text features that are text fragments, tables (with text elements and numbers) and images, in particular, to which are associated with text and / or table fragments.
- the multimedia information is presented to the subject in a conventional format, but the preliminary classification allows focusing on behavioral responses and eye movements in relation to the targeted pieces of multimedia information.
- the remote APC-IP also provides the ability to present the results of data processing in relation to the volume of recognition and / or reading of multimedia information on the display device (20) of the user in a different way.
- the amount and type of presentation of this data can be determined by the operator of the remote APC-VP and / or the owner of this multimedia information, and / or the user, or otherwise.
- data is generated on the behavior of the subject during reading, in particular, the amount of information read, the speed of reading, the complexity of the perception of information, data on various aspects of eye movement, and then a report is generated based on these data, in particular, a read verification certificate, in particular as an electronic document, upon completion of each session or series of sessions of presenting multimedia information or a fragment thereof.
- a generated report and / or a map is presented in any visually acceptable form and / or a diagram, and / or a graph or another, of gaze density and / or gaze data density, defined as reading, and / or the area of overlap of the area where the data density of all gazes and the data density of gazes, defined as reading, exceeds the threshold values, and / or the calculated percentage of viewed structural elements from the total number of structural elements when presenting multimedia information in which the gaze was not defined as reading, and / or the calculated percentage of structural elements in which gaze data was defined as reading, of the total number of structural elements in the presentation of multimedia information and / or the calculated ratio of the volume of viewed structural elements in which gaze was not defined as reading , to the volume of structural elements in which the gaze data were Defined as reading, presenting multimedia information, and the like.
- Such visualization of the results of recognition and / or reading of multimedia information and the speed of these processes can occur both at the end of a session of presenting multimedia information, and during the session, upon completion of viewing certain specified fragments of multimedia information in real time.
- This is an additional tool for controlling the recognition and / or reading process for the user and / or the owner of multimedia information, and / or the operator of the separated APC-VP, and develops into a number of additional capabilities of the method and system described here.
- the application of a machine learning approach makes the claimed multimedia familiarization and reading verification method easily applicable and standard on a variety of devices. Thanks to the claimed method and system in the mode real-time using any means of video recording, it is possible to identify with 97% accuracy whether a person is reading at the moment and calculate the amount of information actually read.
- the relationship between the identity of the subject, the specific electronic document that he is familiar with, and the amount of content read in this document allows for automated and easily accessible certification of the reading of the document, in particular by creating a document signing certificate, which can be applied in many industries.
- Data exchange between APK-P and APK-VP is carried out using wired or wireless transmission, while the settings of APK-VP allows you to expand the system and carry out such data exchange with a variety of APK-P, and also reduces the functional and software load on the APK-P , all the received data of the subject are stored in the data storage unit (41) of the APK-VP, and optionally a part of the data, in particular reports and / or maps and / or certificates, in the APK-P.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Educational Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Psychology (AREA)
- Child & Adolescent Psychology (AREA)
- Pathology (AREA)
- Social Psychology (AREA)
- Developmental Disabilities (AREA)
- Psychiatry (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Hospice & Palliative Care (AREA)
- Human Computer Interaction (AREA)
- Ophthalmology & Optometry (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
АВТОМАТИЗИРОВАННЫЙ СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ ОБЪЕМА AUTOMATED METHOD AND SYSTEM FOR DETERMINING VOLUME
РАСПОЗНАВАНИЯ ИНФОРМАЦИИ, И АВТОМАТИЗИРОВАННЫЙ СПОСОБ ВЕРИФИКАЦИИ RECOGNITION OF INFORMATION, AND AUTOMATED METHOD OF VERIFICATION
ОЗНАКОМЛЕНИЯ С ЭЛЕКТРОННЫМ ДОКУМЕНТОМ ABOUT THE ELECTRONIC DOCUMENT
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ TECHNICAL FIELD OF THE INVENTION
Настоящее изобретение относится к технологиям, которые включают средства и методы слежения за движением глаз субъектов, и касается способа и системы автоматизированного определения объема чтения или распознавания субъектом определенных участков при предъявлении мультимедийной информации. Изобретение позволяет установить, был ли субъект ознакомлен с предъявленной ему визуальной информацией, в частности текстовой информацией и/или образной информацией, в каком объеме, и был ли этот объем достаточен для подтверждения ознакомления субъекта с содержанием текстовых фрагментов представленной мультимедийной информации, прочитал ли субъект представленную информацию, в частности прочитал ли субъект текстовую информацию. The present invention relates to technologies that include means and methods for tracking the movement of the eyes of subjects, and relates to a method and system for automatically determining the amount of reading or recognition by a subject of certain areas when presenting multimedia information. The invention makes it possible to establish whether the subject was familiar with the visual information presented to him, in particular text information and / or figurative information, to what extent, and whether this volume was sufficient to confirm the subject's familiarization with the content of text fragments of the presented multimedia information, whether the subject read the presented information, in particular whether the subject has read the textual information.
Изобретение позволяет объективно установить прочитал ли определенный субъект текстовую информацию, и в каком объеме, и соответствует ли это определенному объему, установленному как достаточный для распознавания субъектом содержания представленных текстовых фрагментов в предъявленной мультимедийной информации. The invention makes it possible to objectively establish whether a certain subject has read textual information, and to what extent, and whether it corresponds to a certain amount, established as sufficient for the subject to recognize the content of the presented text fragments in the presented multimedia information.
Кроме того, изобретение относится к способу верификации ознакомления с электронным документом, в частности с привлечением способа и/или системы автоматизированного определения объема чтения или распознавания субъектом определенных участков при представлении мультимедийной информации. In addition, the invention relates to a method for verifying familiarization with an electronic document, in particular, involving a method and / or a system for automatically determining the amount of reading or recognition by a subject of certain areas when presenting multimedia information.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ PRIOR ART
Технологии слежения за глазами (окулография, айтрекинг) предусматривают оценку определенных характеристик движений глаз, в частности определение точки, на которую направлен взгляд, или координат точки пересечения оптической оси глаза (глазного яблока) с плоскостью определенного объекта, в частности плоскостью устройства, на котором представляется/предъявляется определенный зрительный раздражитель. Применение систем слежения за глазами (айтрекинг или окулография) в различных отраслях, и в частности для определения чтения субъектом, известны. Eye tracking technologies (oculography, eye tracking) provide for the assessment of certain characteristics of eye movements, in particular, determining the point at which the gaze is directed, or the coordinates of the point of intersection of the optical axis of the eye (eyeball) with the plane of a certain object, in particular the plane of the device on which it is presented / a certain visual stimulus is presented. The use of eye tracking systems (eye tracking or oculography) in various fields, and in particular for determining the reading of a subject, is known.
Известен способ подтверждения чтения электронной почты пользователем с применением технологии отслеживания положения глаз во время чтения пользователем на электронном устройстве электронного сообщения, содержащего множество строк, в котором по признакам положения глаз, в частности определения координат положения глаз, определяют количество просмотренных пользователем строк сообщения и определяют прочитал ли пользователь сообщения путем сравнения количества строк, просмотренных глазами, с пороговым количеством строк, которое основывается на множестве строк электронного сообщения. Кроме того, определяют был ли удивлен пользователь во время просмотра электронного сообщения, путем сравнения продолжительности времени, затраченного глазами при просмотре электронного сообщения, с ожидаемой продолжительностью времени для отображения представленного электронного сообщения (US 2016/0094705 А1 , 31.03.2016). There is a known method of confirming the reading of an email by a user using the technology of tracking the position of the eyes while the user reads an electronic message containing a plurality of lines on an electronic device, in which, based on the position of the eyes, in particular, the determination of the coordinates of the position of the eyes, the number of lines of the message viewed by the user is determined and the read whether the user of the message by comparing the number of lines viewed with the eyes against a threshold number of lines, which is based on the set of lines of the email messages. In addition, it is determined whether the user was surprised while viewing the email by comparing the length of time spent by the eyes while viewing the email with the expected length of time for displaying the submitted email (US 2016/0094705 A1, 03/31/2016).
Известен способ и система для тестирования знаний языка пользователем, которые позволяют автоматически определять уровень владения языком с применением технологии отслеживания взгляда пользователя при чтении образца текста с помощью камеры (или трекера) для глаз, которая соединена с процессором и выполнена с возможностью записи времени фиксации глаз для каждого слова образца текста предъявляемого пользователю, и последующей записи саккадного времени для каждой пары слов, по которым передвигается взгляд пользователя между фиксациями, с последующим сравнением параметров взгляда пользователя с параметрами модели взгляда не менее одного читателя, имеющего определенный известный уровень владения языком, и последующим генерированием оценки владения языком пользователем на основе результатов сравнения (US 2019/0080623 А1 14.03.2019). There is a known method and system for testing the user's knowledge of the language, which automatically determine the level of language proficiency using the technology of tracking the user's gaze when reading a sample of text using a camera (or tracker) for the eyes, which is connected to the processor and is configured to record the fixation time of the eyes for each word of the sample text presented to the user, and the subsequent recording of the saccadic time for each pair of words along which the user's gaze moves between fixations, with the subsequent comparison of the user's gaze parameters with the gaze model parameters of at least one reader who has a certain known level of language proficiency, and the subsequent generation assessment of the user's language proficiency based on the comparison results (US 2019/0080623 A1 03/14/2019).
В US 2012/0237084 А1 (20.09.2012) описаны способ и система для идентификации текста и его положения в визуальном медиа-контенте, например, документа, отображаемого на мониторе компьютера или другого устройства отображения, позволяющие определить, взаимодействовал ли субъект с текстом, уровень взаимодействия субъекта с текстом, например, рассматривал ли субъект текст, читал ли субъект текст, воспринял ли субъект текст и понял ли его, или другие виды взаимодействия субъекта с текстом. Определение осуществляется на основе данных, полученных с устройства отслеживания движений глаз, при этом отдельно или вместе может применяться система определения эмоционального ответа. В способе предусмотрено идентификацию части визуального медиа-контента составляющая текст, определение положения идентифицированного текста визуального медиа-контента, сбор данных с глаз субъекта во время просмотра визуального медиа-контента относительно размеров зрачка, миганий и координат взгляда, генерирование паттернов взгляда субъекта на основе собранных данных с движений глаз, определение того, взаимодействует ли субъект с идентифицированным текстом на основании не менее определенного положения идентифицированного текста и генерируемого шаблона взгляда, определение уровня взаимодействия субъекта с идентифицированным текстом, в частности определение того, прочитал ли или ознакомился субъект с идентифицированным текстом, и определение эмоциональной реакции субъекта на идентифицированный текст. US 2012/0237084 A1 (20.09.2012) describes a method and system for identifying text and its position in visual media content, for example, a document displayed on a computer monitor or other display device, allowing to determine whether the subject interacted with the text, the level interactions of the subject with the text, for example, whether the subject considered the text, whether the subject read the text, whether the subject perceived the text and understood it, or other types of interaction of the subject with the text. The determination is carried out on the basis of data obtained from the eye tracking device, and the emotional response determination system can be used separately or together. The method provides for the identification of a part of the visual media content constituting the text, determining the position of the identified text of the visual media content, collecting data from the subject's eyes while viewing the visual media content regarding the pupil size, blinking and gaze coordinates, generating the subject's gaze patterns based on the collected data with eye movements, determining whether the subject interacts with the identified text based on at least a certain position of the identified text and the generated gaze pattern, determining the level of interaction of the subject with the identified text, in particular determining whether the subject has read or familiarized with the identified text, and determining the subject's emotional reaction to the identified text.
Известны способы и системы предусматривают применение специализированного оборудования для отслеживания движения глаз, не всегда может быть обеспечено за лабораторными условиями и исследовательскими учреждениями, и особенно в повседневной жизни. При исследовании движений глаз даже с привлечением специально приспособленных для этого аппаратуры существует вопрос выбора данных для дальнейшей обработки и интерпретации. Например, в случае скрытой внимание, что наблюдается на записях движения глаз, когда следует взгляда и точки фиксации проходят мимо реальный объект внимания лишь с незначительным временем фиксации, возникают трудности в установлении однозначной связи между результатами исследования движения глаз и когнитивным процессом конкретного субъекта. The known methods and systems provide for the use of specialized equipment for tracking eye movements, which cannot always be provided for laboratory conditions and research institutions, and especially in everyday life. When studying eye movements, even with the involvement of specially adapted equipment for this, there is a question of choosing data for further processing and interpretation. For example, in the case of latent attention, which is observed on recordings of eye movements, when the gaze follows and the fixation points pass by the real object of attention with only a short fixation time, difficulties arise in establishing an unambiguous connection between the results of the study of eye movement and the cognitive process of a particular subject.
Хотя известны различные системы слежения за глазами и их применение, однако все еще существуют определенные проблемы, с которыми люди сталкиваются во время чтения, и каждый решает эти проблемы уникальным способом: перечитывание сложных частей текста, поиск неизвестных слов, записи деталей для запоминания и т.д. Автоматизация этих процессов с привлечением общедоступного и широко используемого оборудования, например, чтобы отслеживать чтение человека, оценивать скорость, различать движения глаз и поведенческие реакции при чтении и другие виды деятельности, комментировать фрагменты текста, которые трудно читаются или содержание которых не было распознано и т.д., это функции, которые могут быть чрезвычайно полезными для людей, которым приходится обрабатывать огромные объемы текста в день. Although various eye tracking systems and their applications are known, there are still certain problems that people encounter while reading, and each one solves these problems in a unique way: rereading difficult parts of the text, finding unknown words, writing down details to remember, etc. etc. Automation of these processes using publicly available and widely used equipment, for example, to track a person's reading, estimate speed, distinguish eye movements and behavioral reactions while reading and other activities, comment on fragments of text that are difficult to read or whose content has not been recognized, etc. are functions that can be extremely useful for people who have to process huge amounts of text per day.
В настоящее время отсутствуют решения для стандартизированной проверки и подтверждения процесса обработки визуальной информации, а в частности чтения, с высокой точностью на базе не специализированных аппаратных средств, а любых видеоустройств или веб-камер с привлечением принципа отслеживания движений глаз. Currently, there are no solutions for standardized verification and confirmation of the processing of visual information, and in particular reading, with high accuracy, based not on specialized hardware, but on any video devices or webcams using the principle of eye tracking.
Проблема, которая решена в рамках данного изобретения лежит в сферах, где принятие решений существенно зависит от того, действительно ли субъект (человек) ознакомился с представленной информацией, в частности прочитал ли определенный документ. Настоящее изобретение позволяет применять его в таких отраслях как образование, юридическо-правовая практика, государственные секторы и тому подобное. The problem that is solved within the framework of this invention lies in areas where decision-making essentially depends on whether the subject (person) has actually read the information presented, in particular, whether he has read a certain document. The present invention allows it to be applied in such industries as education, legal practice, public sectors and the like.
СУТЬ ИЗОБРЕТЕНИЯ SUMMARY OF THE INVENTION
Целью настоящего изобретения является предоставление возможности автоматизированного определения и оценки объема распознавания субъектом информации и объема чтения с высокой точностью при просмотре мультимедийной информации на различных устройствах, например персональном компьютере или ноутбуке, планшете, смартфоне, виртуальном экране или любом другом соответствующем устройстве или средстве отображения. Изобретение позволяет в режиме реального времени проводить проверку ознакомления субъекта с представленной информацией, определить ее объем, определить распознавание субъектом текстовых участков, таблиц, изображений и др. при представлении мультимедийной информации и объем информации, содержание которой было распознано субъектом, в частности проверку чтения текстовых частей в представленной мультимедийной информации или чтения любого электронного документа. An object of the present invention is to provide the ability to automatically determine and evaluate the subject's recognition volume and reading volume with high accuracy when viewing multimedia information on various devices, such as a personal computer or laptop, tablet, smartphone, virtual screen, or any other appropriate device or display. The invention allows in real time to check whether the subject is familiar with the presented information, to determine its volume, to determine the recognition by the subject of text sections, tables, images, etc. when presenting multimedia information and the amount of information, the content of which was recognized by the subject, in particular, to check the reading of text parts in the presented multimedia information or reading any electronic document.
В основу изобретения поставлена задача обеспечить способ и систему автоматизированного определения с высокой точностью объема распознавания информации субъектом при представлении мультимедийной информации, в частности объема пригодной к чтению информации, еще лучше определения объема прочитанной информации, с помощью широко распространенных электронных устройств, пригодных для отображения мультимедийной информации, видеофиксации, обработки, хранения и передачи данных. Еще одной задачей изобретения было обеспечение автоматизированного способа подписания электронных документов при установлении, что именно верифицированый субъект прочитал определенный объем определенного документа. The basis of the invention is to provide a method and a system for automated determination with high accuracy of the volume of information recognition by a subject when presenting multimedia information, in particular the amount of readable information, it is even better to determine the amount of information read using widespread electronic devices suitable for displaying multimedia information, video recording, processing, storing and transmitting data. Another object of the invention was to provide an automated method for signing electronic documents when establishing that it was the verified subject who read a certain volume of a certain document.
В первом аспекте изобретения автоматизированного способа определения объема распознавания информации субъектом при представлении мультимедийной информации, предусматривает предоставление мультимедийной информации, фиксацию и обработку данных по движению глаз субъекта с применением видеоустройства и определения объема распознавания субъектом представленной мультимедийной информации, при этом способ осуществляют с помощью системы, включающей: In the first aspect of the invention, an automated method for determining the amount of information recognition by a subject when presenting multimedia information, provides for the provision of multimedia information, fixing and processing data on the subject's eye movements using a video device and determining the amount of recognition by the subject of the presented multimedia information, the method being carried out using a system comprising :
- аппаратно-программный комплекс пользователя (АПК-П), в котором объединены или интегрированы видеоустройство, модуль отображения мультимедийной информации, модуль приема и передачи данных, модуль записи с видеоустройства данных видеопотока, модуль хранения данных, модуль обработки данных, и - user hardware and software complex (APK-P), in which a video device, a multimedia information display module, a data reception and transmission module, a video stream data recording module from a video device, a data storage module, a data processing module, are combined or integrated, and
- удаленный аппаратно-программный комплекс взаимодействия с пользователем (АПК- ВП), в котором объединены или интегрированы модуль отображения мультимедийной информации, модуль приема и передачи данных, модуль хранения данных, модуль верификации субъекга-пользователя, модуль обработки данных, выполненный с возможностью работы и обучения искусственной нейронной сети, - a remote hardware and software complex for interaction with a user (AIC-VP), in which a multimedia information display module, a data reception and transmission module, a data storage module, a user subject verification module, a data processing module capable of working and training an artificial neural network,
и способ включает следующие этапы: and the method includes the following steps:
- в АПК-П проводят калибровку с учетом индивидуальных анатомических параметров глаз при представлении субъекту подвижных визуальных стимулов и задачи на слежение; - in APK-P, calibration is carried out taking into account the individual anatomical parameters of the eyes when presenting to the subject moving visual stimuli and the task of tracking;
- загружают мультимедийную информацию на удаленный АПК-ВП, классифицируют фрагменты структурных элементов по признакам - текст, изображение, таблица и прочее, передают классифицированную информацию с удаленного АПК-ВП на АПК-П и предъявляют его пользователю; - download multimedia information to the remote APC-VP, classify fragments of structural elements according to the characteristics - text, image, table, etc., transfer the classified information from the remote APC-VP to APC-P and present it to the user;
- по данным видеопотока с видеоустройства на АПК-П записывают данные движения глаз и/или взгляда и с учетом поведенческих реакций в виде по крайней мере одной из мигания глаз, и/или движений головы, и/или изменений координат предварительно маркированных точек на лице, определяют отдельные точки взгляда в каждый момент времени в координатах плоскости модуля отображения мультимедийной информации АПК-П при представлении информации, и передают полученную информацию на удаленный АПК-ВП в котором: - according to the data of the video stream from the video device, the data of eye movements and / or gaze are recorded on the APK-P, taking into account behavioral reactions in the form of at least one of the blinking of the eyes, and / or head movements, and / or changes in the coordinates of the previously marked points on the face, individual points of view are determined at each moment in time in the coordinates of the plane of the multimedia information display module APC-P when presenting information, and the received information is transmitted to the remote APC-VP in which:
- устанавливают соответствие между отдельными точками взгляда и представленным в это время фрагментом мультимедийной информации, - с применением искусственной нейронной сети формируют данные множества взглядов и устанавливают вероятность отношения каждого отдельного взгляда субъекта к чтению; - establish a correspondence between individual points of view and a piece of multimedia information presented at this time, - using an artificial neural network, they form data from a set of views and establish the likelihood of the relationship of each individual view of the subject to reading;
- агрегируют данные множества взглядов в координатную систему классифицированных структурных элементов представленной мультимедийной информации; - aggregate data of multiple views into a coordinate system of classified structural elements of the presented multimedia information;
- рассчитывают по количеству в каждом структурном элементе плотность всех взглядов и плотность взглядов определенных как чтение, и устанавливают соответствующие пороговые значения для рассчитанных плотностей, которые отделяют статистический шум; - the density of all gazes and the gaze density defined as reading are calculated from the number in each structural element, and appropriate threshold values for the calculated densities are set, which separate the statistical noise;
- рассчитывают отношение площади перекрытия области, где плотность данных всех взглядов и плотность данных взглядов, определенных как чтение, превышает пороговые значения, к общей площади всех структурных элементов, определенных в представленной мультимедийной информации, и устанавливают объем распознанной информации субъектом по которому определяют информацию как прочитанную. - calculate the ratio of the overlapping area of the area where the data density of all gazes and the gaze data density, defined as reading, exceeds the threshold values, to the total area of all structural elements defined in the presented multimedia information, and the amount of recognized information is set by the subject by which the information is determined as read ...
В следующем аспекте изобретения мультимедийная информация, которую предъявляют субъекту, представляет собой текстовые фрагменты без изображений и/или таблиц или с изображениями и/или таблицами в известных форматах представления электронных документов или видеоинформацию, которая содержит текстовые фрагменты и/или изображения и/или таблицы. In a further aspect of the invention, the multimedia information presented to the subject is text fragments without images and / or tables or with images and / or tables in well-known formats for presenting electronic documents, or video information that contains text fragments and / or images and / or tables.
В еще одном аспекте изобретения способ включает дополнительный этап, на котором перед предоставлением субъекту мультимедийной информации верифицируют лицо субъекта на основании визуальных данных о субъекте, которые вводят в отдаленный АПК-ВП. In yet another aspect of the invention, the method includes the additional step of verifying the face of the subject based on visual data about the subject entered into the distant APC-VI before providing the multimedia information to the subject.
В еще одном аспекте изобретения способ включает верификацию личности субъекта, которую осуществляют перед каждым следующим этапом предоставлением субъекту мультимедийной информации или электронного документа. In yet another aspect of the invention, the method includes verifying the identity of the subject prior to each subsequent step of providing the subject with multimedia information or electronic document.
В еще одном аспекте изобретения способ предусматривает калибровку параметров глаз с определенными поведенческими реакциями перед каждым этапом предоставлением субъекту мультимедийной информации или электронного документа. In yet another aspect of the invention, the method includes calibrating the parameters of the eyes with certain behavioral responses prior to each step of providing the subject with multimedia information or electronic document.
В следующем аспекте изобретения устройством отображения мультимедийной информации или, например, электронного документа являются, телевизор, монитор компьютера, дисплей смартфона, дисплей планшета или любое другое устройство, выполненное с возможностью отображения мультимедийной информации. In a further aspect of the invention, a display device for multimedia information or, for example, an electronic document is a television, a computer monitor, a smartphone display, a tablet display, or any other device capable of displaying multimedia information.
В еще одном аспекте изобретения применяемым устройством видофиксации является, в частности, веб-камера или видеокамера, подключенная или интегрированная в АПК-П, в частности в компьютер, смартфон, планшет или любое видеоустройство, выполненное с возможностью принятия и передачи видеоданных. In another aspect of the invention, the video fixing device used is, in particular, a web camera or video camera connected or integrated into the APC-P, in particular into a computer, smartphone, tablet or any video device capable of receiving and transmitting video data.
В следующем аспекте изобретения определяют количество переходов взгляда от определенного текста к сопутствующим материалам, в частности таблиц и изображений, и время, затраченное на такие переходы, при представлении мультимедийной информации, и необязательно предъявляют на модуле отображения мультимедийной информации. В еще одном аспекте изобретения формируют карту плотности данных взглядов и/или плотности данных взглядов, определенных как чтение, и/или площади перекрытия области, где плотность данных всех взглядов и плотность данных взглядов, определенных как чтение, превышает пороговые значения, и необязательно предъявляют на модуле отображения мультимедийной информации. In a further aspect of the invention, the number of gaze transitions from certain text to related materials, in particular tables and images, and the time spent on such transitions, when presenting multimedia information, are determined and optionally presented on the multimedia information display module. In yet another aspect of the invention, a map of gaze data density and / or gaze data density, defined as read, and / or overlapping area of an area where the data density of all gazes and the gaze data density, defined as read, exceed threshold values, is generated, and optionally presented module for displaying multimedia information.
В еще одном аспекте изобретения рассчитывают процент просмотренных структурных элементов от общего количества структурных элементов при представлении мультимедийной информации, в которых взгляд не был определен как чтение, и необязательно предъявляют на модуле отображения мультимедийной информации. In yet another aspect of the invention, the percentage of the structured units viewed from the total number of units in the presentation of multimedia information in which the view has not been determined to be read is calculated and optionally presented on the display unit of the multimedia information.
В еще одном аспекте изобретения рассчитывают процент структурных элементов, в которых взгляд был определен как чтение, от общего количества структурных элементов при представлении мультимедийной информации, и необязательно предъявляют на модуле отображения мультимедийной информации. In yet another aspect of the invention, the percentage of the building blocks in which the gaze has been determined to be read is calculated from the total number of building blocks when presenting multimedia information, and optionally presented on the multimedia display module.
В следующем аспекте изобретения рассчитывают отношение объема просмотренных структурных элементов, в которых взгляд не был определен как чтение, к объему структурных элементов, в которых взгляд был определен как чтение, при представлении мультимедийной информации, и необязательно предъявляют на модуле отображения мультимедийной информации. In a further aspect of the invention, the ratio of the volume of the structural elements viewed, in which the gaze was not defined as reading, to the volume of the structural elements, in which the gaze was defined as reading, is calculated when presenting multimedia information, and optionally presented on the multimedia display module.
В следующем аспекте изобретения после завершения сеанса преоставления мультимедийной информации или ее фрагмента в АПК-ВП формируют сертификат проверки чтения, в частности как электронный документ-сертификат проверки чтения, и необязательно сохраняют в модуле хранения данных. In a further aspect of the invention, upon completion of a session for providing multimedia information or a fragment thereof, a read verification certificate is generated in the APC-VP, in particular as an electronic read verification certificate document, and optionally stored in a data storage unit.
В следующем аспекте изобретения сертификат проверки чтения загружают на АПК-П. In a further aspect of the invention, the read verification certificate is downloaded to the APC-P.
В следующем аспекте изобретения предусмотрено, что все полученные данные субъекта сохраняют в модуле хранения данных АПК-ВП и необязательно АПК-П. In a further aspect of the invention, it is provided that all received subject data is stored in the data storage unit APC-VP and optionally APC-P.
Еще одним важным аспектом изобретения является автоматизированная система определения объема распознавания информации субъектом при представлении мультимедийной информации, включающая: Another important aspect of the invention is an automated system for determining the scope of information recognition by a subject when presenting multimedia information, including:
а) аппаратно-программный комплекс (АПК) пользователя (АПК-П), в котором объединены или в который интегрированы: a) the user's hardware and software complex (AIC) (AIC-P), in which the following are combined or integrated:
i) устройство видеофиксации, i) video recording device,
ii) модуль отображения мультимедийной информации, ii) module for displaying multimedia information,
Ш) модуль приема и передачи данных, выполненный с возможностью для приема и передачи полученной информации на удаленный АПК взаимодействия с пользователем (АПК- ВП), W) a module for receiving and transmitting data, configured to receive and transmit the received information to a remote AIC for interaction with a user (AIC-VP),
iv) модуль записи с устройства видеофиксации данных видеопотока, касающиеся движения глаз и/или взгляда, и поведенческих реакций в виде по крайней мере одной из мигания глаз, и/или движений головы, и/или изменений координат предварительно маркированных точек на лице, iv) a module for recording from a video recording device data of a video stream concerning eye movements and / or gaze, and behavioral reactions in the form of at least one of blinking eyes, and / or head movements, and / or changes in coordinates of previously marked points on the face,
V) модуль хранения данных, V) data storage module,
vi) модуль обработки данных, включающий: vi) data processing module, including:
- блок обработки данных видеопотока с устройства видеофиксации АПК-П, - a block for processing video stream data from a video recording device APK-P,
- блок калибровки параметров глаз при представлении мультимедийной информации, - block for calibrating eye parameters when presenting multimedia information,
- блок определения отдельных точек взгляда в каждый момент времени в координатах плоскости модуля отображения мультимедийной информации при представлении информации, и - a unit for determining individual points of view at each moment in time in the plane coordinates of the multimedia information display module when presenting information, and
б) удаленный АПК взаимодействия с пользователем (АПК-ВП), в котором объединены или в который интегрированы: b) a remote APK for user interaction (APK-VP), in which the following are combined or integrated:
i) модуль отображения мультимедийной информации, i) module for displaying multimedia information,
ii) модуль приема и передачи данных, выполненный с возможностью для приема и передачи полученной и обработанной информации на АПК-П, ii) a module for receiving and transmitting data, configured to receive and transmit the received and processed information to the APC-P,
Ш) модуль хранения данных, W) data storage module,
iv) модуль верификации личности субъекта-пользователя, iv) a module for verifying the identity of the user subject,
v) модуль обработки данных, выполненный с возможностью для работы и обучения искусственной нейронной сети, включающей: v) a data processing module capable of operating and training an artificial neural network, including:
- блок работы и обучения искусственной нейронной сети, - block of work and training of an artificial neural network,
- блок классификации фрагментов мультимедийной информации на структурные элементы по признакам текста, изображения, таблицы и прочее (любые другие прочие элементы не тексты, не таблицы, не изображения), - a block for classifying fragments of multimedia information into structural elements based on the characteristics of text, images, tables, etc. (any other elements are not texts, not tables, not images),
- блок обработки данных видеопотока с устройства видеофиксации АПК-П, - a block for processing video stream data from a video recording device APK-P,
- блок установления соответствия между отдельными точками взгляда и представленным в это время фрагментом мультимедийной информации; - a unit for establishing a correspondence between individual points of view and a piece of multimedia information presented at this time;
- блок установления достоверности отношения каждого отдельного взгляда субъекта к чтению, - a block for establishing the reliability of the attitude of each individual gaze of the subject to reading,
- блок формирования данных множества взглядов и агрегирования данных множества взглядов в координатную систему классифицированных структурных элементов представленной мультимедийной информации, - a block for generating data of multiple views and aggregating data of multiple views into a coordinate system of classified structural elements of the presented multimedia information,
- блок расчета по количеству в каждом структурном элементе плотности данных всех взглядов и плотности данных взглядов определенных как чтение, и установления соответствующих пороговых значений для рассчитанных плотностей, что отделяют статистический шум, - a block for calculating the number in each structural element of the data density of all views and the data density of the views defined as reading, and setting the corresponding threshold values for the calculated densities, which separates the statistical noise,
- блок расчета отношения площади перекрытия области, где плотность данных всех взглядов и плотность данных взглядов, определенных как чтение, превышает пороговые значения, к общей площади всех структурных элементов, определенных в представленной мультимедийной информации, - блок установления объема распознанной субъектом информации, - a unit for calculating the ratio of the overlapping area of the area where the data density of all views and the data density of the views, defined as reading, exceeds the threshold values, to the total area of all structural elements defined in the presented multimedia information, - block for establishing the amount of information recognized by the subject,
- блок установления объема прочитанной субъектом текстовой информации, - block for establishing the amount of textual information read by the subject,
- блок представления статистической информации и формирования отчетов. - block for presenting statistical information and generating reports.
В следующем аспекте АПК-ВП автоматизированной системы дополнительно содержит модуль управления режимами представления мультимедийной информации на АПК-П. In a further aspect, the APC-VP of the automated system further comprises a module for controlling the modes of presentation of multimedia information on the APC-P.
В следующем аспекте модуль отображения мультимедийной информации АПК-П и/или АПК-ВП выполненный с возможностью для представления мультимедийной информации субъекту, которая представляет собой электронный документ, текстовые фрагменты без изображений и/или таблиц, или с изображениями, и/или таблицами в известных форматах представления электронных документов или видеоинформацию, которая содержит текстовые фрагменты и/или изображения, и/или таблицы. In a further aspect, the module for displaying multimedia information APC-P and / or APC-VP is configured to present multimedia information to a subject, which is an electronic document, text fragments without images and / or tables, or with images and / or tables in known formats for presenting electronic documents or video information that contains text fragments and / or images and / or tables.
В еще одном аспекте изобретения в автоматизированной системе модуль верификации личности субъекга-пользователя выполнен с возможностью для верификации на основании визуальных данных о субъекте, которые введены в отдаленный АПК-ВП, перед первым и/или перед каждым сеансом представления субъекту мультимедийной информации или электронного документа. In yet another aspect of the invention, in an automated system, the identity verification module of the user subject is configured to verify based on visual data about the subject that are entered into the remote APC-IP, before the first and / or before each session of presenting the multimedia information or electronic document to the subject.
В еще одном аспекте изобретения в автоматизированной системе блок калибровки параметров глаз выполнен с возможностью для калибровки параметров глаз с определенными поведенческими реакциями перед первым и/или перед каждым сеансом представления субъекту мультимедийной информации или электронного документа. In yet another aspect of the invention, in an automated system, an eye parameter calibration unit is configured to calibrate the parameters of eyes with certain behavioral responses before the first and / or before each session of presentation of multimedia information or an electronic document to the subject.
В следующем аспекте изобретения в автоматизированной системе модулем отображения мультимедийной информации или электронного документа в АПК-П и/или АПК- ВП являются, экран телевизора, монитор компьютера, дисплей смартфона, дисплей планшета или любое другое устройство, выполненное с возможностью отображения мультимедийной информации. In a further aspect of the invention in an automated system, the module for displaying multimedia information or an electronic document in the APC-P and / or APC-VP is a TV screen, a computer monitor, a smartphone display, a tablet display, or any other device capable of displaying multimedia information.
В еще одном аспекте изобретения в автоматизированной системе устройством видофиксации является, в частности, веб-камера или видеокамера, подключенная или интегрированная в АПК-П, в частности в компьютер, смартфон, планшет или любое видеоустройство, выполненное с возможностью принятия и передачи видеоданных. In another aspect of the invention in an automated system, a video fixing device is, in particular, a webcam or video camera connected or integrated into the APC-P, in particular into a computer, smartphone, tablet or any video device capable of receiving and transmitting video data.
В еще одном аспекте изобретения в автоматизированной системе модуль обработки данных АПК-ВП содержит блок формирования карты плотности данных взглядов и/или плотности данных взглядов, определенных как чтение, и/или площади перекрытия области, где плотность данных всех взглядов и плотность данных взглядов, определенных как чтение, превышает пороговые значения, где данная карта пригодна для представления на модуле отображения мультимедийной информации. In yet another aspect of the invention in an automated system, the APC-VP data processing module comprises a unit for generating a map of gaze data density and / or gaze data density defined as reading and / or overlapping area of an area where the data density of all gazes and the gaze data density determined as reading exceeds the thresholds where the card is suitable for presentation on the media display module.
В следующем аспекте изобретения в системе модуль обработки данных АПК-ВП содержит блок расчета процента просмотренных структурных элементов от общего количества структурных элементов при представлении мультимедийной информации, в которых взгляд не был определен как чтение, в частности количества переходов взгляда от определенного текста к сопутствующим материалам. In the next aspect of the invention in the system, the APC-VP data processing module contains a unit for calculating the percentage of viewed structural elements from the total number of structural elements when presenting multimedia information in which the view is not was defined as reading, in particular the number of transitions of the gaze from a particular text to related materials.
В еще одном аспекте изобретения в автоматизированной системе модуль обработки данных АПК-ВП содержит блок расчета процента структурных элементов, в которых взгляд был определен как чтение, от общего количества структурных элементов при представлении мультимедийной информации. In yet another aspect of the invention, in an automated system, the APC-VP data processing module comprises a unit for calculating the percentage of structural elements in which the gaze was determined to be reading from the total number of structural elements when presenting multimedia information.
В еще одном аспекте изобретения в автоматизированной системе модуль обработки данных АПК-ВП содержит блок расчета отношения объема просмотренных структурных элементов, в которых взгляд не был определен как чтение, к объему структурных элементов, в которых взгляд был определен как чтение, при представлении мультимедийной информации. In another aspect of the invention, in an automated system, the APC-VP data processing module comprises a unit for calculating the ratio of the volume of viewed structural elements, in which the gaze was not defined as reading, to the volume of structural elements, in which the gaze was determined as reading, when presenting multimedia information.
В еще одном аспекте изобретения в автоматизированной системе модуль обработки данных АПК-ВП содержит блок представления статистической информации о поведении субъекта во время чтения, в частности данные про объем прочитанной информации, скорость чтения, сложность восприятия информации, данные по различным аспектам движения глаз и формирования сертификата проверки чтения, в частности в качестве электронного документа, по завершению каждого сеанса или серии сеансов представления мультимедийной информации или ее фрагмента. In another aspect of the invention, in an automated system, the APC-VP data processing module contains a unit for presenting statistical information about the behavior of a subject during reading, in particular, data on the amount of information read, reading speed, information perception complexity, data on various aspects of eye movement and certificate generation reading checks, in particular as an electronic document, upon completion of each session or series of sessions of presenting multimedia information or a fragment thereof.
Еще одним важным аспектом изобретения является автоматизированный способ верификации ознакомления субъекта с электронным документом, который предусматривает предварительное установление объема распознавания информации, в частности объема прочитанного документа, достаточного для формирования сертификата подписания электронного документа верифицированным субъектом, верификацию личности субъекта на основании предварительно введенных в аппаратно-программный комплекс (АПК) визуальных данных о субъекте в начале сеанса представления субъекту электронного документа и в течение каждого следующего сеанса представления того же документа тому же субъекту, определение объема распознавания информации, в частности объема прочитанного документа верифицированным субъектом при представлении электронного документа по всем сеансами представления одного и того же документа с помощью технологии слежения за глазами на АПК, и в случае, если субъект подтверждает завершение сеанса/сеансов ознакомления с документом и согласовывает подписание, и если определенный объем распознанной верифицированным субъектом информации, в том числе объем прочитанного документа, равен или больше предварительно установленного объема формируют сертификат подписания документа. Another important aspect of the invention is an automated method for verifying the familiarization of a subject with an electronic document, which provides for a preliminary determination of the volume of information recognition, in particular, the volume of a read document sufficient to generate a certificate of signing an electronic document by a verified subject, verification of the subject's identity based on previously entered into the hardware and software a complex (AIC) of visual data about a subject at the beginning of a session of presenting an electronic document to a subject and during each subsequent session of presenting the same document to the same subject, determining the volume of information recognition, in particular the volume of a read document by a verified subject when presenting an electronic document for all sessions of presenting one and the same document using the eye-tracking technology on the APC, and in the event that the subject confirms the end of the session / sessions of acquaintance with the document volume and approves the signing, and if a certain amount of information recognized by the verified subject, including the volume of the read document, is equal to or greater than the predetermined volume, a document signing certificate is generated.
Определение объема распознавания информации, в частности объема прочитанного документа верифицированным субъектом в способе подписания электронного документа может быть осуществлено с помощью раскрытого здесь способа автоматизированного определения объема распознавания информации. В еще одном аспекте изобретения в способе подписания электронного документа определения объема распознавания информации, в частности объема прочитанного документа верифицированным субъектом, осуществляют с помощью описанной здесь системы автоматизированного определения объема распознавания информации. Determination of the volume of information recognition, in particular the volume of a read document, by a verified subject in the method of signing an electronic document can be carried out using the method disclosed herein for automatically determining the volume of information recognition. In yet another aspect of the invention, in the method of signing an electronic document, the determination of the scope of information recognition, in particular the amount of the read document by the verified subject, is carried out using the system for automated determination of the scope of information recognition described herein.
Также еще одним аспектом изобретения является машиночитаемый носитель информации, содержащий исполняемый на компьютере программный код, обеспечивающий выполнение операций описанных здесь способов. Also, another aspect of the invention is a computer-readable storage medium containing program code executable on a computer for performing operations of the methods described herein.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ BRIEF DESCRIPTION OF DRAWINGS
Фиг. 1 - Автоматизированная система определения объема распознавания информации, где FIG. 1 - Automated system for determining the volume of information recognition, where
(1) АПК-П, (10) устройство видеофиксации, (20) модуль отображения мультимедийной информации, (30) модуль приема и передачи данных, (50) модуль записи с устройства видеофиксации данных видеопотока, (40) модуль хранения данных, (70) модуль обработки данных, (80) блок обработки данных видеопотока с устройства видеофиксации АПК-П, (90) блок калибровки параметров глаз, (100) блок определения отдельных точек взгляда в каждый момент времени в координатах плоскости модуля отображения мультимедийной информации; (1) APC-P, (10) video recording device, (20) module for displaying multimedia information, (30) module for receiving and transmitting data, (50) module for recording from a video recording device for video stream data, (40) data storage module, (70 ) a data processing module, (80) a data processing unit for a video stream from a video recording device APK-P, (90) a unit for calibrating eye parameters, (100) a unit for determining individual points of view at each time point in plane coordinates of the multimedia information display unit;
(2) АПК-ВП, (21) модуль отображения мультимедийной информации, (31) модуль приема и передачи данных, (41) модуль хранения данных, (61) модуль верификации личности субъекта-пользователя (71) модуль обработки данных, выполненный с возможностью для работы и обучения искусственной нейронной сети, (81) блок работы и обучения искусственной нейронной сети, (91) блок классификации фрагментов мультимедийной информации на структурные элементы, (101) блок обработки данных видеопотока с устройства видеофиксации АПК-П, (111) блок установления соответствия между отдельными точками взгляда и представленным в это время фрагментом мультимедийной информации, (121) блок установления достоверности отнесения каждого отдельного взгляда субъекта к чтению, (131) блок формирования данных множества взглядов и агрегирования данных множества взглядов в координатную систему классифицированных структурных элементов представленной мультимедийной информации, (141) блок расчета по количеству в каждом структурном элементе плотности данных всех взглядов и плотности данных взглядов определенных как чтение, и установления соответствующих пороговых значений для рассчитанных плотностей, (151) блок расчета отношения площади перекрытия области, где плотность данных всех взглядов и плотность данных взглядов, определенных как чтение, превышает пороговые значения, к общей площади всех структурных элементов, определенных в представленной мультимедийной информации, (161) блок установления объема распознанной субъектом информации, (171) блок установления объема прочитанной субъектом текстовой информации, (181) блок представления статистической информации и формирования отчетов. (2) APC-VP, (21) module for displaying multimedia information, (31) module for receiving and transmitting data, (41) module for storing data, (61) module for verifying the identity of the user subject (71) module for processing data, configured for the operation and training of an artificial neural network, (81) a unit for operation and training of an artificial neural network, (91) a unit for classifying fragments of multimedia information into structural elements, (101) a unit for processing video stream data from a video recording device APK-P, (111) a setting unit correspondence between individual gaze points and a fragment of multimedia information presented at this time, (121) a unit for establishing the reliability of attributing each individual gaze of a subject to reading, (131) a unit for generating multiple gaze data and aggregating multiple gaze data into a coordinate system of classified structural elements of the presented multimedia information , (141) calculation block by quantity in each structural element not the data density of all gazes and the gaze data density defined as reading, and setting appropriate thresholds for the calculated densities, (151) block for calculating the ratio of the area of overlap of the area where the data density of all gazes and the gaze data density defined as reading exceeds the threshold values, to the total area of all structural elements defined in the presented multimedia information, (161) a unit for setting the amount of information recognized by the subject, (171) a unit for setting the amount of textual information read by the subject, (181) a unit for presenting statistical information and generating reports.
Фиг. 2 - Показатели во временных сериях. FIG. 2 - Indicators in time series.
Фиг. 3 - Фильтрация с помощью BPOGV, FPOGV. Фиг. 4 - Фильтрация только движений взгляда на экране. FIG. 3 - Filtering using BPOGV, FPOGV. FIG. 4 - Filters only gaze movements on the screen.
Фиг. 5 - Сверточная нейронная сеть, архитектура с 113,006 обучаемыми параметрами. FIG. 5 - Convolutional neural network, architecture with 113,006 trainable parameters.
Фиг. 6 - Классификация каждой группы фиксаций (наблюдения, сгруппированные по FPOGID). FIG. 6 - Classification of each group of fixations (observations grouped by FPOGID).
ПОДРОБНОЕ ОПИСАНИЙ ИЗОБРЕТЕНИЯ DETAILED DESCRIPTION OF THE INVENTION
Имеющиеся способы и системы слежения за движением глаз для различных целей предусматривают применение специализированных видеоустройств - айтрекеров. Как правило, внимание концентрируется на определении точных координатных положений наименьших структурных элементов текста, в частности слова, еще лучше буквы, и на отслеживании траекторий и основных паттернов движения. Существуют определенные ограничения применения айтрекеров в зависимости от метода, на котором базируется система, в частности, темного зрачка или светлого зрачка, и существенного влияния на полученные данные определенных поведенческих реакций. The existing methods and systems for tracking eye movements for various purposes provide for the use of specialized video devices - eye trackers. As a rule, attention is focused on determining the exact coordinate positions of the smallest structural elements of the text, in particular a word, even better than a letter, and on tracing the trajectories and basic patterns of movement. There are certain restrictions on the use of eye-trackers, depending on the method on which the system is based, in particular, the dark pupil or the bright pupil, and the significant influence on the obtained data of certain behavioral reactions.
Известные методы не предлагают способов дистанционной обработки данных слежения за движением глаз полученных от неспециализированных для отслеживания движения глаз устройств, в частности, с помощью стандартной веб-камеры, которые могут быть определены например как веб-трекинг, или любого видеоустройства, которое присоединено или интегрировано в любое электронное устройство персонального использования, выполненное с возможностью для получения, обработки, передачи и, необязательно хранения данных, где такой способ имеет высокую точность определения и легко доступен пользователю. Known methods do not offer methods of remote processing of eye tracking data obtained from non-specialized eye tracking devices, in particular, using a standard webcam, which can be defined for example as web tracking, or any video device that is attached or integrated into any electronic device for personal use, capable of receiving, processing, transmitting and optionally storing data, where such a method has a high definition accuracy and is easily accessible to the user.
Для целей определения объема распознанной и/или прочитанной информации субъектом без привлечения специализированного оборудования в этом изобретении предлагается сочетание определенным способом в автоматизированную систему настроенных на выполнение определенных функций программно-аппаратных средств, как здесь описано. Предусмотрено применение искусственной нейронной сети, посредством обучения которой на первоначальном этапе созданы шаблонные модели определения плотности взгляда в определенных структурных элементах мультимедийной информации, в частности электронного документа, в дальнейшем позволило достичь 96% точности в определении объема распознавания представленной мультимедийной информации и определении объема прочитанной информации. For the purpose of determining the amount of recognized and / or read information by a subject without the involvement of specialized equipment, this invention proposes a combination in a certain way into an automated system of software and hardware configured to perform certain functions, as described herein. The use of an artificial neural network is envisaged, through training of which, at the initial stage, template models for determining the density of a gaze in certain structural elements of multimedia information, in particular an electronic document, have been created, and subsequently made it possible to achieve 96% accuracy in determining the volume of recognition of the presented multimedia information and determining the volume of information read.
Описанный способ и система, которая была названа StoryLook, позволяют субъекгу- пользователю отслеживать и сохранять все материалы для чтения и связанные с ними метаданные считывания, осуществлять поиск и фильтрацию содержимого путем считывания параметров шаблона (например, время и скорость фиксации позволяют выделить отдельно область интереса внутри текста); получать после обработки различные аналитические аннотации, получать опции помощи в режиме реального времени во время ознакомления с содержанием мультимедийной информации, в частности чтения (например, автоматизированный перевод). Система автоматически отслеживает движение глаз и сопоставляет их с информацией, например текстом на экране, что позволяет обрабатывать шаблоны считывания в реальном времени и сохранять все метаданные для дальнейшего анализа. The described method and system, which was named StoryLook, allows the subject-user to track and save all reading materials and associated read metadata, search and filter content by reading template parameters (for example, the time and speed of fixation allows you to separate the region of interest within text); receive after processing various analytical annotations, receive assistance options in real time while familiarizing with the content of multimedia information, in particular reading (for example, automated translation). The system automatically tracks eye movements and correlates them with information such as text on the screen, which allows for real-time processing of read patterns and saves all metadata for further analysis.
Для решения проблемы проверки чтения с помощью компьютерных технологий в заявленном изобретении нужно было превратить обычное стандартное видеоустройство, в частности веб-камеру, в устройство отслеживания глаз. Для этих целей было применено машинное обучение для построения системы отслеживания взгляда глаз и распознавания специфических движений глаз во время чтения, вместе с введением новых элементов и совершенствования известных, а также за счет новых связей и определенной последовательности действий позволило эффективно решить проблему проверки чтения. To solve the problem of verifying reading using computer technology, the claimed invention had to transform a common standard video device, in particular a webcam, into an eye-tracking device. For these purposes, machine learning was applied to build a system of eye gaze tracking and recognition of specific eye movements during reading, together with the introduction of new elements and improvement of the known ones, as well as through new connections and a certain sequence of actions, it was possible to effectively solve the problem of reading verification.
Осуществление изобретения предусматривает применение обычных видеоустройств, в частности подключенных, встроенных или интегрированных в любые электронные устройства, например планшет, смартфон, ноутбук, персональный компьютер или другой подходящий, что требует создания приспособленного аппаратно-программного комплекса (АПК), где важным также есть выбор данных для видеофиксации, способ видеофиксации, способ обработки данных, передачи и выбор критериев для интерпретации. The implementation of the invention provides for the use of conventional video devices, in particular, connected, built-in or integrated into any electronic devices, for example a tablet, smartphone, laptop, personal computer or other suitable, which requires the creation of an adapted hardware and software complex (AIC), where the choice of data is also important for video recording, video recording method, data processing method, transmission and selection of criteria for interpretation.
В начале была проведена работа по анализу визуальной активности субъекта, где по данным взгляда классифицировали чтение/нечтение, определяли регрессии, междустрочные переходы (sweeps) и саккады, картировали множество отдельных взглядов на структурных элементах мультимедийной информации/документа. В качестве подходящего средства для этого использовали программу (в частности как описано, Bohomaz R., Chaus М., Melnychuk V. Machine Learning Techniques in Reading Tracking. Meet your [STORYLOOK] / R. Bohomaz, M. Chaus, V. Melnychuk. - Beehiveor Academy and R & D Labs partnered with DataRoot Labs. - Oct 19 2018 https://medium.eom/@BeehiveorGroup/machine-learning-techniques-in-reading-tracking-meet- your-storylook-6ac760d8a33d), для создания которой применили преимущественно библиотеки с открытым кодом. At the beginning, work was carried out on the analysis of the subject's visual activity, where, according to the gaze, read / non-reading was classified, regressions, sweeps and saccades were determined, and many individual views were mapped on the structural elements of multimedia information / document. As a suitable tool for this used the program (in particular as described, Bohomaz R., Chaus M., Melnychuk V. Machine Learning Techniques in Reading Tracking. Meet your [STORYLOOK] / R. Bohomaz, M. Chaus, V. Melnychuk. - Beehiveor Academy and R & D Labs partnered with DataRoot Labs. - Oct 19 2018 https: //medium.eom/@BeehiveorGroup/machine-learning-techniques-in-reading-tracking-meet- your-storylook-6ac760d8a33d), for the creation of which used mainly open source libraries.
Сведения всех патентов, опубликованных заявок и ссылок, цитируемых в описании, включены как ссылки охватывающих всю их полноту. All patents, published applications, and references cited in the specification are incorporated by reference, embracing their entirety.
Сбор данных. Data collection.
При сборе данных для отслеживания человеческой деятельности использовали трекер, например GazePoint eye, что позволило получить координаты взгляда с углом погрешности не более 1-1 ,5 градуса после калибровки. Во время каждого сеанса программа GazePoint Analysis записывает видео и изображения на экране вместе с табличными данными о движении взгляда. When collecting data to track human activity, a tracker was used, for example GazePoint eye, which made it possible to obtain gaze coordinates with an error angle of no more than 1-1.5 degrees after calibration. During each session, GazePoint Analysis records video and screen images along with tabular gaze movement data.
Весь набор данных состоял из 2 частей: 51 временной серии чтения и 85 - «нечтения». Каждый участник исследования должен был выполнить следующие действия: читать 2- минутный текст; найти конкретную информацию и вещи на изображениях, просмотреть 3- минутное видео. The entire data set consisted of 2 parts: 51 time series of reads and 85 - "non-reads". Each study participant had to do the following: read 2- minute text; find specific information and things in the images, watch a 3-minute video.
Полученные временные серии состоят из нескольких столбцов (фиг. 2): The resulting time series consist of several columns (Fig. 2):
- FPOGX, FPOGY - координаты экрана, относительно разрешения экрана, алгоритм А, - FPOGX, FPOGY - screen coordinates, relative to screen resolution, algorithm A,
- BPOGX, BPOGY - координаты экрана, относительно разрешения экрана, алгоритм В,- BPOGX, BPOGY - screen coordinates, relative to screen resolution, algorithm B,
- FPOGID - идентификатор фиксации, - FPOGID - commit identifier,
- FPOGD - продолжительность фиксации глаз, - FPOGD - duration of eye fixation,
- BPOGV, FPOGV - обоснованность информации, - BPOGV, FPOGV - information validity,
- BKID - идентификатор мигания. - BKID - blinking identifier.
Предварительная обработка данных и выбор функций. Data preprocessing and function selection.
В ходе нашего исследования мы обнаружили, что отслеженные координаты не могут быть идеальными. Мигание, перемещения головы, переменное освещение - все эти факторы прерывают или портят поток данных. Таким образом были сделаны дополнительные шаги, которые могли облегчить ситуацию, было принято сглаживание движений взгляда как основной вариант, хотя значение этого подхода имеет предел. Сглаживания исключает одну важную особенность - микросаккады. Саккады является быстрым, одновременным движением обоих глаз между двумя точками. Микросаккады - это движение в пределах одной фиксации, что дает ответ на то, как пользователи фиксируют свой взгляд. Хотя сглаживания не является идеальным выбором, когда речь идет о саккадах, оно помогает аппроксимировать выявление слов. During our research, we found that the tracked coordinates may not be perfect. Blinking, head movements, variable lighting - all these factors interrupt or spoil the data flow. Thus, additional steps were taken that could alleviate the situation, smoothing of gaze movements was adopted as the main option, although the significance of this approach has a limit. Anti-aliasing eliminates one important feature - microsaccades. A saccade is a fast, simultaneous movement of both eyes between two points. Microsaccades are movement within a single fixation that provides an answer to how users fix their gaze. While anti-aliasing is not an ideal choice when it comes to saccades, it does help approximate word detection.
Вот что означало фильтрацию для этих исследовательских целей (Фиг. 3,4): Here's what filtering meant for these research purposes (Fig. 3,4):
- фильтрование с помощью BPOGV, FPOGV, - filtering using BPOGV, FPOGV,
- фильтрование только движений взгляда на экране. - filtering only gaze movements on the screen.
Чтобы легко манипулировать набором данных и моделями тренировок/тестов были выбраны окна обработки временной последовательности шириной в 100 значений (что примерно соответствует среднему времени для чтения одного участка на бумаге формата А4). Это привело к расщеплению всех наборов данных на 24 568 серий чтения и 14288 серий «нечтения» многих временных серий с длиной в 100 значений, с учетом 90% перекрытия. In order to easily manipulate the dataset and training / test models, time sequence processing windows with a width of 100 values were chosen (which roughly corresponds to the average time for reading one section on A4 paper). This resulted in splitting all datasets into 24,568 reads and 14288 non-reads of many time series with a length of 100 values, allowing for 90% overlap.
Классификация чтения/нечтения. Reading / non-reading classification.
Далее было использовано три основных метода классификации временных рядов. Было создано три группы функций: выявление линейного тренда для FPOGX, сезонность и общие характеристики, однако выбранные функции оказались не информативными и не описывали данные хорошо. Further, three main methods of classifying time series were used. Three groups of functions were created: linear trend detection for FPOGX, seasonality and general characteristics, however, the selected functions were not informative and did not describe the data well.
Следующей была применена сверточная нейронная сеть. Использовались функции dX, dY. После некоторой настройки была найдена оптимальная архитектура с 113,006 обучаемыми параметрами (Фиг. 5). Эта модель давала 96% точность на подгруппе тестов и впоследствии была выбрана как базовая модель для дальнейших исследований. Convolutional neural network was applied next. The functions dX, dY were used. After some tuning, the optimal architecture with 113,006 learning parameters was found (Fig. 5). This model gave 96% accuracy on a subset of tests and was subsequently chosen as the baseline model for further research.
Чтение моделей кластеризации. Главная задача состояла в классифицировании каждой группы фиксаций (наблюдение, сгруппированные по FPOGID) как один из трех основных паттернов: саккады, междустрочные переходы, регрессии (Фиг. 6). Reading clustering models. The main task was to classify each group of fixations (observations, grouped by FPOGID) as one of three main patterns: saccades, line transitions, regressions (Fig. 6).
Основное препятствие, проявившееся на данном этапе, было в маркировке набора данных, поскольку данные с частотой 60 Г ц, по сути, трудно маркировать. Это также оказалось проблемой для кластеризации. Некоторые из незначительных проблем, которые были решены, это высокое сходство между регрессиями и междустрочными переходами, а также фиксациями во время скроллинга (scrolling), которые оказались выбросами. Для исключения фиксаций во время скроллинга использовали алгоритм классификации чтения. The main obstacle that emerged at this stage was the labeling of the dataset, since 60 Hz data is inherently difficult to label. This also turned out to be a problem for clustering. Some of the minor issues that have been addressed are the high similarity between regressions and line transitions, and scrolling fixes that appear to be outliers. The reading classification algorithm was used to exclude fixations during scrolling.
Весь набор данных был отфильтрован только от точек до саккад. Чтобы получить данные саккад, сгруппировали точки с идентификатором фиксаций (FPOGID) и отобрали только последнее наблюдение из каждой группы. В результате, все идентифицированные саккады были разделены на минимальные/максимальные значения с наивным алгоритмом вдоль горизонтальной оси, а минимальные саккады были разделены на группы междустрочных переходов и регрессий. Для достижения необходимых результатов использовали кластеризацию с применением метода К-средних на трех основных функциях саккад: проекция междустрочных переходов по горизонтальной оси, угол междустрочных переходов по горизонтальной оси и отличие от предыдущей саккады. The entire dataset was filtered from points to saccades only. To obtain saccades data, we grouped the points with the fixation identifier (FPOGID) and selected only the last observation from each group. As a result, all the identified saccades were divided into minimum / maximum values with a naive algorithm along the horizontal axis, and the minimum saccades were divided into groups of line transitions and regressions. To achieve the necessary results, clustering was used using the K-means method on three main functions of saccades: the projection of line transitions along the horizontal axis, the angle of line transitions along the horizontal axis and the difference from the previous saccade.
Одним из примеров автоматизированной обработки мультимедийной информации является создание целостного текстового документа с видео в следующей последовательности: идентификация статических кадров на видео (с пороговым отклонением между снимками), отделения листов (текстовых фрагментов) из рамки, следующее объединены листов в единой "панорамной" картинке, отделения текста в отображенный документ, выявление точек интереса. One of the examples of automated processing of multimedia information is the creation of a complete text document with video in the following sequence: identification of static frames in the video (with a threshold deviation between images), separation of sheets (text fragments) from the frame, the following are combined sheets in a single "panoramic" picture, separating text into the displayed document, identifying points of interest.
В результате удалось получить модель машинного обучения, способную с точностью до 97% прогнозировать, читал или не читал пользователь текст в течение 1 ,6 секунд записи. As a result, we managed to obtain a machine learning model capable of predicting with an accuracy of 97% whether the user read or did not read the text within 1.6 seconds of recording.
Некоторые основные выводы исследования показывают, что алгоритм, который опирается на предвидении предыдущей модели машинного обучения (ML), может учитывать движение взгляда (регрессии, междустрочные переходы (sweeps) и саккады) и вычислять относительную скорость чтения; алгоритм, который предоставляет информацию об интересе читателя, обеспечивает весовой коэффициент для данного слова, что может быть важным для читателя. Some of the main findings of the study show that an algorithm that builds on the foresight of the previous machine learning (ML) model can account for gaze movements (regressions, sweeps, and saccades) and calculate relative reading speed; an algorithm that provides information about a reader's interest provides a weighting factor for a given word, which may be important to the reader.
Ученые, исследующие такое поведение человека, как отслеживание взгляда, могут обнаружить ранее заблокированные области в технике здоровья и бизнеса. Как обосновано данным алгоритмом, можно сделать прогнозы в режиме реального времени, основанные на технологиях наблкадения за взглядам, и, возможно, выйти за пределы этого с более научным применением, которое никто не считал возможным ранее. Определение общих параметров чтения без четкого отделения той части текстовой информация, что действительно была прочитана, не позволяет с высокой точностью спрогнозировать или установить объем распознанного содержания текстовой информации среди всей мультимедийной или всей текстовой информации, трудность ее усвоения, отделения особо важных по содержанию фрагментов и т.д. Scientists researching human behavior such as eye tracking may discover previously blocked areas in health and business technology. As justified by this algorithm, it is possible to make real-time predictions based on gaze-watching technologies, and possibly go beyond that with more scientific applications that no one thought possible before. Determination of general reading parameters without a clear separation of that part of the text information that was actually read does not allow to predict with high accuracy or establish the volume of the recognized text information content among all multimedia or all text information, the difficulty of its assimilation, the separation of fragments that are especially important in terms of content, etc. .d.
С привлечением описанного выше была создана автоматизированная система для осуществления способа определения объема распознавания информации субъектом при представлении мультимедийной информации, в частности определение объема считывания субъектом структурных элементов мультимедийной информации или электронного документа, определенного, как текст. Выбранные параметры для целевого обучения искусственной нейронной сети позволяют проводить последующее определение достоверности отнесения каждого отдельного взгляда субъекта к чтению. При этом, по данным пространственных и временных характеристик движения глаз с учетом поведенческих реакций возможно распределить участки текстовых фрагментов мультимедийной информации на группы «внимательное чтение», «просматривание или ознакомительное чтение», «сканирующее чтение» и «скроллинг» и отделить для дальнейшего анализа участки текстовых фрагментов, выделенных как «внимательное чтение» или собственно чтение. With the involvement of the above, an automated system has been created for implementing a method for determining the amount of information recognition by a subject when presenting multimedia information, in particular, determining the amount of reading by a subject of structural elements of multimedia information or an electronic document defined as text. The selected parameters for the targeted training of the artificial neural network allow the subsequent determination of the reliability of attributing each individual gaze of the subject to reading. At the same time, according to the data of the spatial and temporal characteristics of eye movement, taking into account behavioral reactions, it is possible to distribute sections of text fragments of multimedia information into groups of "attentive reading", "viewing or introductory reading", "scanning reading" and "scrolling" and separate the sections for further analysis text fragments highlighted as "careful reading" or actually reading.
Автоматизированный способ определения объема распознавания информации субъектом осуществляют следующим образом. An automated method for determining the amount of information recognition by a subject is carried out as follows.
С помощью блока калибровки глаз (90) в АПК-П (1) проводят калибровку параметров глаз с учетом индивидуальных анатомических параметров глаз при представлении субъекту подвижных визуальных стимулов и задачи на слежение. Калибровка может производиться как однократно, так и несколько раз или многократно по необходимости, в частности с определенной периодичностью или перед каждым сеансом представления субъекту мультимедийной информации. With the help of the eye calibration unit (90) in the APC-P (1), the parameters of the eyes are calibrated taking into account the individual anatomical parameters of the eyes when the subject is presented with moving visual stimuli and the task of tracking. Calibration can be performed both once, and several times, or multiple times as necessary, in particular at a certain frequency or before each session of presenting the multimedia information to the subject.
Связь взаимодействия субъекта с мультимедийной информацией подтверждают путем верификации личности субъекта в модуле (61), перед предоставлением субъекту мультимедийной информации на основании визуальных данных о субъекте, которые вводят в отдаленный АПК-ВП, однократно или несколько раз, или многократно, например с определенной периодичностью или перед каждым последующим предоставлением субъекту мультимедийной информации, или после прерывания сеанса просмотра на заранее установленное время перед каждым сеансом представления мультимедийной информации после такого прерывания. The connection of the interaction of the subject with the multimedia information is confirmed by verifying the identity of the subject in the module (61), before providing the subject with the multimedia information based on the visual data about the subject, which is entered into the remote APC-VP, once or several times, or multiple times, for example, at a certain frequency or before each subsequent presentation of the multimedia information to the subject, or after interruption of the browsing session for a predetermined time before each presentation of the multimedia information after such interruption.
Идентификация/верификация личности субъекта может происходить за счет внесения данных о субъекте в базу данных модуля хранения данных соответствующего устройства заранее или при первом обращении субъекта к АПК-П. В последующих сеансах обращение субъекта к мультимедийной информации в отношении которого предусмотрено определение объема распознавания и/или прочтения в любом определенном режиме сравнивают параметры субъекта с имеющимися в базе данных в течение всего периода сеанса или сеансов обработки информации субъектом. При авторизации в системе при первом обращении для упрощения механизма идентификации/верификации и сокращения времени на идентификацию может быть применена система входа в систему с помощью имеющихся аккаунтов, в том числе аккаунтов социальных сетей и т.д., включающих аудио- и/или фото- и/или видеозафиксированные данные субъекта, в частности его внешности, например черт лица и тому подобное. Identification / verification of the identity of the subject can occur by entering data about the subject into the database of the data storage module of the corresponding device in advance or during the first access of the subject to the APC-P. In subsequent sessions, the subject's access to the multimedia information in relation to which the determination of the recognition and / or reading volume in any particular mode is provided is compared parameters of the subject with those available in the database during the entire period of the session or sessions of information processing by the subject. When authorizing in the system at the first call, to simplify the identification / verification mechanism and reduce the time for identification, the system can be used to log into the system using existing accounts, including social media accounts, etc., including audio and / or photo and / or video captured data of the subject, in particular his appearance, for example, facial features and the like.
После калибровки или до неё, или во время калибровки с помощью модуля приема и передачи данных, выполненного с возможностью для приема и передачи информации (31) загружают мультимедийную информацию на удаленный АПК-ВП (2) и с помощью блока классификации фрагментов (91) классифицируют ее фрагменты на структурные элементы по признакам - текст, изображения, таблица и прочее (вся остальная информация, отличная от текста, изображений или таблиц). After calibration, or before it, or during calibration, using the module for receiving and transmitting data, configured for receiving and transmitting information (31), multimedia information is loaded onto the remote APC-VP (2) and using the fragment classification unit (91) is classified its fragments into structural elements based on characteristics - text, images, table, etc. (all other information other than text, images or tables).
Далее передают классифицированную информацию с удаленного АПК-ВП (2) на АПК-П Then, the classified information is transmitted from the remote APK-VP (2) to the APK-P
(1) и представляют ее субъекту на модуле отображения мультимедийной информации (20). (1) and present it to the subject on the multimedia information display module (20).
Отображение мультимедийной информации может происходить на любом пригодном средстве отображения, например экран телевизора, монитор компьютера или ноутбука, дисплей смартфона, дисплей планшета и тому подобное. The display of multimedia information can occur on any suitable display means, for example, a TV screen, a computer or laptop monitor, a smartphone display, a tablet display, and the like.
С помощью устройства видеофиксации (10) видеопотока, в модуле записи (50) АПК-П (1) записывают данные движения глаз и/или взгляда с учетом поведенческих реакций в виде по крайней мере одной из мигания глаз и/или движений головы, и/или изменений координат предварительно маркированных точек на лице, и в блоке обработки данных видеопотока (80) модуля обработки данных (70) с помощью блока определения отдельных точек (100) определяют отдельные точки взгляда в каждый момент времени в координатах плоскости модуля отображения мультимедийной информации (20) АПК-П (1) при представлении мультимедийной информации. With the help of the video recording device (10) of the video stream, in the recording unit (50) of the APK-P (1), the data of eye movements and / or gaze is recorded, taking into account behavioral reactions in the form of at least one of blinking eyes and / or head movements, and / or changes in the coordinates of pre-marked points on the face, and in the data processing unit of the video stream (80) of the data processing module (70) using the unit for determining individual points (100), individual points of view are determined at each time point in the plane coordinates of the multimedia information display unit (20 ) APK-P (1) when presenting multimedia information.
Важно то, что в качестве устройства видеофиксации применяют любое видеоустройство, выполненное с возможностью приема и передачи видеоданных, в частности веб-камеру или видеокамеру, подключенное или интегрированное в АПК-П (1), в частности может быть применена подключенная к персональному электронному устройству (персональный компьютер, телефон, смартфон, планшет и т.д.) фото- и/или видеокамера или встроенная в указанное устройство, либо другое. It is important that any video device capable of receiving and transmitting video data is used as a video recording device, in particular, a webcam or video camera connected or integrated into the APK-P (1), in particular, it can be used connected to a personal electronic device ( personal computer, telephone, smartphone, tablet, etc.) photo and / or video camera or built into the specified device, or other.
Полученную информацию любым известным способом (проводной или беспроводной) с применением модулей приема и передачи данных (30) и (31) передают на удаленный АПК-ВП The information received by any known method (wired or wireless) using modules for receiving and transmitting data (30) and (31) is transmitted to a remote APC-VP
(2) и далее в модуль обработки данных (71). (2) and further to the data processing module (71).
С использованием блока работы и обучения искусственной нейронной сети (81) и блока установления соответствия (111) обнаруживают соответствие между отдельными точками взгляда и представленным в это время фрагментом мультимедийной информации, далее с применением искусственной нейронной сети блока (81) формируют данные множества взглядов и с помощью блока установления достоверности (121) определяют вероятность отношения каждого отдельного взгляда субъекта к чтению. Using the unit of work and training of the artificial neural network (81) and the unit of establishment of correspondence (111), a correspondence is found between the individual points of view and the fragment of multimedia information presented at this time, then with using the artificial neural network of the unit (81), data of the set of views is generated and, using the validation unit (121), the probability of the relationship of each individual view of the subject to reading is determined.
Указанные данные множества взглядов агрегируют в координатную систему классифицированных структурных элементов представленной мультимедийной информации в блоке формирования и агрегирования множества данных взгляда (131). The specified data of a set of gaze is aggregated into a coordinate system of classified structural elements of the presented multimedia information in the unit for generating and aggregating a set of gaze data (131).
Далее в модуле обработки данных (71) рассчитывают в блоке расчета (151) по количеству в каждом структурном элементе плотность данных всех взглядов и плотность данных взглядов определенных как чтение, и устанавливают соответствующие пороговые значения для рассчитанных плотностей, что отделяют статистический шум. Further, in the data processing module (71), the data density of all views and the data density of the views defined as reading are calculated in the calculation unit (151) by the number in each structural element, and the corresponding threshold values for the calculated densities are set, which separates the statistical noise.
Дополнительно в модуле обработки данных (71), необязательно в отдельном блоке, который связан с блоками (81) - (181), определяют количество переходов от определенного текста к сопутствующим материалам, в частности таблицам и/или изображениям, и/или другое, и время, которое тратится на такие переходы, которые учитывают при определении поведенческих реакций при чтении и "не чтении». Additionally, in the data processing module (71), optionally in a separate block, which is associated with blocks (81) - (181), determine the number of transitions from a certain text to related materials, in particular tables and / or images, and / or another, and the time spent on such transitions, which are taken into account when determining behavioral reactions when reading and "not reading".
Затем в блоке расчета отношение площади перекрытия области (151) определяют отношение площади перекрытия области, где плотность данных всех взглядов и плотность данных взглядов, определенных как чтение, превышает пороговые значения, к общей площади всех структурных элементов, определенных в представленной мультимедийной информации, и устанавливают объем распознанной информации субъектом с помощью блока (161) установление объема распознанной субъектом информации, после чего с помощью блока (171) установления объема прочитанной субъектом текстовой информации определяют прочитанную информацию. Then, in the calculating unit, the ratio of the overlapping area of the area (151) determines the ratio of the area of overlap of the area where the data density of all views and the data density of the views, defined as reading, exceeds the threshold values, to the total area of all structural elements defined in the presented multimedia information, and set the amount of information recognized by the subject using the unit (161) for establishing the amount of information recognized by the subject, after which the read information is determined using the unit (171) for establishing the amount of textual information read by the subject.
Мультимедийная информация, подлежащая обработке субъектом, представляет собой любой вид информации, выполненный с возможностью для отображения на различных устройствах, и может содержать текст или его фрагменты (в частности например надписи, числа, таблицы, изображения, текстовые фрагменты без изображений и/или таблиц или с изображениями и/или таблицами, в известных форматах представления электронных документов, например представляет собой электронный документ, электронную книгу (например, производственный документ, учебный материал, электронный тестирующий материал, развлекательный материал и т.д.) и/или видеоинформацию, которая содержит текстовые фрагменты и/или изображения, и/или таблицы. После обработки в блоке (91) загруженной в АПК-ВП мультимедийной информации проводят ее классификацию путем отделения от всего объема контента фрагментов, содержащих признаки текста, представляющие собой текстовые фрагменты, таблицы (с текстовыми элементами и числами) и изображения, в частности, которые связанны с текстовыми и/или табличными фрагментами. Субъекту мультимедийная информация предоставляется в обычном формате, но предварительная классификация позволяет сконцентрироваться на поведенческих реакциях и движениях глаз во взаимосвязи с целевыми частями мультимедийной информации. Multimedia information to be processed by a subject is any kind of information capable of being displayed on various devices, and may contain text or text fragments (in particular, for example, inscriptions, numbers, tables, images, text fragments without images and / or tables, or with images and / or tables, in well-known electronic document presentation formats, for example, it is an electronic document, an electronic book (for example, a production document, educational material, electronic testing material, entertainment material, etc.) and / or video information that contains text fragments and / or images, and / or tables.After processing in block (91) the multimedia information loaded into the APC-VP, its classification is carried out by separating from the entire volume of content fragments containing text features that are text fragments, tables (with text elements and numbers) and images, in particular, to which are associated with text and / or table fragments. The multimedia information is presented to the subject in a conventional format, but the preliminary classification allows focusing on behavioral responses and eye movements in relation to the targeted pieces of multimedia information.
Удаленный АПК-ВП также обеспечивает возможность представления результатов обработки данных по отношению к объему распознавания и/или прочтения мультимедийной информации на устройстве отображения (20) пользователя различним образом. Объем и вид представления этих данных могут определяться оператором удаленного АПК-ВП и/или владельцем этой мультимедийной информации, и/или пользователем, или иным образом. The remote APC-IP also provides the ability to present the results of data processing in relation to the volume of recognition and / or reading of multimedia information on the display device (20) of the user in a different way. The amount and type of presentation of this data can be determined by the operator of the remote APC-VP and / or the owner of this multimedia information, and / or the user, or otherwise.
В частности, в блоке представления статистической информации (181) формируют данные о поведении субъекта во время чтения, в частности объема прочитанной информации, скорости чтения, сложности восприятия информации, данные по различным аспектам движения глаз, и в дальнейшем на основании этих данных формируют отчет, в частности сертификат проверки чтения, в частности как электронный документ, по завершению каждого сеанса или серии сеансов представления мультимедийной информации или ее фрагмента. In particular, in the unit for presenting statistical information (181), data is generated on the behavior of the subject during reading, in particular, the amount of information read, the speed of reading, the complexity of the perception of information, data on various aspects of eye movement, and then a report is generated based on these data, in particular, a read verification certificate, in particular as an electronic document, upon completion of each session or series of sessions of presenting multimedia information or a fragment thereof.
В частности, на модуле отображения мультимедийной информации (20) и/или (21) представляют сформированный отчет и/или карту в любой визуально приемлемой форме и/или диаграмму, и/или график или другое, плотности взглядов и/или плотности данных взглядов, определенных как чтение, и/или площади перекрытия области, где плотность данных всех взглядов и плотность данных взглядов, определенных как чтение, превышает пороговые значения, и/или рассчитанный процент просмотренных структурных элементов от общего количества структурных элементов при представлении мультимедийной информации, в которых взгляд не был определен как чтение, и/или рассчитанный процент структурных элементов, в которых данные взгляда были определены как чтение, от общего количества структурных элементов при представлении мультимедийной информации и/или рассчитанное отношение объема просмотренных структурных элементов, в которых взгляд не был определен как чтение, к объему структурных элементов, в которых данные взгляда были определены как чтение, при представлении мультимедийной информации и тому подобное. In particular, on the module for displaying multimedia information (20) and / or (21), a generated report and / or a map is presented in any visually acceptable form and / or a diagram, and / or a graph or another, of gaze density and / or gaze data density, defined as reading, and / or the area of overlap of the area where the data density of all gazes and the data density of gazes, defined as reading, exceeds the threshold values, and / or the calculated percentage of viewed structural elements from the total number of structural elements when presenting multimedia information in which the gaze was not defined as reading, and / or the calculated percentage of structural elements in which gaze data was defined as reading, of the total number of structural elements in the presentation of multimedia information and / or the calculated ratio of the volume of viewed structural elements in which gaze was not defined as reading , to the volume of structural elements in which the gaze data were Defined as reading, presenting multimedia information, and the like.
Такая визуализация результатов распознавания и/или чтения мультимедийной информации и скорости этих процессов может происходить как по завершении сеанса представления мультимедийной информации, так и в течение сеанса, по завершению просмотра определенных указанных фрагментов мультимедийной информации в режиме реального времени. Это является дополнительным инструментом контроля процесса распознавания и/или чтения для пользователя и/или владельца мультимедийной информации, и/или оператора отделенного АПК-ВП, и развивается в ряд дополнительных возможностей описанного здесь способа и системы. Such visualization of the results of recognition and / or reading of multimedia information and the speed of these processes can occur both at the end of a session of presenting multimedia information, and during the session, upon completion of viewing certain specified fragments of multimedia information in real time. This is an additional tool for controlling the recognition and / or reading process for the user and / or the owner of multimedia information, and / or the operator of the separated APC-VP, and develops into a number of additional capabilities of the method and system described here.
Применение подхода машинного обучения делает заявленный способ проверки ознакомления с мультимедийной информацией и проверки чтения легко применимым и стандартным на множестве устройств. Благодаря заявленному способу и системе в режиме реального времени с применением любого средства видеофиксации можно выявить с 97% точностью, читает ли человек в данный момент и рассчитать объем действительно прочитанной информации. The application of a machine learning approach makes the claimed multimedia familiarization and reading verification method easily applicable and standard on a variety of devices. Thanks to the claimed method and system in the mode real-time using any means of video recording, it is possible to identify with 97% accuracy whether a person is reading at the moment and calculate the amount of information actually read.
Полученные таким способом данные об объеме и/или скорости распознавания и прочтения информации позволяют расширить возможности применения описанных здесь способов и/или систем, основанных на технологии слежения за движением глаз для различных целей. The data obtained in this way on the volume and / or speed of recognition and reading of information makes it possible to expand the possibilities of using the methods and / or systems described herein based on eye tracking technology for various purposes.
Так, с учетом возможности четкой идентификации/верификации личности субъекта в связи с конкретной мультимедийной информацией, например электронным документом, который он просматривает, распознает и читает, возникает возможность независимого автоматизированного подтверждения ознакомления этим субъектом документа и подтверждение объема прочитанной информации, что позволяет с высокой степенью достоверности утверждать о глубине когнитивной обработки информации конкретным субъектом. Это полезно при различных учебных процессах, при оценке определенных профессиональных навыков, оценке дистанционного взаимодействия между персоналом внутри одного предприятия или между различными структурами, в частности государственного сектора, в юридической практике, и тому подобное. Кроме того, связь между личностью субъекта, конкретным электронным документом, с которым он ознакомился, и объемом прочитанного в этом документе контента позволяет осуществить автоматизированную и легкодоступную сертификацию прочтения документа, в частности путем создания сертификата подписи документа, что может быть применено в множестве отраслей. So, taking into account the possibility of clear identification / verification of the identity of the subject in connection with specific multimedia information, for example, an electronic document that he views, recognizes and reads, it becomes possible for an independent automated confirmation of the familiarization of this subject with the document and confirmation of the amount of information read, which allows a high degree of reliability to assert about the depth of cognitive processing of information by a specific subject. This is useful in various educational processes, when assessing certain professional skills, assessing remote interaction between personnel within one enterprise or between different structures, in particular the public sector, in legal practice, and the like. In addition, the relationship between the identity of the subject, the specific electronic document that he is familiar with, and the amount of content read in this document allows for automated and easily accessible certification of the reading of the document, in particular by creating a document signing certificate, which can be applied in many industries.
Обмен данными между АПК-П и АПК-ВП осуществляется с помощью проводной или беспроводной передачи, при этом настройки АПК-ВП позволяет расширить систему и осуществлять такой обмен данными с множеством АПК-П, а также обеспечивает уменьшение функционально-программного нагрузки на АПК-П , все полученные данные субъекта сохраняют в модуле хранения данных (41) АПК-ВП и необязательно часть данных, в частности отчеты и/или карты и/или сертификаты - в АПК-П. Data exchange between APK-P and APK-VP is carried out using wired or wireless transmission, while the settings of APK-VP allows you to expand the system and carry out such data exchange with a variety of APK-P, and also reduces the functional and software load on the APK-P , all the received data of the subject are stored in the data storage unit (41) of the APK-VP, and optionally a part of the data, in particular reports and / or maps and / or certificates, in the APK-P.
Хотя описанные воплощения базировались на предпочтительных вариантах, специалистам в данной области техники будет понятно, что могут быть внесены различные изменения в форме и деталях без отклонения от объема воплощений, охваченных формулой изобретения, которая прилагается. While the described embodiments were based on preferred embodiments, those skilled in the art will appreciate that various changes in form and detail can be made without departing from the scope of the embodiments encompassed by the appended claims.
Claims
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
UAA201904739 | 2019-05-03 | ||
UAA201904739 | 2019-05-03 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020226603A1 true WO2020226603A1 (en) | 2020-11-12 |
Family
ID=73050832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/UA2020/000050 WO2020226603A1 (en) | 2019-05-03 | 2020-05-04 | Automated method and system for determining an extent to which information is recognized and automated method for verifying familiarization with an electronic document |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2020226603A1 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120237084A1 (en) * | 2008-08-15 | 2012-09-20 | iMotions-Eye Tracking A/S | System and method for identifying the existence and position of text in visual media content and for determining a subject's interactions with the text |
US20120323589A1 (en) * | 2011-06-17 | 2012-12-20 | Sanjay Udani | Methods and systems for assuring compliance |
US20160094705A1 (en) * | 2014-09-30 | 2016-03-31 | Ringcentral, Inc. | Message Read Confirmation Using Eye Tracking |
US20160132752A1 (en) * | 2013-11-12 | 2016-05-12 | Fuji Xerox Co., Ltd. | Classifying User Activities Using Eye Fixation Clustering, Fixation Features, and Regions of Interest |
CN106073805A (en) * | 2016-05-30 | 2016-11-09 | 南京大学 | A kind of fatigue detection method based on eye movement data and device |
WO2017189758A1 (en) * | 2016-04-26 | 2017-11-02 | Ascend Hit Llc | System and methods for medical image analysis and reporting |
US9817477B1 (en) * | 2013-03-11 | 2017-11-14 | Amazon Technologies, Inc. | Eye event detection for electronic documents |
US20190057254A1 (en) * | 2017-08-16 | 2019-02-21 | International Business Machines Corporation | Read confirmation of electronic messages |
-
2020
- 2020-05-04 WO PCT/UA2020/000050 patent/WO2020226603A1/en active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120237084A1 (en) * | 2008-08-15 | 2012-09-20 | iMotions-Eye Tracking A/S | System and method for identifying the existence and position of text in visual media content and for determining a subject's interactions with the text |
US20120323589A1 (en) * | 2011-06-17 | 2012-12-20 | Sanjay Udani | Methods and systems for assuring compliance |
US9817477B1 (en) * | 2013-03-11 | 2017-11-14 | Amazon Technologies, Inc. | Eye event detection for electronic documents |
US20160132752A1 (en) * | 2013-11-12 | 2016-05-12 | Fuji Xerox Co., Ltd. | Classifying User Activities Using Eye Fixation Clustering, Fixation Features, and Regions of Interest |
US20160094705A1 (en) * | 2014-09-30 | 2016-03-31 | Ringcentral, Inc. | Message Read Confirmation Using Eye Tracking |
WO2017189758A1 (en) * | 2016-04-26 | 2017-11-02 | Ascend Hit Llc | System and methods for medical image analysis and reporting |
CN106073805A (en) * | 2016-05-30 | 2016-11-09 | 南京大学 | A kind of fatigue detection method based on eye movement data and device |
US20190057254A1 (en) * | 2017-08-16 | 2019-02-21 | International Business Machines Corporation | Read confirmation of electronic messages |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10643487B2 (en) | Communication and skills training using interactive virtual humans | |
US20200178876A1 (en) | Interactive and adaptive learning, neurocognitive disorder diagnosis, and noncompliance detection systems using pupillary response and face tracking and emotion detection with associated methods | |
Chan et al. | Multimodal learning analytics in a laboratory classroom | |
KR20210019266A (en) | Apparatus and method for diagnosis of reading ability based on machine learning using eye tracking | |
WO2018150239A1 (en) | Interactive and adaptive learning and neurocognitive disorder diagnosis systems using face tracking and emotion detection with associated methods | |
US11475788B2 (en) | Method and system for evaluating and monitoring compliance using emotion detection | |
US20230105077A1 (en) | Method and system for evaluating and monitoring compliance, interactive and adaptive learning, and neurocognitive disorder diagnosis using pupillary response, face tracking emotion detection | |
KR102552220B1 (en) | Contents providing method, system and computer program for performing adaptable diagnosis and treatment for mental health | |
WO2015175462A1 (en) | Kinematic and morpometric analysis of digitized handwriting tracings | |
Hossen et al. | Attention monitoring of students during online classes using XGBoost classifier | |
Bosch et al. | Can computers outperform humans in detecting user zone-outs? Implications for intelligent interfaces | |
WO2023041940A1 (en) | Gaze-based behavioural monitoring system | |
Shobana et al. | I-Quiz: An Intelligent Assessment Tool for Non-Verbal Behaviour Detection. | |
Pepe et al. | A consideration of signature complexity using simulators’ gaze behaviour | |
Hirt et al. | Measuring emotions during learning: lack of coherence between automated facial emotion recognition and emotional experience | |
van Driel et al. | Capturing and characterizing teachers’ noticing as basis for their classroom management in different career stages: a data paper | |
Daza et al. | A multimodal dataset for understanding the impact of mobile phones on remote online virtual education | |
Rao et al. | Teacher assistance system to detect distracted students in online classroom environment | |
Daza et al. | IMPROVE: Impact of mobile phones on remote online virtual education | |
WO2020226603A1 (en) | Automated method and system for determining an extent to which information is recognized and automated method for verifying familiarization with an electronic document | |
GB2611401A (en) | Behavioural monitoring system | |
Shatto et al. | Present: Flexible neuroscience-and technology-driven frameworks for the study of classroom engagement | |
KR20250017470A (en) | Blended learning system for improving a learning concentration level in 3D metaverse lecture room | |
Kavitha et al. | Framework for Detecting Student Behaviour (Nail Biting, Sleep, and Yawn) Using Deep Learning Algorithm | |
Gupta et al. | An adaptive system for predicting student attentiveness in online classrooms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20801568 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20801568 Country of ref document: EP Kind code of ref document: A1 |