Claims (30)
1. Компьютерный способ создания хэшированного комплексного вектора, указывающего на связь между документом и параметром интереса, причем документ связан с первыми данными и вторыми данными; способ содержит в себе:1. A computer method for creating a hashed complex vector indicating a relationship between a document and an interest parameter, the document being associated with first data and second data; The method contains:
доступ с постоянного носителя компьютерной информации к первым данным, связанным с документом, причем тип первых данных по меньшей мере двоичный или тип вещественного числа;access from a permanent medium of computer information to the first data associated with the document, the type of the first data being at least binary or the type of a real number;
доступ с постоянного носителя компьютерной информации ко вторым данным, связанным с документом, причем тип вторых данных - тип категорий;access from a permanent medium of computer information to the second data associated with the document, the type of second data being the type of categories;
создание процессором вектора масок на основе первых данных, причем вектор масок содержит в себе множество чисел, соответствующих пути в древовидной модели, и каждое из множества чисел указывает на ветку, связанную с узлом древовидной модели;creation by the processor of a vector of masks based on the first data, the vector of masks containing a plurality of numbers corresponding to a path in the tree model, and each of the many numbers indicates a branch associated with the node of the tree model;
создание процессором хэш-вектора на основе вторых данных с помощью применения первой хэш-функции ко вторым данным;creating a processor hash vector based on the second data by applying the first hash function to the second data;
создание процессором комплексного вектора, содержащего вектор масок и хэш-вектор, причем комплексный вектор указывает на лист древовидной модели;creation by the processor of a complex vector containing a mask vector and a hash vector, the complex vector pointing to a tree model sheet;
создание процессором хэшированного комплексного вектора с помощью применения второй хэш-функции к комплексному вектору иcreating a hashed complex vector by the processor by applying the second hash function to the complex vector and
сохранение на постоянном носителе компьютерной информации хэшированного комплексного вектора.storing a hashed complex vector on a permanent medium of computer information.
2. Способ по п. 1, дополнительно включающий в себя:2. The method according to p. 1, further comprising:
доступ с постоянного носителя компьютерной информации к набору созданных ранее хэшированных комплексных векторов;access from a permanent medium of computer information to a set of previously hashed complex vectors;
при соответствии хэшированного комплексного вектора одному из ранее созданных хэшированных комплексных векторов связывание параметра интереса, связанного с соответствующим ранее созданным хэшированным комплексным вектором, с документом иif the hashed complex vector corresponds to one of the previously created hashed complex vectors, the binding of the interest parameter associated with the corresponding previously created hashed complex vector with the document and
при несоответствии хэшированного комплексного вектора одному из ранее созданных хэшированных комплексных векторов добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов.if the hashed complex vector does not match one of the previously created hashed complex vectors, add the hashed complex vector to the set of previously created hashed complex vectors.
3. Способ по п. 2, в котором добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов дополнительно содержит связывание параметра интереса с хэшированным комплексным вектором.3. The method of claim 2, wherein adding the hashed complex vector to the set of previously created hashed complex vectors further comprises associating an interest parameter with a hashed complex vector.
4. Способ по п. 1, в котором листок древовидной модели связан с параметром интереса на основе алгоритма машинного обучения с использованием обучающего документа.4. The method of claim 1, wherein the leaf of the tree model is associated with an interest parameter based on a machine learning algorithm using a training document.
5. Способ по п. 1, в котором первые данные указывают по меньшей мере либо на число щелчков, либо на число просмотров, либо на ранжирование документов, а вторые данные указывают по меньшей мере либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.5. The method according to claim 1, in which the first data indicates at least either the number of clicks, or the number of views, or the ranking of documents, and the second data indicates at least either a URL, or a domain name, or IP address, either for a search query or for a keyword.
6. Способ по п. 1, в котором древовидная модель является "небрежной" древовидной моделью.6. The method of claim 1, wherein the tree model is a "sloppy" tree model.
7. Способ по п. 1, в котором каждое из множества чисел, содержащихся в векторе масок, является двоичным числом.7. The method of claim 1, wherein each of the plurality of numbers contained in the mask vector is a binary number.
8. Способ по п. 7, в котором первые данные содержат в себе по меньшей мере одну целочисленную переменную, а создание маски содержит в себе применение функции трансляции для создания двоичного числа, связанного с целочисленной переменной.8. The method according to p. 7, in which the first data contains at least one integer variable, and the creation of the mask contains the use of the translation function to create a binary number associated with the integer variable.
9. Способ по п. 1, в котором вторые данные содержат первую категориальную переменную и вторую категориальную переменную.9. The method of claim 1, wherein the second data comprises a first categorical variable and a second categorical variable.
10. Способ по п. 1, в котором создание хэш-вектора содержит в себе применение первой хэш-функции к первой категориальной переменной и третьей хэш-функции во второй категориальной переменной.10. The method of claim 1, wherein creating the hash vector comprises applying the first hash function to the first categorical variable and the third hash function in the second categorical variable.
11. Способ по п. 10, в котором первая хэш-функция и третья хэш-функция являются либо одной и той же хэш-функцией, либо различными функциями.11. The method of claim 10, wherein the first hash function and the third hash function are either the same hash function or different functions.
12. Способ по п. 1, в котором первая хэш-функция и вторая хэш-функция являются либо одной и той же хэш-функцией, либо различными функциями.12. The method of claim 1, wherein the first hash function and the second hash function are either the same hash function or different functions.
13. Способ по п. 1, в котором узел на древовидной модели соответствует условию, определенному на основе алгоритма машинного обучения.13. The method according to p. 1, in which the node on the tree model corresponds to a condition determined on the basis of the machine learning algorithm.
14. Способ по п. 2, в котором добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов дополнительно содержит добавление узла к древовидной модели.14. The method of claim 2, wherein adding the hashed complex vector to the set of previously created hashed complex vectors further comprises adding a node to the tree model.
15. Способ по п. 1, в котором параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка, либо на релевантность документа, либо на URL, либо на число щелчков.15. The method according to claim 1, in which the interest parameter indicates at least either the prediction of the search result, or the probability of a click, or the relevance of the document, or the URL, or the number of clicks.
16. Компьютерная система создания хэшированного комплексного вектора, указывающего на связь между документом и параметром интереса, причем документ связан с первыми данными и вторыми данными; система содержит в себе:16. A computer system for creating a hashed complex vector indicating a relationship between a document and an interest parameter, the document being associated with first data and second data; The system contains:
постоянный носитель компьютерной информации;permanent media of computer information;
процессор, выполненный с возможностью осуществлять:a processor configured to:
доступ с постоянного носителя компьютерной информации к первым данным, связанным с документом, причем тип первых данных по меньшей мере двоичный или тип вещественного числа;access from a permanent medium of computer information to the first data associated with the document, the type of the first data being at least binary or the type of a real number;
доступ с постоянного носителя компьютерной информации ко вторым данным, связанным с документом, причем тип вторых данных - тип категорий;access from a permanent medium of computer information to the second data associated with the document, the type of second data being the type of categories;
создание процессором вектора масок на основе первых данных, причем вектор масок содержит в себе множество чисел, соответствующих пути в древовидной модели, и каждое из множества чисел указывает на ветку, связанную с узлом древовидной модели;creation by the processor of a vector of masks based on the first data, the vector of masks containing a plurality of numbers corresponding to a path in the tree model, and each of the many numbers indicates a branch associated with the node of the tree model;
создание процессором хэш-вектора на основе вторых данных с помощью применения первой хэш-функции ко вторым данным;creating a processor hash vector based on the second data by applying the first hash function to the second data;
создание процессором комплексного вектора, содержащего вектор масок и хэш-вектор, причем комплексный вектор указывает на лист древовидной модели;creation by the processor of a complex vector containing a mask vector and a hash vector, the complex vector pointing to a tree model sheet;
создание процессором хэшированного комплексного вектора с помощью применения второй хэш-функции к комплексному вектору иcreating a hashed complex vector by the processor by applying the second hash function to the complex vector and
сохранение на постоянном носителе компьютерной информации хэшированного комплексного вектора.storing a hashed complex vector on a permanent medium of computer information.
17. Система по п. 16, в которой процессор дополнительно выполнен с возможностью осуществлять:17. The system of claim 16, wherein the processor is further configured to:
доступ с постоянного носителя компьютерной информации к набору созданных ранее хэшированных комплексных векторов;access from a permanent medium of computer information to a set of previously hashed complex vectors;
при соответствии хэшированного комплексного вектора одному из ранее созданных хэшированных комплексных векторов связывание параметра интереса, связанного с соответствующим ранее созданным хэшированным комплексным вектором, с документом; иif the hashed complex vector corresponds to one of the previously created hashed complex vectors, linking the interest parameter associated with the corresponding previously created hashed complex vector to the document; and
при несоответствии хэшированного комплексного вектора одному из ранее созданных хэшированных комплексных векторов добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов.if the hashed complex vector does not match one of the previously created hashed complex vectors, add the hashed complex vector to the set of previously created hashed complex vectors.
18. Система по п. 17, в которой добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов дополнительно содержит связывание параметра интереса с хэшированным комплексным вектором.18. The system of claim 17, wherein adding the hashed complex vector to the set of previously created hashed complex vectors further comprises associating an interest parameter with a hashed complex vector.
19. Система по п. 16, в которой листок древовидной модели связан с параметром интереса на основе алгоритма машинного обучения с использованием обучающего документа.19. The system of claim 16, wherein the leaf of the tree model is associated with an interest parameter based on a machine learning algorithm using a training document.
20. Система по п. 16, в котором первые данные указывают по меньшей мере либо на число щелчков, либо на число просмотров, либо на ранжирование документов, а вторые данные указывают по меньшей мере либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.20. The system of claim 16, wherein the first data indicates at least either the number of clicks, or the number of views, or the ranking of documents, and the second data indicates at least either a URL, a domain name, or IP address, either for a search query or for a keyword.
21. Система по п. 16, в которой древовидная модель является "небрежной" древовидной моделью.21. The system of claim 16, wherein the tree model is a "sloppy" tree model.
22. Система по п. 16, в которой каждое из множества чисел, содержащихся вектором масок, является двоичным числом.22. The system of claim 16, wherein each of the plurality of numbers contained in the mask vector is a binary number.
23. Система по п. 22, в которой первые данные содержат в себе по меньшей мере одну целочисленную переменную, а создание маски содержит в себе применение функции трансляции для создания двоичного числа, связанного с целочисленной переменной.23. The system of claim 22, wherein the first data comprises at least one integer variable, and creating a mask comprises applying a translation function to create a binary number associated with an integer variable.
24. Система по п. 16, в которой вторые данные содержат первую категориальную переменную и вторую категориальную переменную.24. The system of claim 16, wherein the second data comprises a first categorical variable and a second categorical variable.
25. Система по п. 16, в которой создание хэш-вектора содержит в себе применение первой хэш-функции к первой категориальной переменной и третьей хэш-функции во второй категориальной переменной.25. The system of claim 16, wherein the generation of the hash vector comprises applying the first hash function to the first categorical variable and the third hash function in the second categorical variable.
26. Система по п. 25, в которой первая хэш-функция и третья хэш-функция являются либо одной и той же хэш-функцией, либо различными функциями.26. The system of claim 25, wherein the first hash function and the third hash function are either the same hash function or different functions.
27. Система по п. 16, в которой первая хэш-функция и вторая хэш-функция являются либо одной и той же хэш-функцией, либо различными функциями.27. The system of claim 16, wherein the first hash function and the second hash function are either the same hash function or different functions.
28. Система по п. 16, в которой узел на древовидной модели соответствует условию, определенному на основе алгоритма машинного обучения.28. The system of claim 16, wherein the node on the tree model corresponds to a condition determined based on a machine learning algorithm.
29. Система по п. 17, в которой добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов дополнительно содержит добавление узла к древовидной модели.29. The system of claim 17, wherein adding the hashed complex vector to the set of previously created hashed complex vectors further comprises adding a node to the tree model.
30. Система по п. 16, в которой параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка, либо на релевантность документа, либо на URL, либо на число щелчков.
30. The system of claim 16, wherein the interest parameter indicates at least either the prediction of the search result, or the probability of a click, or the relevance of the document, or the URL, or the number of clicks.