[go: up one dir, main page]

RU2015120563A - METHOD AND SYSTEM FOR CREATING A HASHED COMPLEX VECTOR - Google Patents

METHOD AND SYSTEM FOR CREATING A HASHED COMPLEX VECTOR Download PDF

Info

Publication number
RU2015120563A
RU2015120563A RU2015120563A RU2015120563A RU2015120563A RU 2015120563 A RU2015120563 A RU 2015120563A RU 2015120563 A RU2015120563 A RU 2015120563A RU 2015120563 A RU2015120563 A RU 2015120563A RU 2015120563 A RU2015120563 A RU 2015120563A
Authority
RU
Russia
Prior art keywords
hashed
vector
data
complex
hash function
Prior art date
Application number
RU2015120563A
Other languages
Russian (ru)
Inventor
Вячеслав Вячеславович Алипов
Андрей Владимирович ГУЛИН
Егор Александрович САМОСВАТ
Андрей Сергеевич Мищенко
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2015120563A priority Critical patent/RU2015120563A/en
Priority to PCT/IB2015/058957 priority patent/WO2016193797A1/en
Publication of RU2015120563A publication Critical patent/RU2015120563A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

1. Компьютерный способ создания хэшированного комплексного вектора, указывающего на связь между документом и параметром интереса, причем документ связан с первыми данными и вторыми данными; способ содержит в себе:доступ с постоянного носителя компьютерной информации к первым данным, связанным с документом, причем тип первых данных по меньшей мере двоичный или тип вещественного числа;доступ с постоянного носителя компьютерной информации ко вторым данным, связанным с документом, причем тип вторых данных - тип категорий;создание процессором вектора масок на основе первых данных, причем вектор масок содержит в себе множество чисел, соответствующих пути в древовидной модели, и каждое из множества чисел указывает на ветку, связанную с узлом древовидной модели;создание процессором хэш-вектора на основе вторых данных с помощью применения первой хэш-функции ко вторым данным;создание процессором комплексного вектора, содержащего вектор масок и хэш-вектор, причем комплексный вектор указывает на лист древовидной модели;создание процессором хэшированного комплексного вектора с помощью применения второй хэш-функции к комплексному вектору исохранение на постоянном носителе компьютерной информации хэшированного комплексного вектора.2. Способ по п. 1, дополнительно включающий в себя:доступ с постоянного носителя компьютерной информации к набору созданных ранее хэшированных комплексных векторов;при соответствии хэшированного комплексного вектора одному из ранее созданных хэшированных комплексных векторов связывание параметра интереса, связанного с соответствующим ранее созданным хэшированным комплексным вектором, с1. A computer method for creating a hashed complex vector indicating a relationship between a document and an interest parameter, the document being associated with first data and second data; the method includes: access from a permanent computer information medium to the first data associated with the document, the type of the first data being at least binary or a real number type; access from the permanent computer information medium to the second data associated with the document, the type of second data - type of categories; creation by the processor of a vector of masks based on the first data, and the vector of masks contains a set of numbers corresponding to the path in the tree model, and each of the many numbers indicates a branch, connected with the node of the tree model; creation by the processor of a hash vector based on the second data by applying the first hash function to the second data; creation by the processor of a complex vector containing a mask vector and a hash vector, the complex vector pointing to a sheet of the tree model; creation by the processor a hashed complex vector by applying the second hash function to the complex vector and storing the hashed complex vector on a permanent medium of computer information. 2. The method of claim 1, further comprising: accessing the set of previously hashed complex vectors from a permanent storage medium of computer information; if the hashed complex vector corresponds to one of the previously created hashed complex vectors, linking the interest parameter associated with the corresponding previously created hashed complex vector, from

Claims (30)

1. Компьютерный способ создания хэшированного комплексного вектора, указывающего на связь между документом и параметром интереса, причем документ связан с первыми данными и вторыми данными; способ содержит в себе:1. A computer method for creating a hashed complex vector indicating a relationship between a document and an interest parameter, the document being associated with first data and second data; The method contains: доступ с постоянного носителя компьютерной информации к первым данным, связанным с документом, причем тип первых данных по меньшей мере двоичный или тип вещественного числа;access from a permanent medium of computer information to the first data associated with the document, the type of the first data being at least binary or the type of a real number; доступ с постоянного носителя компьютерной информации ко вторым данным, связанным с документом, причем тип вторых данных - тип категорий;access from a permanent medium of computer information to the second data associated with the document, the type of second data being the type of categories; создание процессором вектора масок на основе первых данных, причем вектор масок содержит в себе множество чисел, соответствующих пути в древовидной модели, и каждое из множества чисел указывает на ветку, связанную с узлом древовидной модели;creation by the processor of a vector of masks based on the first data, the vector of masks containing a plurality of numbers corresponding to a path in the tree model, and each of the many numbers indicates a branch associated with the node of the tree model; создание процессором хэш-вектора на основе вторых данных с помощью применения первой хэш-функции ко вторым данным;creating a processor hash vector based on the second data by applying the first hash function to the second data; создание процессором комплексного вектора, содержащего вектор масок и хэш-вектор, причем комплексный вектор указывает на лист древовидной модели;creation by the processor of a complex vector containing a mask vector and a hash vector, the complex vector pointing to a tree model sheet; создание процессором хэшированного комплексного вектора с помощью применения второй хэш-функции к комплексному вектору иcreating a hashed complex vector by the processor by applying the second hash function to the complex vector and сохранение на постоянном носителе компьютерной информации хэшированного комплексного вектора.storing a hashed complex vector on a permanent medium of computer information. 2. Способ по п. 1, дополнительно включающий в себя:2. The method according to p. 1, further comprising: доступ с постоянного носителя компьютерной информации к набору созданных ранее хэшированных комплексных векторов;access from a permanent medium of computer information to a set of previously hashed complex vectors; при соответствии хэшированного комплексного вектора одному из ранее созданных хэшированных комплексных векторов связывание параметра интереса, связанного с соответствующим ранее созданным хэшированным комплексным вектором, с документом иif the hashed complex vector corresponds to one of the previously created hashed complex vectors, the binding of the interest parameter associated with the corresponding previously created hashed complex vector with the document and при несоответствии хэшированного комплексного вектора одному из ранее созданных хэшированных комплексных векторов добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов.if the hashed complex vector does not match one of the previously created hashed complex vectors, add the hashed complex vector to the set of previously created hashed complex vectors. 3. Способ по п. 2, в котором добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов дополнительно содержит связывание параметра интереса с хэшированным комплексным вектором.3. The method of claim 2, wherein adding the hashed complex vector to the set of previously created hashed complex vectors further comprises associating an interest parameter with a hashed complex vector. 4. Способ по п. 1, в котором листок древовидной модели связан с параметром интереса на основе алгоритма машинного обучения с использованием обучающего документа.4. The method of claim 1, wherein the leaf of the tree model is associated with an interest parameter based on a machine learning algorithm using a training document. 5. Способ по п. 1, в котором первые данные указывают по меньшей мере либо на число щелчков, либо на число просмотров, либо на ранжирование документов, а вторые данные указывают по меньшей мере либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.5. The method according to claim 1, in which the first data indicates at least either the number of clicks, or the number of views, or the ranking of documents, and the second data indicates at least either a URL, or a domain name, or IP address, either for a search query or for a keyword. 6. Способ по п. 1, в котором древовидная модель является "небрежной" древовидной моделью.6. The method of claim 1, wherein the tree model is a "sloppy" tree model. 7. Способ по п. 1, в котором каждое из множества чисел, содержащихся в векторе масок, является двоичным числом.7. The method of claim 1, wherein each of the plurality of numbers contained in the mask vector is a binary number. 8. Способ по п. 7, в котором первые данные содержат в себе по меньшей мере одну целочисленную переменную, а создание маски содержит в себе применение функции трансляции для создания двоичного числа, связанного с целочисленной переменной.8. The method according to p. 7, in which the first data contains at least one integer variable, and the creation of the mask contains the use of the translation function to create a binary number associated with the integer variable. 9. Способ по п. 1, в котором вторые данные содержат первую категориальную переменную и вторую категориальную переменную.9. The method of claim 1, wherein the second data comprises a first categorical variable and a second categorical variable. 10. Способ по п. 1, в котором создание хэш-вектора содержит в себе применение первой хэш-функции к первой категориальной переменной и третьей хэш-функции во второй категориальной переменной.10. The method of claim 1, wherein creating the hash vector comprises applying the first hash function to the first categorical variable and the third hash function in the second categorical variable. 11. Способ по п. 10, в котором первая хэш-функция и третья хэш-функция являются либо одной и той же хэш-функцией, либо различными функциями.11. The method of claim 10, wherein the first hash function and the third hash function are either the same hash function or different functions. 12. Способ по п. 1, в котором первая хэш-функция и вторая хэш-функция являются либо одной и той же хэш-функцией, либо различными функциями.12. The method of claim 1, wherein the first hash function and the second hash function are either the same hash function or different functions. 13. Способ по п. 1, в котором узел на древовидной модели соответствует условию, определенному на основе алгоритма машинного обучения.13. The method according to p. 1, in which the node on the tree model corresponds to a condition determined on the basis of the machine learning algorithm. 14. Способ по п. 2, в котором добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов дополнительно содержит добавление узла к древовидной модели.14. The method of claim 2, wherein adding the hashed complex vector to the set of previously created hashed complex vectors further comprises adding a node to the tree model. 15. Способ по п. 1, в котором параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка, либо на релевантность документа, либо на URL, либо на число щелчков.15. The method according to claim 1, in which the interest parameter indicates at least either the prediction of the search result, or the probability of a click, or the relevance of the document, or the URL, or the number of clicks. 16. Компьютерная система создания хэшированного комплексного вектора, указывающего на связь между документом и параметром интереса, причем документ связан с первыми данными и вторыми данными; система содержит в себе:16. A computer system for creating a hashed complex vector indicating a relationship between a document and an interest parameter, the document being associated with first data and second data; The system contains: постоянный носитель компьютерной информации;permanent media of computer information; процессор, выполненный с возможностью осуществлять:a processor configured to: доступ с постоянного носителя компьютерной информации к первым данным, связанным с документом, причем тип первых данных по меньшей мере двоичный или тип вещественного числа;access from a permanent medium of computer information to the first data associated with the document, the type of the first data being at least binary or the type of a real number; доступ с постоянного носителя компьютерной информации ко вторым данным, связанным с документом, причем тип вторых данных - тип категорий;access from a permanent medium of computer information to the second data associated with the document, the type of second data being the type of categories; создание процессором вектора масок на основе первых данных, причем вектор масок содержит в себе множество чисел, соответствующих пути в древовидной модели, и каждое из множества чисел указывает на ветку, связанную с узлом древовидной модели;creation by the processor of a vector of masks based on the first data, the vector of masks containing a plurality of numbers corresponding to a path in the tree model, and each of the many numbers indicates a branch associated with the node of the tree model; создание процессором хэш-вектора на основе вторых данных с помощью применения первой хэш-функции ко вторым данным;creating a processor hash vector based on the second data by applying the first hash function to the second data; создание процессором комплексного вектора, содержащего вектор масок и хэш-вектор, причем комплексный вектор указывает на лист древовидной модели;creation by the processor of a complex vector containing a mask vector and a hash vector, the complex vector pointing to a tree model sheet; создание процессором хэшированного комплексного вектора с помощью применения второй хэш-функции к комплексному вектору иcreating a hashed complex vector by the processor by applying the second hash function to the complex vector and сохранение на постоянном носителе компьютерной информации хэшированного комплексного вектора.storing a hashed complex vector on a permanent medium of computer information. 17. Система по п. 16, в которой процессор дополнительно выполнен с возможностью осуществлять:17. The system of claim 16, wherein the processor is further configured to: доступ с постоянного носителя компьютерной информации к набору созданных ранее хэшированных комплексных векторов;access from a permanent medium of computer information to a set of previously hashed complex vectors; при соответствии хэшированного комплексного вектора одному из ранее созданных хэшированных комплексных векторов связывание параметра интереса, связанного с соответствующим ранее созданным хэшированным комплексным вектором, с документом; иif the hashed complex vector corresponds to one of the previously created hashed complex vectors, linking the interest parameter associated with the corresponding previously created hashed complex vector to the document; and при несоответствии хэшированного комплексного вектора одному из ранее созданных хэшированных комплексных векторов добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов.if the hashed complex vector does not match one of the previously created hashed complex vectors, add the hashed complex vector to the set of previously created hashed complex vectors. 18. Система по п. 17, в которой добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов дополнительно содержит связывание параметра интереса с хэшированным комплексным вектором.18. The system of claim 17, wherein adding the hashed complex vector to the set of previously created hashed complex vectors further comprises associating an interest parameter with a hashed complex vector. 19. Система по п. 16, в которой листок древовидной модели связан с параметром интереса на основе алгоритма машинного обучения с использованием обучающего документа.19. The system of claim 16, wherein the leaf of the tree model is associated with an interest parameter based on a machine learning algorithm using a training document. 20. Система по п. 16, в котором первые данные указывают по меньшей мере либо на число щелчков, либо на число просмотров, либо на ранжирование документов, а вторые данные указывают по меньшей мере либо на URL, либо на доменное имя, либо на IP-адрес, либо на поисковой запрос, либо на ключевое слово.20. The system of claim 16, wherein the first data indicates at least either the number of clicks, or the number of views, or the ranking of documents, and the second data indicates at least either a URL, a domain name, or IP address, either for a search query or for a keyword. 21. Система по п. 16, в которой древовидная модель является "небрежной" древовидной моделью.21. The system of claim 16, wherein the tree model is a "sloppy" tree model. 22. Система по п. 16, в которой каждое из множества чисел, содержащихся вектором масок, является двоичным числом.22. The system of claim 16, wherein each of the plurality of numbers contained in the mask vector is a binary number. 23. Система по п. 22, в которой первые данные содержат в себе по меньшей мере одну целочисленную переменную, а создание маски содержит в себе применение функции трансляции для создания двоичного числа, связанного с целочисленной переменной.23. The system of claim 22, wherein the first data comprises at least one integer variable, and creating a mask comprises applying a translation function to create a binary number associated with an integer variable. 24. Система по п. 16, в которой вторые данные содержат первую категориальную переменную и вторую категориальную переменную.24. The system of claim 16, wherein the second data comprises a first categorical variable and a second categorical variable. 25. Система по п. 16, в которой создание хэш-вектора содержит в себе применение первой хэш-функции к первой категориальной переменной и третьей хэш-функции во второй категориальной переменной.25. The system of claim 16, wherein the generation of the hash vector comprises applying the first hash function to the first categorical variable and the third hash function in the second categorical variable. 26. Система по п. 25, в которой первая хэш-функция и третья хэш-функция являются либо одной и той же хэш-функцией, либо различными функциями.26. The system of claim 25, wherein the first hash function and the third hash function are either the same hash function or different functions. 27. Система по п. 16, в которой первая хэш-функция и вторая хэш-функция являются либо одной и той же хэш-функцией, либо различными функциями.27. The system of claim 16, wherein the first hash function and the second hash function are either the same hash function or different functions. 28. Система по п. 16, в которой узел на древовидной модели соответствует условию, определенному на основе алгоритма машинного обучения.28. The system of claim 16, wherein the node on the tree model corresponds to a condition determined based on a machine learning algorithm. 29. Система по п. 17, в которой добавление хэшированного комплексного вектора к набору ранее созданных хэшированных комплексных векторов дополнительно содержит добавление узла к древовидной модели.29. The system of claim 17, wherein adding the hashed complex vector to the set of previously created hashed complex vectors further comprises adding a node to the tree model. 30. Система по п. 16, в которой параметр интереса указывает по меньшей мере либо на прогнозирование поискового результата, либо на вероятность щелчка, либо на релевантность документа, либо на URL, либо на число щелчков. 30. The system of claim 16, wherein the interest parameter indicates at least either the prediction of the search result, or the probability of a click, or the relevance of the document, or the URL, or the number of clicks.
RU2015120563A 2015-06-01 2015-06-01 METHOD AND SYSTEM FOR CREATING A HASHED COMPLEX VECTOR RU2015120563A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2015120563A RU2015120563A (en) 2015-06-01 2015-06-01 METHOD AND SYSTEM FOR CREATING A HASHED COMPLEX VECTOR
PCT/IB2015/058957 WO2016193797A1 (en) 2015-06-01 2015-11-19 Method of and system for generating a hashed complex vector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015120563A RU2015120563A (en) 2015-06-01 2015-06-01 METHOD AND SYSTEM FOR CREATING A HASHED COMPLEX VECTOR

Publications (1)

Publication Number Publication Date
RU2015120563A true RU2015120563A (en) 2016-12-20

Family

ID=57440673

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015120563A RU2015120563A (en) 2015-06-01 2015-06-01 METHOD AND SYSTEM FOR CREATING A HASHED COMPLEX VECTOR

Country Status (2)

Country Link
RU (1) RU2015120563A (en)
WO (1) WO2016193797A1 (en)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143787A1 (en) * 2001-03-31 2002-10-03 Simon Knee Fast classless inter-domain routing (CIDR) lookups
US20060026138A1 (en) * 2004-01-09 2006-02-02 Gavin Robertson Real-time indexes
US7613701B2 (en) * 2004-12-22 2009-11-03 International Business Machines Corporation Matching of complex nested objects by multilevel hashing
US7949186B2 (en) * 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
US8537832B2 (en) * 2010-03-12 2013-09-17 Lsi Corporation Exception detection and thread rescheduling in a multi-core, multi-thread network processor
US8935483B2 (en) * 2009-04-27 2015-01-13 Lsi Corporation Concurrent, coherent cache access for multiple threads in a multi-core, multi-thread network processor
US20110153611A1 (en) * 2009-12-22 2011-06-23 Anil Babu Ankisettipalli Extracting data from a report document
US8924365B2 (en) * 2011-02-08 2014-12-30 Wavemarket, Inc. System and method for range search over distributive storage systems
US9355095B2 (en) * 2011-12-30 2016-05-31 Microsoft Technology Licensing, Llc Click noise characterization model

Also Published As

Publication number Publication date
WO2016193797A1 (en) 2016-12-08

Similar Documents

Publication Publication Date Title
Mai et al. Relaxing unanswerable geographic questions using a spatially explicit knowledge graph embedding model
US9582565B2 (en) Classifying uniform resource locators
Chen et al. Ai@ ntiphish—machine learning mechanisms for cyber-phishing attack
CN110945500A (en) key-value memory network
JP2014533407A (en) SEARCH METHOD, SEARCH DEVICE, AND SEARCH ENGINE SYSTEM
US20110307432A1 (en) Relevance for name segment searches
BR112014023495B1 (en) DATA PROCESSING SYSTEM AND METHOD
Su et al. How to improve your Google ranking: Myths and reality
Razzhigaev et al. A system for answering simple questions in multiple languages
WO2017115168A1 (en) Curtailing search engines from obtaining and controlling information
Vitorino et al. Adversarial evasion attack efficiency against large language models
Agarwal et al. Towards effective paraphrasing for information disguise
US20130086083A1 (en) Transferring ranking signals from equivalent pages
Jodelet et al. Future-proofing class-incremental learning: Q. Jodelet et al.
Raghavendra et al. Split keyword fuzzy and synonym search over encrypted cloud data
RU2015120563A (en) METHOD AND SYSTEM FOR CREATING A HASHED COMPLEX VECTOR
US20160292282A1 (en) Detecting and responding to single entity intent queries
US12411875B2 (en) Retrieval aware question generation
WO2017082875A1 (en) Data allocation based on secure information retrieval
Gueret et al. Triplecloud: An infrastructure for exploratory querying over web-scale rdf data
Qi et al. Capture missing values with inference on knowledge base
Tong et al. Topic-adaptive sentiment analysis on tweets via learning from multi-sources data
Fukuta A mobile agent approach for p2p-based semantic file retrieval
CN110188301A (en) Information aggregation method and device for website
Arockiasamy et al. pbins: private bins for top-k semantic search over encrypted data using transformers

Legal Events

Date Code Title Description
FA92 Acknowledgement of application withdrawn (lack of supplementary materials submitted)

Effective date: 20161209