[go: up one dir, main page]

TW201401088A - 搜索方法和裝置 - Google Patents

搜索方法和裝置 Download PDF

Info

Publication number
TW201401088A
TW201401088A TW101129967A TW101129967A TW201401088A TW 201401088 A TW201401088 A TW 201401088A TW 101129967 A TW101129967 A TW 101129967A TW 101129967 A TW101129967 A TW 101129967A TW 201401088 A TW201401088 A TW 201401088A
Authority
TW
Taiwan
Prior art keywords
word
target
field
information
query
Prior art date
Application number
TW101129967A
Other languages
English (en)
Inventor
yao-bing Li
Wei Zheng
Hua-Xing Jin
Feng Lin
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201401088A publication Critical patent/TW201401088A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明提供了一種搜索方法和裝置,以解決現有搜索方法效率較低,並且比較浪費資源的問題。所述的方法包括:從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,並根據目標用戶的頁面上的資訊和所述目標詞建立倒排索引,其中,所述倒排索引中包括目標欄位和頁面資訊欄位;接收查詢詞;根據所述查詢詞,在所述倒排索引中查找與所述查詢詞匹配的目標用戶;藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度,將所述匹配的目標用戶按照所述相關度排序並返回。本發明在搜索時不需要查找匹配無意義的資料,提高了搜索的效率,並且減少了資源的浪費。

Description

搜索方法和裝置
本發明涉及搜索技術,特別是涉及一種搜索方法和裝置。
隨著網路的不斷發展,越來越多的用戶藉由網路發佈資訊和獲取資訊,因此,有時需要在某個平臺中獲取資訊的發佈者,即對目標用戶進行搜索。
針對某個平臺上目標用戶的搜索中,通常是針對目標用戶的頁面上的資訊建立索引。因此,在平臺的訪問者輸入查詢詞後,所述平臺的伺服器可以在索引中查找與所述查詢詞匹配的目標用戶,然後根據匹配程度進行排序並回饋給所述訪問者。
但是,由於目標用戶的頁面上的資訊,僅僅是對目標用戶進行簡要的介紹,不能全面的展示目標用戶,因此採用上述的方法進行搜索時,搜索到的目標用戶比較少,召回率比較低。並且,由於目標用戶的頁面上的資訊通常更新的頻率比較低,資訊比較陳舊,因此採用上述的方法進行搜索時,準確性比較低。
針對上述的情況,可以收集目標用戶在平臺中發佈的資訊建立資訊庫,根據所述查詢詞對資訊庫中用戶發佈的資訊進行匹配並排序,然後回饋給訪問者。但是,一個平臺中有非常多的目標用戶,每個目標用戶在平臺中又會發 佈非常多的資訊,因此資訊庫中的資訊是海量的。
並且,每一個目標用戶發佈的目標資訊是紛繁複雜的,其中一些是所述目標用戶經常發佈的資訊,另一些是目標用戶偶爾發佈的資訊。偶爾發佈的資訊往往在排序中排在比較低的位置,並且對訪問者的意義不大,甚至是無意義的,例如,在電子商務平臺中,訪問者在搜索供應商時,往往希望搜索到的供應商的主營產品是與查詢詞匹配的,而不希望搜索到的供應商僅銷售過一兩件與查詢詞匹配的產品。
在一個平臺中藉由查詢詞來搜索目標用戶時,每次都要從資訊庫中獲取海量的資料與查詢詞進行匹配,進而確定目標用戶,此時就會導致搜索的效率非常低。即使所述資訊是用戶偶爾發佈的資訊,依然需要進行查找匹配,查找匹配中獲取了無意義的資料,會導致資源的浪費。
本發明提供一種搜索方法和裝置,以解決現有搜索方法效率較低,並且比較浪費資源的問題。
為了解決上述問題,本發明公開了一種搜索方法,包括:從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,並根據目標用戶的頁面上的資訊和所述目標詞建立倒排索引,其中,所述倒排索引中包括目標欄位和頁面資訊欄位,N為正整數; 接收查詢詞;根據所述查詢詞,在所述倒排索引中查找與所述查詢詞匹配的目標用戶;藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度,將所述匹配的目標用戶按照所述相關度排序並返回。
較佳的,所述從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,包括:從目標用戶發佈的目標資訊中獲取目標詞數據;根據預設條件,從所述目標詞數據中抽取中心詞;統計所述目標用戶發佈的所有目標詞數據中所述中心詞出現的次數;獲取出現次數最高的前N個中心詞作為目標詞。
較佳的,針對每個中心詞,計算所述中心詞出現的次數占所有中心詞出現次數的比重,將所述比重作為所述中心詞的目標係數。
較佳的,所述藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度,包括:針對匹配的目標用戶,分別確定所述目標欄位和頁面資訊欄位,與所述查詢詞的匹配度;對所述各個匹配度進行加權求和,將計算結果作為所述匹配的目標用戶與查詢詞的相關度。
較佳的,將供應商作為目標用戶,將產品資訊作為目標資訊,將主營產品詞作為目標詞。
較佳的,所述目標詞資訊為產品標題,所述從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,包括:從供應商發佈的產品資訊中獲取產品標題;根據預置的語法規則,從所述產品標題中抽取中心詞;統計所述供應商發佈的所有產品標題中所述中心詞出現的次數;獲取出現次數最高的前N個中心詞作為主營產品詞。
較佳的,針對每個中心詞,計算所述中心詞出現的次數占所有中心詞出現次數的比重,將所述比重作為所述中心詞的主營產品係數。
較佳的,所述目標欄位為主營產品欄位,所述藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度,包括:針對所述匹配的供應商,確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在單詞級別上的匹配度;確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在語義級別上的匹配度;對所述各個匹配度進行加權求和,將計算結果作為所述匹配的供應商與查詢詞的相關度。
較佳的,所述藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度之前,還包括:對所述查詢詞進行預處理,所述預處理包括以下至少 一項:刪除所述查詢詞中的無效字元;根據預置的語法規則,從所述查詢詞中抽取中心詞;刪除所述查詢詞的詞根;識別所述查詢詞中的國家地域資訊。
較佳的,所述根據目標用戶的頁面上的資訊和所述目標詞建立倒排索引之前,還包括:對供應商的頁面上的資訊進行預處理,包括:刪除所述頁面上的資訊的無效字元,和/或,刪除所述頁面上的資訊中單詞的詞根。
較佳的,從所述預處理後的頁面上的資訊中提取所述頁面資訊欄位,其中,所述頁面資訊欄位包括以下至少一項:經營產品欄位、國家欄位、公司地址欄位和公司名稱欄位。
較佳的,所述確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在單詞級別上的匹配度,包括:當確定所述頁面資訊欄位與所述查詢詞在單詞級別上匹配時,計算對應的匹配度;當確定所述主營產品欄位與所述查詢詞在單詞級別上匹配時,藉由所述主營係數計算對應的匹配度。
較佳的,所述確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在語義級別上的匹配度,包括:當確定所述頁面資訊欄位與所述查詢詞的中心詞在語義級別上匹配時,計算對應的匹配度; 當確定所述主營產品欄位與所述查詢詞的中心詞在語義級別上匹配時,藉由所述主營係數計算對應的匹配度。
相應的,本發明還公開了一種搜索裝置,包括:獲取並建立模組,用於從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,並根據目標用戶的頁面上的資訊和所述目標詞建立倒排索引,其中,所述倒排索引中包括目標欄位和頁面資訊欄位,N為正整數;接收模組,用於接收查詢詞;查找模組,用於根據所述查詢詞,在所述倒排索引中查找與所述查詢詞匹配的目標用戶;排序模組,用於藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度,將所述匹配的目標用戶按照所述相關度排序並返回。
與現有技術相比,本發明包括以下優點:首先,現有技術中每次進行搜索查詢時,查詢詞與海量資料的匹配會導致搜索的效率非常低,並且查找匹配中會獲取無意義的資料,進一步導致資源的浪費。而本發明在搜索之前就會從目標用戶發佈的目標資訊中抽取中心詞,並且,獲取所有中心詞中出現次數最高的前N個中心詞作為目標詞,即獲取目標用戶經常發佈的資訊。在搜索前對用戶發佈的資訊進行處理,減少了無意義的資料。後續根據目標用戶的頁面上的資訊和所述目標詞建立倒排索引。然後在搜索中接收查詢詞後,並在所述倒排索引中查 找與所述查詢詞匹配的目標用戶,從而在搜索時不需要查找匹配無意義的資料。後續在確定所述匹配的目標用戶與查詢詞的相關度後,可以進行排序並返回。本發明提高了搜索的效率,並且減少了資源的浪費。
其次,本發明可以應用於電子商務領域,可以將供應商作為目標用戶,將產品資訊作為目標資訊,將主營產品詞作為目標詞。不僅從供應商的頁面中獲取資訊,還從供應商發佈的產品資訊中獲取主營產品詞,供應商發佈的產品資訊可以全面的覆蓋供應商經營的產品,並且可以做到即時更新,因此本發明從供應商發佈的產品資訊中獲取主營產品詞,從而減少了目標用戶的無意義的產品資訊,後續依據所述主營產品計算相關度得到的搜索結果的準確率比較高,在給用戶提供準確、全面的搜索結果的同時,不會降低搜索的效率,也不會造成資源的浪費。
再次,本發明中可以對頁面中的資訊和查詢詞進行預處理,可以刪除無效字元、刪除詞根等。有利於提高匹配、查找和排序的速度,並且使得相關度的計算結果更加準確。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合圖式和具體實施方式對本發明作進一步詳細的說明。
針對某個平臺上目標用戶的搜索中,每次都要從資訊 庫中獲取海量的資料與查詢詞進行匹配,進而確定目標用戶,此時就會導致搜索的效率非常低,並且非常耗費資源。
本發明提供一種搜索方法,不僅從目標用戶的頁面上獲取資訊,還從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,因此在搜索中可以不需要查找匹配無意義的資料,提高了搜索的效率,並且減少了資源的浪費。
參照圖1,給出了本發明實施例所述一種搜索方法流程圖。
步驟11,從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,並根據目標用戶的頁面上的資訊和所述目標詞建立倒排索引,其中,所述倒排索引中包括目標欄位和頁面資訊欄位,N為正整數;所述目標用戶為使用一個平臺的用戶,具體目標用戶要視所使用的平臺而定。例如,針對微博平臺,所述微博用戶即為目標用戶,針對電子商務平臺,所述買家和賣家即為目標用戶。
在一個平臺中目標用戶的頁面上的資訊是對目標用戶進行簡要的介紹,其中包含了所述目標用戶的相關資訊,同樣的,目標用戶還可以在所述的平臺中發佈目標資訊。因此可以從目標用戶發佈的目標資訊中獲取中心詞,再獲取所有中心詞中出現次數最高的前N個中心詞作為目標詞。其中,所述中心詞是可以體現目標資訊的中心思想的 辭彙,例如,在電子商務平臺中,將賣家發佈的產品標題作為目標資訊,則目標資訊中的中心詞就是所述產品標題中的產品,如產品標題為熱銷歐美復古連衣裙,則所述中心詞為連衣裙。
並且,每一個目標用戶發佈的目標資訊是紛繁複雜的,其中一些是所述目標用戶經常發佈的資訊,另一些是目標用戶偶爾發佈的資訊。偶爾發佈的資訊往往在排序中排在比較低的位置,並且對訪問者的意義不大,甚至是無意義的,例如,在電子商務平臺中,訪問者在搜索供應商時,往往希望搜索到的供應商的主營產品是與查詢詞匹配的,而不希望搜索到的供應商僅銷售過一兩件與查詢詞匹配的產品。
現有技術中每次進行搜索查詢時,都要從資訊庫中獲取海量的資料與查詢詞進行匹配,進而確定目標用戶,查詢詞與海量資料的匹配會導致搜索的效率非常低。即使所述資訊是用戶偶爾發佈的資訊,依然需要進行查找匹配,查找匹配中獲取了無意義的資料,會導致資源的浪費。
而本發明在搜索之前就會從目標用戶發佈的目標資訊中抽取中心詞,並且,獲取所有中心詞中出現次數最高的前N個中心詞作為目標詞,即獲取目標用戶經常發佈的資訊。在搜索前對用戶發佈的資訊進行處理,減少了無意義的資料,從而在搜索時不需要查找匹配無意義的資料,提高了搜索的效率,並且減少了資源的浪費。
然後針對每一個目標用戶,根據目標用戶的頁面上的 資訊和所述目標詞建立倒排索引,所述倒排索引的形式可以如表1:
其中,用戶ID(identity)用於唯一標識一個目標用戶,所述目標欄位的欄位值是對應目標用戶的目標詞,所述頁面資訊欄位的欄位值為對應目標用戶頁面上的資訊。當然,所述倒排索引中其他的資料,本發明對此不做限定。
較佳的,所述從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,包括:步驟111,從目標用戶發佈的目標資訊中獲取目標詞數據;步驟112,根據預設條件,從所述目標詞數據中抽取中心詞;步驟113,統計所述目標用戶發佈的所有目標詞數據中所述中心詞出現的次數;步驟114,獲取出現次數最高的前N個中心詞作為目標詞。
較佳的,針對每個中心詞,計算所述中心詞出現的次數占所有中心詞出現次數的比重,將所述比重作為所述中 心詞的目標係數。
步驟12,接收查詢詞;用戶在進行搜索時可以輸入查詢詞,然後點擊搜索,因此可以接受對應的查詢詞。
步驟13,根據所述查詢詞,在所述倒排索引中查找與所述查詢詞匹配的目標用戶;根據所述查詢詞,可以在所述倒排索引中進行查找,查找所述查詢詞與所述目標欄位和頁面資訊欄位中的欄位值是否匹配,若匹配,則匹配的欄位值對應的用戶即為目標用戶。
步驟14,藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度,將所述匹配的目標用戶按照所述相關度排序並返回。
然後可以進一步藉由所述目標欄位和頁面資訊欄位,計算所述匹配的目標用戶與查詢詞的相關度,將所述匹配的目標用戶按照所述相關度的降冪排列,然後將所述排列後的資料返回給執行查詢的用戶。
較佳的,所述藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度,包括:步驟141,針對匹配的目標用戶,分別確定所述目標欄位和頁面資訊欄位,與所述查詢詞的匹配度;步驟142,對所述各個匹配度進行加權求和,將計算結果作為所述匹配的目標用戶與查詢詞的相關度。
綜上所述,現有技術中每次進行搜索查詢時,查詢詞 與海量資料的匹配會導致搜索的效率非常低,並且查找匹配中會獲取無意義的資料,進一步導致資源的浪費。而本發明在搜索之前就會從目標用戶發佈的目標資訊中抽取中心詞,並且,獲取所有中心詞中出現次數最高的前N個中心詞作為目標詞,即獲取目標用戶經常發佈的資訊。在搜索前對用戶發佈的資訊進行處理,減少了無意義的資料。後續根據目標用戶的頁面上的資訊和所述目標詞建立倒排索引。然後在搜索中接收查詢詞後,並在所述倒排索引中查找與所述查詢詞匹配的目標用戶,從而在搜索時不需要查找匹配無意義的資料。後續在確定所述匹配的目標用戶與查詢詞的相關度後,可以進行排序並返回。本發明提高了搜索的效率,並且減少了資源的浪費。
本發明可以應用於在電子商務領域中,若將供應商作為目標用戶,則供應商的頁面中包括供應商填寫的經營內容、主營產品和公司規模等資訊。供應商還可以發佈產品資訊,所述產品資訊中包括產品的名稱、型號和價格等具體資訊。如,供應商A的公司主頁中填寫的經營內容為電子產品,主營產品為MP3、MP4和手機等,所述供應商A發佈的產品資訊中包括MP3 XX1,MP3 XX2和MP4 SS1等,以及對應的具體型號和價格等。
因此,本發明中可以將供應商作為目標用戶,將產品資訊作為目標資訊,將主營產品詞作為目標詞。
參照圖2,給出了本發明較佳實施例所述一種搜索方法中主營產品詞的獲取方法流程圖。
較佳的,所述目標詞資訊為產品標題,所述從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,即則可以從供應商發佈的產品資訊中獲取主營產品詞,包括:步驟21,從供應商發佈的產品資訊中獲取產品標題;供應商可以發佈產品資訊,所述產品資訊中包含產品標題,產品的製造商、產品數量等資訊。因此可以從產品資訊中獲取產品標題,例如最新熱銷雪紡連衣裙。
步驟22,根據預置的語法規則,從所述產品標題中抽取中心詞;本發明中預置了語法規則,根據所述語法規則可以從所述產品標題中抽取中心詞。
例如,若產品標題為形容詞+名詞,則所述名詞即為中心詞,如最新熱銷雪紡連衣裙,則中心詞即為連衣裙。又如名詞+介詞,則所述名詞即為中心詞,如suit for olders,則中心詞為suit。當然還包括其他的語法規則,此處不一一列舉,不用理解為是對本發明的限制。
步驟23,統計所述供應商發佈的所有產品標題中所述中心詞出現的次數;然後統計所述供應商發佈的所有產品標題中每個中心詞出現的次數,例如用戶發佈了100個產品標題,其中連衣裙出現的次數為20次,短裙出現的次數為15次,短褲出現的次數為30次,T恤出現的次數為22次,短褲出現的次數為10次,其他的飾品出現的次數為3次。
步驟24,獲取出現次數最高的前N個中心詞作為主營產品詞。
本發明中預設了閾值N,則可以獲取出現次數最高的前N個中心詞作為主營產品詞。
例如在上例的基礎上,閾值N為3,則主營產品詞為短褲、T恤和連衣裙。
較佳的,針對每個中心詞,計算所述中心詞出現的次數占所有中心詞出現次數的比重,將所述比重作為所述中心詞的主營產品係數。
則短褲的主營產品係數為0.3,T恤的主營產品係數為0.22,連衣裙的主營產品係數為0.3。
然後可以根據供應商的頁面上的資訊和所述主營產品詞建立倒排索引。其中,所述倒排索引中包括頁面資訊欄位和主營產品欄位。
在接收查詢詞後,可以根據所述查詢詞,在所述倒排索引中查找與所述查詢詞匹配的供應商。實際處理中可以在所述倒排索引的各個欄位中進行模糊匹配,查詢詞中可能包含多個單詞,則與任一單詞匹配的供應商都可以認為是與所述查詢詞匹配的供應商。
例如,查詢詞為red apple,則若所述主營產品欄位中包括apple,則可以認為是與所述查詢詞匹配的供應商。又如,頁面資訊欄位的公司名稱欄位為apple,則也可以認為是與所述查詢詞匹配的供應商。
參照圖3,給出了本發明較佳實施例所述一種搜索方 法相關度的確定方法流程圖。
然後,可以藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度,即確定所述匹配的供應商與所述查詢詞的相關度,具體包括:步驟31,針對所述匹配的供應商,確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在單詞級別上的匹配度;針對所述匹配的供應商,可以確定所述主營產品欄位與所述查詢詞在單詞級別上的匹配度,並確定所述頁面資訊欄位與所述查詢詞在單詞級別上的匹配度。
其中,所述單詞級別上的匹配度可以為確定是否完全匹配,還可以確定單詞匹配數和滑動視窗數等。
若藉由x個連續單詞可以完全包括將所述查詢詞,則所述x即為滑動視窗數,其中,查詢詞的單詞數量為m,則xm,x和m均為正整數。例如,查詢詞為red apple,公司的經營產品欄位為red fushi apple,則滑動視窗數為3。
步驟32,確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在語義級別上的匹配度;針對所述匹配的供應商,可以確定所述主營產品欄位與所述查詢詞在語義級別上的匹配度,並確定所述頁面資訊欄位與所述查詢詞在語義級別上的匹配度。
步驟33,對所述各個匹配度進行加權求和,將計算結果作為所述匹配的供應商與查詢詞的相關度。
本發明中可以將所述各個匹配度進行加權求和,將計算結果作為所述匹配的供應商與查詢詞的相關度。
例如,採用線性迴歸模型,利用以下定義的特徵計算相關性得分:RelevanceScore=F(f 1,...,f n )
其中,F(f 1,...,f n )表示線性迴歸模型訓練的模型函數,f n 表示第n個特徵的取值。
其中,可以將上述每一個匹配度看作一個特徵的取值。
當然,計算相關性的方法多種多樣,例如,利用人工標注的相關性資料,藉由SVM(support vector machine支持向量機)、決策樹等有指導的分類器訓練相關性模型,線性迴歸模型僅用於舉例論述本發明,不應理解為是對本發明的限制。
較佳的,所述藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度之前,即確定所述匹配的供應商與所述查詢詞的相關度之前,還包括:對所述查詢詞進行預處理,所述預處理包括以下至少一項:
1)刪除所述查詢詞中的無效字元;可以刪除所述查詢詞中的無效字元,如一些不可列印的字元等。
2)根據預置的語法規則,從所述查詢詞中抽取中心詞; 例如,查詢詞為red apple,則去掉形容詞red,可以抽取到名詞apple為中心詞。
3)刪除所述查詢詞的詞根;例如可以刪除所述查詢詞中的單、複數,如apples,刪除複數標識後,即為apple。
4)識別所述查詢詞中的國家地域資訊。
本發明中還預置了國家名單,可以識別所述查詢詞中的國家地域資訊,例如查詢詞為Thailand rice,則國家地域資訊即為Thailand。
較佳的,所述根據目標用戶的頁面上的資訊和所述目標詞建立倒排索引之前,即根據供應商的頁面上的資訊和所述主營產品詞建立倒排索引之前,還包括:對供應商的頁面上的資訊進行預處理,包括:刪除所述頁面上的資訊的無效字元,和/或,刪除所述頁面上的資訊中單詞的詞根。
本發明還對所述供應商的頁面上的資訊進行了預處理,方法包括:1)刪除頁面上的無效字元,如一些不可列印的字元;2)刪除所述頁面上的資訊中單詞的詞根,其中包括單詞中的單複數。
其中,所述頁面上的資訊的預處理中可以同時執行上述兩種方法,也可以僅執行其中一種方法,本發明對此不做限定。
較佳的,從所述預處理後的頁面上的資訊中提取所述頁面資訊欄位,其中,所述頁面資訊欄位包括以下至少一 項:經營產品欄位、國家欄位、公司地址欄位和公司名稱欄位。
較佳的,所述確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在單詞級別上的匹配度,包括:步驟311,當確定所述頁面資訊欄位與所述查詢詞在單詞級別上匹配時,計算對應的匹配度;獲取每個查詢目標的頁面資訊欄位的欄位值,然後與所述查詢詞在單詞級別上進行匹配,計算對應的匹配度。
其中包括:
1)查詢詞與公司名稱欄位的欄位值在單詞級別的匹配:包括查詢詞的單詞匹配數、滑動視窗、是否完全匹配;
2)查詢詞與公司地址欄位的欄位值在單詞級別的匹配:包括查詢詞(Query)的單詞匹配數、滑動視窗、是否完全匹配;
3)查詢詞中的國家地域資訊與國家欄位的欄位值是否匹配,若匹配,則匹配度為1,若不匹配,則匹配度為0;例如:查詢詞是“thailand rice”,查詢詞的預處理中識別出的國家地域資訊是“thailand”,國家欄位的欄位值是“Thailand”,則該匹配度為1。
4)查詢詞與經營產品欄位的欄位值在單詞級別的匹配:包括查詢詞是否與經營產品欄位中的某個欄位值匹配,若匹配,則匹配度為1,若不匹配,則匹配度為0。
步驟312,當確定所述主營產品欄位與所述查詢詞在單詞級別上匹配時,藉由所述主營係數計算對應的匹配度。
查詢詞與主營產品欄位的欄位值在單詞級別的匹配,包括:查詢詞是否與主營產品欄位中某個欄位值匹配,若不匹配,則匹配度為0,若匹配,則在匹配的前提下,根據所述欄位值對應的主營產品詞的主營係數計算匹配度。
較佳的,所述確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在語義級別上的匹配度,包括:步驟321,當確定所述頁面資訊欄位與所述查詢詞的中心詞在語義級別上匹配時,計算對應的匹配度;查詢詞與經營產品欄位的欄位值在語義級別的匹配:包括查詢詞的中心詞是否與經營產品欄位中的某個欄位值匹配,若匹配,則匹配度為1,若不匹配,則匹配度為0。
步驟322,當確定所述主營產品欄位與所述查詢詞的中心詞在語義級別上匹配時,藉由所述主營係數計算對應的匹配度。
查詢詞與主營產品欄位的欄位值在語義級別的匹配,包括:查詢詞的中心詞是否與主營產品欄位中某個欄位值匹配,若不匹配,則匹配度為0,若匹配,則在匹配的前提下,根據所述欄位值對應的主營產品詞的主營係數計算匹配度。
綜上所述,本發明可以應用於電子商務領域,可以將 供應商作為目標用戶,將產品資訊作為目標資訊,將主營產品詞作為目標詞。不僅從供應商的頁面中獲取資訊,還從供應商發佈的產品資訊中獲取主營產品詞,供應商發佈的產品資訊可以全面的覆蓋供應商經營的產品,並且可以做到即時更新,因此本發明從供應商發佈的產品資訊中獲取主營產品詞,從而減少了目標用戶的無意義的產品資訊,後續依據所述主營產品計算相關度得到的搜索結果的準確率比較高,在給用戶提供準確、全面的搜索結果的同時,不會降低搜索的效率,也不會造成資源的浪費。
其次,本發明中可以對頁面中的資訊和查詢詞進行預處理,可以刪除無效字元、刪除詞根等。有利於提高匹配、查找和排序的速度,並且使得相關度的計算結果更加準確。
參照圖4,給出了本發明實施例所述一種搜索裝置結構圖。
相應的,本發明還提供了一種搜索裝置,包括:獲取並建立模組11、接收模組12、查找模組13和排序模組14,其中:獲取並建立模組11,用於從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,並根據目標用戶的頁面上的資訊和所述目標詞建立倒排索引,其中,所述倒排索引中包括目標欄位和頁面資訊欄位,N為正整數;接收模組12,用於接收查詢詞; 查找模組13,用於根據所述查詢詞,在所述倒排索引中查找與所述查詢詞匹配的目標用戶;排序模組14,用於藉由所述目標欄位和頁面資訊欄位,確定所述匹配的目標用戶與查詢詞的相關度,將所述匹配的目標用戶按照所述相關度排序並返回。
較佳的,所述獲取並建立模組11,包括:第一獲取子模組111,用於從目標用戶發佈的目標資訊中獲取目標詞數據;抽取子模組112,用於根據預設條件,從所述目標詞數據中抽取中心詞;統計子模組113,用於統計所述目標用戶發佈的所有目標詞數據中所述中心詞出現的次數;第二獲取子模組114,用於獲取出現次數最高的前N個中心詞作為目標詞。
較佳的,所述獲取並建立模組11,還包括:確定目標係數子模組115,用於針對每個中心詞,計算所述中心詞出現的次數占所有中心詞出現次數的比重,將所述比重作為所述中心詞的目標係數。
較佳的,所述排序模組14,包括:匹配度確定子模組141,用於針對匹配的目標用戶,分別確定所述目標欄位和頁面資訊欄位,與所述查詢詞的匹配度;相關度計算子模組142,用於對所述各個匹配度進行加權求和,將計算結果作為所述匹配的目標用戶與查詢詞 的相關度。
較佳的,將供應商作為目標用戶,將產品資訊作為目標資訊,將主營產品詞作為目標詞。
較佳的,所述目標詞資訊為產品標題,所述獲取並建立模組11,包括:第一獲取子模組111,用於從供應商發佈的產品資訊中獲取產品標題;抽取子模組112,用於根據預置的語法規則,從所述產品標題中抽取中心詞;統計子模組113,用於統計所述供應商發佈的所有產品標題中所述中心詞出現的次數;第二獲取子模組114,用於獲取出現次數最高的前N個中心詞作為主營產品詞。
確定目標係數子模組115,用於針對每個中心詞,計算所述中心詞出現的次數占所有中心詞出現次數的比重,將所述比重作為所述中心詞的主營產品係數。
較佳的,所述目標欄位為主營產品欄位,所述排序模組14,包括:第一匹配度確定子模組,用於針對所述匹配的供應商,確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在單詞級別上的匹配度;第二匹配度確定子模組,用於確定所述主營產品欄位和頁面資訊欄位,與所述查詢詞在語義級別上的匹配度;相關度計算子模組,用於對所述各個匹配度進行加權 求和,將計算結果作為所述匹配的供應商與查詢詞的相關度。
較佳的,所述的裝置還包括:查詢詞預處理模組,用於對所述查詢詞進行預處理,所述預處理包括以下至少一項:刪除所述查詢詞中的無效字元;根據預置的語法規則,從所述查詢詞中抽取中心詞;刪除所述查詢詞的詞根;識別所述查詢詞中的國家地域資訊。
頁面資訊預處理模組,用於對供應商的頁面上的資訊進行預處理,包括:刪除所述頁面上的資訊的無效字元,和/或,刪除所述頁面上的資訊中單詞的詞根。
提取模組,用於從所述預處理後的頁面上的資訊中提取所述頁面資訊欄位,其中,所述頁面資訊欄位包括以下至少一項:經營產品欄位、國家欄位、公司地址欄位和公司名稱欄位。
較佳的,所述第一匹配度確定子模組,包括:頁面資訊計算單元,用於當確定所述頁面資訊欄位與所述查詢詞在單詞級別上匹配時,計算對應的匹配度;主營產品計算單元,用於當確定所述主營產品欄位與所述查詢詞在單詞級別上匹配時,藉由所述主營係數計算對應的匹配度。
較佳的,所述第二匹配度確定子模組,包括:頁面資訊計算單元,用於當確定所述頁面資訊欄位與所述查詢詞的中心詞在語義級別上匹配時,計算對應的匹 配度;主營產品計算單元,用於當確定所述主營產品欄位與所述查詢詞的中心詞在語義級別上匹配時,藉由所述主營係數計算對應的匹配度。
對於系統實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本發明可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式計算環境中實踐本發明,在這些分散式計算環境中,由藉由通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品 或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
以上對本發明所提供的一種搜索方法及裝置,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。
11‧‧‧獲取並建立模組
12‧‧‧接收模組
13‧‧‧查找模組
14‧‧‧排序模組
圖1是本發明實施例所述一種搜索方法流程圖;圖2是本發明較佳實施例所述一種搜索方法中主營產品詞的獲取方法流程圖;圖3是本發明較佳實施例所述一種搜索方法相關度的確定方法流程圖;圖4是本發明實施例所述一種搜索裝置結構圖。

Claims (14)

  1. 一種搜索方法,其特徵在於,包括:從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,並根據目標用戶的頁面上的資訊和該目標詞建立倒排索引,其中,該倒排索引中包括目標欄位和頁面資訊欄位,N為正整數;接收查詢詞;根據該查詢詞,在該倒排索引中查找與該查詢詞匹配的目標用戶;藉由該目標欄位和頁面資訊欄位,確定該匹配的目標用戶與查詢詞的相關度,將該匹配的目標用戶按照該相關度排序並返回。
  2. 根據申請專利範圍第1項的方法,其中,該從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,包括:從目標用戶發佈的目標資訊中獲取目標詞數據;根據預設條件,從該目標詞數據中抽取中心詞;統計該目標用戶發佈的所有目標詞數據中該中心詞出現的次數;獲取出現次數最高的前N個中心詞作為目標詞。
  3. 根據申請專利範圍第2項的方法,其中,還包括:針對每個中心詞,計算該中心詞出現的次數占所有中心詞出現次數的比重,將該比重作為該中心詞的目標係 數。
  4. 根據申請專利範圍第3項的方法,其中,該藉由該目標欄位和頁面資訊欄位,確定該匹配的目標用戶與查詢詞的相關度,包括:針對匹配的目標用戶,分別確定該目標欄位和頁面資訊欄位,與該查詢詞的匹配度;對該各個匹配度進行加權求和,將計算結果作為該匹配的目標用戶與查詢詞的相關度。
  5. 根據申請專利範圍第4項的方法,其中,將供應商作為目標用戶,將產品資訊作為目標資訊,將主營產品詞作為目標詞。
  6. 根據申請專利範圍第5項的方法,其中,該目標詞資訊為產品標題,該從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,包括:從供應商發佈的產品資訊中獲取產品標題;根據預置的語法規則,從該產品標題中抽取中心詞;統計該供應商發佈的所有產品標題中該中心詞出現的次數;獲取出現次數最高的前N個中心詞作為主營產品詞。
  7. 根據申請專利範圍第6項的方法,其中,還包括:針對每個中心詞,計算該中心詞出現的次數占所有中心詞出現次數的比重,將該比重作為該中心詞的主營產品係數。
  8. 根據申請專利範圍第7項的方法,其中,該目標欄位為主營產品欄位,該藉由該目標欄位和頁面資訊欄位,確定該匹配的目標用戶與查詢詞的相關度,包括:針對該匹配的供應商,確定該主營產品欄位和頁面資訊欄位,與該查詢詞在單詞級別上的匹配度;確定該主營產品欄位和頁面資訊欄位,與該查詢詞在語義級別上的匹配度;對該各個匹配度進行加權求和,將計算結果作為該匹配的供應商與查詢詞的相關度。
  9. 根據申請專利範圍第7項的方法,其中,該藉由該目標欄位和頁面資訊欄位,確定該匹配的目標用戶與查詢詞的相關度之前,還包括:對該查詢詞進行預處理,該預處理包括以下至少一項:刪除該查詢詞中的無效字元;根據預置的語法規則,從該查詢詞中抽取中心詞;刪除該查詢詞的詞根;識別該查詢詞中的國家地域資訊。
  10. 根據申請專利範圍第9項的方法,其中,該根據目標用戶的頁面上的資訊和該目標詞建立倒排索引之前,還包括:對供應商的頁面上的資訊進行預處理,包括:刪除該頁面上的資訊的無效字元,和/或,刪除該頁面上的資訊中單詞的詞根。
  11. 根據申請專利範圍第10項的方法,其中,還包括:從該預處理後的頁面上的資訊中提取該頁面資訊欄位,其中,該頁面資訊欄位包括以下至少一項:經營產品欄位、國家欄位、公司地址欄位和公司名稱欄位。
  12. 根據申請專利範圍第11項的方法,其中,該確定該主營產品欄位和頁面資訊欄位,與該查詢詞在單詞級別上的匹配度,包括:當確定該頁面資訊欄位與該查詢詞在單詞級別上匹配時,計算對應的匹配度;當確定該主營產品欄位與該查詢詞在單詞級別上匹配時,藉由該主營係數計算對應的匹配度。
  13. 根據申請專利範圍第12項的方法,其中,該確定該主營產品欄位和頁面資訊欄位,與該查詢詞在語義級別上的匹配度,包括:當確定該頁面資訊欄位與該查詢詞的中心詞在語義級別上匹配時,計算對應的匹配度;當確定該主營產品欄位與該查詢詞的中心詞在語義級別上匹配時,藉由該主營係數計算對應的匹配度。
  14. 一種搜索裝置,其特徵在於,包括:獲取並建立模組,用於從目標用戶發佈的目標資訊中抽取出現次數最高的前N個中心詞作為目標詞,並根據目標用戶的頁面上的資訊和該目標詞建立倒排索引,其中,該倒排索引中包括目標欄位和頁面資訊欄位,N為正整 數;接收模組,用於接收查詢詞;查找模組,用於根據該查詢詞,在該倒排索引中查找與該查詢詞匹配的目標用戶;排序模組,用於藉由該目標欄位和頁面資訊欄位,確定該匹配的目標用戶與查詢詞的相關度,將該匹配的目標用戶按照該相關度排序並返回。
TW101129967A 2012-06-19 2012-08-17 搜索方法和裝置 TW201401088A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210208671.8A CN103514181B (zh) 2012-06-19 2012-06-19 一种搜索方法和装置

Publications (1)

Publication Number Publication Date
TW201401088A true TW201401088A (zh) 2014-01-01

Family

ID=48703925

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101129967A TW201401088A (zh) 2012-06-19 2012-08-17 搜索方法和裝置

Country Status (6)

Country Link
US (1) US20130339369A1 (zh)
EP (1) EP2862104A1 (zh)
JP (1) JP2015525418A (zh)
CN (1) CN103514181B (zh)
TW (1) TW201401088A (zh)
WO (1) WO2013192093A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990234B1 (en) * 2014-02-28 2015-03-24 Lucas J. Myslinski Efficient fact checking method and system
CN104035980B (zh) * 2014-05-26 2017-08-04 王和平 一种面向结构化医药信息的检索方法和系统
CN105468649B (zh) * 2014-09-11 2020-04-17 阿里巴巴集团控股有限公司 一种待展示对象匹配的判断方法及其装置
US10685027B2 (en) * 2015-10-28 2020-06-16 Microsoft Technology Licensing, Llc Search system
CN105843850B (zh) * 2016-03-15 2020-07-24 北京百度网讯科技有限公司 搜索优化方法和装置
CN105843932A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 一种网页设计方法和装置
JP2019079224A (ja) * 2017-10-24 2019-05-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN108363767A (zh) * 2018-02-07 2018-08-03 深圳中兴网信科技有限公司 文件录入方法、装置、计算机设备和可读存储介质
CN108595489A (zh) * 2018-03-15 2018-09-28 北京雷石天地电子技术有限公司 一种数据检索方法及装置
CN110321465A (zh) * 2019-06-22 2019-10-11 武汉宏宇建设工程咨询有限公司 一种监理项目信息获取方法
US11354721B2 (en) * 2019-10-16 2022-06-07 Coupang Corp. Computerized systems and methods for providing product recommendations
JPWO2021255843A1 (zh) * 2020-06-16 2021-12-23

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
US20010049674A1 (en) * 2000-03-30 2001-12-06 Iqbal Talib Methods and systems for enabling efficient employment recruiting
US7283951B2 (en) * 2001-08-14 2007-10-16 Insightful Corporation Method and system for enhanced data searching
US7007017B2 (en) * 2003-02-10 2006-02-28 Xerox Corporation Method for automatic discovery of query language features of web sites
US7505969B2 (en) * 2003-08-05 2009-03-17 Cbs Interactive, Inc. Product placement engine and method
US20070078850A1 (en) * 2005-10-03 2007-04-05 Microsoft Corporation Commerical web data extraction system
US10534820B2 (en) * 2006-01-27 2020-01-14 Richard A. Heggem Enhanced buyer-oriented search results
US8290967B2 (en) * 2007-04-19 2012-10-16 Barnesandnoble.Com Llc Indexing and search query processing
CN101315624B (zh) * 2007-05-29 2015-11-25 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN101206672A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 商品搜索无结果智能处理系统及方法
US8606795B2 (en) * 2008-07-01 2013-12-10 Xerox Corporation Frequency based keyword extraction method and system using a statistical measure
EP2325763A3 (en) * 2009-11-18 2011-06-01 Research In Motion Limited Automatic reuse of user-specified content in queries
US8954422B2 (en) * 2010-07-30 2015-02-10 Ebay Inc. Query suggestion for E-commerce sites
EP2469421A1 (en) * 2010-12-23 2012-06-27 British Telecommunications Public Limited Company Method and apparatus for processing electronic data

Also Published As

Publication number Publication date
US20130339369A1 (en) 2013-12-19
WO2013192093A1 (en) 2013-12-27
CN103514181A (zh) 2014-01-15
CN103514181B (zh) 2018-07-31
JP2015525418A (ja) 2015-09-03
EP2862104A1 (en) 2015-04-22

Similar Documents

Publication Publication Date Title
TW201401088A (zh) 搜索方法和裝置
JP6022056B2 (ja) 検索結果の生成
CN109299994B (zh) 推荐方法、装置、设备及可读存储介质
CN107679119B (zh) 生成品牌衍生词的方法和装置
CN110516033B (zh) 一种计算用户偏好的方法和装置
CN103984705B (zh) 一种搜索结果的展示方法、装置和系统
WO2017088496A1 (zh) 一种搜索推荐方法、装置、设备及计算机存储介质
CN107885783B (zh) 获取搜索词高相关分类的方法和装置
CN116739626A (zh) 商品数据挖掘处理方法、装置、电子设备及可读介质
CN110276065A (zh) 一种处理物品评论的方法和装置
CN110362662A (zh) 数据处理方法、装置以及计算机可读存储介质
CN105022830A (zh) 一种基于用户行为的加权轨迹数据集构建方法
CN112116426B (zh) 一种推送物品信息的方法和装置
Zulfikar et al. Marketplace affiliates potential analysis using cosine similarity and vision-based page segmentation
JP6509590B2 (ja) 商品に対するユーザの感情分析装置及びプログラム
CN115422485A (zh) 信息发送方法、装置、电子设备和存储介质
CN107153697A (zh) 一种商品交易网站中的商品搜索方法和装置
CN104050174B (zh) 一种个性化页面生成方法及装置
CN105117438A (zh) 一种信息处理方法及电子设备
CN119739987A (zh) 标签体系构建、标签提供方法、装置、设备和存储介质
CN108153857A (zh) 一种用于对网络访问数据进行关联处理的方法和系统
CN113325959A (zh) 一种输入语料的推荐方法和装置
Shi et al. A product features mining method based on association rules and the degree of property co-occurrence
TW201131399A (en) Indexing method and apparatus
HK1192024B (zh) 一种搜索方法和装置