TWI665568B - 資料流的分群方法和裝置 - Google Patents
資料流的分群方法和裝置 Download PDFInfo
- Publication number
- TWI665568B TWI665568B TW107108413A TW107108413A TWI665568B TW I665568 B TWI665568 B TW I665568B TW 107108413 A TW107108413 A TW 107108413A TW 107108413 A TW107108413 A TW 107108413A TW I665568 B TWI665568 B TW I665568B
- Authority
- TW
- Taiwan
- Prior art keywords
- model
- category
- result
- clustering
- data partition
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/278—Data partitioning, e.g. horizontal or vertical partitioning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申請提供一種資料流的分群方法,所述資料流包括具有時序關係的若干個資料分區,所述方法包括:獲取當前資料分區之前的N個先前資料分區的結果模型,N為不小於2的自然數;所述每個結果模型根據對應的先前資料分區的分群結果產生,每個結果模型中包括每個類別的代表參數;根據所述N個結果模型確定當前資料分區的起始模型,所述起始模型中每個類別的代表參數由所述N個結果模型中相同類別的代表參數確定;採用起始模型對當前資料分區中的資料記錄進行分群。本申請的技術方案使當前資料分區的分群結果同時兼具長效性和時效性,避免了分群結果的嚴重抖動,在為業務的及時性提供支援的同時,提高了業務的平穩度。
Description
本申請涉及資料處理技術領域,尤其涉及一種資料流的分群方法和裝置。
隨著互聯網的發展和普及,各種基於網路進行的活動都在源源不斷的產生資料,呈現出資料流的狀態。從資料流中儘快找出有意義的模式或規則,近乎即時的為業務決策、業務程序控制等提供輔助支援,成為利用資料的重要方式。 分群作為一種常用的資料採擷方法,被廣泛應用在用戶分類、文本分析等各方面。分群是按資料記錄的內在相似性將資料集(也稱點集,每個點為一個資料記錄)劃分為多個類別,使類別內的點相似度較大而類別間的點相似度較小。 現有技術中,一種對資料流的分群方式是,按照一定的規則(如椎體時間視窗、滑動視窗等)從某系統產生的資料流中提取出一段資料,針對這段資料構成的資料集,採用某種分群演算法進行分群;然後按照一樣的規則提取下一段資料,再用同樣的分群演算法對下一段資料構成的資料集分群。由於各段資料反映了不同時間段的業務情形,而業務情形往往會發生暫時性的變化,對各個資料段分別分群得出的分群結果會隨之出現較大的變動,導致分群結果抖動嚴重,使得根據分群結果進行的業務發生跳變,影響業務的平穩性和效果。
有鑑於此,本申請提供一種資料流的分群方法,所述資料流包括具有時序關係的若干個資料分區,所述方法包括: 獲取當前資料分區之前的N個先前資料分區的結果模型,N為不小於2的自然數;所述每個結果模型根據對應的先前資料分區的分群結果產生,每個結果模型中包括每個類別的代表參數; 根據所述N個結果模型確定當前資料分區的起始模型,所述起始模型中每個類別的代表參數由所述N個結果模型中相同類別的代表參數確定; 採用起始模型對當前資料分區中的資料記錄進行分群。 本申請還提供了一種資料流的分群裝置,所述資料流包括具有時序關係的若干個資料分區,所述裝置包括: 先前結果模型獲取單元,用於獲取當前資料分區之前的N個先前資料分區的結果模型,N為不小於2的自然數;所述每個結果模型根據對應的先前資料分區的分群結果產生,每個結果模型中包括每個類別的代表參數; 起始模型產生單元,用於根據所述N個結果模型確定當前資料分區的起始模型,所述起始模型中每個類別的代表參數由所述N個結果模型中相同類別的代表參數確定; 當前分區分群單元,用於採用起始模型對當前資料分區中的資料記錄進行分群。 由以上技術方案可見,本申請的實施例中,根據當前資料分區之前的至少兩個先前資料分區的結果模型,來確定當前資料分區的起始模型,並以起始模型中的類別為起點來進行當前資料分區的分群,使得先前資料分區的歷史資料能夠對當前資料分區的分群產生影響,使當前資料分區的分群結果同時兼具長效性和時效性,避免了分群結果的嚴重抖動,在為業務的及時性提供支援的同時,提高了業務的平穩度。
在分群分析中,點集在分群過程中形成的每一種類別劃分情形都可以對應於一個分群模型,包括作為一些分群演算法啟動時的類別劃分初始值、分群演算法反覆運算過程中的類別劃分情形、以及作為分群結果的類別劃分情形。分群模型中記載了每個類別的抽象表述。類別的抽象表述由屬於該類別的所有的點確定,在分群演算法中採用類別的抽象表述來計算點與類別之間的相似程度,和/或類別與類別之間的相似程度,從而決定點與類別之間的歸屬關係,以及類別與類別之間的劃分關係。 類別的抽象表述由表述形式和代表參數兩部分構建而成,類別的表述形式由所採用的分群演算法確定,例如,GMM(Gaussian Mixture Model,高斯混合模型)分群演算法中類別的表述形式為一種高斯分佈;k-means(k均值)分群演算法中類別的表述形式為類別中心點。由於一個分群模型中所有的類別都採用相同的表述形式,類別的不同在於其代表參數的不同,因此每個類別的代表參數可以即可唯一的確定一個類別,同樣,代表參數也確定了點集中的點和該代表參數所屬類別的相似程度,以及該代表參數所屬類別和其他類別的相似程度。在分群演算法的反覆運算過程中,代表參數通常隨著其所屬類別中點的增加而有所變化。 代表參數可以是一個到多個,其數量和具體形式與所採用的分群演算法相關,仍以資料流的分群採用GMM和k-means分群演算法為例,GMM中類別的代表參數通常是類別的均值和標準差,k-means中類別的代表參數通常是類別中心點的位置(如K維空間中的一個座標點,K為自然數)。 在第一點集的分群過程中產生的分群模型,可以用來對具有相同或相類似資料內在屬性的第二點集進行分群,這種情況下第二點集的分群結果不僅取決於第二點集中的資料分佈,還會受到第一點集中資料分佈的影響。例如,第一點集的結果模型(本申請中將按照一個點集的分群結果產生的分群模型稱為該點集的結果模型)可以作為具有類似資料內在屬性的第二點集的起始模型(本申請中將在對一個點集進行分群時,用來確定分群演算法中類別初始值的分群模型稱為該點集的起始模型),這種情形下相當於對第一點集和第二點集的並集進行分群,第一點集的資料分佈將完全體現在對第二點集的分群結果中。 在對資料流進行分群時,由於資料流中的點是隨時間陸續產生的,作為分群對象的點集是分別對應於不同時間段的一個個資料流的片段,本申請中稱之為資料分區,每個資料分區即為一個點集。由於資料流中的點通常是來自同一個業務系統、甚至是來自同一個業務過程,這些對應於不同時間段的資料分區中點往往具有相類似的內在資料屬性,因此可以借鑒由對應於之前時間段的資料分區在分群過程中產生的分群模型,來對當前待分類的資料分區進行分群。這樣,對當前資料分區的分群結果中將體現之前資料分區的資料分佈特徵,從而將業務的延續性帶入到對當前資料分區的分群中,使得分群結果隨時間平穩變化,避免了分群結果過大波動。 有鑑於此,本申請的實施例提出一種新的資料流的分群方法,由之前至少兩個資料分區的結果模型中每個類別的代表參數,產生當前資料分區的起始模型中同一類別的代表參數,來確定當前資料分區的起始模型,並利用該起始模型對當前資料分區進行分群,從而使當前資料分區的分群結果既能很好地體現較長時間視窗內的長期資料特性,又能捕獲當前時間段的短期資料變化,避免了因資料的短暫變化而導致的分群結果過大波動,以解決現有技術中存在的問題。 本申請的實施例可以運行在任何具有計算和儲存能力的設備上,如手機、平板電腦、PC(Personal Computer,個人電腦)、筆記本、伺服器等設備;還可以由運行在兩個或兩個以上設備的邏輯節點來實現本申請實施例中的各項功能。 本申請的實施例中,資料流的分群方法的流程如圖1所示。 步驟110,獲取當前資料分區之前的N(N為不小於2的自然數)個先前資料分區的結果模型。 本申請的實施例中,資料流中包括若干個具有時序關係的資料分區,每個資料分區相當於是用一個時間視窗在資料流中截取的一段資料,兩個時序上相鄰的資料分區的時間視窗可以有部分重合(即有部分資料同時屬於兩個資料分區,如圖2-1所示),可以相鄰(即將資料流劃分為各個資料分區,如圖2-2所示),也可以有一定間隔(即資料流中有的資料不屬於任何一個資料分區,如圖2-3所示),不做限定。另外,各個資料分區的時間視窗的長度可以有相同或不同,資料分區中包括的點的數量也可以相同或不同,同樣不做限定。 當前資料分區是將要進行分群的資料分區,先前資料分區是在時序上先於當前資料分區、已經完成分群的資料分區。每個先前資料分區的結果模型根據該先前資料分區的分群結果產生,其中包括在對該分區完成分群時,每個類別的代表參數。 可以在每個資料分區分群結束時,產生該資料分區的結果模型,並將結果模型保存起來,在本步驟中讀取保存的先前資料分區的結果模型即可。 回到圖1,步驟120,根據N個先前資料分區的結果模型確定當前資料分區的起始模型,起始模型中每個類別的代表參數由該N個結果模型中相同類別的代表參數確定。 可以考慮所採用分群演算法的類型、資料流的業務變化速度等因素來決定從N個結果模型產生當前資料分區的起始模型的具體方式,本申請的實施例不做限定。以下以兩種應用場景為例進行說明。 在第一種應用場景中,資料流分群所採用的分群演算法為固定類別數量的分群演算法。固定類別數量的分群演算法有設定的類別個數,每個結果模型中都有相同的M(M為大於等於2的自然數)個類別,但通常同一個類別在不同的結果模型中有不同的代表參數。當前資料分區的起始模型也有與結果模型中相同的M個類別,採用每個類別在N個結果模型中的代表參數,按照預定融合演算法計算出該類別在起始模型中的代表參數,即可確定起始模型。 例如,可以按照N個線上資料分區的結果模型中相同類別的相同代表參數的加權和,來確定起始模型中該類別的該代表參數。在設定權值時,可以使某個代表參數的權值與其所屬結果模型對應的先前資料分區與當前資料分區的時間間隔相關,時間間隔越近,權值越高。這樣,既可以通過採用N個結果模型的代表參數來使得對應時間段的分群結果反映在對當前資料分區的分群中,以體現歷史資料的長期影響;又能側重於臨近時間段的資料分佈情況,以充分反映短期的資料變化。 在第一種應用場景的一個具體的例子中,資料流的分群採用k-means演算法,固定類別數量為M。k-means演算法中,類別的代表參數為類別中心點的位置。當前資料分區的起始模型可以由式1確定:式1 式1中,為當前資料分區的起始模型中第t個類別的中心點位置,為第i個先前資料分區的結果模型中第t個類別的中心點位置,為第i個先前資料分區的結果模型的權重。 在第二種應用場景中,資料流分群所採用的分群演算法為不固定類別數量的分群演算法。不固定類別數量的分群演算法根據點集中點的分佈情況確定將點集劃分為多少個類別,如DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有雜訊的基於密度的分群方法)演算法等。這種應用場景中,N個先前資料分區的結果模型可能會包括不同的類別。在確定當前資料分區的起始模型時,可以將N個結果模型中包括每個類別都作為當前資料分區的起始模型中的類別(即起始模型中類別的集合是N個結果模型中類別集合的並集),然後採用每個類別在包括該類別的結果模型中的代表參數,按照預定融合演算法計算出該類別在起始模型中的代表參數,即可確定起始模型。 第二種應用場景中的預定融合演算法可以參照第一種應用場景實現,如採用加權和的計算方式。由於在分群過程中可能產生新的類別,第二種應用場景中可能存在某個起始模型中的類別,只在P(P為小於N的自然數)個結果模型中存在的情形,此時,預定融合演算法可以按照P個結果模型中該類別的代表參數,計算得出該類別在起始模型中的代表參數。 類似的,在第二種應用場景的分群過程中,隨時間推移也可能會發生有的類別已經不再適合當前資料分佈的情形。可以對先前資料分區的分群結果進行監測,當某個類別在至少一個先前資料分區的分群結果滿足預定刪除條件時,在當前資料分區的起始模型中刪除該類別。預定刪除條件可以根據應用場景中資料的變化速度和變動程度等因素來設置,例如,可以設置為連續P個先前資料分區的分群結果中,屬於該類別的點數少於總點數的某個百分比閾值。 需要說明的是,不同結果模型中的相同類別是指對於依據分群結果所進行的業務而言,對這些屬於不同結果模型的類別的業務處理、或者依據這些類別所進行業務過程是一致的。換言之,就分群分析的目的而言,這些屬於不同結果模型的類別可以認為是同一個類別。判斷不同結果模型中的哪些類別是相同類別的方式,可以根據應用場景的具體特點來確定。例如,在上述第一種應用場景中,可以將最初N個結果模型(即資料流的第1個到第N個資料分區的結果模型)作為起始模型,對進行過類別標記的點集進行分群,N個分群結果中包括相同已標記類別的點的類別即是相同的類別。再如,在上述第二種應用場景中,可以由人工將最初N個結果模型中的相同類別標注出來。在第三個例子中,對第一種應用場景,可以分別計算第一個結果模型中類別a與第二個結果模型中M個類別的距離,將距離最近的一個類別作為第二個結果模型中與類別a相同的類別;以此類推,即可得到所有的相同類別。 步驟130,採用起始模型對當前資料分區中的資料記錄進行分群。 在確定當前資料分區的起始模型後,以起始模型中的類別作為初始值,來以當前資料分區為對象運行所採用的分群演算法時的初始值,對當前資料分區中的點進行分群。 在分群演算法運行完畢後,得到當前資料分區的分群結果。可以按照當前資料分區的分群結果產生當前資料分區的結果模型,以便用來對後續的資料分區進行分群。 需要說明的是,當對資料流的第1個到第N個資料分區進行分群時,即第1個到第N個資料分區為當前資料分區時,其先前資料分區的數量不到N個,此時可以按照現有技術中的方式分別對第1個到第N個資料分區進行分群,將以這N個分群結果產生的分群模型作為第(N+1)個資料分區起始模型的基礎;也可以按照現有技術中的方式得到第1個資料分區的分群結果,再利用第1個到第(L-1)(L為大於等於2並且小於N的自然數)個資料分區的結果模型確定第L個資料分區起始模型;還可以以其他方式對第1個到第N個資料分區進行分群;本申請的實施例不做限定。 可見,本申請的實施例中,根據之前N個資料分區的結果模型中每個類別的代表參數,產生當前資料分區的起始模型中同一類別的代表參數,從而確定當前資料分區的起始模型,並以起始模型中的類別為起點來進行當前資料分區的分群,使得先前資料分區的歷史資料能夠對當前資料分區的分群產生影響,既能在當前資料分區的分群結果中體現較長時間視窗內的長期資料特性,又能及時反映當前時間段的短期資料變化,避免了分群結果的嚴重抖動,在為業務的及時性提供支援的同時,提高了業務的平穩度。 在本申請的一個應用示例中,採用GMM分群演算法對資料流進行分群。來自業務系統的流式資料按照用戶設置的時間段,被切分成多個資料分區(如每10分鐘的資料保存為1個資料分區),按照時間先後的順序進行儲存。儲存的資料分區可以在用戶設置的老化時間到後被刪除,以節省儲存空間。 對各個資料分區進行分群的處理流程如圖3所示。設預設的類別數量為M,對GMM分群演算法,每個類別為一個高斯分佈。 步驟310,對第1個、第2個和第3個資料分區,分別採用GMM演算法進行分群,按照分群結果產生結果模型,每個結果模型中包括M個高斯分佈的均值和標準差(類別的代表參數)。 步驟320,將第1個、第2個和第3個資料分區的結果模型保存在歷史模型庫中。 步驟330,令Q=4,以第4個資料分區為當前資料分區。 步驟340,從歷史模型庫中讀取當前資料分區之前的3個資料分區的結果模型,從中提取出M個高斯分佈的均值和標準差,按照式2和式3確定當前資料分區起始模型的M個高斯分佈的均值和標準差:式2式3 式2中,為第Q個資料分區(即當前資料分區)的起始模型中第t個高斯分佈的均值,為第i個資料分區的結果模型中第t個高斯分佈的均值。式3中,為第Q個資料分區的起始模型中第t個高斯分佈的標準差,為第i個資料分區的結果模型中第t個高斯分佈的標準差。 步驟350,以當前資料分區的起始模型為GMM分群演算法的初始值,運行GMM分群演算法,對當前資料分區中的點進行分群。 步驟360,根據當前資料分區的分群結果產生當前資料分區的結果模型,保存在歷史模型庫中。 步驟370,將Q加1,以下一個資料分區作為當前資料分區,轉步驟340。 與上述流程實現對應,本申請的實施例還提供了一種資料流的分群裝置。該裝置可以通過軟體實現,也可以通過硬體或者軟硬體結合的方式實現。以軟體實現為例,作為邏輯意義上的裝置,是通過所在設備的CPU(Central Process Unit,中央處理器)將對應的電腦程式指令讀取到記憶體中運行形成的。從硬體層面而言,除了圖4所示的CPU、記憶體以及非揮發性記憶體之外,資料流的分群裝置所在的設備通常還包括用於進行無線訊號收發的晶片等其他硬體,和/或用於實現網路通信功能的板卡等其他硬體。 圖5所示為本申請實施例提供的一種資料流的分群裝置,所述資料流包括具有時序關係的若干個資料分區,所述裝置包括先前結果模型獲取單元、起始模型產生單元和當前分區分群單元,其中:先前結果模型獲取單元用於獲取當前資料分區之前的N個先前資料分區的結果模型,N為不小於2的自然數;所述每個結果模型根據對應的先前資料分區的分群結果產生,每個結果模型中包括每個類別的代表參數;起始模型產生單元用於根據所述N個結果模型確定當前資料分區的起始模型,所述起始模型中每個類別的代表參數由所述N個結果模型中相同類別的代表參數確定;當前分區分群單元用於採用起始模型對當前資料分區中的資料記錄進行分群。 一個例子中,所述起始模型中每個類別的代表參數由所述N個結果模型中相同類別的代表參數確定,包括:起始模型中每個類別的每個代表參數由所述N個結果模型中相同類別的相同代表參數的加權和確定。 上述例子中,所述代表參數的權值與其所屬結果模型對應的先前資料分區與當前資料分區的時間間隔相關,時間間隔越近,權值越高。 可選的,所述裝置還包括:當前結果模型產生單元,用於按照當前資料分區的分群結果產生當前資料分區的結果模型,用於對後續的資料分區進行分群。 可選的,所述資料流的分群採用k均值分群演算法,所述代表參數包括類別中心點的位置;或,所述資料流的分群採用高斯混合模型分群演算法,所述代表參數包括類別的均值和標準差。 一種實現方式中,所述資料流的分群採用不固定類別數量的分群演算法;所述起始模型產生單元包括:類別組合模組,用於將N個結果模型中包括每個類別均作為所述起始模型中的類別。 上述實現方式中,所述起始模型產生單元還可以包括:類別刪除模組,用於當某個類別在至少一個先前資料分區的分群結果滿足預定刪除條件時,在當前資料分區的起始模型中刪除所述類別。 以上所述僅為本申請的較佳實施例而已,並不用以限制本申請,凡在本申請的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本申請保護的範圍之內。 在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。 記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體 (RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。 電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體 (EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調製的資料訊號和載波。 還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。 本領域技術人員應明白,本申請的實施例可提供為方法、系統或電腦程式產品。因此,本申請可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本申請可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
110、120、130、310、320、330、340、350、360、370‧‧‧步驟
圖1是本申請實施例中一種資料流的分群方法的流程圖; 圖2是本申請實施例中三種在資料流中提取資料分區的方式的示意圖; 圖3是本申請應用示例中一種對資料分區進行分群的處理流程圖; 圖4是運行本申請實施例的設備的一種硬體結構圖; 圖5是本申請實施例中一種資料流的分群裝置的邏輯結構圖。
Claims (14)
- 一種資料流的分群方法,所述資料流包括具有時序關係的若干個資料分區,所述方法包括: 獲取當前資料分區之前的N個先前資料分區的結果模型,N為不小於2的自然數;所述每個結果模型根據對應的先前資料分區的分群結果產生,每個結果模型中包括每個類別的代表參數; 根據所述N個結果模型確定當前資料分區的起始模型,所述起始模型中每個類別的代表參數由所述N個結果模型中相同類別的代表參數確定; 採用起始模型對當前資料分區中的資料記錄進行分群。
- 根據申請專利範圍第1項所述的方法,所述起始模型中每個類別的代表參數由所述N個結果模型中相同類別的代表參數確定,包括:起始模型中每個類別的每個代表參數由所述N個結果模型中相同類別的相同代表參數的加權和確定。
- 根據申請專利範圍第2項所述的方法,所述代表參數的權值與其所屬結果模型對應的先前資料分區與當前資料分區的時間間隔相關,時間間隔越近,權值越高。
- 根據申請專利範圍第1項所述的方法,所述方法還包括:按照當前資料分區的分群結果產生當前資料分區的結果模型,用於對後續的資料分區進行分群。
- 根據申請專利範圍第1項所述的方法,所述資料流的分群採用k均值分群演算法,所述代表參數包括類別中心點的位置; 或, 所述資料流的分群採用高斯混合模型分群演算法,所述代表參數包括類別的均值和標準差。
- 根據申請專利範圍第1項所述的方法,所述資料流的分群採用不固定類別數量的分群演算法; 所述根據N個結果模型確定當前資料分區的起始模型,包括:將N個結果模型中包括每個類別均作為所述起始模型中的類別。
- 根據申請專利範圍第6項所述的方法,所述根據N個結果模型確定當前資料分區的起始模型,還包括:當某個類別在至少一個先前資料分區的分群結果滿足預定刪除條件時,在當前資料分區的起始模型中刪除所述類別。
- 一種資料流的分群裝置,所述資料流包括具有時序關係的若干個資料分區,所述裝置包括: 先前結果模型獲取單元,用於獲取當前資料分區之前的N個先前資料分區的結果模型,N為不小於2的自然數;所述每個結果模型根據對應的先前資料分區的分群結果產生,每個結果模型中包括每個類別的代表參數; 起始模型產生單元,用於根據所述N個結果模型確定當前資料分區的起始模型,所述起始模型中每個類別的代表參數由所述N個結果模型中相同類別的代表參數確定; 當前分區分群單元,用於採用起始模型對當前資料分區中的資料記錄進行分群。
- 根據申請專利範圍第8項所述的裝置,所述起始模型中每個類別的代表參數由所述N個結果模型中相同類別的代表參數確定,包括:起始模型中每個類別的每個代表參數由所述N個結果模型中相同類別的相同代表參數的加權和確定。
- 根據申請專利範圍第9項所述的裝置,所述代表參數的權值與其所屬結果模型對應的先前資料分區與當前資料分區的時間間隔相關,時間間隔越近,權值越高。
- 根據申請專利範圍第8項所述的裝置,所述裝置還包括:當前結果模型產生單元,用於按照當前資料分區的分群結果產生當前資料分區的結果模型,用於對後續的資料分區進行分群。
- 根據申請專利範圍第8項所述的裝置,所述資料流的分群採用k均值分群演算法,所述代表參數包括類別中心點的位置; 或, 所述資料流的分群採用高斯混合模型分群演算法,所述代表參數包括類別的均值和標準差。
- 根據申請專利範圍第8項所述的裝置,所述資料流的分群採用不固定類別數量的分群演算法; 所述起始模型產生單元包括:類別組合模組,用於將N個結果模型中包括每個類別均作為所述起始模型中的類別。
- 根據申請專利範圍第13項所述的裝置,所述起始模型產生單元還包括:類別刪除模組,用於當某個類別在至少一個先前資料分區的分群結果滿足預定刪除條件時,在當前資料分區的起始模型中刪除所述類別。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710400902.8A CN107392220B (zh) | 2017-05-31 | 2017-05-31 | 数据流的聚类方法和装置 |
| ??201710400902.8 | 2017-05-31 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201903631A TW201903631A (zh) | 2019-01-16 |
| TWI665568B true TWI665568B (zh) | 2019-07-11 |
Family
ID=60331776
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW107108413A TWI665568B (zh) | 2017-05-31 | 2018-03-13 | 資料流的分群方法和裝置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US11226993B2 (zh) |
| EP (1) | EP3614309A4 (zh) |
| CN (1) | CN107392220B (zh) |
| TW (1) | TWI665568B (zh) |
| WO (1) | WO2018219284A1 (zh) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107392220B (zh) * | 2017-05-31 | 2020-05-05 | 创新先进技术有限公司 | 数据流的聚类方法和装置 |
| US11429616B2 (en) * | 2019-04-02 | 2022-08-30 | Keysight Technologies, Inc. | Data recording and analysis system |
| US12032600B1 (en) * | 2021-06-29 | 2024-07-09 | Keysight Technologies, Inc. | Method and system for recording and analyzing large amounts of data |
| CN119848143B (zh) * | 2025-01-15 | 2025-08-19 | 广州宽恒信息科技有限公司 | 一种基于分布式计算模型的数据处理方法及设备 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW200809603A (en) * | 2006-08-02 | 2008-02-16 | Mediatek Inc | Methods for searching data recorded in a storage and systems that allow playback utilizing trick-mode operations |
| TW201009701A (en) * | 2008-07-16 | 2010-03-01 | Nokia Corp | Method and apparatus for track and track subset grouping |
| US8661251B2 (en) * | 2005-10-17 | 2014-02-25 | Oberthur Technologies | Method and device for creating a group signature and related method and device for verifying a group signature |
| TW201517607A (zh) * | 2011-12-28 | 2015-05-01 | Ind Tech Res Inst | 播放複合濃縮串流之方法以及播放器 |
Family Cites Families (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20020029207A1 (en) | 2000-02-28 | 2002-03-07 | Hyperroll, Inc. | Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein |
| US6917839B2 (en) | 2000-06-09 | 2005-07-12 | Intellectual Assets Llc | Surveillance system and method having an operating mode partitioned fault classification model |
| AU2001273306A1 (en) | 2000-07-05 | 2002-01-14 | Camo, Inc. | Method and system for the dynamic analysis of data |
| US6687696B2 (en) | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
| JP2006350730A (ja) | 2005-06-16 | 2006-12-28 | Toshiba Corp | クラスタリング装置、クラスタリング方法およびプログラム |
| US20130254787A1 (en) | 2006-05-02 | 2013-09-26 | Invidi Technologies Corporation | Method and apparatus to perform real-time audience estimation and commercial selection suitable for targeted advertising |
| US8069190B2 (en) | 2007-12-27 | 2011-11-29 | Cloudscale, Inc. | System and methodology for parallel stream processing |
| US9767427B2 (en) | 2009-04-30 | 2017-09-19 | Hewlett Packard Enterprise Development Lp | Modeling multi-dimensional sequence data over streams |
| US8375032B2 (en) | 2009-06-25 | 2013-02-12 | University Of Tennessee Research Foundation | Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling |
| US8595234B2 (en) | 2010-05-17 | 2013-11-26 | Wal-Mart Stores, Inc. | Processing data feeds |
| US9015084B2 (en) | 2011-10-20 | 2015-04-21 | Gil Thieberger | Estimating affective response to a token instance of interest |
| CN103136247B (zh) | 2011-11-29 | 2015-12-02 | 阿里巴巴集团控股有限公司 | 属性数据区间划分方法及装置 |
| US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
| US9336533B2 (en) | 2013-03-13 | 2016-05-10 | Salesforce.Com, Inc. | Systems, methods, and apparatuses for implementing a similar command with a predictive query interface |
| US10205640B2 (en) | 2013-04-11 | 2019-02-12 | Oracle International Corporation | Seasonal trending, forecasting, anomaly detection, and endpoint prediction of java heap usage |
| CN103353883B (zh) | 2013-06-19 | 2017-02-22 | 华南师范大学 | 一种按需聚类的大数据流式聚类处理系统及方法 |
| CN103577602A (zh) * | 2013-11-18 | 2014-02-12 | 浪潮(北京)电子信息产业有限公司 | 一种二次聚类方法及系统 |
| US9244978B2 (en) | 2014-06-11 | 2016-01-26 | Oracle International Corporation | Custom partitioning of a data stream |
| US10055691B2 (en) * | 2014-09-08 | 2018-08-21 | Pivotal Software, Inc. | Stream processing with dynamic event routing |
| CN106156030A (zh) | 2014-09-18 | 2016-11-23 | 华为技术有限公司 | 社交网络中预测信息传播的方法及设备 |
| US9886486B2 (en) | 2014-09-24 | 2018-02-06 | Oracle International Corporation | Enriching events with dynamically typed big data for event processing |
| CN105989852A (zh) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
| US20160379134A1 (en) * | 2015-06-24 | 2016-12-29 | International Business Machines Corporation | Cluster based desktop management services |
| CN105468669B (zh) * | 2015-10-13 | 2019-05-21 | 中国科学院信息工程研究所 | 一种融合用户关系的自适应微博话题追踪方法 |
| US10832168B2 (en) * | 2017-01-10 | 2020-11-10 | Crowdstrike, Inc. | Computational modeling and classification of data streams |
| CN107392220B (zh) * | 2017-05-31 | 2020-05-05 | 创新先进技术有限公司 | 数据流的聚类方法和装置 |
-
2017
- 2017-05-31 CN CN201710400902.8A patent/CN107392220B/zh active Active
-
2018
- 2018-03-13 TW TW107108413A patent/TWI665568B/zh active
- 2018-05-30 WO PCT/CN2018/088948 patent/WO2018219284A1/zh not_active Ceased
- 2018-05-30 EP EP18808698.7A patent/EP3614309A4/en not_active Ceased
-
2019
- 2019-11-15 US US16/684,831 patent/US11226993B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8661251B2 (en) * | 2005-10-17 | 2014-02-25 | Oberthur Technologies | Method and device for creating a group signature and related method and device for verifying a group signature |
| TW200809603A (en) * | 2006-08-02 | 2008-02-16 | Mediatek Inc | Methods for searching data recorded in a storage and systems that allow playback utilizing trick-mode operations |
| TW201009701A (en) * | 2008-07-16 | 2010-03-01 | Nokia Corp | Method and apparatus for track and track subset grouping |
| TW201517607A (zh) * | 2011-12-28 | 2015-05-01 | Ind Tech Res Inst | 播放複合濃縮串流之方法以及播放器 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3614309A4 (en) | 2020-04-29 |
| TW201903631A (zh) | 2019-01-16 |
| CN107392220B (zh) | 2020-05-05 |
| EP3614309A1 (en) | 2020-02-26 |
| WO2018219284A1 (zh) | 2018-12-06 |
| CN107392220A (zh) | 2017-11-24 |
| US20200081905A1 (en) | 2020-03-12 |
| US11226993B2 (en) | 2022-01-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI718643B (zh) | 異常群體識別方法及裝置 | |
| TWI696124B (zh) | 模型整合方法及裝置 | |
| US20120158623A1 (en) | Visualizing machine learning accuracy | |
| TWI665568B (zh) | 資料流的分群方法和裝置 | |
| TW201933232A (zh) | 店鋪資訊推薦方法、裝置及用戶端 | |
| TW201833851A (zh) | 風控事件自動處理方法及裝置 | |
| CN107679856B (zh) | 基于交易的业务控制方法和装置 | |
| US11144538B2 (en) | Predictive database index modification | |
| CN114356893A (zh) | 基于机器学习的元数据调优方法、装置、设备及存储介质 | |
| KR20190015410A (ko) | 학습-기반 그룹 태깅을 위한 시스템 및 방법 | |
| WO2017198087A1 (en) | Feature-set augmentation using knowledge engine | |
| CN115248815A (zh) | 预测查询处理 | |
| US10963519B2 (en) | Attribute diversity for frequent pattern analysis | |
| CN109218211A (zh) | 数据流的控制策略中阈值的调整方法、装置和设备 | |
| CN111259975B (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
| Sun | Personalized music recommendation algorithm based on spark platform | |
| US11308130B1 (en) | Constructing ground truth when classifying data | |
| CN114611850A (zh) | 业务分析方法、装置及电子设备 | |
| CN114095503B (zh) | 一种基于区块链的联邦学习参与节点选择方法 | |
| CN111737266A (zh) | 区块数据访问方法、区块数据存储方法及装置 | |
| CN111275106A (zh) | 对抗样本生成方法、装置及计算机设备 | |
| CN118838877A (zh) | 一种分布式数据均衡方法、装置、设备和存储介质 | |
| US12332850B2 (en) | Systems and methods for architecture embeddings for efficient dynamic synthetic data generation | |
| CN117743916A (zh) | 一种模型训练方法、异常信息检测方法及装置 | |
| HK1247375B (zh) | 数据流的聚类方法和装置 |