TWI852805B

TWI852805B - 勒索軟體的偵測方法及偵測系統

Info

Publication number: TWI852805B
Application number: TW112140154A
Authority: TW
Inventors: 鍾勝民
Original assignee: 台達電子工業股份有限公司
Priority date: 2023-04-25
Filing date: 2023-10-20
Publication date: 2024-08-11
Also published as: TW202443423A; EP4455918B1; US20240362328A1; WO2024221864A1; EP4455918A1; EP4455918C0; CN118839332A

Abstract

一種勒索軟體的偵測方法，應用於至少具有由多個語義提取器組成的語義提取模組的偵測系統，並且偵測方法包括：接收具有第一ID的第一檔案；將第一檔案匯入語義提取模組，並由語義提取模組輸出第一檔案的第一語義特徵；接收具有第二ID的第二檔案；將第二檔案匯入語義提取模組，並由語義提取模組輸出第二檔案的第二語義特徵；於判斷第一ID與第二ID相符時，計算第一語義特徵與第二語義特徵的距離；及，於距離超過門檻值時進行告警。

Description

勒索軟體的偵測方法及偵測系統

本發明涉及偵測方法及偵測系統，尤其涉及勒索軟體的偵測方法及偵測系統。

近年來，勒索軟體(Ransomware)的威脅在各行各業中都在迅速增加，儘管目前市面上已存在許多應對的網路安全工具和服務，但勒索軟體的威脅並沒有減緩的跡象。其中，中小型企業(SME)由於其扁平的網路結構以及簡單的訪問控制策略，特別容易成為網路犯罪分子使用勒索軟體的主要攻擊目標。

一般來說，中小企業缺乏資源來實施大型企業使用的複雜且昂貴的網路安全解決方案。並且渴求簡單且又能夠負擔的措施來保護其系統。基於此考量，中小企業常將備份作為最終的解決方案。與其他較為複雜且昂貴的安全措施組合(包括新進防火牆(advanced firewalls)、下世代防毒軟體(next-generation antivirus)、入侵檢測系統(intrusion detection system)和應用程序白名單(application whitelisting)等)相比，備份解決方案相對簡單且便宜，屬於直接且具高經濟效益的資料保護手段。

然而，傳統的備份解決方案在進行檔案備份時，無法確定檔案是否已被惡意軟體破壞。具體地，傳統的備份解決方案無法區分未損壞檔案(not-corrupted files, 又稱為乾淨檔案(clean files))與損壞檔案(corrupted files, 又稱為不乾淨檔案(unclean files))，因此會無意識地備份到損壞檔案，進而使得備份快照(backup snapshots)中混雜了乾淨檔案以及損壞檔案。當備份快照的數量具有上限時，所述傳統的備份解決方案通常會直接刪除最舊版本(但可能是乾淨的)的檔案以接收新版本的檔案(但可能是不乾淨的)，這樣的動作最終將可能導致需要還原檔案時卻無有效的備份快照可供使用。

即便備份解決方案能保留無限數量的備份快照，當被攻擊而須進行還原檔案時，檔案所有者必須以人工方式先從眾多備份檔案中區別出乾淨檔案和不乾淨檔案，光這一步就會使復原程序(restoration process)成為一個艱鉅且耗時的痛苦過程。

是以，傳統的備份解決方案若沒有輔以有效的勒索軟體偵測方法，將無法有效抵禦勒索軟體的攻擊。

本發明的主要目的，在於提供一種勒索軟體的偵測方法及偵測系統，主要可基於檔案中的至少一個語義特徵是否有被大幅變動來判斷檔案是否遭受勒索軟體的攻擊。

所述語義特徵可以被用來分辨一個檔案與其他檔案的檔案內容的差異。於下列說明中，多個實施例被舉出來說明可以被作為所述語義特徵來使用的特徵。這些實施例僅用於範圍說明目的被揭露，但不對本發明進行任何限制。

為了達成上述目的，本發明的勒索軟體的偵測方法主要包括下列步驟：

a)接收具有一第一ID的一第一檔案；

b)將該第一檔案匯入由多個語義提取器組成的一語義提取模組，並由該語義提取模組輸出該第一檔案的一第一語義特徵；

c)接收具有一第二ID的一第二檔案；

d)將該第二檔案匯入該語義提取模組，並由該語義提取模組輸出該第二檔案的一第二語義特徵；

e)判斷該第一ID與該第二ID是否相符；

f)於該第一ID與該第二ID相符時認定該第一檔案與該第二檔案為相同檔案的不同版本，並計算該第一語義特徵與該第二語義特徵的一距離；及

g)於該距離超過一門檻值時進行告警。

為了達成上述目的，本發明的勒索軟體的偵測系統包括：

一檔案匯入模組，被配置來接收具有一第一ID的一第一檔案以及具有一第二ID的一第二檔案；

一語義提取模組，連接該檔案匯入模組，由多個語義提取器組成，並且被配置來提取該第一檔案的一第一語義特徵以及提取該第二檔案的一第二語義特徵；

一比較模組，連接該語義提取模組，被配置來判斷該第一ID與該第二ID是否相符，並且於該第一ID與該第二ID相符時認定該第一檔案與該第二檔案為相同檔案的不同版本，並計算該第一語義特徵與該第二語義特徵的一距離；及

一告警模組，連接該比較模組，被配置來於該比較模組判斷該距離超過一門檻值時進行告警。

本發明先對檔案的前後版本進行語義特徵的檢測，判斷檔案為乾淨檔案(未損壞檔案)或已遭受惡意軟體(如勒索軟體)攻擊而成為不乾淨檔案(損壞檔案)，藉此查覺勒索軟體是否已入侵。相對於相關技術，本發明可以使備份解決方案能標註每一個備份檔案的性質(或稱狀態)為乾淨或不乾淨，藉此，可以確保備份解決方案永遠都會保留有至少一個可以被用來執行所需的復原程序的乾淨版本的備份檔案，藉此有效抵禦勒索軟體的攻擊。

茲就本發明之一較佳實施例，配合圖式，詳細說明如後。

一般常見用來偵測勒索軟體的技術方案大致可分為下列幾種類型：(1)監控異常檔案操作；(2)監控異常檔案熵(entropy)；(3)觀察檔案的元數據(metadata)；及(4)上述技術方案的綜合使用。然而，第(1)類型的技術方案偵測不到勒索軟體以緩慢速率侵蝕檔案的攻擊手法，第(2)類型的技術方案雖然是基於檔案內容來實現，但容易因為部分檔案的檔案類型本質上具有高熵(extropy)而誤發告警(false alarm)，而第(3)類型的技術方案在勒索軟體沒有對檔案的元數據進行修改與破壞時，就無法偵測勒索軟體的攻擊痕跡。

本發明提供一種新穎的方法及系統來偵測勒索軟體，包括傳統解決方案難以處理或無法處理的勒索軟體類型。本發明的技術方案可以有效地判斷一個檔案為乾淨檔案或已被勒索軟體所破壞(即，不乾淨檔案)，因此可以顯著地提昇對應的備份解決方案或備份系統在保存各個備份檔案的乾淨版本上的能力，進而降低在遭受勒索軟體的攻擊事件後需要支付贖金的可能性。

統計結果顯示幾乎所有類型的勒索軟體都會對受害檔案的內容造成顯著的語義變化，藉此達到攻擊方向受害方勒索贖金來將檔案復原的目的。作為對抗手段，本發明涉及的方法及系統會比對檔案的前後版本的內容語義的變化，透過此技術手段，無論勒索軟體是否存在潛在進化的可能性，皆可以有效地識別勒索軟體的存在。

首請參閱圖1，為本發明的一實施例的偵測系統的示意圖。如圖1所示，本發明的偵測系統1主要包括檔案匯入模組11、語義提取模組12、比較模組13以及告警模組14，其中語義提取模組12連接檔案匯入模組11，比較模組13連接語義提取模組12，告警模組14連接比較模組13。

於一實施例中，偵測系統1是以軟體或韌體來實現，並且運行於獨立的硬體中。例如，電腦環境中具有處理器的運算裝置或是伺服器都可以運行本發明的偵測系統1，藉此，運算裝置可偵測其所提供或是運行的檔案是否遭受勒索軟體攻擊，而伺服器可偵測其所備份的檔案是否遭受勒索軟體攻擊。於此實施例中，檔案匯入模組11、語義提取模組12、比較模組13以及告警模組14皆為以軟體程式碼實現的軟體模組。

於一實施例中，偵測系統1透過檔案匯入模組11接收第一檔案2，其中第一檔案2具有可辨識的第一ID。於接收第一檔案2後，偵測系統1透過語義提取模組12對第一檔案2進行分析，以提取第一檔案2的第一語義特徵。

於一實施例中，語義提取模組12由多個語義提取器(semantic extractor)121組成。當語義提取模組12從檔案匯入模組11接收第一檔案2後，會將第一檔案2輸入多個語義提取器121進行分析，並且多個語義提取器121分別輸出一筆分析的結果。最後，語義提取模組12組合多個語義提取器121的多筆結果來獲得第一檔案2的第一語義特徵。

本發明中，各個語義提取器121可以基於各種不同形式的提取器來實現，這些語義提取器121可以對文字、圖片、聲音或影片等多種不同型態(但不以此為限)的檔案進行分析，並且從檔案內容中提取出至少一個語義特徵(容後詳述)。

於一實施例中，偵測系統1還透過檔案匯入模組11接收具有可辨識的第二ID的第二檔案3，並且透過語義提取模組12對第二檔案3進行分析，以提取第二檔案3的第二語義特徵。

若第二檔案3與第一檔案2為相同檔案的前後版本，則本發明的偵測系統1可以藉由比對第二檔案3與第一檔案2的語義特徵的差異，判斷後續版本(例如第二檔案3)是否遭受勒索軟體損壞。而於進行比對之前，偵測系統1先確定第二檔案3與第一檔案2是否為相同檔案的前後版本。

於一實施例中，比較模組13先判斷第一檔案2的第一ID與第二檔案3的第二ID是否相符，並且於第一ID與第二ID相符時認定第一檔案2與第二檔案3為相同檔案的前後版本。值得一提的是，勒索軟體可能會或可能不會修改檔案的檔名，因此本發明中，所述相符可以是相同、近似、符合特定規則，或是相異但差異小於門檻值。

第一ID可為第一檔案2的檔名或元數據(metadata)，第二ID可為第二檔案3的檔名或元數據。於一實施例中，比較模組13在第一檔案2與第二檔案3的檔名相同時認定第一ID與第二ID相符。於另一實施例中，比較模組13在第一檔案2與第二檔案3的檔名的漢明距離(hamming distance)相近時認定第一ID與第二ID相符。於又另一實施例中，比較模組13在第一檔案2與第二檔案3的元數據相近時認定第一ID與第二ID相符。

於上述這些實施例中，所述檔名可以是指向一個檔案在檔案系統(file system)中的完整且具體的位置的完整路徑檔名(full-path filename)。於Windows作業系統中，所述完整路徑檔名包括磁碟器號(drive letter，例如”C:”)、目錄名稱(directory (folder) names)，以及檔名(filenames)本身。於Unix及其相似系統中，所述完整路徑檔名包括根路徑符號(root character，例如”/”)、目錄名稱(directory (folder) names)，以及檔名(filenames)本身。

惟，上述僅為本發明的部分具體實施範例，但偵測系統1在判斷第一檔案2與第二檔案3是否為相同檔案的不同版本時，並不以上述的技術手段為限。

於判斷第一ID與第二ID相符之後，比較模組13進一步計算第一檔案2的第一語義特徵與第二檔案3的第二語義特徵間的距離。其中，零或較小的距離被用來代表第一檔案2的檔案內容與第二檔案3的檔案內容相同或是只有適度的改變，也就是說符合使用者的正常編輯痕跡。此時，偵測系統1可以認定後續版本(即，第二檔案3)沒有遭受勒索軟體的攻擊。

若所述距離超過門檻值，代表第一檔案2的檔案內容與第二檔案3的檔案內容具有顯著且異常的變更(substantial and thus abnormal change)。此時，偵測系統1認定後續版本(即，第二檔案3)遭受勒索軟體的攻擊。本發明中，偵測系統1透過告警模組14來於比較模組13判斷所述距離超過一個預設門檻值時，針對檔案的後續版本進行告警。

本發明中，每一個檔案的每一個版本都會經過偵測系統1的上述分析。若一個檔案的後續版本沒有被告警模組14進行告警，則偵測系統1(或後方的備份伺服器)會標記此版本為乾淨版本。反之，若一個檔案的後續版本被告警模組14進行告警，則偵測系統1(或後方的備份伺服器)會標記此版本為不乾淨版本。

請同時參閱圖2，為本發明的一實施例的偵測方法的流程圖。圖2揭露了本發明的偵測方法，所述偵測方法主要應用於如圖1所示的偵測系統1。

如圖2所示，本發明的偵測方法是先由偵測系統1接收具有第一ID的第一檔案2(步驟S20)，並且將第一檔案2匯入語義提取模組12(步驟S21)，以基於語義提取模組12內的多個語義提取器121的結果來輸出第一檔案2的第一語義特徵(步驟S22)。

並且，本發明的偵測方法由偵測系統1接收具有第二ID的第二檔案3(步驟S23)，並且將第二檔案3匯入語義提取模組12(步驟S24)，以基於語義提取模組12內的多個語義提取器121的結果來來輸出第二檔案3的第二語義特徵(步驟S25)。

接著，偵測系統1判斷第一檔案2的第一ID與第二檔案3的第二ID是否相符(步驟S26)。若第一ID與第二ID不相符，代表第一檔案2與第二檔案3並非是相同檔案的前後版本，因此偵測系統1不比對第一檔案2與第二檔案3的語義特徵。

若第一ID與第二ID相符，偵測系統1認定第一檔案2與第二檔案3為相同檔案的前後版本，其中第一檔案2為先前版本，第二檔案3為後續版本。此時，偵測系統1會進一步計算第一檔案2的第一語義特徵與第二檔案3的第二語義特徵間的距離(步驟S27)。並且，偵測系統1判斷在步驟S27中計算的距離是否超過門檻值(步驟S28)，並且於距離超過門檻值時針對第二檔案3進行告警(步驟S29)。

於一實施例中，所述告警被發出是為了將第二檔案3標記為遭受攻擊的不乾淨檔案。

本發明中，偵測系統1可以透過比較模組13來執行距離函數(distance function)，以計算第一語義特徵與第二語義特徵間的距離。於一實施例中，所述語義特徵是以向量的形式呈現，偵測系統1可以計算L1-norm、L2-norm或其他近似的指標(metric)並且輸出計算結果來作為第一語義特徵與第二語義特徵間的距離，但不以此為限。

本發明中，基於偵測系統1所處理的檔案(例如第一檔案2及第二檔案3)的類型或內容的不同，偵測系統1可以採用不同的語義提取器121來組成語義提取模組12，藉此從檔案中提取出可供比較的語義特徵。

於一實施例中，多個語義提取器121包括多個深度神經網路(Deep Neural Network, DNN)。語義提取模組12通過多個深度神經網路來從第一檔案2及第二檔案3的內容中擷取出向量形式的語義特徵，並且分別輸出所擷取的特徵來作為第一檔案2的第一語義特徵以及第二檔案3的第二語義特徵。其中，使用深度神經網路的語義提取器121在第一檔案2與第二檔案3為圖片檔案(picture files)、影像檔案(video files)或聲音檔案(sound files)時，能有效提取出語義特徵。

於一實施例中，所述語義提取器121可以是任何類型的深度神經網路，例如卷積神經網路(Convolutional Neural Networks, CNNs)、循環神經網路(Recurrent Neural Networks, RNNs)或前饋神經網路(Feedforward Neural Networks, FNNs)。並且，語義提取模組12內的多個語義提取器121可以為上述多種類型網路的組合。

值得一提的是，本發明產生語義特徵的目的是要認定相同檔案的前後版本的內容是否發生了顯著變更，換句話說，只要可以評價並比對出兩個檔案內容發生了顯著差異，則偵測系統1產生的語義特徵不必要可被人類解釋(interpretable)。

以一個具有50層隱藏層的深度神經網路為例，一個檔案中可以被人類所解釋的語義特徵可能要在檔案經歷了此深度神經網路的所有50層的程序後才能被取得。在這個深度神經網路中，即使經過前20層的程序後產生的輸出可能難以被人類所理解，但偵測系統1仍可用此輸出來評價並比對相同檔案的前後版本的內容是否發生了顯著變化。於部分實施例中，藉由減少語義特徵擷取程序所使用的深度神經網路的層數，可以提昇整體的處理速度。

於一實施例中，多個語義提取器121包括一或多種不同類型的多個語言分析工具(language analytical tool)。於此實施例中，語義提取模組12通過多個語言分析工具來將第一檔案2及第二檔案3的內容轉換為文字摘要，並且以此文字摘要作為第一檔案2的第一語義特徵以及第二檔案3的第二語義特徵。

於一實施例中，所述語言分析工具可例如為Open AI開發的ChatGPT、Google開發的Bard、Stanford CoreNLP、Amazon Comprehend、Natural Language Toolkit (NLTK)或其他自然語言套件等，不加以限定。

例如，偵測系統1可將第一檔案2與第二檔案3與一個查詢指令(query)共同匯入語義提取模組12使用的多個語言分析工具，所述查詢指令例如為「請用十個形容詞來描述這個檔案的內容」。藉此，多個語言分析工具可以依指令對檔案內容進行分析並且產生文字摘要，而偵測系統1可將文字摘要作為所述第一語義特徵及第二語義特徵，並且基於第一語義特徵與第二語義特徵間的語義距離判斷第二檔案3是否為不乾淨檔案。

值得一提的是，不同的語言分析工具針對同一個檔案可能會產生相同或相近的語義特徵，但不同的語言分析工具給出的語義特徵中可能包含了多個同義詞。於此實施例中，偵測系統1在判斷第一語義特徵與第二語義特徵間的距離時，是基於第一語義特徵與第二語義特徵間多個缺失的同義詞的數量來進行判斷。

舉例來說，若第一語義特徵中包含了“傷心(sad)”、“安祥(serene)”與“絕望(hopeless)”三個文字，而第二語義特徵中包含了“喜悅(glad)”、“安靜(quiet)”與“動人(touching)”三個文字，則因為無法在第二語義特徵中找到“傷心”與“絕望”的同義詞，因此偵測系統1可認定第一語義特徵與第二語義特徵間的距離為2(其中，安靜可能被視為是安祥的同義詞)。

值得一提的是，於一實施例中，語義提取模組12可以混用上述的深度神經網路以及語言分析工具來實現內部的多個語義提取器121，而不以使用單一種類的語義提取器121為限。

於一實施例中，多個語義提取器121包括多個不同類型的檔案解析器(file parser)。本實施例中，語義提取模組12透過多個檔案解析器來對第一檔案2與第二檔案3進行解析。若第一檔案2可被多個檔案解析器中的至少其中之一成功解析，但第二檔案3卻不行，則偵測系統1可判斷第二檔案3被勒索軟體攻擊而成為不乾淨檔案。

請同時參閱圖3，為本發明的一實施例的語義特徵的提取流程圖。圖3用以說明本發明的語義提取模組12如何透過多個不同類型的檔案解析器來產生檔案的語義特徵。

必須注意的是，單純依賴副檔名來判斷一個檔案所屬的檔案類型的手段是不可靠的，與之相對的，本發明使用檔案解析器來判斷檔案類型為語義特徵，可以提高所擷取的語義特徵的可靠性。由於各個檔案解析器會基於已知檔案結構(file structure)來分析檔案內容，如此獲得的語義特徵對於偵測會在破壞檔案內容的同時破壞檔案結構的勒索軟體是相當有用的。

如圖3所示，在語義提取模組12將檔案(包括第一檔案2及／或第二檔案3)匯入多個檔案解析器後，即可從多個檔案解析器來取得多個解析結果(步驟S30)。接著，語義提取模組12判斷是否有任一個檔案解析器可以正確解析此檔案(步驟S31)。若至少一個檔案解析器可以正確解析此檔案，則語義提取模組12輸出第一訊號作為此檔案的語義特徵(步驟S32)。若所有檔案解析器皆無法正確解析此檔案，則語義提取模組12輸出第二訊號作為此檔案的語義特徵(步驟S33)。

於一實施例中，第一訊號相異於第二訊號。

於一實施例中，第一訊號為1而第二訊號為0。於另一實施例中，第一訊號為0而第二訊號為1。

圖3的實施例同時適用於圖2的實施例。例如，當至少一個檔案解析器能夠正確解析第一檔案2時，語義提取模組12即輸出第一訊號作為第一檔案2的第一語義特徵；當沒有任何一個檔案解析器能夠正確解析第一檔案2時，語義提取模組12輸出第二訊號作為第一檔案2的第一語義特徵。當至少一個檔案解析器能夠正確解析第二檔案3時，語義提取模組12即輸出第一訊號作為第二檔案3的第二語義特徵；當沒有任何一個檔案解析器能夠正確解析第二檔案3時，語義提取模組12輸出第二訊號作為第二檔案3的第二語義特徵。

於圖3的實施例中，語義特徵是與檔案是否能夠被一或多個檔案解析器正確解析直接相關。

具體地說，當一個檔案的先前版本(例如第一檔案2)可以被一或多個檔案解析器解析，但相同檔案的後續版本(例如第二檔案3)卻無法被任一個檔案解析器正確解析，則偵測系統1可以在偵測到顯著變更(例如檔案結構已被破壞)時判斷檔案的後續版本遭受到勒索軟體的攻擊，進而將後續版本標記為不乾淨版本(即，損壞版本)。

於此實施例中，由於語義提取模組12只會產生非0即1的訊號(即，第一訊號或第二訊號)，因此只需要成本低廉的儲存需求就可以採用上述的技術手段。

更值得一提的是，採用上述實施例還可在檔案解析器的多元性(variety)仍不足以涵蓋所有可能的檔案類型時，避免誤判(false alarm)。例如，若一個檔案的檔案型態沒有被本發明採用的檔案解析器所涵蓋，則此檔案的前後版本(例如第一檔案2及第二檔案3)都將無法被任一個檔案解析器正確解析。因此，偵測系統1將不會認定單純因為檔案解析器的不足而認定檔案為不乾淨的檔案。

於一實施例中，每一個檔案解析器在無法正確解析檔案時皆會產生一筆第二訊號，並且語義提取模組12產生的語義特徵為多筆輸出訊號的集合，例如為{0,0,0,…,0}。當有一個檔案解析器可以正確解析檔案時則會產生第一訊號，則語義提取模組12輸出的語義特徵可例如為{0,0,1,…,0}。透過比對輸出訊號的集合作為語義特徵，偵測系統1可以認定一個檔案的兩個版本是否發生了顯著變更。

於另一實施例中，多個語義提取器121包括用以解析並從輸入檔案的內容中擷取出文字的多個檔案解析器。例如，各個檔案解析器可以分別從特定類型的檔案，例如Word、Excel或PowerPoint等中解析檔案中的文字，但不以此為限。

本實施例中，語義提取模組12透過多個檔案解析器來分別從第一檔案2與第二檔案3的內容中擷取出文字，並且基於內容文字來產生第一語義特徵與第二語義特徵。藉此，偵測系統1可基於第一語義特徵與第二語義特徵來認定第二檔案3是否被勒索軟體攻擊。

請同時參閱圖4，為本發明的另一實施例的語義特徵的提取流程圖。圖4用以說明本發明的語義提取模組12如何透過用來從輸入檔案中擷取文字的多個檔案解析器來產生語義特徵。

如圖4所示，在語義提取模組12將檔案(包括第一檔案2及／或第二檔案3)匯入多個檔案解析器後，可從多個檔案解析器獲得檔案中的複數獨特文字(unique word)(步驟S40)。接著，語義提取模組12將各個檔案解析器輸出的複數獨特文字分別轉換為對應的映射數值(mapped value)(步驟S41)，並且再基於複數映射數值產生作為語義特徵使用的向量(步驟S42)。其中，所述向量具有多個元素(entry)，並且各個元素分別對應至一個映射數值的出現次數(occurrence count)。

請同時參閱圖4、圖5及圖6，其中圖5為本發明的一實施例的語義特徵的產生示意圖，圖6為本發明的一實施例的語義特徵的比對示意圖。

圖5的實施例中以第一檔案2為例，說明語義提取模組12如何產生第一語義特徵。

如圖5所示，偵測系統1將第一檔案2匯入語義提取模組12後，多個檔案解析器可以解析第一檔案2的內容，並且獲得第一檔案2中的多個獨特文字41。值得一提的是，只要有至少一個檔案解析器可以解析一個檔案，則此檔案中的文字就可以被擷取，藉此偵測系統1可以從被擷取的文字中獲得所述獨特文字41。

於一實施例中，獨特文字41指的是在第一檔案2中出現過至少一次的文字，並且此文字只會被保留一個在所述獨特文字41中。於另一實施例中，所述獨特文字41排除了停用詞(stop words)，例如”and”、”or”，以及“not”等等。所述停用詞是在多種文字分析任務(例如搜尋引擎(search engines)、資訊檢索(information retrieval)，及文本挖掘(text mining)等)中處理自然語言文字(natural language text)時經常會被過濾或忽略的常用詞。因為這些詞通常被視為在傳達有意義的訊息方面不具有價值，因此本發明的獨特文字41可以排除這些停用詞。

值得一提的是，使用者可以預先設定多個檔案解析器的參數設定值。在解析第一檔案2的內容時，多個檔案解析器可以基於參數設定值而解析第一檔案2的全文，或是僅解析第一檔案2的部分內文(例如標題、第一段落或一半篇幅等)。於圖5的實施例中，預設解析第一檔案2中的第一行文字，但檔案解析器的解析不以圖5所示者為限。

於一實施例中，語義提取模組12基於雜湊函數(hash function)、密碼雜湊函數(keyed hash function)、查找表(Look-Up Table, LUT)、線性反饋移位暫存器(Linear Feedback Shift Register, LFSR)或獨特文字41的各個字元的美國標準資訊交換碼的模數和(modulo sum of ASCII codes)來將各個獨特文字41分別轉換為對應的映射數值42。

於圖5的實施例中，多個檔案解析器解析第一檔案2後，獲得了“Bob”、“just”、“has”、“a”、“credit”及“card”等六個獨特文字41。並且，語義提取模組12將這個六獨特文字41分別轉換為對應的映射數值42，包括“1”、“0”、“3”、“1”、“1”及“3”。

於一實施例中，語義提取模組12可以減少被轉換後的映射數值42，藉此映射數值42可不大於被作為語義特徵使用的向量的長度。

以雜湊函數為例，語義提取模組12可例如採用Secure Hash Algorithm (SHA)技術中的SHA-0、SHA-1或SHA-256、Cyclic Redundancy Check (CRC)技術中的CRC-32、CRC-16或CRC-CCITT，或是Message Digest技術(例如MD5)，來將獨特文字41轉換為對應的映射數值42。

具體地，於圖5的實施例中，獨特文字41被轉換為簡單的映射數值42(例如圖5中的1、0、3、1、1及3)，但本發明並不以如圖5中所示的簡單映射數值42為限。例如，若以SHA技術(例如SHA-256)來轉換獨特文字41“HELLO”，則可得到以十六進制來表示的映射數值42為“3733cd977ff8eb18b987357e22ced99f46097f31ecb239e878ae63760e83e4d5”。

上述僅為本發明的其中一個實施範例，並不以此為限。於一實施例中，語義提取模組12會縮減轉換所得的映射數值42，因此映射數值42可不大於作為語義特徵的向量的長度。例如，一組示例的十六進制映射數值42為“3733cd977ff8eb18b987357e22ced99f46097f31ecb239e878ae63760e83e4d5”，若將整組映射數值42視為一個值，則會非常大。因此，語義提取模組12可以僅挑選此十六進制映射數值42的最後八位元(即，”d5”)，藉此縮減所述映射數值42的大小，使之不大於長度為256 的向量(256-tuple vector)。

以密碼雜湊函數為例，語義提取模組12可例如採用HMAC-SHA-0、HMAC-SHA-1、HMAC-SHA-256或是HMAC-MD5等技術，來將獨特文字41轉換為對應的映射數值42。因為HMAC可以基於不同的密鑰來將相同的獨特文字41對應至不同的雜湊值(hash value)，因此在對手無法取得所述密鑰的情況下，從中提取出來的語義特徵就可以提供更高等級的隱私保護。

於一實施例中，採用各個獨特文字41的字元的ASCII碼可以將各個獨特文字41分別轉換為對應的映射數值42。例如，獨特文字41“HELLO”會被解析成 “72”、“69”、“76”、“76”及“79”，並且語義提取模組12可以累加這些輸出數值以得到映射數值42為“372”。於一實施例中，語義提取模組12對所述映射數值42 ”372”執行256模數的取模運算(modulo operation)，藉此獲得”116”，並確保此運算結果仍然在256元組的向量的範圍內。如此所得到模數和(modulo sum)可以作為映射數值42。

如圖5所示，在獲得了每一個獨特文字41的映射數值42後，語義提取模組12進一步產生一個向量43。這個向量43包含了多個元素431，並且各個元素431的內容數值分別對應至一個映射數值42的出現次數。

於圖5的實施例中，映射數值42共包括一個“0”、三個“1”、零個“2”及兩個“3”，語義提取模組12產生的向量43的多個元素431包括第一元素(代表0)的數值為1、第二元素(代表1)的數值為3、第三元素(代表2)的數值為0(圖中以白色方框示意元素為空)，及第四元素(代表3)的數值為2。藉由將此向量43作為第一檔案2的第一語義特徵，偵測系統1可以比對第一檔案2與後續接收的第二檔案3的內容，並且判斷第二檔案3的內容是否產生了顯著變更。

於圖6的實施例中，第二檔案3的內容經過編輯而具有不同的語義，但其仍為第一檔案2的後續版本，並且僅有一個獨特文字41“defaulted”被添加至第二檔案3的內容中。在經過語義提取模組12將第二檔案3的獨特文字41轉換為映射數值42且產生向量43後，比較模組13可計算第一檔案2對應的向量43(1,3,0,2)與第二檔案3對應的向量43(1,3,1,2)的距離D只有1。於此情況下，偵測系統1可以判斷此差異屬於使用者對第二檔案3的正常編輯痕跡，因此可將第二檔案3標記為乾淨檔案。

於一實施例中，第三檔案31為第二檔案3的後續版本，並且被假定為已受到勒索軟體破壞的不乾淨檔案。於此實施例中，第三檔案31的檔案結構並未被勒索軟體蓄意破壞，但其內容文本已被扭曲，藉此勒索贖金。如圖6的實施例所示，第三檔案31的內文與第二檔案3的內文迥異。在經過語義提取模組12將第三檔案31的獨特文字41轉換為映射數值42且產生向量43後，比較模組13可計算第二檔案3對應的向量43(1,3,1,2)與第三檔案31對應的向量43(0,2,3,2)的距離D高達4(於本實施例中相對較高)。於此情況下，偵測系統1可以判斷第三檔案31相較於第二檔案3產生了顯著變更，因此將第三檔案31標記為不乾淨檔案。

為更明確地說明，圖5及圖6的實施例中是以4元組(4-tuple)的向量43來舉例。惟，為了提高準確性，偵測系統1可採用更多元組的向量43，而不以4元組為限。藉由放大向量43的長度，語義提取模組12在執行轉換程序時可以藉由使用更多的映射數值42的優點，藉此提高後續的比較動作的準確率。

值得一提的是，若勒索軟體沒有修改檔案的內容，而是簡單地加密整個檔案，則多個檔案解析器可能會因無法解析檔案，而無法從檔案中獲取任何的獨特文字41。於此情況下，語義提取模組12產生的所有映射數值42皆為“0”，並且所產生的向量43的所有元素431皆為0。通過本發明的上述技術手段，因為後續版本的向量43的所有元素431的數值皆為0，其與先前版本的向量43的內容有顯著差異，因此偵測系統1可以基於向量間的距離判斷出後續版本為遭受到勒索軟體攻擊的不乾淨檔案。

上述圖4的實施例同時適用於圖2的實施例。例如，當第一檔案2被匯入具有多個檔案解析器的語義提取模組12後，語義提取模組12可由多個檔案解析器解析的結果獲得第一檔案2中的多個獨特文字41。在將多個獨特文字41分別轉換為對應的映射數值42後，語義提取模組12可以基於多個映射數值42產生作為第一語義特徵的第一向量，其中第一向量具有多個元素，並且各個元素分別對應至一個映射數值42的出現次數。而當第二檔案3被匯入具有多個檔案解析器的語義提取模組12後，語義提取模組12可由多個檔案解析器解析的結果獲得第二檔案3中的多個獨特文字41。在將多個獨特文字41分別轉換為對應的映射數值42後，語義提取模組12可以基於多個映射數值42產生作為第二語義特徵的第二向量，其中第二向量具有多個元素，並且各個元素分別對應至一個映射數值42的出現次數。

通過上述技術手段，若勒索軟體能在不破壞檔案格式的同時攻擊檔案的內容，本發明的偵測系統1仍然能夠偵測到勒索軟體的攻擊事件。

本發明的偵測系統可以被運行在獨立的電腦裝置中，亦可被運行在既有的備份伺服器中。本發明的偵測系統及偵測方法可以協助使用者對一個檔案每一個版本皆進行偵測並且標記為乾淨或不乾淨。如此一來，即使備份伺服器備份了不乾淨版本的檔案，但在進行系統還原時，備份伺服器可以基於所述標記來阻止使用者不使用乾淨版本的檔案進行還原，反而使用不乾淨版本的檔案進行還原。藉此，可以達到有效的系統還原。　　值得一提的是，上述本發明的偵測方法可以被應用於獨立的電腦裝置中。所述電腦裝置中的檔案可受到保護，而無需任何備份伺服器的協助。

於一實施例中，運算裝置可以在產生一個檔案的後續版本時，立即透過偵測系統1來檢視此後續版本是基於正常編輯所產生的乾淨版本或是遭受攻擊後產生的不乾淨版本。藉此，運算裝置可以決定是否要對後續版本進行備份。

續請參閱圖7，為本發明的一實施例的備份流程圖。如圖7所示，運算裝置可以在一個檔案被開啟時接收這個檔案(步驟S70)，接著產生這個檔案的第一副本，並且鎖定第一副本(步驟S71)。所述第一副本被鎖定後，即無法被編輯。於本實施例中，第一副本係對應至前述實施例的第一檔案2。

接著，當相同檔案被再次開啟與修改時，運算裝置接收這個檔案的後續版本(步驟S72)，並且產生這個檔案的後續版本的第二副本(步驟S73)。於本實施例中，第二副本係對應至前述實施側的第二檔案3。

於此實施例中，運算裝置通過偵測系統1來對第一副本與第二副本進行檢查，並判斷第二副本是否經過檢測(步驟S74)。若第二副本沒有通過檢測(即，第二副本被偵測系統1的告警模組14進行告警)，則此檔案的後續版本會被偵測不乾淨版本，而此不乾淨版本可能是遭受到攻擊後所產生。此時，運算裝置發出讓使用者依據第一副本來進行還原的指示(步驟S75)。

若第二副本通過檢測(即，第二副本沒有被偵測系統1的告警模組14進行告警)，代表此檔案的後續版本仍為乾淨版本。於此情況中，由於第二副本較新而第一副本較舊，因此運算裝置刪除第一副本(步驟S76)，並且鎖定第二副本(步驟S77)。

若此檔案再次被開啟並修改，運算裝置可以進一步為此檔案的後續版本產生第三副本，並且再經由上述動作進行檢測。通過本發明的偵測系統及偵測方法，運算裝置可以確保各個檔案都存在至少一個可以被用來在需要時進行還原的乾淨版本被保存下來。

以上所述僅為本發明之較佳具體實例，非因此即侷限本發明之專利範圍，故舉凡運用本發明內容所為之等效變化，均同理皆包含於本發明之範圍內，合予陳明。

1:偵測系統 11:檔案匯入模組 12:語義提取模組 121:語義提取器 13:比較模組 14:告警模組 2:第一檔案 3:第二檔案 31:第三檔案 41:獨特文字 42:映射數值 43:特徵向量 431:元素 D:距離 S20~S29:偵測步驟 S30~S33、S40~S42:提取步驟 S70~S77:備份步驟

圖1為本發明的一實施例的偵測系統的示意圖。

圖2為本發明的一實施例的偵測方法的流程圖。

圖3為本發明的一實施例的語義特徵的提取流程圖。

圖4為本發明的另一實施例的語義特徵的提取流程圖。

圖5為本發明的一實施例的語義特徵的產生示意圖。

圖6為本發明的一實施例的語義特徵的比對示意圖。

圖7為本發明的一實施例的備份流程圖。

S20~S29:偵測步驟

Claims

一種勒索軟體的偵測方法，應用於以軟體或韌體實現的一偵測系統，包括：a)由該偵測系統接收具有一第一ID的一第一檔案；b)由該偵測系統將該第一檔案匯入由多個語義提取器組成的一語義提取模組，並由該語義提取模組輸出該第一檔案的一第一語義特徵；c)由該偵測系統接收具有一第二ID的一第二檔案；d)由該偵測系統將該第二檔案匯入該語義提取模組，並由該語義提取模組輸出該第二檔案的一第二語義特徵；e)由該偵測系統判斷該第一ID與該第二ID是否相符；f)由該偵測系統於該第一ID與該第二ID相符時認定該第一檔案與該第二檔案為相同檔案的不同版本，並計算該第一語義特徵與該第二語義特徵的一距離；及g)由該偵測系統於該距離超過一門檻值時進行告警。
如請求項1所述的勒索軟體的偵測方法，其中該第一ID與該第二ID為該第一檔案與該第二檔案的檔名或元數據，該步驟e)包括下列一種或多種組合：於該第一檔案與該第二檔案的檔名相同時判斷該第一ID與該第二ID相符、於該第一檔案與該第二檔案的檔名的漢明距離(hamming distance)相近時判斷該第一ID與該第二ID相符、於該第一檔案與該第二檔案的元數據相近時判斷該第一ID與該第二ID相符，及於該第一檔案與該第二檔案放置在相同目錄下並且該第一檔案與該第二檔案具有相似的檔名時判斷該第一ID與該第二ID相符。
如請求項1所述的勒索軟體的偵測方法，其中該步驟f)包含透過距離函數(distance function)計算該第一語義特徵與該第二語義特徵的該距離。
如請求項1所述的勒索軟體的偵測方法，其中該多個語義提取器包括多個不同的深度神經網路(Deep Neural Network,DNN)，該步驟b)及該步驟d)透過該多個深度神經網路從該第一檔案及該第二檔案中進行特徵擷取並分別輸出向量形式的多個特徵，以分別作為該第一語義特徵及該第二語義特徵。
如請求項1所述的勒索軟體的偵測方法，其中該多個語義提取器包括多個不同的語言分析工具(language analytical tool)，該步驟b)及該步驟d)透過該多個語言分析工具將該第一檔案及該第二檔案的內容轉換為文字摘要以作為該第一語義特徵及該第二語義特徵。
如請求項1所述的勒索軟體的偵測方法，其中該多個語義提取器包括多個不同類型的檔案解析器(file parser)，並且該步驟b)包括：b1)將該第一檔案匯入該多個檔案解析器；b2)於該多個檔案解析器的至少其中之一能解析該第一檔案時，輸出一第一訊號作為該第一語義特徵；及b3)於該多個檔案解析器皆無法解析該第一檔案時，輸出一第二訊號作為該第一語義特徵，其中該第二訊號相異於該第一訊號；其中該步驟d)包括：d1)將該第二檔案匯入該多個檔案解析器；d2)於該多個檔案解析器的至少其中之一能解析該第二檔案時，輸出該第一訊號作為該第二語義特徵；及 d3)於該多個檔案解析器皆無法解析該第二檔案時，輸出該第二訊號作為該第二語義特徵。
如請求項1所述的勒索軟體的偵測方法，其中該多個語義提取器包括用以提取檔案內文字的多個不同類型的檔案解析器(file parser)，並且該步驟b)包括：b1)將該第一檔案匯入該多個檔案解析器；b2)由該多個檔案解析器的解析結果獲得該第一檔案中的複數獨特文字(unique words)；b3)將各該獨特文字分別轉換為對應的映射數值；及b4)基於複數該映射數值產生作為該第一語義特徵的一第一向量，其中該第一向量具有多個元素(entry)，各該元素對應至一個該映射數值的出現次數；其中該步驟d)包括：d1)將該第二檔案匯入該多個檔案解析器；d2)由該多個檔案解析器的解析結果獲得該第二檔案中的複數獨特文字；d3)將各該獨特文字分別轉換為對應的映射數值；及d4)基於複數該映射數值產生作為該第二語義特徵的一第二向量，其中該第二向量具有多個元素(entry)，各該元素對應至一個該映射數值的出現次數。
如請求項7所述的勒索軟體的偵測方法，其中該步驟b3)及該步驟d3)是基於雜湊函數(hash function)、密碼雜湊函數(keyed hash function)、查找表(Look-Up Table,LUT)、線性反饋移位暫存器(Linear Feedback Shift Register,LFSR)及各該獨特文字的各個字元的美國標準資訊交換碼的模數和(modulo sum of ASCII codes)的其中之一或組合來將各該獨特文字分別轉換為對應的映射數值。
如請求項1所述的勒索軟體的偵測方法，更包括：l)由一運算裝置在一檔案被開啟時接收該檔案，並且產生該檔案的一第一副本；m)鎖定該第一副本；n)由該運算裝置於該檔案再次被開啟時接收該檔案的後續版本，並且產生該檔案的後續版本的一第二副本；o)若該第二副本於該步驟g)中被告警，則該運算裝置發出依據該第一副本來進行還原的指示；及p)若該第二副本於該步驟g)中沒有被告警，則該運算裝置移除該第一副本，並且鎖定該第二副本。
一種勒索軟體的偵測系統，包括：一檔案匯入模組，被配置來接收具有一第一ID的一第一檔案以及具有一第二ID的一第二檔案；一語義提取模組，連接該檔案匯入模組，由多個語義提取器組成，並且被配置來提取該第一檔案的一第一語義特徵以及提取該第二檔案的一第二語義特徵；一比較模組，連接該語義提取模組，被配置來判斷該第一ID與該第二ID是否相符，並且於該第一ID與該第二ID相符時認定該第一檔案與該第二檔案為相同檔案的不同版本，並計算該第一語義特徵與該第二語義特徵的一距離；及一告警模組，連接該比較模組，被配置來於該比較模組判斷該距離超過一門檻值時進行告警。
如請求項10所述的勒索軟體的偵測系統，其中該第一ID與該第二ID為該第一檔案與該第二檔案的檔名或元數據，該比較模組被配置來於下列任一條件或多條件組合發生時判斷該第一ID與該第二ID相符：於該第一檔案與該第二檔案的檔名相同時、於該第一檔案與該第二檔案的檔名的漢明距離(hamming distance)相近時、於該第一檔案與該第二檔案的元數據相近時，以及於該第一檔案與該第二檔案放置在相同目錄下並且該第一檔案與該第二檔案的檔名相近時。
如請求項10所述的勒索軟體的偵測系統，其中該比較模組被配置來透過距離函數(distance function)計算該第一語義特徵與該第二語義特徵的該距離。
如請求項10所述的勒索軟體的偵測系統，其中該多個語義提取器包括多個深度神經網路(Deep Neural Network,DNN)，該語義提取模組被配置來透過該多個深度神經網路從該第一檔案及該第二檔案中進行特徵擷取並分別輸出向量形式的多個特徵，以分別作為該第一語義特徵及該第二語義特徵。
如請求項10所述的勒索軟體的偵測系統，其中該多個語義提取器包括多個不同的語言分析工具(language analytical tool)，該語義提取模組被配置來透過該多個語言分析工具將該第一檔案及該第二檔案的內容轉換為文字摘要以作為該第一語義特徵及該第二語義特徵。
如請求項10所述的勒索軟體的偵測系統，其中該多個語義提取器包括多個不同類型的檔案解析器(file parser)，並且該語義提取模組被配置來執行下列動作以提取該第一語義特徵及該第二語義特徵：於該多個檔案解析器的至少其中之一能解析該第一檔案時輸出一第一訊號作為該第一語義特徵，並且於該多個檔案解析器皆無法解析該第一檔案時輸出一第二訊號作為該第一語義特徵，其中該第二訊號相異於該第一訊號；及於該多個檔案解析器的至少其中之一能解析該第二檔案時輸出該第一訊號作為該第二語義特徵，並且於該多個檔案解析器皆無法解析該第二檔案時輸出該第二訊號作為該第二語義特徵。
如請求項10所述的勒索軟體的偵測系統，其中該多個語義提取器包括用以提取檔案內文字的多個檔案解析器(file parser)，並且該語義提取模組被配置來執行下列動作以提取該第一語義特徵及該第二語義特徵：由該多個檔案解析器的解析結果獲得該第一檔案中的複數獨特文字(unique words)；將各該獨特文字分別轉換為對應的映射數值；基於複數該映射數值產生作為該第一語義特徵的一第一向量，其中該第一向量具有多個元素(entry)，各該元素對應至一個該映射數值的出現次數；由該多個檔案解析器的解析結果獲得該第二檔案中的複數獨特文字；將各該獨特文字分別轉換為對應的映射數值；及基於複數該映射數值產生作為該第二語義特徵的一第二向量，其中該第二向量具有多個元素(entry)，各該元素對應至一個該映射數值的出現次數。
如請求項16所述的勒索軟體的偵測系統，其中該語義提取模組被配置來基於雜湊函數(hash function)、密碼雜湊函數(keyed hash function)、查找表(Look-Up Table,LUT)、線性反饋移位暫存器(Linear Feedback Shift Register,LFSR)及各該獨特文字的各個字元的美國標準資訊交換碼的模數和(modulo sum of ASCII codes)的其中之一或組合來將各該獨特文字分別轉換為對應的映射數值。
如請求項10所述的勒索軟體的偵測系統，更包括一運算裝置，連接該偵測系統，被配置來執行下列動作：於一檔案被開啟時接收該檔案並且產生該檔案的一第一副本，並且鎖定該第一副本；於該檔案再次被開啟時接收該檔案的後續版本，並且產生該檔案的後續版本的一第二副本；於該第二副本被該告警模組進行告警時發出依據該第一副本來進行還原的指示；及於該第二副本沒有被該告警模組進行告警時移除該第一副本，並且鎖定該第二副本。