TWI666941B

TWI666941B - 多層次狀態偵測系統與方法

Info

Publication number: TWI666941B
Application number: TW107110400A
Authority: TW
Inventors: 林昭源; Zhao-Yuan Lin
Original assignee: 緯創資通股份有限公司; Wistron Corporation
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2019-07-21
Also published as: TW201943263A; US10621424B2; US20190303656A1; CN110309693A; CN110309693B

Abstract

一種多層次狀態偵測系統，包含影像擷取裝置，用以擷取偵測對象的影像；位置偵測單元，決定影像當中是否偵測到人；人臉識別單元，透過人臉識別資料庫以偵測決定影像當中是否包含有人臉；多層次狀態辨識器，接收人臉識別單元的偵測結果，據以決定偵測對象的相應狀態及機率；神經網路預測模型資料庫，儲存已訓練的神經網路預測模型，其相關於複數狀態類別，如果人臉識別單元未偵測到人臉，則多層次狀態辨識器透過神經網路預測模型資料庫以辨識得到偵測對象的相應狀態；及多層次狀態更新器，接收多層次狀態辨識器所產生的目前狀態與至少一先前狀態的機率，據以產生最終狀態。

Description

多層次狀態偵測系統與方法

本發明係有關一種監視器，特別是關於一種多層次狀態偵測系統與方法。

嬰兒監視器(baby monitor)是一種無線系統，用以從遠端聽到嬰兒的聲音或/且看到嬰兒的影像。例如，使用麥克風置於嬰兒附近以接收嬰兒的聲音，並於遠端藉由揚聲器即時聽到所接收的聲音。又例如，使用攝影機(video camera)近距拍攝嬰兒的影像，將其即時傳送至遠端的顯示器，因此又稱為嬰兒攝影機(baby cam)。

傳統嬰兒監視器僅傳送未處理的影像或/且聲音給父母，因此能夠提供的訊息極為有限。較先進的嬰兒監視器使用穿戴式感測器，例如重力感測器(g-sensor)，但其穿戴會造成嬰兒的不舒適。有些嬰兒床使用監控式感測器，例如壓力感測器(pressure sensor)，然而，這類感測器僅能用以判斷嬰兒的睡眠品質，並無法真正的偵測出睡眠狀態。此外，傳統嬰兒監視器無法偵測得知一些急迫的狀態，例如臉部被覆蓋，因此無法藉以儘速排除危險情況。

因此亟需提出一種狀態偵測機制，用以克服傳統嬰兒監視器的缺失。

鑑於上述，本發明實施例的目的之一在於提出一種多層次狀態偵測系統與方法，其使用深度(deep)神經網路以進行多層次機器學習(machine learning)，用以偵測被測對象(例如嬰兒)的各種狀態，且能提供更準確的狀態機率。

根據本發明實施例，多層次狀態偵測系統包含影像擷取裝置、位置偵測單元、人臉識別單元、多層次狀態辨識器、神經網路預測模型資料庫及多層次狀態更新器。影像擷取裝置用以擷取偵測對象的影像。位置偵測單元決定影像當中是否偵測到人。人臉識別單元透過人臉識別資料庫以偵測決定影像當中是否包含有人臉。多層次狀態辨識器接收人臉識別單元的偵測結果，據以決定偵測對象的相應狀態及機率。神經網路預測模型資料庫儲存已訓練的神經網路預測模型，其相關於複數狀態類別，如果人臉識別單元未偵測到人臉，則多層次狀態辨識器透過神經網路預測模型資料庫以辨識得到偵測對象的相應狀態。多層次狀態更新器接收多層次狀態辨識器所產生的目前狀態與至少一先前狀態的機率，據以產生最終狀態。

第一圖顯示本發明實施例之多層次(multi-level)狀態偵測系統100的方塊圖。本實施例可適用以偵測嬰兒的睡眠狀態，但也可應用於嬰兒以外（例如老年人），或者應用於睡眠以外的狀態偵測。第一圖的方塊可使用硬體或/且軟體來實施。第二圖顯示本發明實施例之多層次狀態偵測方法200的流程圖。

在本實施例中，多層次狀態偵測系統100(以下簡稱偵測系統)可包含影像擷取裝置10，用以擷取偵測對象(例如嬰兒)的影像(步驟20)。在一例子中，影像擷取裝置10可為攝影機(video camera)，用以擷取得到一序列影像，其中至少一部份的影像會進行後續的處理。攝影機可為紅綠藍-紅外光(RGB-IR)攝影機，較一般可見光攝影機可擷取得到範圍更廣的影像，且不受周圍光線的影響。在另一例子中，影像擷取裝置10可為相機，可依固定時間間隔(或排定時程)擷取影像，每次可擷取得到一張影像以進行後續的處理。

本實施例之偵測系統100可包含影像介面11，設於影像擷取裝置10與偵測系統100的其他元件之間，用以傳送影像擷取裝置10所擷取的(單張或多張)影像(步驟21)。影像介面11可用以支援影像擷取裝置10的各種應用功能，例如選擇(selecting)、安裝(installing) 、配置(configuring) 、設定參數(setting parameters) 及存取資料，但不限定於此。藉此，影像介面11可讓影像擷取裝置10有效地進行影像的擷取與傳送。在本實施例中，影像介面11包含V4L2(Video4Linux version 2)影像介面，其為支援Linus作業系統的一種即時影像擷取的驅動程式(device driver)與應用程式介面(application programming interface (API))。

本實施例之偵測系統100可包含位置偵測單元12，其接收影像介面11所傳送的影像，並據以決定影像當中是否偵測到人(例如嬰兒)(步驟22)及其位置。如果未偵測到人，則表示所要偵測的對象(例如嬰兒)不在場；如果偵測到人，則進入步驟23。

在本實施例中，位置偵測單元12係使用You Only Look Once (YOLO)物件偵測(object detection)技術，其使用單一神經網路以處理整張影像。相較於傳統物件偵測技術於影像的不同區域進行個別訓練，YOLO物件偵測技術可加快運算速度。YOLO物件偵測技術的細節可參閱Joseph Redmon等人所發表的“You Only Look Once: Unified, Real-Time Object Detection”，發表於2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)。

本實施例之偵測系統100可包含人臉識別(face recognition)單元13與人臉識別資料庫(或函式庫)14。其中，人臉識別單元13接收影像介面11所傳送的影像，萃取(extract)得到影像當中的人臉特徵(facial feature)，並與人臉識別資料庫14所儲存的人臉特徵作比較(步驟23)，以偵測決定影像當中是否包含有人臉。在本實施例中，人臉識別資料庫14係使用(但不限定於)多工串接卷積神經網路(multi-task cascaded convolutional neural network, MTCNN)技術產生的，其對於自然環境中的光線、角度和人臉表情變化較為強健(robust)，因此識別效果優於傳統的人臉識別方法，例如開源電腦視覺(Open Source Computer Vision, OpenCV)或dlib。其中，開源電腦視覺(OpenCV)使用基於Haar特徵的分類器(Haar feature-based classifiers)，但無法識別側面/歪斜/光線不足的人臉；dlib雖然改善了開源電腦視覺(OpenCV)的識別效果，但無法實現即時的人臉識別。多工串接卷積神經網路(MTCNN)由於儲存量不大，因此可以實現即時的人臉識別。多工串接卷積神經網路(MTCNN)的技術細節可參閱Kaipeng Zhang等人所發表的“Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks”，發表於2016 IEEE Signal Processing Letters。

本實施例之偵測系統100可包含多層次狀態辨識(identification)器15，其接收人臉識別單元13的偵測結果，並對其作進一步的辨識，以決定相應的狀態(例如嬰兒的睡眠狀態)。在一例子中，如果人臉識別單元13偵測得到人臉(步驟24)，則多層次狀態辨識器15對所偵測到的人臉進一步辨識其眼睛的閉合或張開(步驟25)，以決定相應狀態為睡著或醒著。此外，根據眼睛的閉合或張開程度，多層次狀態辨識器15可產生睡著或醒著的機率。

本實施例之偵測系統100可包含神經網路預測模型資料庫16，其儲存已訓練的神經網路預測模型，其相關於複數狀態類別。在一例子中，神經網路預測模型資料庫16的狀態類別包含臉部被覆蓋及側趴睡。在本實施例中，如果多層次狀態辨識器15自人臉識別單元13所接收的偵測結果係未偵測到人臉(步驟24)，則多層次狀態辨識器15會透過神經網路預測模型資料庫16以辨識得到影像的相應狀態類別(步驟26)，例如臉部被覆蓋或側趴睡。此外，根據影像與神經網路預測模型資料庫16的符合程度，多層次狀態辨識器15可產生各個狀態類別(例如臉部被覆蓋及側趴睡)的機率。如果各個狀態類別的機率皆未超過或等於預設閥值(步驟27)，則多層次狀態辨識器15可將影像歸為未知(undetermined)。本實施例的神經網路預測模型資料庫16係使用(但不限定於)Google®提出的Inception module來實施。Inception module的技術細節可參閱Christian Szegedy等人所發表的“Going Deeper with Convolutions”，發表於2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)。

在一例子中，嬰兒的狀態類別包含臉部被覆蓋、側趴睡、不在場、醒著、睡著，其中臉部被覆蓋、側趴睡來自步驟27，不在場來自步驟22，醒著、睡著來自步驟25。狀態機率可表示為陣列形式： [臉部被覆蓋側趴睡不在場醒著睡著] 其中所有狀態的機率值之和為1。

舉例而言，如果人臉識別單元13偵測到人臉，且多層次狀態辨識器15辨識得到眼睛為張開，則狀態的機率陣列可能為[0 0 0 0.7 0.3]。如果多層次狀態辨識器15透過神經網路預測模型資料庫16而辨識得到狀態為臉部被覆蓋，則狀態的機率陣列可能為[0.6 0.2 0.2 0 0]。如果人臉識別單元13未偵測到人臉，且各個狀態類別的機率皆未超過或等於預設閥值0.6，則多層次狀態辨識器15可將影像歸為未知。

本實施例之偵測系統100可包含多層次狀態更新器17，其接收多層次狀態辨識器15所產生的目前與先前狀態機率，據以產生最終狀態(步驟28)。藉此，多層次狀態更新器17所產生的最終狀態，其準確度較多層次狀態辨識器15所決定的狀態來得高。

在一例子中，多層次狀態更新器17對先前狀態機率S1與目前狀態機率S0，產生加權和(weighted sum)作為最終狀態機率，可表示如下：其中α為權重。

將上述推廣至多個先前狀態機率，產生加權和作為最終狀態機率，可表示如下：其中S0為目前狀態機率，S1為前一次狀態機率，Si為S1之前的(n-1)次狀態機率，α為權重。

第三圖顯示多層次狀態更新器17產生最終狀態的例子。對於一般的狀態(例如醒著狀態)，由於目前狀態為醒著與先前狀態為醒著為強連結(亦即，若目前為醒著，則先前很可能也是醒著)，因此分派較大的權重α(例如0.3)給先前的相同狀態的狀態機率，但分派較小的權重(例如0.2)給先前的相異狀態的狀態機率。

第四圖顯示多層次狀態更新器17產生最終狀態的另一例子。對於急迫的狀態(例如臉部被覆蓋狀態)，為了避免漏失掉狀態為臉部被覆蓋的偵測機會，因此分派較小的權重α(例如0.1)給先前的相同狀態的狀態機率，但分派較大的權重給先前的相異狀態的狀態機率。

在一例子中，先前的相異狀態對應的權重α可以是不同的。例如，取決於目前狀態與每一該先前的相異狀態各自的連結強度，越大的連結強度對應至越大的權重α。

以上所述僅為本發明之較佳實施例而已，並非用以限定本發明之申請專利範圍；凡其它未脫離發明所揭示之精神下所完成之等效改變或修飾，均應包含在下述之申請專利範圍內。

100‧‧‧多層次狀態偵測系統

10‧‧‧影像擷取裝置

11‧‧‧影像介面

12‧‧‧位置偵測單元

13‧‧‧人臉識別單元

14‧‧‧人臉識別資料庫

15‧‧‧多層次狀態辨識器

16‧‧‧神經網路預測模型資料庫

17‧‧‧多層次狀態更新器

200‧‧‧多層次狀態偵測方法

20‧‧‧擷取影像

21‧‧‧透過影像介面傳送影像

22‧‧‧是否偵測到人

23‧‧‧偵測人臉

24‧‧‧是否偵測到人臉

25‧‧‧眼睛是否張開

26‧‧‧透過神經網路預測模型資料庫以辨識狀態

27‧‧‧狀態機率是否超過或等於閥值

28‧‧‧根據目前與先前狀態機率以產生最終狀態

α‧‧‧權重

第一圖顯示本發明實施例之多層次狀態偵測系統的方塊圖。第二圖顯示本發明實施例之多層次狀態偵測方法的流程圖。第三圖顯示多層次狀態更新器產生最終狀態的例子。第四圖顯示多層次狀態更新器產生最終狀態的另一例子。

Claims

一種多層次狀態偵測系統，包含：一影像擷取裝置，用以擷取偵測對象的影像；一位置偵測單元，決定該影像當中是否偵測到人；一人臉識別單元，透過人臉識別資料庫以偵測決定該影像當中是否包含有人臉；一多層次狀態辨識器，接收該人臉識別單元的偵測結果，據以決定偵測對象的相應狀態及機率；一神經網路預測模型資料庫，儲存已訓練的神經網路預測模型，其相關於複數狀態類別，如果該人臉識別單元未偵測到人臉，則該多層次狀態辨識器透過該神經網路預測模型資料庫以辨識得到偵測對象的相應狀態；及一多層次狀態更新器，接收該多層次狀態辨識器所產生的目前狀態與至少一先前狀態的機率，據以產生最終狀態。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中該偵測對象為嬰兒。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中該影像擷取裝置包含紅綠藍-紅外光攝影機。
根據申請專利範圍第1項所述之多層次狀態偵測系統，更包含一影像介面，用以傳送該影像擷取裝置所擷取的影像。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中該位置偵測單元使用You Only Look Once (YOLO)物件偵測技術以偵測人。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中該人臉識別資料庫係使用多工串接卷積神經網路(MTCNN)技術產生的。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中如果該人臉識別單元偵測到人臉，則該多層次狀態辨識器對所偵測到的人臉辨識其眼睛的閉合或張開，以決定相應狀態為睡著或醒著。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中該神經網路預測模型資料庫的狀態類別包含臉部被覆蓋及側趴睡。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中如果所有狀態的機率皆未超過或等於預設閥值，則該多層次狀態辨識器將該影像歸為未知。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中該神經網路預測模型資料庫係使用Google®提出的Inception module技術產生的。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中該多層次狀態更新器對先前狀態的機率S1與目前狀態的機率S0，產生加權和作為最終狀態機率，表示如下：

其中α為權重。
根據申請專利範圍第11項所述之多層次狀態偵測系統，其中對於急迫的狀態，分派較小的權重給先前的相同狀態的機率，但分派較大的權重給先前的相異狀態的機率。
根據申請專利範圍第11項所述之多層次狀態偵測系統，其中該多層次狀態更新器分派不同的權重給先前的相異狀態的機率，其中該目前狀態與每一該先前的相異狀態的連結強度越大，則對應越大的權重。
根據申請專利範圍第1項所述之多層次狀態偵測系統，其中該多層次狀態更新器對複數先前狀態的機率與目前狀態的機率，產生加權和作為最終狀態機率，表示如下：
其中S0為目前狀態機率，S1為前一次狀態機率，Si為S1之前的(n-1)次狀態機率，α為權重。
一種多層次狀態偵測方法，包含： (a)擷取偵測對象的影像； (b)決定該影像當中是否偵測到人； (c)透過人臉識別資料庫以偵測決定該影像當中是否包含有人臉； (d)根據步驟(c)的偵測結果，據以決定偵測對象的相應狀態及機率； (e)提供一神經網路預測模型資料庫，儲存已訓練的神經網路預測模型，其相關於複數狀態類別，如果步驟(c)未偵測到人臉，則透過該神經網路預測模型資料庫以辨識得到偵測對象的相應狀態；及 (f)根據目前狀態與至少一先前狀態的機率，據以產生最終狀態。
根據申請專利範圍第15項所述之多層次狀態偵測方法，其中該偵測對象為嬰兒。
根據申請專利範圍第15項所述之多層次狀態偵測方法，更包含一步驟：透過影像介面以傳送步驟(a)所擷取的影像。
根據申請專利範圍第15項所述之多層次狀態偵測方法，其中該步驟(b)使用You Only Look Once (YOLO)物件偵測技術以偵測人。
根據申請專利範圍第15項所述之多層次狀態偵測方法，其中該人臉識別資料庫係使用多工串接卷積神經網路(MTCNN)技術產生的。
根據申請專利範圍第15項所述之多層次狀態偵測方法，其中如果步驟(c)偵測到人臉，則對所偵測到的人臉辨識其眼睛的閉合或張開，以決定相應狀態為睡著或醒著。
根據申請專利範圍第15項所述之多層次狀態偵測方法，其中該神經網路預測模型資料庫的狀態類別包含臉部被覆蓋及側趴睡。
根據申請專利範圍第15項所述之多層次狀態偵測方法，其中如果所有狀態的機率皆未超過或等於預設閥值，則將該影像歸為未知。
根據申請專利範圍第15項所述之多層次狀態偵測方法，其中該神經網路預測模型資料庫係使用Google®提出的Inception module技術產生的。
根據申請專利範圍第15項所述之多層次狀態偵測方法，其中該步驟(f)對先前狀態的機率S1與目前狀態的機率S0，產生加權和作為最終狀態機率，表示如下：

其中α為權重。
根據申請專利範圍第24項所述之多層次狀態偵測方法，其中對於急迫的狀態，分派較小的權重給先前的相同狀態的機率，但分派較大的權重給先前的相異狀態的機率。
根據申請專利範圍第24項所述之多層次狀態偵測方法，其中該步驟(f)分派不同的權重給先前的相異狀態的機率，其中該目前狀態與每一該先前的相異狀態的連結強度越大，則對應越大的權重。
根據申請專利範圍第15項所述之多層次狀態偵測方法，其中該步驟(f)對複數先前狀態的機率與目前狀態的機率，產生加權和作為最終狀態機率，表示如下：
其中S0為目前狀態機率，S1為前一次狀態機率，Si為S1之前的(n-1)次狀態機率，α為權重。