[go: up one dir, main page]

JP2012238125A - データの保存を制御する装置及び方法 - Google Patents

データの保存を制御する装置及び方法 Download PDF

Info

Publication number
JP2012238125A
JP2012238125A JP2011105734A JP2011105734A JP2012238125A JP 2012238125 A JP2012238125 A JP 2012238125A JP 2011105734 A JP2011105734 A JP 2011105734A JP 2011105734 A JP2011105734 A JP 2011105734A JP 2012238125 A JP2012238125 A JP 2012238125A
Authority
JP
Japan
Prior art keywords
storage
data
unit
feature information
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011105734A
Other languages
English (en)
Other versions
JP5681558B2 (ja
Inventor
Naoki Imai
直樹 今井
Yutaka Oishi
豊 大石
Toru Hasegawa
徹 長谷川
Masanori Kamiya
昌範 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2011105734A priority Critical patent/JP5681558B2/ja
Priority to US13/463,103 priority patent/US9357007B2/en
Publication of JP2012238125A publication Critical patent/JP2012238125A/ja
Application granted granted Critical
Publication of JP5681558B2 publication Critical patent/JP5681558B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数のストレージにデータを保存する際にそれらのストレージ全体としての利用効率化を図る。
【解決手段】ストレージノード20では、メタデータ抽出部21が、クライアント10からの保存対象データからメタデータを抽出し、ノード決定部24が、容量情報記憶部22に記憶された各ストレージノードの容量情報と、サマリデータ記憶部23に記憶された各ストレージノードの保存データのメタデータを統合したサマリデータとに基づいて、保存対象データを保存すべきストレージノードを決定する。そして、決定したストレージノードが自ノードであれば、データ転送部25が、データ保存部27に保存対象データを保存し、サマリデータ登録部26が、抽出したメタデータを自ノードのサマリデータに登録し、決定したストレージノードが他のノードであれば、データ転送部25が、そのノードに保存対象データを転送する。
【選択図】図1

Description

本発明は、データの保存を制御する装置及び方法に関する。特に、本発明は、同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存可能な複数のストレージにおけるデータの保存を制御する装置及び方法に関する。
今日取り扱われるデータの量は飛躍的に増加し続けており、ストレージ内のデータを如何に圧縮させてストレージの利用効率化を図るかという努力が払われている。
ここで、ストレージの利用効率化を図る方法として以下の2つの方法がある。
(1)ファイルを圧縮する方法
(2)ストレージシステムの重複排除機能を用いる方法
このうち、(1)は、ファイル単位で圧縮を行う方法であり、従来から行われている方法であるが、近年では、ストレージが一般利用者により広く利用されるようになったのに伴い、別々の利用者が同様のデータを格納することも多くなり、特に(2)の重複排除機能の重要性が増してきている。この重複排除機能では、(1)のファイル単位の圧縮で対応できなかったJPEGやMPEG等の既に圧縮されたデータの異なるインスタンス間での重複排除も図られるため、ストレージの更なる利用効率化を図ることができる。
尚、公報記載の技術としては、大量の素データを集計して種々のサマリデータを生成する処理を複数のプロセッサによって並列して同時に行う技術がある(例えば、特許文献1参照)。
特開昭61−198369号公報
一方で、格納すべきデータの増加に対処するため、ストレージシステムは、クラウドストレージに代表されるようにスケーラブルな構成となり、複数のストレージから構成されるようになってきている。
しかしながら、このような流れの中では、複数のストレージにデータを保存した場合に、これらのストレージ全体としての利用効率化を図ることができないという問題がある。
尚、特許文献1の技術は、素データからサマリデータを生成することを開示しているに過ぎず、素データを配置する際のストレージの利用効率化を図るものではない。
本発明の目的は、複数のストレージにデータを保存する際にそれらのストレージ全体としての利用効率化を図ることにある。
かかる目的のもと、本発明は、複数のストレージノードでデータを保存するシステムであって、複数のストレージノードのそれぞれは、同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存する保存部と、自ストレージノードに入力された入力データから、入力データの特徴を示す第1特徴情報を抽出する抽出部と、複数のストレージノードの保存部に保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報であって、保存データからそれぞれ抽出された複数の抽出情報と、複数の抽出情報のそれぞれの重みを示す重み情報とをそれぞれが含む複数の第2特徴情報を記憶する記憶部と、抽出部により抽出された第1特徴情報と、記憶部に記憶された複数の第2特徴情報のそれぞれとの一致度を、複数の第2特徴情報にそれぞれ含まれる複数の抽出情報のうち第1特徴情報と同一又は類似の特徴を有する抽出情報の重みを示す重み情報に基づいて求めることにより、複数のストレージノードのうち入力データを保存する特定のストレージノードを決定する決定部と、決定部により決定された特定のストレージノードが自ストレージノードである場合に、自ストレージノードの保存部に入力データを転送し、決定部により決定された特定のストレージノードが他のストレージノードである場合に、他のストレージノードに入力データを転送する転送部と、転送部により自ストレージノードの保存部に入力データが転送された場合に、抽出部により抽出された第1特徴情報に基づいて、記憶部に記憶された複数の第2特徴情報のうち自ストレージノードの保存部に保存されている保存データの特徴を示す第2特徴情報を更新する更新部とを含む、システムを提供する。
ここで、更新部は、他のストレージノードの保存部に保存されているデータの特徴を示す他の第2特徴情報が他のストレージノードから転送された場合に、他の第2特徴情報に基づいて、記憶部に記憶された複数の第2特徴情報のうち他のストレージノードの保存部に保存されているデータの特徴を示す第2特徴情報を更新する、ものであってよい。
また、本発明は、複数のストレージノードにおけるデータの保存を制御ノードで制御するシステムであって、複数のストレージノードのそれぞれは、同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存する保存部を含み、制御ノードは、システムに入力された入力データから、入力データの特徴を示す第1特徴情報を抽出する抽出部と、複数のストレージノードの保存部に保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報であって、保存データからそれぞれ抽出された複数の抽出情報と、複数の抽出情報のそれぞれの重みを示す重み情報とをそれぞれが含む複数の第2特徴情報を記憶する記憶部と、抽出部により抽出された第1特徴情報と、記憶部に記憶された複数の第2特徴情報のそれぞれとの一致度を、複数の第2特徴情報にそれぞれ含まれる複数の抽出情報のうち第1特徴情報と同一又は類似の特徴を有する抽出情報の重みを示す重み情報に基づいて求めることにより、複数のストレージノードのうち入力データを保存する特定のストレージノードを決定する決定部と、決定部により決定された特定のストレージノードの保存部に入力データを転送する転送部と、抽出部により抽出された第1特徴情報に基づいて、記憶部に記憶された複数の第2特徴情報のうち特定のストレージノードの保存部に保存されている保存データの特徴を示す第2特徴情報を更新する更新部とを含む、システムも提供する。
また、本発明は、同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存可能な複数のストレージにおけるデータの保存を制御する装置であって、複数のストレージの何れかに保存すべきデータとして入力された入力データから、入力データの特徴を示す第1特徴情報を抽出する抽出部と、複数のストレージに保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報を記憶する記憶部と、抽出部により抽出された第1特徴情報と、記憶部に記憶された複数の第2特徴情報のそれぞれとの一致度を求めることにより、複数のストレージのうち入力データを保存する特定のストレージを決定する決定部と、決定部により決定された特定のストレージに入力データを転送する転送部と、抽出部により抽出された第1特徴情報に基づいて、記憶部に記憶された複数の第2特徴情報のうち特定のストレージに保存されている保存データの特徴を示す第2特徴情報を更新する更新部とを含む、装置も提供する。
ここで、複数の第2特徴情報のそれぞれは、複数のストレージに保存されている保存データからそれぞれ抽出された複数の抽出情報を含み、決定部は、記憶部に記憶された複数の第2特徴情報にそれぞれ含まれる複数の抽出情報のうち、抽出部により抽出された第1特徴情報と同一又は類似の特徴を有する抽出情報の個数に基づいて、一致度を求める、ものであってもよいし、複数の第2特徴情報のそれぞれは、複数のストレージに保存されている保存データからそれぞれ抽出された複数の抽出情報と、複数の抽出情報のそれぞれの重みを示す重み情報とを含み、決定部は、記憶部に記憶された複数の第2特徴情報にそれぞれ含まれる複数の抽出情報のうち、抽出部により抽出された第1特徴情報と同一又は類似の特徴を有する抽出情報の重みを示す重み情報に基づいて、一致度を求める、ものであってもよい。
また、決定部は、一致度と、複数のストレージのそれぞれに保存されている保存データの容量とに基づいて、特定のストレージを決定する、ものであってよい。
更に、抽出部は、複数のストレージの一のストレージに保存されている保存データから、保存データの特徴を示す第1特徴情報を抽出し、抽出部により抽出された第1特徴情報と、記憶部に記憶された複数の第2特徴情報のそれぞれとの一致度を求めることにより、複数のストレージのうち保存データを保存するストレージを改めて決定し、転送部は、決定部により決定されたストレージが一のストレージ以外の他のストレージである場合に、他のストレージに保存データを転送する、ものであってよい。
更に、本発明は、同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存可能な複数のストレージにおけるデータの保存を制御する方法であって、複数のストレージの何れかに保存すべきデータとして入力された入力データから、入力データの特徴を示す第1特徴情報を抽出するステップと、複数のストレージに保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報を記憶する記憶部から、複数の第2特徴情報のそれぞれを読み出すステップと、抽出された第1特徴情報と、読み出された複数の第2特徴情報のそれぞれとの一致度を求めることにより、複数のストレージのうち入力データを保存する特定のストレージを決定するステップと、決定された特定のストレージに入力データを転送するステップと、抽出された第1特徴情報に基づいて、記憶部に記憶された複数の第2特徴情報のうち特定のストレージに保存されている保存データの特徴を示す第2特徴情報を更新するステップとを含む、方法も提供する。
更にまた、本発明は、同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存可能な複数のストレージにおけるデータの保存を制御する装置として、コンピュータを機能させるプログラムであって、コンピュータを、複数のストレージの何れかに保存すべきデータとして入力された入力データから、入力データの特徴を示す第1特徴情報を抽出する抽出部と、複数のストレージに保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報を記憶する記憶部から、複数の第2特徴情報のそれぞれを読み出す読出し部と、抽出部により抽出された第1特徴情報と、読出し部により読み出された複数の第2特徴情報のそれぞれとの一致度を求めることにより、複数のストレージのうち入力データを保存する特定のストレージを決定する決定部と、決定部により決定された特定のストレージに入力データを転送する転送部と、抽出部により抽出された第1特徴情報に基づいて、記憶部に記憶された複数の第2特徴情報のうち特定のストレージに保存されている保存データの特徴を示す第2特徴情報を更新する更新部として機能させる、プログラムも提供する。
本発明によれば、複数のストレージにデータを保存する際にそれらのストレージ全体としての利用効率化を図ることができる。
本発明の第1の実施の形態が適用されるコンピュータシステムの構成例を示したブロック図である。 本発明の実施の形態におけるサマリデータ記憶部の記憶内容の例を示した図である。 本発明の第1の実施の形態におけるストレージノードの動作例を示したフローチャートである。 本発明の実施の形態におけるストレージノードの動作を具体的に説明するための図である。 本発明の第2の実施の形態が適用されるコンピュータシステムの構成例を示したブロック図である。 本発明の第2の実施の形態における制御ノードの動作例を示したフローチャートである。 本発明の実施の形態を適用可能なコンピュータのハードウェア構成を示した図である。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
[第1の実施の形態]
図1は、第1の実施の形態が適用されるコンピュータシステムの構成例を示したブロック図である。
図示するように、このコンピュータシステムは、クライアント10a〜10cと、ストレージノード20a〜20cとが、ネットワーク80を介して接続されることにより構成されている。
クライアント10a〜10cは、それぞれ、保存すべきデータ(以下、「保存対象データ」という)を、ネットワーク80を介してストレージノード20a〜20cに送信するコンピュータである。尚、図では、クライアント10a〜10cを示したが、これらを区別する必要がない場合は、クライアント10と称することもある。また、図では、3つのクライアント10を示したが、クライアント10の数はこれに限らない。
ストレージノード20a〜20cは、それぞれ、クライアント10a〜10cから受信した保存対象データを保存するストレージを含むノードである。尚、図では、ストレージノード20a〜20cを示したが、これらを区別する必要がない場合は、ストレージノード20と称することもある。また、図では、3つのストレージノード20を示したが、ストレージノード20の数はこれに限らない。
以下、ストレージノード20の構成について詳しく説明する。
ストレージノード20は、メタデータ抽出部21と、容量情報記憶部22と、サマリデータ記憶部23と、ノード決定部24と、データ転送部25と、サマリデータ登録部26と、データ保存部27とを備えている。尚、図では、ストレージノード20の構成要素の符号にa、bを付しているが、以降の説明では、符号にa、bを付さないこととする。
メタデータ抽出部21は、クライアント10から受信した保存対象データからメタデータを抽出する。保存対象データがテキストデータである場合は、メタデータとして、テキストデータに含まれるキーワードを抽出するとよい。例えば、テキストデータ内で出現頻度が高い名詞をキーワードとしてリストする。既存のテキストマイニングの手法により、テキストデータの要旨にあたるキーワードをリストに加えてもよい。また、保存対象データがキーワードを抽出できないイメージデータ等である場合は、保存対象データの本体を複数のブロックに分割して各ブロックのハッシュ値を計算し、これをメタデータとするとよい。更に、保存対象データに付属情報を付与可能な場合は、この付属情報をメタデータに取り込んでもよい。メタデータ抽出部21は、メタデータを抽出した後、保存対象データと共にメタデータをノード決定部24に出力する。本実施の形態では、入力データの一例として、保存対象データを用いており、入力データの特徴を示す第1特徴情報の一例として、メタデータを用いており、入力データから第1特徴情報を抽出する抽出部の一例として、メタデータ抽出部21を設けている。
容量情報記憶部22は、ストレージノード20a〜20cを識別する識別子(以下、「ノードID」という)と、そのノードIDのストレージノード20内のストレージの現在の使用容量とを対応付けた情報(以下、「容量情報」という)を記憶する。
サマリデータ記憶部23は、ストレージノード20a〜20cのノードIDと、そのノードIDのストレージノード20内のストレージに保存されているデータのメタデータ及びそのメタデータの重要度を組み合わせたサマリデータとの対応を記憶する。メタデータがキーワードである場合は、例えばキーワードの出現頻度を重要度とすればよい。本実施の形態では、保存データの特徴をそれぞれ示す複数の第2特徴情報の一例として、サマリデータを用いており、複数の第2特徴情報を記憶する記憶部の一例として、サマリデータ記憶部23を設けている。
ノード決定部24は、メタデータ抽出部21から受け取ったメタデータと、サマリデータ記憶部23に記憶された各ノードIDに対応するサマリデータとを比較し、これらの一致度に基づいて、保存対象データをどのストレージノード20に転送すべきかを決定する。この場合、サマリデータ記憶部23に記憶されたサマリデータのうち、メタデータ抽出部21から受け取ったメタデータとの一致度が最も高いサマリデータに対応するノードIDのストレージノード20を転送すべきストレージノード20として決定するとよい。その際、容量情報記憶部22に記憶された容量情報も考慮する。また、保存対象データがどのノードIDに対応するサマリデータにも適合しない場合は、コンシステントハッシング等の既存の割り振り方法によって、転送すべきストレージノード20を決定する。そして、決定したストレージノード20のノードIDと、保存対象データと、メタデータとをデータ転送部25に出力する。本実施の形態では、入力データを保存する特定のストレージノードを決定する決定部の一例として、また、入力データを保存する特定のストレージを決定する決定部の一例として、ノード決定部24を設けている。
データ転送部25は、ノード決定部24から受け取ったノードIDが自ノードを示していれば、ノード決定部24から受け取った保存対象データを自ノードのデータ保存部27に転送すると共に、ノード決定部24から受け取ったメタデータを自ノードのサマリデータ登録部26に出力する。ノード決定部24から受け取ったノードIDが他のストレージノード20を示していれば、ノード決定部24から受け取った保存対象データ及びメタデータをそのストレージノード20のデータ転送部25に転送する。また、データ転送部25は、他のストレージノード20から保存対象データ及びメタデータが転送されると、保存対象データをデータ保存部27に保存すると共にメタデータをサマリデータ登録部26に出力する。更に、データ転送部25は、サマリデータ記憶部23に記憶されたサマリデータを他のストレージノード20との間で定期的に交換する際にも機能する。即ち、他のストレージノード20からサマリデータが転送されると、そのストレージノード20のノードID及びサマリデータをサマリデータ登録部26に出力する。本実施の形態では、自ストレージノードの保存部又は他のストレージノードに入力データを転送する転送部の一例として、また、特定のストレージに入力データを転送する転送部の一例として、データ転送部25を設けている。
サマリデータ登録部26は、データ転送部25から受け取った自ノードにおける保存対象データのメタデータを、自ノードのノードIDに対応付けてサマリデータ記憶部23に記憶されたサマリデータに含めて登録する。また、データ転送部25から受け取った他のストレージノード20のサマリデータを、そのストレージノード20のノードIDに対応付けてサマリデータ記憶部23に記憶されたサマリデータに含めて登録する。本実施の形態では、第1特徴情報に基づいて複数の第2特徴情報のうち自ストレージノードの保存部に保存されている保存データの特徴を示す第2特徴情報を更新する更新部の一例として、また、第1特徴情報に基づいて複数の第2特徴情報のうち特定のストレージに保存されている保存データの特徴を示す第2特徴情報を更新する更新部の一例として、サマリデータ登録部26を設けている。
データ保存部27は、クライアント10又は他のストレージノード20から受信した保存対象データを保存するストレージである。ここで、データ保存部27には、既存の重複排除機能が備わっており、保存されたデータの重複をこの機能によって排除することが可能になっている。本実施の形態では、同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存する機能の一例として、重複排除機能を用いており、データを保存する保存部の一例として、データ保存部27を設けている。
ここで、サマリデータ記憶部23の記憶内容について説明する。
図2は、サマリデータ記憶部23に記憶される情報の一例を示した図である。
図示するように、サマリデータ記憶部23には、ノードIDと、メタデータ及び重要度の複数の組との対応が記憶されている。
ノードIDは、上述したように、ストレージノード20を識別する識別子である。
メタデータは、対応するノードIDのストレージノード20のデータ保存部27に保存されたデータのメタデータである。そのデータがテキストデータであれば、メタデータとしてはキーワードを用いればよく、そのデータがイメージデータ等であれば、メタデータとしては各ブロックのハッシュ値を用いればよい。本実施の形態では、保存データから抽出された抽出情報の一例として、サマリデータ内のメタデータを用いている。
重要度は、保存対象データのメタデータとの一致度を算出する際に、対応するメタデータをどの程度重視すればよいかを示す情報である。例えば、テキストデータについては、キーワードの出現頻度を重要度とすればよい。そして、出現頻度としては、例えば、全てのキーワードの出現回数に対する割合を採用すればよい。本実施の形態では、抽出情報の重みを示す重み情報の一例として、重要度を用いている。
次に、本実施の形態におけるストレージノード20の動作について詳細に説明する。尚、一般に、保存対象データには、テキストデータ、イメージデータ等、種々の形式のデータがあるが、ここでは、特定の形式のデータのみがストレージノード20に保存されるものとして説明する。即ち、この動作例に先立ち、保存対象データの形式がその付随情報に基づいて判定され、保存対象データの形式がその特定の形式でなければ、保存対象データは、ストレージノード20a〜20c以外の図示しないストレージノードに転送されることを前提とする。
さて、まず、ストレージノード20がクライアント10から保存対象データを受信したときの動作について述べる。
図3は、このときのストレージノード20の動作例を示したフローチャートである。
動作が開始すると、ストレージノード20では、まず、メタデータ抽出部21が、クライアント10から受信した保存対象データからメタデータを抽出する(ステップ201)。この抽出されたメタデータは、保存対象データと共にノード決定部24へ出力される。
すると、ノード決定部24は、サマリデータ記憶部23に記憶された全てのノードIDを比較対象に設定する(ステップ202)。そして、この比較対象に設定されたノードIDのうち、メタデータ抽出部21から受け取ったメタデータとの一致度が最高になるサマリデータが対応付けられたノードIDと、このときの一致度(最高一致度)とを求める(ステップ203)。ここで、一致度は、サマリデータを構成するメタデータのうち、メタデータ抽出部21から受け取ったメタデータと同じものを特定し、特定されたメタデータに対応する重要度に基づいて、例えば、重要度を足し合わせることによって算出するとよい。
そして、ノード決定部24は、ここで求めた最大一致度が予め定めた閾値を超えているかどうかを判定する(ステップ204)。
その結果、最大一致度が閾値を超えていると判定されれば、ノード決定部24は、容量情報記憶部22に記憶された容量情報を参照して、ステップ203で求めたノードIDに対応する使用容量が予め定めた閾値を超えているかどうかを判定する(ステップ205)。使用容量が閾値を超えていると判定されれば、そのノードIDを除外したノードIDを新たに比較対象に設定し(ステップ206)、ステップ203〜205の処理を繰り返す。
一方、ステップ205で使用容量が閾値を超えていないと判定されれば、ノード決定部24は、このときステップ203で求めたノードIDのストレージノード20を、保存対象データを転送すべきストレージノード20として決定する(ステップ207)。
また、ステップ204で最大一致度が閾値を超えていないと判定されれば、保存対象データに類似するデータがどのストレージノード20にも保持されていないことになる。従って、このような場合、ノード決定部24は、コンシステントハッシング等の既存の割り振り方法を用いて、保存対象データを転送すべきストレージノード20を決定する(ステップ208)。
尚、このように求められたノードIDと、保存対象データと、メタデータとは、データ転送部25に出力される。
すると、データ転送部25は、ノード決定部24から受け取ったノードIDに基づいて、保存対象データを転送すべきストレージノード20が自ノードであるか他のストレージノード20であるかを判定する(ステップ209)。
その結果、保存対象データを転送すべきストレージノード20が自ノードであると判定されれば、データ転送部25は、自ノードのデータ保存部27に保存対象データを保存する(ステップ210)。そして、メタデータはサマリデータ登録部26に渡され、サマリデータ登録部26が、サマリデータ記憶部23に記憶された自ノードのノードIDに対応するサマリデータを、データ転送部25から渡されたメタデータで更新する(ステップ211)。具体的には、自ノードのノードIDに対応するサマリデータの中に、データ転送部25から渡されたメタデータが含まれていなければ、そのメタデータを追加すると共にそのメタデータに対応する重要度を新たに登録する。また、自ノードのノードIDに対応するサマリデータの中に、データ転送部25から渡されたメタデータが含まれていれば、そのメタデータに対応する重要度に、データ転送部25から渡されたメタデータの重要度を反映させる。
一方、保存対象データを転送すべきストレージノード20が他のストレージノード20であると判定されれば、データ転送部25は、そのストレージノード20のデータ転送部25に保存対象データ及びメタデータを転送する(ステップ212)。
次いで、クライアント10から受信した保存対象データを転送すべきストレージノード20を決定するときの動作について具体例を用いて説明する。
図4は、ストレージノード20aが数学論文集を保存し、ストレージノード20bが小説文集を保存している場合にサマリデータ記憶部23a,23bに記憶されるサマリデータの具体例を示したものである。上述したように、ストレージノード20a,20bはサマリデータを交換するので、サマリデータ記憶部23a,23bに記憶されるサマリデータは同じであるとし、一種類のサマリデータのみを示している。
図において、ノードID「A」はストレージノード20aのノードIDであり、ノードID「B」はストレージノード20bのノードIDである。
また、保存対象データがテキストデータであるので、サマリデータ記憶部23は、メタデータとしてキーワードを、重要度としてキーワードの出現頻度を記憶している。具体的には、ストレージノード20aは数学論文集を保存しているので、ノードID「A」に対応するメタデータとしてキーワード「微分」「非ユークリッド幾何」、「群論」、「焦点」等が記憶され、メタデータの重要度として各キーワードの出現頻度「8」、「2」、「3」、「3」等が記憶されている。一方、ストレージノード20bは小説文集を保存しているので、ノードID「B」に対応するメタデータとしてキーワード「風」、「歌」、「森」、「焦点」等が記憶され、メタデータの重要度として各キーワードの出現頻度「3」、「2」、「2」、「1」等が記憶されている。
ここで、クライアント10から受信した保存対象データが物理論文であり、この物理論文からメタデータ「非ユークリッド幾何」が抽出された場合を考える。
この場合、ノードID「A」に対応するサマリデータにおけるメタデータ「非ユークリッド幾何」の重要度が、物理論文から抽出されたメタデータとこのサマリデータとの一致度になるので、一致度は「2」となる。一方、ノードID「B」に対応するサマリデータにメタデータ「非ユークリッド幾何」が記憶されていないとすると、一致度は「0」となる。従って、前者の一致度の方が後者の一致度よりも高いため、物理論文はストレージノード20aに保存されることになる。
また、クライアント10から受信した保存対象データが国語教科書であり、この国語教科書からメタデータ「風」が抽出された場合を考える。
この場合、ノードID「A」に対応するサマリデータにメタデータ「風」が記憶されていないとすると、一致度は「0」となる。一方、ノードID「B」に対応するサマリデータにおけるメタデータ「風」の重要度が、国語教科書から抽出されたメタデータとこのサマリデータとの一致度になるので、一致度は「3」となる。従って、後者の一致度の方が前者の一致度よりも高いため、国語教科書はストレージノード20bに保存されることになる。
更に、クライアント10から受信した保存対象データが物理論文であり、この物理論文からメタデータ「焦点」が抽出された場合を考える。
この場合、ノードID「A」に対応するサマリデータにおけるメタデータ「焦点」の重要度が、物理論文から抽出されたメタデータとこのサマリデータとの一致度になるので、一致度は「3」となる。一方、ノードID「B」に対応するサマリデータにおけるメタデータ「焦点」の重要度が、物理論文から抽出されたメタデータとこのサマリデータとの一致度になるので、一致度は「1」となる。従って、前者の一致度の方が後者の一致度よりも高いため、物理論文はストレージノード20aに保存されることになる。
次に、ストレージノード20が他のストレージノード20から保存対象データ及びメタデータを受信したときの動作について述べる。
他のストレージノード20から保存対象データ及びメタデータを受信すると、まず、データ転送部25が、保存対象データをデータ保存部27に保存する。そして、メタデータはサマリデータ登録部26に渡され、サマリデータ登録部26が、サマリデータ記憶部23に記憶された自ノードのノードIDに対応するサマリデータを、データ転送部25から渡されたメタデータで更新する。具体的には、自ノードのノードIDに対応するサマリデータの中に、データ転送部25から渡されたメタデータが含まれていなければ、そのメタデータを追加すると共にそのメタデータに対応する重要度を新たに登録する。また、自ノードのノードIDに対応するサマリデータの中に、データ転送部25から渡されたメタデータが含まれていれば、そのメタデータに対応する重要度に、データ転送部25から渡されたメタデータの重要度を反映させる。
次いで、ストレージノード20が他のストレージノード20からサマリデータを受信したときの動作について述べる。尚、ここでは、前回のサマリデータの受信以降に他のストレージノード20で変更されたサマリデータの部分のみを受信するものとする。
他のストレージノード20からサマリデータを受信すると、まず、データ転送部25が、そのストレージノード20のノードIDとサマリデータとをサマリデータ登録部26に渡す。そして、サマリデータ登録部26が、サマリデータ記憶部23に記憶されたそのノードIDに対応するサマリデータを、データ転送部25から渡されたサマリデータで更新する。具体的には、そのノードIDに対応するサマリデータの中に、データ転送部25から渡されたサマリデータ内のメタデータが含まれていなければ、そのメタデータを追加すると共にそのメタデータに対応する重要度を新たに登録する。また、そのノードIDに対応するサマリデータの中に、データ転送部25から渡されたサマリデータ内のメタデータが含まれていれば、そのメタデータに対応する重要度に、データ転送部25から渡されたメタデータの重要度を反映させる。
尚、このように保存対象データを順次ストレージノード20に保存していくと、サマリデータの内容が追加され、変化していくと考えられる。従って、現在保存されているデータのメタデータとサマリデータとがかけ離れたものとなってしまう可能性もあり、データ保存部27に保存されているデータとサマリデータとの一致度の再検査を行うことが必要になる。そこで、本実施の形態では、このような再検査を行う機能を設けてもよい。
具体的には、クライアント10から受信した保存対象データに対してではなく、データ保存部27に保存されているデータに対して、図3に示したのと同様の処理を行う。但し、ステップ204で最高一致度が閾値を超えていないと判定された場合、データを敢えて移動する必要はないので、そのままステップ209へ進む。また、ステップ209で保存対象データを転送すべきストレージノード20が自ノードであると判定された場合も、データは移動しないので、そのまま処理を終了する。尚、この機能は、全てバックグラウンドで動作するものとする。そして、この機能は、新たなストレージノード20が追加された場合にデータを適切なノードへ移動する役割も担っている。
[第2の実施の形態]
図5は、第2の実施の形態が適用されるコンピュータシステムの構成例を示したブロック図である。第1の実施の形態では、全てのストレージノード20のサマリデータを各ストレージノード20で分散保持し定期的にサマリデータを交換していたのに対し、この第2の実施の形態では、全てのストレージノード20のサマリデータを保持する専用ノードである制御ノード30を別途設けている。
図示するように、このコンピュータシステムは、クライアント10a〜10cと、ストレージノード20a〜20cと、制御ノード30とが、ネットワーク80を介して接続されることにより構成されている。
クライアント10a〜10cは、保存対象データを、ネットワーク80を介して制御ノード30に送信するコンピュータである。尚、図では、クライアント10a〜10cを示したが、これらを区別する必要がない場合は、クライアント10と称することもある。また、図では、3つのクライアント10を示したが、クライアント10の数はこれに限らない。
ストレージノード20a〜20cは、クライアント10a〜10cの何れかから受信した保存対象データを保存するストレージを含むノードである。尚、図では、ストレージノード20a〜20cを示したが、これらを区別する必要がない場合は、ストレージノード20と称することもある。また、図では、3つのストレージノード20を示したが、ストレージノード20の数はこれに限らない。
制御ノード30は、ストレージノード20a〜20cでのデータの保存を制御するノードであり、クライアント10a〜10cから受信した保存対象データを、ストレージノード20a〜20cに振り分ける。
以下、制御ノード30の構成について詳しく説明する。
制御ノード30は、メタデータ抽出部31と、容量情報記憶部32と、サマリデータ記憶部33と、ノード決定部34と、データ転送部35と、サマリデータ登録部36とを備えている。
メタデータ抽出部31、容量情報記憶部32、サマリデータ記憶部33、ノード決定部34は、それぞれ、第1の実施の形態で説明したメタデータ抽出部21、容量情報記憶部22、サマリデータ記憶部23、ノード決定部24と同様なので、ここでの詳細な説明は省略する。
データ転送部35は、ノード決定部34から受け取った保存対象データを、ノード決定部34から受け取ったノードIDのストレージノード20に転送すると共に、ノード決定部34から受け取ったノードID及びメタデータをサマリデータ登録部36に出力する。本実施の形態では、特定のストレージノードの保存部に入力データを転送する転送部の一例として、また、特定のストレージに入力データを転送する転送部の一例として、データ転送部35を設けている。
サマリデータ登録部36は、データ転送部35から受け取ったメタデータを、データ転送部35から受け取ったノードIDに対応付けてサマリデータ記憶部33に記憶されたサマリデータに含めて登録する。本実施の形態では、第1特徴情報に基づいて複数の第2特徴情報のうち特定のストレージノードの保存部に保存されている保存データの特徴を示す第2特徴情報を更新する更新部の一例として、また、第1特徴情報に基づいて複数の第2特徴情報のうち特定のストレージに保存されている保存データの特徴を示す第2特徴情報を更新する更新部の一例として、サマリデータ登録部36を設けている。
また、ストレージノード20の構成についても説明する。
ストレージノード20は、データ保存部27を備えている。尚、図では、ストレージノード20の構成要素の符号にa、b、cを付しているが、以降の説明では、符号にa、b、cを付さないこととする。
データ保存部27は、クライアント10から受信した保存対象データを保存するストレージである。ここで、データ保存部27には、既存の重複排除機能が備わっており、保存されたデータの重複をこの機能によって排除することが可能になっている。本実施の形態では、同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存する機能の一例として、重複排除機能を用いており、データを保存する保存部の一例として、データ保存部27を設けている。
ここで、サマリデータ記憶部33の記憶内容についてであるが、これも第1の実施の形態で述べたサマリデータ記憶部23の記憶内容と同様であるので、ここでの詳細な説明は省略する。
次に、本実施の形態における制御ノード30の動作について詳細に説明する。尚、一般に、保存対象データには、テキストデータ、イメージデータ等、種々の形式のデータがあるが、ここでは、特定の形式のデータのみがストレージノード20に保存されるものとして説明する。即ち、この動作例に先立ち、保存対象データの形式がその付随情報に基づいて判定され、保存対象データの形式がその特定の形式でなければ、保存対象データは、ストレージノード20a〜20c以外の図示しないストレージノードに転送されることを前提とする。
図6は、クライアント10から保存対象データを受信したときの制御ノード30の動作例を示したフローチャートである。
動作が開始すると、制御ノード30では、まず、メタデータ抽出部31が、クライアント10から受信した保存対象データからメタデータを抽出する(ステップ301)。この抽出されたメタデータは、保存対象データと共にノード決定部34へ出力される。
すると、ノード決定部34は、サマリデータ記憶部33に記憶された全てのノードIDを比較対象に設定する(ステップ302)。そして、この比較対象に設定されたノードIDのうち、メタデータ抽出部31から受け取ったメタデータとの一致度が最高になるサマリデータが対応付けられたノードIDと、このときの一致度(最高一致度)とを求める(ステップ303)。ここで、一致度は、サマリデータを構成するメタデータのうち、メタデータ抽出部31から受け取ったメタデータと同じものを特定し、特定されたメタデータに対応する重要度を足し合わせることによって算出するとよい。
そして、ノード決定部34は、ここで求めた最大一致度が予め定めた閾値を超えているかどうかを判定する(ステップ304)。
その結果、最大一致度が閾値を超えていると判定されれば、ノード決定部34は、容量情報記憶部32に記憶された容量情報を参照して、ステップ303で求めたノードIDに対応する使用容量が予め定めた閾値を超えているかどうかを判定する(ステップ305)。使用容量が閾値を超えていると判定されれば、そのノードIDを除外したノードIDを新たに比較対象に設定し(ステップ306)、ステップ303〜305の処理を繰り返す。
一方、ステップ305で使用容量が閾値を超えていないと判定されれば、ノード決定部34は、このときステップ303で求めたノードIDのストレージノード20を、保存対象データを転送すべきストレージノード20として決定する(ステップ307)。
また、ステップ304で最大一致度が閾値を超えていないと判定されれば、保存対象データに類似するデータがどのストレージノード20にも保持されていないことになる。従って、このような場合、ノード決定部34は、コンシステントハッシング等の既存の割り振り方法を用いて、保存対象データを転送すべきストレージノード20を決定する(ステップ308)。
尚、このように求められたノードIDと、保存対象データと、メタデータとは、データ転送部35に出力される。
すると、データ転送部35は、ノード決定部34から受け取ったノードIDのストレージノード20のデータ保存部27に保存対象データを保存する(ステップ310)。そして、メタデータはサマリデータ登録部36に渡され、サマリデータ登録部36が、サマリデータ記憶部33に記憶されたそのノードIDに対応するサマリデータを、データ転送部35から渡されたメタデータで更新する(ステップ311)。具体的には、そのノードIDに対応するサマリデータの中に、データ転送部35から渡されたメタデータが含まれていなければ、そのメタデータを追加すると共にそのメタデータに対応する重要度を新たに登録する。また、そのノードIDに対応するサマリデータの中に、データ転送部35から渡されたメタデータが含まれていれば、そのメタデータに対応する重要度に、データ転送部35から渡されたメタデータの重要度を反映させる。
尚、このように保存対象データを順次ストレージノード20に保存していくと、サマリデータの内容が追加され、変化していくと考えられる。従って、現在保存されているデータのメタデータとサマリデータとがかけ離れたものとなってしまう可能性もあり、データ保存部27に保存されているデータとサマリデータとの一致度の再検査を行うことが必要になる。そこで、本実施の形態では、このような再検査を行う機能を設けてもよい。
具体的には、クライアント10から受信した保存対象データに対してではなく、データ保存部27に保存されているデータに対して、図6に示したのと同様の処理を行う。但し、ステップ304で最高一致度が閾値を超えていないと判定された場合、データを敢えて移動する必要はないので、そのままステップ310へ進む。また、ステップ310でデータを転送すべきストレージノード20が自ノードである場合も、データは移動しないので、ステップ310及びステップ311をスキップして処理を終了する。尚、この機能は、全てバックグラウンドで動作するものとする。そして、この機能は、新たなストレージノード20が追加された場合にデータを適切なノードへ移動する役割も担っている。
このように、本実施の形態では、保存されているデータのメタデータをストレージノード20ごとにまとめてストレージノード20のサマリデータとし、これからデータを保存する際にはそのメタデータと各ストレージノード20のサマリデータとを比較して一致度の高いストレージノード20を選んでそこにデータを保存するようにした。このような方法でデータを複数のストレージノード20に保存すると、各ストレージノード20内のデータは、共通のメタデータを多く持つデータで占められることとなり、近い内容を多く含むこととなる。ここで、近い内容を多く含むデータ同士は重複する部分が多いことも期待できる。即ち、重複排除の期待値が大きいストレージノード20を選択してそこにデータを保存することにより、複数のストレージノード20からなるストレージシステム全体としてのストレージの利用効率化を図ることができる。
尚、本実施の形態では、保存対象データのメタデータと各ストレージノード20のサマリデータとの一致度を求め、あるストレージノード20のサマリデータとの一致度が最高であり予め定めた閾値を超える場合に、そのストレージノード20に保存対象データを保存するようにしたが、この限りではない。例えば、あるストレージノード20のサマリデータとの一致度が最高であれば、予め定めた閾値を超えるかどうかを判断することなく、そのストレージノード20に保存対象データを保存するようにしてもよいし、あるストレージノード20のサマリデータとの一致度が最高でなくても、一致度がある程度高く他の条件を満たせば、そのストレージノード20に保存対象データを保存するようにしてもよい。
また、本実施の形態では、ストレージノード20の使用容量が予め定めた閾値を超えていることを、ストレージノード20に保存対象データを保存するための条件としたが、ストレージノード20の使用容量に基づく他の条件を、ストレージノード20に保存対象データを保存するための条件としてもよい。
更に、本実施の形態では、ストレージノード20のサマリデータが、ストレージノード20に保存されているデータから抽出されたメタデータと、メタデータの重要度とを含むようにしたが、これには限らない。例えば、メタデータの重要度はサマリデータに含めなくてもよい。この場合、一致度としては、サマリデータを構成するメタデータのうち、保存対象データから抽出されたメタデータと同じものの個数に基づいて算出した数値、例えば個数そのものを用いればよい。或いは、ストレージノード20に保存されているデータから抽出されたメタデータをサマリデータに含めず、ストレージノード20に保存されているデータを特徴付ける情報を別途の方法で取得してサマリデータに含めてもよい。
更にまた、本実施の形態では、保存対象データのメタデータと各ストレージノード20のサマリデータとの一致度を求める際に、サマリデータを構成するメタデータのうち、保存対象データから抽出されたメタデータと同じものを特定するようにしたが、サマリデータを構成するメタデータのうち、保存対象データから抽出されたメタデータと同一又は類似する特徴を有するものを特定するようにしてもよい。
最後に、本実施の形態を適用するのに好適なコンピュータのハードウェア構成について説明する。図7は、このようなコンピュータのハードウェア構成の一例を示した図である。図示するように、コンピュータは、演算手段であるCPU(Central Processing Unit)90aと、M/B(マザーボード)チップセット90bを介してCPU90aに接続されたメインメモリ90cと、同じくM/Bチップセット90bを介してCPU90aに接続された表示機構90dとを備える。また、M/Bチップセット90bには、ブリッジ回路90eを介して、ネットワークインターフェイス90fと、磁気ディスク装置(HDD)90gと、音声機構90hと、キーボード/マウス90iと、フレキシブルディスクドライブ90jとが接続されている。
尚、図7において、各構成要素は、バスを介して接続される。例えば、CPU90aとM/Bチップセット90bの間や、M/Bチップセット90bとメインメモリ90cの間は、CPUバスを介して接続される。また、M/Bチップセット90bと表示機構90dとの間は、AGP(Accelerated Graphics Port)を介して接続されてもよいが、表示機構90dがPCI Express対応のビデオカードを含む場合、M/Bチップセット90bとこのビデオカードの間は、PCI Express(PCIe)バスを介して接続される。また、ブリッジ回路90eと接続する場合、ネットワークインターフェイス90fについては、例えば、PCI Expressを用いることができる。また、磁気ディスク装置90gについては、例えば、シリアルATA(AT Attachment)、パラレル転送のATA、PCI(Peripheral Components Interconnect)を用いることができる。更に、キーボード/マウス90i、及び、フレキシブルディスクドライブ90jについては、USB(Universal Serial Bus)を用いることができる。
ここで、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム(装置又は機器)、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ(CD−ROM)、コンパクトディスク−リード/ライト(CD−R/W)及びDVDが含まれる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。
10…クライアント、20…ストレージノード、21,31…メタデータ抽出部、22,32…容量情報記憶部、23,33…サマリデータ記憶部、24,34…ノード決定部、25,35…データ転送部、26,36…サマリデータ登録部、27…データ保存部、30…制御ノード

Claims (10)

  1. 複数のストレージノードでデータを保存するシステムであって、
    前記複数のストレージノードのそれぞれは、
    同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存する保存部と、
    自ストレージノードに入力された入力データから、当該入力データの特徴を示す第1特徴情報を抽出する抽出部と、
    前記複数のストレージノードの前記保存部に保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報であって、当該保存データからそれぞれ抽出された複数の抽出情報と、当該複数の抽出情報のそれぞれの重みを示す重み情報とをそれぞれが含む複数の第2特徴情報を記憶する記憶部と、
    前記抽出部により抽出された前記第1特徴情報と、前記記憶部に記憶された前記複数の第2特徴情報のそれぞれとの一致度を、当該複数の第2特徴情報にそれぞれ含まれる前記複数の抽出情報のうち当該第1特徴情報と同一又は類似の特徴を有する抽出情報の重みを示す前記重み情報に基づいて求めることにより、前記複数のストレージノードのうち前記入力データを保存する特定のストレージノードを決定する決定部と、
    前記決定部により決定された前記特定のストレージノードが自ストレージノードである場合に、自ストレージノードの前記保存部に前記入力データを転送し、前記決定部により決定された前記特定のストレージノードが他のストレージノードである場合に、当該他のストレージノードに前記入力データを転送する転送部と、
    前記転送部により自ストレージノードの前記保存部に前記入力データが転送された場合に、前記抽出部により抽出された前記第1特徴情報に基づいて、前記記憶部に記憶された前記複数の第2特徴情報のうち自ストレージノードの前記保存部に保存されている前記保存データの特徴を示す第2特徴情報を更新する更新部と
    を含む、システム。
  2. 前記更新部は、他のストレージノードの前記保存部に保存されているデータの特徴を示す他の第2特徴情報が当該他のストレージノードから転送された場合に、当該他の第2特徴情報に基づいて、前記記憶部に記憶された前記複数の第2特徴情報のうち当該他のストレージノードの前記保存部に保存されているデータの特徴を示す第2特徴情報を更新する、請求項1のシステム。
  3. 複数のストレージノードにおけるデータの保存を制御ノードで制御するシステムであって、
    前記複数のストレージノードのそれぞれは、
    同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存する保存部
    を含み、
    前記制御ノードは、
    前記システムに入力された入力データから、当該入力データの特徴を示す第1特徴情報を抽出する抽出部と、
    前記複数のストレージノードの前記保存部に保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報であって、当該保存データからそれぞれ抽出された複数の抽出情報と、当該複数の抽出情報のそれぞれの重みを示す重み情報とをそれぞれが含む複数の第2特徴情報を記憶する記憶部と、
    前記抽出部により抽出された前記第1特徴情報と、前記記憶部に記憶された前記複数の第2特徴情報のそれぞれとの一致度を、当該複数の第2特徴情報にそれぞれ含まれる前記複数の抽出情報のうち当該第1特徴情報と同一又は類似の特徴を有する抽出情報の重みを示す前記重み情報に基づいて求めることにより、前記複数のストレージノードのうち前記入力データを保存する特定のストレージノードを決定する決定部と、
    前記決定部により決定された前記特定のストレージノードの前記保存部に前記入力データを転送する転送部と、
    前記抽出部により抽出された前記第1特徴情報に基づいて、前記記憶部に記憶された前記複数の第2特徴情報のうち前記特定のストレージノードの前記保存部に保存されている前記保存データの特徴を示す第2特徴情報を更新する更新部と
    を含む、システム。
  4. 同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存可能な複数のストレージにおけるデータの保存を制御する装置であって、
    前記複数のストレージの何れかに保存すべきデータとして入力された入力データから、当該入力データの特徴を示す第1特徴情報を抽出する抽出部と、
    前記複数のストレージに保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報を記憶する記憶部と、
    前記抽出部により抽出された前記第1特徴情報と、前記記憶部に記憶された前記複数の第2特徴情報のそれぞれとの一致度を求めることにより、前記複数のストレージのうち前記入力データを保存する特定のストレージを決定する決定部と、
    前記決定部により決定された前記特定のストレージに前記入力データを転送する転送部と、
    前記抽出部により抽出された前記第1特徴情報に基づいて、前記記憶部に記憶された前記複数の第2特徴情報のうち前記特定のストレージに保存されている前記保存データの特徴を示す第2特徴情報を更新する更新部と
    を含む、装置。
  5. 前記複数の第2特徴情報のそれぞれは、前記複数のストレージに保存されている前記保存データからそれぞれ抽出された複数の抽出情報を含み、
    前記決定部は、前記記憶部に記憶された前記複数の第2特徴情報にそれぞれ含まれる前記複数の抽出情報のうち、前記抽出部により抽出された前記第1特徴情報と同一又は類似の特徴を有する抽出情報の個数に基づいて、前記一致度を求める、請求項4の装置。
  6. 前記複数の第2特徴情報のそれぞれは、前記複数のストレージに保存されている前記保存データからそれぞれ抽出された複数の抽出情報と、当該複数の抽出情報のそれぞれの重みを示す重み情報とを含み、
    前記決定部は、前記記憶部に記憶された前記複数の第2特徴情報にそれぞれ含まれる前記複数の抽出情報のうち、前記抽出部により抽出された前記第1特徴情報と同一又は類似の特徴を有する抽出情報の重みを示す前記重み情報に基づいて、前記一致度を求める、請求項4の装置。
  7. 前記決定部は、前記一致度と、前記複数のストレージのそれぞれに保存されている前記保存データの容量とに基づいて、前記特定のストレージを決定する、請求項4乃至請求項6の何れかの装置。
  8. 前記抽出部は、前記複数のストレージの一のストレージに保存されている前記保存データから、当該保存データの特徴を示す前記第1特徴情報を抽出し、
    前記抽出部により抽出された前記第1特徴情報と、前記記憶部に記憶された前記複数の第2特徴情報のそれぞれとの一致度を求めることにより、前記複数のストレージのうち前記保存データを保存するストレージを改めて決定し、
    前記転送部は、前記決定部により決定された前記ストレージが前記一のストレージ以外の他のストレージである場合に、当該他のストレージに前記保存データを転送する、請求項4乃至請求項7の何れかの装置。
  9. 同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存可能な複数のストレージにおけるデータの保存を制御する方法であって、
    前記複数のストレージの何れかに保存すべきデータとして入力された入力データから、当該入力データの特徴を示す第1特徴情報を抽出するステップと、
    前記複数のストレージに保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報を記憶する記憶部から、当該複数の第2特徴情報のそれぞれを読み出すステップと、
    抽出された前記第1特徴情報と、読み出された前記複数の第2特徴情報のそれぞれとの一致度を求めることにより、前記複数のストレージのうち前記入力データを保存する特定のストレージを決定するステップと、
    決定された前記特定のストレージに前記入力データを転送するステップと、
    抽出された前記第1特徴情報に基づいて、前記記憶部に記憶された前記複数の第2特徴情報のうち前記特定のストレージに保存されている前記保存データの特徴を示す第2特徴情報を更新するステップと
    を含む、方法。
  10. 同一又は類似の特徴を有するデータの重複を排除した状態でデータを保存可能な複数のストレージにおけるデータの保存を制御する装置として、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    前記複数のストレージの何れかに保存すべきデータとして入力された入力データから、当該入力データの特徴を示す第1特徴情報を抽出する抽出部と、
    前記複数のストレージに保存されている保存データの特徴をそれぞれ示す複数の第2特徴情報を記憶する記憶部から、当該複数の第2特徴情報のそれぞれを読み出す読出し部と、
    前記抽出部により抽出された前記第1特徴情報と、前記読出し部により読み出された前記複数の第2特徴情報のそれぞれとの一致度を求めることにより、前記複数のストレージのうち前記入力データを保存する特定のストレージを決定する決定部と、
    前記決定部により決定された前記特定のストレージに前記入力データを転送する転送部と、
    前記抽出部により抽出された前記第1特徴情報に基づいて、前記記憶部に記憶された前記複数の第2特徴情報のうち前記特定のストレージに保存されている前記保存データの特徴を示す第2特徴情報を更新する更新部と
    して機能させる、プログラム。
JP2011105734A 2011-05-10 2011-05-10 データの保存を制御する装置及び方法 Expired - Fee Related JP5681558B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011105734A JP5681558B2 (ja) 2011-05-10 2011-05-10 データの保存を制御する装置及び方法
US13/463,103 US9357007B2 (en) 2011-05-10 2012-05-03 Controlling storing of data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011105734A JP5681558B2 (ja) 2011-05-10 2011-05-10 データの保存を制御する装置及び方法

Publications (2)

Publication Number Publication Date
JP2012238125A true JP2012238125A (ja) 2012-12-06
JP5681558B2 JP5681558B2 (ja) 2015-03-11

Family

ID=47142681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011105734A Expired - Fee Related JP5681558B2 (ja) 2011-05-10 2011-05-10 データの保存を制御する装置及び方法

Country Status (2)

Country Link
US (1) US9357007B2 (ja)
JP (1) JP5681558B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014203329A (ja) * 2013-04-08 2014-10-27 日本電気株式会社 ストレージシステム、ノード装置及びデータ管理方法
WO2015145661A1 (ja) * 2014-03-27 2015-10-01 株式会社日立製作所 ストレージシステム及び重複データ排除方法
WO2015162758A1 (ja) * 2014-04-24 2015-10-29 株式会社日立製作所 ストレージシステム
JP2018159999A (ja) * 2017-03-22 2018-10-11 日本電気株式会社 ストレージシステム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102380979B1 (ko) * 2015-01-05 2022-04-01 삼성전자 주식회사 이미지의 메타데이터 관리 방법 및 장치
CN107015985B (zh) * 2016-01-27 2021-03-30 创新先进技术有限公司 一种数据存储与获取方法及装置
US10719483B2 (en) 2017-11-20 2020-07-21 International Business Machines Corporation Remote copy with data deduplication functionality
CN110851416B (zh) * 2018-08-03 2023-10-27 阿里巴巴集团控股有限公司 数据存储性能分析方法和装置、宿主机确定方法和装置
JP7253007B2 (ja) * 2021-05-28 2023-04-05 株式会社日立製作所 ストレージシステム
CN117806529A (zh) * 2022-09-26 2024-04-02 戴尔产品有限公司 存储装置之间的数据布局选择

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310450A (ja) * 2007-06-12 2008-12-25 Canon Inc データ管理装置及び方法
JP2009181479A (ja) * 2008-01-31 2009-08-13 Japan Digital Laboratory Co Ltd データ管理システムおよび方法並びにプログラム
JP2010170475A (ja) * 2009-01-26 2010-08-05 Nec Corp ストレージシステム、ストレージシステムにおけるデータ書込方法及びデータ書込プログラム
JP2011507100A (ja) * 2007-12-14 2011-03-03 マイクロソフト コーポレーション 共同オーサリングモード
WO2012124178A1 (ja) * 2011-03-16 2012-09-20 日本電気株式会社 分散記憶システムおよび分散記憶方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3221308A (en) * 1960-12-30 1965-11-30 Ibm Memory system
JPS61198369A (ja) 1985-02-28 1986-09-02 Nec Corp サマリデ−タ生成装置およびサマリデ−タ生成処理方式
US6330621B1 (en) * 1999-01-15 2001-12-11 Storage Technology Corporation Intelligent data storage manager

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310450A (ja) * 2007-06-12 2008-12-25 Canon Inc データ管理装置及び方法
JP2011507100A (ja) * 2007-12-14 2011-03-03 マイクロソフト コーポレーション 共同オーサリングモード
JP2009181479A (ja) * 2008-01-31 2009-08-13 Japan Digital Laboratory Co Ltd データ管理システムおよび方法並びにプログラム
JP2010170475A (ja) * 2009-01-26 2010-08-05 Nec Corp ストレージシステム、ストレージシステムにおけるデータ書込方法及びデータ書込プログラム
WO2012124178A1 (ja) * 2011-03-16 2012-09-20 日本電気株式会社 分散記憶システムおよび分散記憶方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014203329A (ja) * 2013-04-08 2014-10-27 日本電気株式会社 ストレージシステム、ノード装置及びデータ管理方法
WO2015145661A1 (ja) * 2014-03-27 2015-10-01 株式会社日立製作所 ストレージシステム及び重複データ排除方法
US9600201B2 (en) 2014-03-27 2017-03-21 Hitachi, Ltd. Storage system and method for deduplicating data
WO2015162758A1 (ja) * 2014-04-24 2015-10-29 株式会社日立製作所 ストレージシステム
US10089033B2 (en) 2014-04-24 2018-10-02 Hitachi, Ltd. Storage system
JP2018159999A (ja) * 2017-03-22 2018-10-11 日本電気株式会社 ストレージシステム

Also Published As

Publication number Publication date
US9357007B2 (en) 2016-05-31
JP5681558B2 (ja) 2015-03-11
US20120290801A1 (en) 2012-11-15

Similar Documents

Publication Publication Date Title
JP5681558B2 (ja) データの保存を制御する装置及び方法
US11663166B2 (en) Post-processing global deduplication algorithm for scaled-out deduplication file system
EP2757521B1 (en) Image search apparatus, image search method, program, and computer-readable recording medium
KR102007070B1 (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
JP6026738B2 (ja) 重複排除記憶システムのスケーラビリティを向上させるシステムおよび方法
US8972358B2 (en) File storage apparatus, file storage method, and program
US10552044B2 (en) Storage apparatus, data processing method and storage system wherein compressed data is read in parallel, said data stored in buffer by size and read from said buffer, in order of when said data is stored in said buffer
US20180081565A1 (en) Data Access Method and Related Apparatus and System
CN111292225A (zh) 对图形数据进行分区以进行大规模图形处理
WO2021012162A1 (zh) 存储系统数据压缩的方法、装置、设备及可读存储介质
US20210011634A1 (en) Methods and systems for managing key-value solid state drives (kv ssds)
EP3042316B1 (en) Music identification
US9811526B2 (en) Computing resource provisioning based on deduplication
CN102282545A (zh) 存储系统
JP5444728B2 (ja) ストレージシステム、ストレージシステムにおけるデータ書込方法及びデータ書込プログラム
CN114385596A (zh) 数据处理方法及装置
US20220360458A1 (en) Control method, information processing apparatus, and non-transitory computer-readable storage medium for storing control program
CN114153845B (zh) 数据存储及读取的方法、装置、设备及介质
CN113868440B (zh) 特征库的管理方法、装置、设备及介质
WO2019119336A1 (zh) 一种通用数据gz格式的多线程压缩与解压方法及装置
US10963186B2 (en) Latent multiplicity detection
KR102289411B1 (ko) 가중치 기반의 피처 벡터 생성 장치 및 방법
JP4718351B2 (ja) データ管理装置及びデータ管理方法及びプログラム
JP2025172645A (ja) ストレージ装置及びその制御方法
CN119719022A (zh) 区块链归档方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140624

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150109

R150 Certificate of patent or registration of utility model

Ref document number: 5681558

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees