[go: up one dir, main page]

JP2013105274A - Character string conversion device, character string conversion method, and character string conversion program - Google Patents

Character string conversion device, character string conversion method, and character string conversion program Download PDF

Info

Publication number
JP2013105274A
JP2013105274A JP2011247979A JP2011247979A JP2013105274A JP 2013105274 A JP2013105274 A JP 2013105274A JP 2011247979 A JP2011247979 A JP 2011247979A JP 2011247979 A JP2011247979 A JP 2011247979A JP 2013105274 A JP2013105274 A JP 2013105274A
Authority
JP
Japan
Prior art keywords
information
character string
personal information
mask
personal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011247979A
Other languages
Japanese (ja)
Other versions
JP5643177B2 (en
Inventor
Masahiro Yuguchi
昌宏 湯口
Masakatsu Aoki
政勝 青木
Akimichi Tanaka
明通 田中
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011247979A priority Critical patent/JP5643177B2/en
Publication of JP2013105274A publication Critical patent/JP2013105274A/en
Application granted granted Critical
Publication of JP5643177B2 publication Critical patent/JP5643177B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】電子情報に表記ゆれのある個人情報が含まれた場合でもマスク処理の負荷を抑えながら当該電子情報の個人情報のマスク処理を精度よく行う。
【解決手段】文字列変換装置1は、電子情報が入力データ10として入力されると、過去に閲覧された電子情報に含まれた個人情報の項目情報を重点マスク情報として当該電子情報の識別情報毎に格納した重点マスク情報辞書60を参照し、入力データ10に含まれる個人情報の項目情報と一致する重点マスク情報が辞書60内に有るか否かを判断する。前記重点マスク情報が有ると判断された場合、入力データ10から当該重点マスク情報に基づき個人情報文字列を検出する。一方、前記重点マスク情報が無いと判断された場合、入力データ10から個人情報辞書50内の個人情報文字列データに基づき個人情報文字列を検索する。そして、当該検出された個人情報文字列を他の文字列に置き換える。
【選択図】図1
Even when personal information having a notation is included in electronic information, the masking of the personal information of the electronic information is accurately performed while suppressing the load of the mask processing.
When electronic information is input as input data, the character string conversion device 1 uses the item information of the personal information included in the electronic information browsed in the past as the priority mask information, and the identification information of the electronic information The important point mask information dictionary 60 stored every time is referred to, and it is determined whether or not the important point mask information matching the item information of the personal information included in the input data 10 exists in the dictionary 60. If it is determined that the priority mask information is present, a personal information character string is detected from the input data 10 based on the priority mask information. On the other hand, if it is determined that there is no priority mask information, a personal information character string is searched from the input data 10 based on the personal information character string data in the personal information dictionary 50. Then, the detected personal information character string is replaced with another character string.
[Selection] Figure 1

Description

本発明は電子文書に含まれる個人情報を保護するための文字列変換技術に関する。   The present invention relates to a character string conversion technique for protecting personal information included in an electronic document.

個人情報保護の重要性が増すなか、姓名,住所等の個人情報を含む電子文書に対して個人情報部分をマスクして読めなくする技術への期待が高まっている。電子文書に含まれる個人情報部分をマスキングする既存技術としては文字列変換を実施する手法等が知られている(特許文献1等)。   As the importance of protecting personal information increases, there is an increasing expectation for a technology that masks the personal information portion of an electronic document containing personal information such as first and last names and addresses so that it cannot be read. As an existing technique for masking a personal information part included in an electronic document, a technique for performing character string conversion or the like is known (Patent Document 1, etc.).

特開2007−102540号公報JP 2007-102540 A

既存技術では保護対象の電子文書中にマスキングしようとする個人情報文字列と一致した文字列が存在すればマスキング対象となるが、当該文書中の個人情報に表記ゆれや誤変換が含まれている箇所があると該当箇所はマスキング対象として抽出されないことがある。   In the existing technology, if there is a character string that matches the personal information character string to be masked in the electronic document to be protected, it becomes a masking target, but the personal information in the document contains a notation or misconversion. If there is a location, the location may not be extracted as a masking target.

例えば、「田中 太郎」「横須賀市光の丘1−1」が個人情報である場合、電子文書中では「田中 太朗」「横須賀市光ノ丘1の1」として記述されていた場合、該当箇所がマスク対象外となる可能性がある。   For example, if “Taro Tanaka” or “Yokosuka City Hikarinooka 1-1” is personal information, and “Taro Tanaka” or “1 Konooka 1 in Yokosuka City” is described in the electronic document, the corresponding part is masked. May not be eligible.

そこで、マスキングしようとする個人情報文字列について、あいまい検索を実施すれば、一部の文字が誤変換された箇所が含まれる文字列や表記ゆれがある文字列でもマスク対象として検出することができる。   Therefore, if a fuzzy search is performed on the personal information character string to be masked, even a character string including a part in which some characters are erroneously converted or a character string having a notation can be detected as a mask target. .

しかしながら、この方法はマスク対象文字列を検出するための処理負荷が高くなってしまうことや誤ってマスクされてしまう箇所が増加してしまうという問題がある。   However, this method has a problem that the processing load for detecting the character string to be masked is increased and the number of portions that are erroneously masked increases.

特に、Webページの閲覧履歴データは個人情報文字列が多数存在するページだけでなく個人情報文字列が含まれていないページなどが存在する。このため、Webページの閲覧履歴データについて個人情報のマスキングを行う場合、全てのWebページ閲覧履歴データに対してあいまい検索などにより個人情報の検出を行うとすると、マスキング処理の処理負荷が大きくなってしまい、効率的ではない。   In particular, the browsing history data of a Web page includes not only a page in which a large number of personal information character strings exist, but also a page that does not include a personal information character string. For this reason, when personal information is masked for browsing history data of Web pages, if the personal information is detected by fuzzy search or the like for all Web page browsing history data, the processing load of the masking process increases. It is not efficient.

本発明は、上記の事情に鑑み、電子情報に表記ゆれのある個人情報が含まれた場合でもマスク処理の負荷を抑えながら当該電子情報の個人情報のマスク処理を精度よく行うことを課題とする。   SUMMARY OF THE INVENTION In view of the above circumstances, an object of the present invention is to accurately perform mask processing of personal information of electronic information while suppressing the load of mask processing even when the personal information includes notation fluctuations in the electronic information. .

そこで、本発明の文字列変換装置の態様としては、電子文書に含まれる個人情報を他の文字列に変換する文字列変換装置であって、保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書と、電子情報が入力されると、過去に閲覧された電子情報に含まれた個人情報の項目情報を重点マスク情報として当該電子情報の識別情報毎に格納した重点マスク情報辞書を参照し、当該入力された電子情報に含まれる個人情報の項目情報と一致する重点マスク情報が当該辞書内に有るか否かを判断する重点マスク情報検出手段と、前記重点マスク情報が有ると判断された場合に前記入力された電子情報から当該重点マスク情報に基づき個人情報文字列を検出する一方で前記重点マスク情報が無いと判断された場合に前記入力された電子情報から前記個人情報辞書内の個人情報文字列データに基づき個人情報文字列を検索する個人情報検出手段と、前記検出された個人情報文字列を他の文字列に置き換える個人情報マスク処理手段を備える。   Therefore, as an aspect of the character string conversion device of the present invention, there is provided a character string conversion device for converting personal information included in an electronic document into another character string, and the personal information character string data to be protected is an item of personal information. Personal information dictionary stored every time and when the electronic information is inputted, the item information of the personal information included in the electronic information browsed in the past is the priority mask information stored for each identification information of the electronic information as the priority mask information An importance mask information detecting unit that refers to an information dictionary and determines whether or not the importance mask information matching the item information of the personal information included in the input electronic information exists in the dictionary; and the importance mask information includes The personal information character string is detected based on the priority mask information from the input electronic information when it is determined that the input information is present, while the input is performed when it is determined that the priority mask information does not exist. Personal information detection means for retrieving a personal information character string from child information based on personal information character string data in the personal information dictionary; and personal information mask processing means for replacing the detected personal information character string with another character string. Prepare.

本発明の文字列変換方法としての態様としては、保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、電子情報が入力されると過去に閲覧された電子情報に含まれた個人情報の項目情報を重点マスク情報として当該電子情報の識別情報毎に格納した重点マスク情報辞書を参照し当該入力された電子情報に含まれる個人情報の項目情報と一致する重点マスク情報がこの辞書内に有るか否かを判断するステップと、前記重点マスク情報が無いと判断された場合に前記入力された電子情報から前記個人情報辞書内の個人情報文字列データに基づき個人情報文字列を検索する一方で前記重点マスク情報が有ると判断された場合に前記入力された電子情報から当該重点マスク情報に基づき個人情報文字列を検出するステップと、前記検出された個人情報文字列を他の文字列に置き換えるステップを有する。   As an aspect of the character string conversion method of the present invention, a character string conversion device including a personal information dictionary storing personal information character string data to be protected for each item of personal information can be used to convert personal information included in an electronic document into other information. A method of converting a character string into a character string, wherein when electronic information is input, item information of personal information included in the electronic information browsed in the past is used as priority mask information for each identification information of the electronic information Determining whether or not there is important mask information in the dictionary that matches the item information of the personal information included in the inputted electronic information with reference to the stored important mask information dictionary; When it is determined that there is the priority mask information while searching the personal information character string based on the personal information character string data in the personal information dictionary from the input electronic information. A detecting personal information string based on the priority mask information from the input electronic information when the step of replacing the detected personal information character string to another string.

尚、本発明はコンピュータを上記の文字列変換装置を構成する各手段として機能させる文字列変換プログラムの態様とすることもできる。   Note that the present invention can also be implemented as a character string conversion program that causes a computer to function as each means constituting the character string conversion device.

以上の発明によれば電子情報に表記ゆれのある個人情報が含まれた場合でもマスク処理の負荷を抑えながら当該電子情報の個人情報のマスク処理を精度よく行える。   According to the above-described invention, even when personal information with swaying is included in the electronic information, the masking of the personal information of the electronic information can be performed with high accuracy while suppressing the load of the mask processing.

本発明の実施形態に係る文字列変換装置の構成を示したブロック図。The block diagram which showed the structure of the character string converter which concerns on embodiment of this invention. 本発明の実施形態に係る文字列変換処理のフローチャート。The flowchart of the character string conversion process which concerns on embodiment of this invention. 本発明の実施形態に係る個人情報辞書の一例。An example of the personal information dictionary which concerns on embodiment of this invention. 本発明の実施形態に係る重点マスク情報辞書の一例。An example of the important point mask information dictionary which concerns on embodiment of this invention. 本発明の実施形態に係るネットワークシステムの構成を示したブロック図。1 is a block diagram showing a configuration of a network system according to an embodiment of the present invention.

以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. However, the present invention is not limited to these embodiments.

[実施形態1]
(概要)
従来、例えばWebブラウザの閲覧履歴を活用したサービスに係る姓名、住所等の個人情報を含む電子文書に対して、個人情報の保護を目的として、個人情報を検出してその部分を他の文字列に変換する際、個人情報の表記ゆれを考慮すると処理時間がかかる。
[Embodiment 1]
(Overview)
Conventionally, for the purpose of protecting personal information, for example, for an electronic document including personal information such as first and last names and addresses related to a service using a browsing history of a Web browser, the portion is replaced with another character string When it is converted to, it takes time to take into account fluctuations in the personal information.

そこで、図1に示された発明の実施形態1に係る文字列変換装置1は処理すべき電子文書の識別情報(例えばURL)毎に個人情報の表記ゆれを考慮する項目と考慮しない項目を指定しておき、考慮すべき項目に限定して表記ゆれに対応してマスキング処理を行う。これによりマスク処理負荷を抑えながらマスキングの漏れのないように個人情報をマスクできる。   Therefore, the character string conversion apparatus 1 according to the first embodiment of the invention shown in FIG. 1 designates items that take into account fluctuations of personal information and items that are not taken into account for each identification information (for example, URL) of an electronic document to be processed. In addition, the masking process is performed corresponding to the notation fluctuation only for the items to be considered. As a result, personal information can be masked so as not to leak masking while suppressing the mask processing load.

(装置の構成)
文字列変換装置1は図1に示されたように入力データ読込部20、個人情報読込部30、個人情報辞書40、重点マスク情報検出部50、重点マスク情報辞書60、個人情報検出部70、重点マスク情報管理部80、個人情報マスク処理部90、マスク文字列格納部112を備える。文字列変換装置1の各機能部20〜90,112はサーバ(コンピュータ)のハードウェアリソースによって実現される。すなわち、文字列変換装置1は少なくとも演算装置(CPU)、記憶装置(メモリ、ハードディスク装置等)、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより各機能部20〜90,112が実装される。
(Device configuration)
As shown in FIG. 1, the character string conversion device 1 includes an input data reading unit 20, a personal information reading unit 30, a personal information dictionary 40, an important mask information detecting unit 50, an important mask information dictionary 60, a personal information detecting unit 70, The priority mask information management part 80, the personal information mask process part 90, and the mask character string storage part 112 are provided. The function units 20 to 90 and 112 of the character string conversion device 1 are realized by hardware resources of a server (computer). That is, the character string conversion device 1 includes at least hardware resources related to a computer such as a computing device (CPU), a storage device (memory, a hard disk device, etc.), a communication interface, and the like. These hardware resources cooperate with software resources (OS, applications, etc.) to implement the functional units 20 to 90, 112.

入力データ読込部20は入力データ10である個人情報を含むWebページ閲覧履歴データ(電子文書)を読み込み、メモリの内部データとして登録する。Webページ閲覧履歴データはその識別情報として該当ページのURL、サイト名などのアドレス情報を含んでいる。入力データ読込部20はこれらの属性情報も合わせて読み込む。   The input data reading unit 20 reads Web page browsing history data (electronic document) including personal information as the input data 10 and registers it as internal data in the memory. The Web page browsing history data includes address information such as URL and site name of the corresponding page as identification information. The input data reading unit 20 also reads these attribute information.

個人情報読込部30は、個人情報辞書40から個人情報文字列を読み込み、メモリの内部データとして保持する。個人情報辞書40は保護対象の個人情報文字列データを個人情報の項目毎に格納している。図3に例示された個人情報辞書40は例えば文字列変換装置1を所有するクライアントの個人情報の項目(氏名、電話番号、携帯電話番号、クレジットカード番号、郵便番号、メールアドレス、住所)毎に個人情報文字列を格納している。個人情報辞書40はテキストデータの態様の他にデータベースの態様を採ってもよい。   The personal information reading unit 30 reads a personal information character string from the personal information dictionary 40 and holds it as internal data in the memory. The personal information dictionary 40 stores personal information character string data to be protected for each item of personal information. The personal information dictionary 40 illustrated in FIG. 3 is, for example, for each item of personal information (name, phone number, mobile phone number, credit card number, postal code, mail address, address) of the client that owns the character string conversion device 1. Stores personal information character strings. The personal information dictionary 40 may take the form of a database in addition to the form of text data.

重点マスク情報検出部50は、重点マスク情報辞書60を参照し、入力データ10に含まれる個人情報の項目のデータと一致する重点マスク情報が重点マスク情報辞書60内に有るか否かを判断する。   The priority mask information detection unit 50 refers to the priority mask information dictionary 60 and determines whether or not the priority mask information dictionary 60 matches the data of the item of personal information included in the input data 10. .

重点マスク情報辞書60は過去に閲覧された電子情報に含まれた個人情報の単一または複数の項目のデータを重点マスク情報として当該電子情報の識別情報毎に格納したものである。重点マスク情報としては例えば電子情報としてWebページ閲覧履歴データに含まれる個人情報として可能性の高い項目の情報が挙げられる。図4に例示された重点マスク情報辞書60は、過去に閲覧された電子情報に含まれた個人情報の項目(氏名、住所、電話番号、カード番号、メールアドレス)のデータを単数または複数組み合わせて成る重点マスク情報を格納している。重点マスク情報はこの情報を含んだ電子情報(例えばWebページ閲覧履歴データ)の識別情報(例えばWebページのURL等のアドレス情報)と対応付けて格納されている。重点マスク情報辞書60は個人情報辞書40と同様にテキストデータの他にデータベースの態様を成してもよい。尚、入力データ10の識別情報が重点マスク情報辞書60に登録されていないと判断された場合、入力データ10の重点マスク情報が未登録であるものとして扱われる。   The priority mask information dictionary 60 stores data of single or plural items of personal information included in electronic information browsed in the past as priority mask information for each identification information of the electronic information. The priority mask information includes, for example, information on items that are highly likely as personal information included in the Web page browsing history data as electronic information. The emphasis mask information dictionary 60 illustrated in FIG. 4 is a combination of one or a plurality of data of personal information items (name, address, telephone number, card number, mail address) included in electronic information browsed in the past. The emphasis mask information is stored. The priority mask information is stored in association with identification information (for example, address information such as a URL of a Web page) of electronic information (for example, Web page browsing history data) including this information. Like the personal information dictionary 40, the priority mask information dictionary 60 may form a database in addition to text data. When it is determined that the identification information of the input data 10 is not registered in the priority mask information dictionary 60, the priority mask information of the input data 10 is treated as not registered.

個人情報検出部70は重点マスク情報検出部50によって前記重点マスク情報が有ると判断された場合に当該重点マスク情報に基づき入力データ10から個人情報文字列を検出する。一方、前記重点マスク情報が無いと判断された場合に個人情報辞書40内の個人情報文字列データに基づき入力データ10から個人情報文字列を検索する。   The personal information detection unit 70 detects a personal information character string from the input data 10 based on the priority mask information when the priority mask information detection unit 50 determines that the priority mask information is present. On the other hand, when it is determined that the priority mask information does not exist, the personal information character string is searched from the input data 10 based on the personal information character string data in the personal information dictionary 40.

重点マスク情報管理部80は個人情報検出部70によって検出された個人情報文字列を入力データ10の識別情報と対応付けて重点マスク情報辞書60に保存する。   The priority mask information management unit 80 stores the personal information character string detected by the personal information detection unit 70 in the priority mask information dictionary 60 in association with the identification information of the input data 10.

個人情報マスク処理部90は個人情報検出部70によって検出された個人情報文字列を他の文字列に置き換える。この他の文字列はマスク文字列格納部112にて予め格納されている。   The personal information mask processing unit 90 replaces the personal information character string detected by the personal information detection unit 70 with another character string. Other character strings are stored in advance in the mask character string storage unit 112.

(処理手順の説明)
図2を参照しながら文字列変換装置1によって実行される文字変換処理の手順S101〜S109について説明する。
(Description of processing procedure)
The character conversion processing procedures S101 to S109 executed by the character string conversion device 1 will be described with reference to FIG.

S101:入力データ読込部20は、入力データ10(個人情報を含むWebページ閲覧履歴データ)を受け付けると、これを読み込み、メモリの内部データとして登録する。   S101: When the input data reading unit 20 receives the input data 10 (Web page browsing history data including personal information), it reads it and registers it as internal data in the memory.

S102:個人情報読込部30は、個人情報辞書40から個人情報文字列を読み込み、内部データとして保持する。   S102: The personal information reading unit 30 reads a personal information character string from the personal information dictionary 40 and holds it as internal data.

S103:重点マスク情報検出部50は入力データ10に含まれるWebページのURL情報やサイト名等の識別情報に基づき重点マスク情報辞書60から重点マスク情報を読み込む。   S103: The importance mask information detection unit 50 reads the importance mask information from the importance mask information dictionary 60 based on the identification information such as the URL information of the Web page and the site name included in the input data 10.

S104:重点マスク情報検出部50は手順S102で保持された個人情報文字列と手順103で読み込まれた重点マスク情報とを参照し、当該個人情報文字列と一致する重点マスク情報を有するか否かを判断する。   S104: The emphasis mask information detection unit 50 refers to the personal information character string held in step S102 and the emphasis mask information read in step 103, and whether or not the emphasis mask information matches the personal information character string. Judging.

S105:手順S104で前記重点マスク情報が有ると判断された場合に、個人情報検出部70は、手順103で読み込まれた重点マスク情報に基づくあいまい検索により入力データ10から個人情報文字列を検出する。   S105: If it is determined in step S104 that the priority mask information is present, the personal information detection unit 70 detects a personal information character string from the input data 10 by an ambiguous search based on the priority mask information read in step 103. .

S106:手順S104で重点マスク情報が無いと判断された場合に、個人情報検出部70は、手順S102で保持された個人情報文字列に基づき入力データ10から個人情報文字列を検索する。尚、個人情報辞書40に含まれる全ての個人情報の文字列に基づくあいまい検索を実行するようにしてもよい。   S106: If it is determined in step S104 that there is no priority mask information, the personal information detection unit 70 searches the input data 10 for a personal information character string based on the personal information character string held in step S102. Note that an ambiguous search based on character strings of all personal information included in the personal information dictionary 40 may be executed.

S107:重点マスク情報管理部80は手順S105または手順S106で検出された個人情報文字列を入力データ10の重点マスク情報の一つとして当該入力データ10の識別情報と対応付けて重点マスク情報辞書60に保存する。   S107: The priority mask information management unit 80 associates the personal information character string detected in step S105 or step S106 with the identification information of the input data 10 as one of the priority mask information of the input data 10, and the priority mask information dictionary 60. Save to.

手順107では、重点マスク情報辞書60に格納された電子情報の識別情報(例えばアドレス情報)に対して既に重点マスク情報が登録されている場合に、手順S105で得られた最新の検出結果(個人情報文字列)が既存の重点マスク情報に反映される。   In step 107, when the importance mask information is already registered for the identification information (for example, address information) of the electronic information stored in the importance mask information dictionary 60, the latest detection result (individual) obtained in step S105 Information character string) is reflected in the existing emphasis mask information.

また、蓄積された電子情報の閲覧履歴に基づく統計的な処理により選択された複数の個人情報の項目を重点マスク情報として決定してもよい。例えば過去に閲覧された電子情報において使用された頻度(例えば共起頻度)が上位複数の個人情報の項目が選択されて重点マスク情報が決定される。   Moreover, you may determine the item of several personal information selected by the statistical process based on the browsing history of the stored electronic information as priority mask information. For example, the priority mask information is determined by selecting a plurality of items of personal information having a higher frequency (for example, co-occurrence frequency) used in electronic information browsed in the past.

さらに、手順S103で入力データ10の識別情報が重点マスク情報辞書60にて未登録であると判断された場合、入力データ10に含まれる個人情報が項目(例えば氏名、電話番号、携帯電話番号、クレジットカード番号、郵便番号、メールアドレス、住所)別に分けられる。そして、この各項目に分けられた個人情報が前記識別情報と対応付けられ新規の重点マスク情報として重点マスク情報辞書60に追加される。   Further, when it is determined in step S103 that the identification information of the input data 10 is not registered in the priority mask information dictionary 60, the personal information included in the input data 10 is an item (for example, name, phone number, mobile phone number, Credit card number, zip code, email address, address). The personal information divided into the items is associated with the identification information and added to the priority mask information dictionary 60 as new priority mask information.

S108:個人情報マスク処理部90は手順S105または手順S106で検出された個人情報文字列をマスク対象箇所とする。そして、このマスク対象箇所をマスク文字列格納部112から引き出した他の文字列に置き換える。他の文字列としては例えば「*」のような記号が挙げられる。   S108: The personal information mask processing unit 90 sets the personal information character string detected in step S105 or step S106 as a mask target portion. Then, the mask target portion is replaced with another character string extracted from the mask character string storage unit 112. Examples of other character strings include symbols such as “*”.

また、手順S108では個人情報の項目毎に規定した文字列によって置換するようにしてもよい。具体的にはマスク対象箇所を置換するマスク用文字列の態様として例えば「*個人情報項目コード:文字数*」のように「開始記号」+「個人情報項目識別子」+「区切記号」+「終端記号」の順に文字列を結合したものが挙げられる。このように個人情報の項目の識別情報を含んだマスク用文字列を利用した場合、当該マスク対象箇所の個人情報種類を解析することが可能となる。例えば文字列変換装置1とネットワークを介して通信可能な図示省略のWeb閲覧履歴収集サーバが前記マスク対象箇所の個人情報種類の解析を行うような事例が挙げられる。   In step S108, a character string defined for each item of personal information may be substituted. Specifically, as an aspect of a mask character string for replacing a mask target portion, for example, “* personal information item code: number of characters *”, “start symbol” + “personal information item identifier” + “separator” + “end” The character string is combined in the order of “symbol”. When the mask character string including the identification information of the personal information item is used as described above, it is possible to analyze the personal information type of the mask target portion. For example, there is a case where a Web browsing history collection server (not shown) that can communicate with the character string conversion device 1 via a network analyzes the personal information type of the mask target portion.

S109:個人情報マスク処理部90は手順S108で個人情報文字列が他の文字列に置換された入力データ10を文字列変換装置1内の記憶手段に保存する。また、外部の端末(例えばWeb閲覧履歴収集サーバ)から入力データ10の要求があるとこの手順109で個人情報文字列をマスクしたデータを出力データ100として出力する。   S109: The personal information mask processing unit 90 stores the input data 10 in which the personal information character string is replaced with another character string in step S108 in the storage unit in the character string conversion apparatus 1. When there is a request for input data 10 from an external terminal (for example, a web browsing history collection server), data in which the personal information character string is masked in this procedure 109 is output as output data 100.

(本実施形態の効果)
したがって、文字列変換装置1によれば電子情報に表記ゆれのある個人情報が含まれた場合でもマスク処理の負荷を抑えながら当該電子情報の個人情報のマスク処理を精度よく行える。特に、電子情報に存在しない個人情報種類に関するマスキング処理による処理負荷を抑えることにより個人情報のマスク処理の負荷を軽減させることできる。また、電子情報に含まれる個人情報がマスク処理されると次回以降に当該電子情報の入力を受け付けるとこの電子情報に含まれる個人情報を重点マスク情報辞書60に反映させる必要がないので個人情報のマスク処理の負荷が軽減する。
(Effect of this embodiment)
Therefore, according to the character string conversion device 1, even when personal information having a description change is included in the electronic information, the mask processing of the personal information of the electronic information can be accurately performed while suppressing the load of the mask processing. In particular, it is possible to reduce the load of the personal information masking process by suppressing the processing load due to the masking process related to the personal information type that does not exist in the electronic information. In addition, when the personal information included in the electronic information is masked, it is not necessary to reflect the personal information included in the electronic information in the priority mask information dictionary 60 when the input of the electronic information is accepted next time. The load of mask processing is reduced.

さらに、入力された電子情報に含まれる個人情報に基づき重点マスク情報辞書60の重点マスク情報が更新されることにより当該個人情報のマスキング精度がより一層高まる。   Furthermore, the masking accuracy of the personal information is further improved by updating the mask information of the mask mask information dictionary 60 based on the personal information included in the input electronic information.

そして、蓄積された電子情報の閲覧履歴に基づく統計的な処理により複数種類の個人情報が選択されることで個人情報のマスキング精度がさらに向上すると共にマスク処理の負荷がより一層低減する。   Then, by selecting a plurality of types of personal information through statistical processing based on the browsing history of the stored electronic information, the masking accuracy of the personal information is further improved and the mask processing load is further reduced.

[実施形態2]
図5に示された実施形態2に係るネットワークシステムはシステム内に存在する全てのクライアント端末2において文字列変換装置1を実装させている。個々のクライアント端末2はそのハードウェアリソースがソフトウェアリソースと協働することにより図1に示された文字列変換装置1の機能部20〜50,70〜90,112を実装している。重点マスク情報辞書60は重点マスク情報蓄積サーバ3に保存されている。
[Embodiment 2]
In the network system according to the second embodiment shown in FIG. 5, the character string conversion device 1 is installed in all the client terminals 2 existing in the system. Each client terminal 2 has the function units 20 to 50, 70 to 90, and 112 of the character string conversion device 1 shown in FIG. The importance mask information dictionary 60 is stored in the importance mask information accumulation server 3.

クライアント端末2はWebページ閲覧履歴データ201に含まれる個人情報のマスク処理(上述の手順S101〜S109の実行)の際にインターネット4を介して重点マスク情報蓄積サーバ3内の重点マスク情報辞書60に格納された重点マスク情報202を参照する。尚、本マスク処理の過程で新たに検出された個人情報は新たな重点マスク情報202として重点マスク情報辞書60に追加される。   The client terminal 2 stores the personal information included in the Web page browsing history data 201 in the priority mask information dictionary 60 in the priority mask information storage server 3 via the Internet 4 during the masking process (execution of steps S101 to S109 described above). The stored importance mask information 202 is referred to. The personal information newly detected in the process of this mask processing is added to the priority mask information dictionary 60 as new priority mask information 202.

本ネットワークシステムにおいてはWeb閲覧履歴収集サーバ5がインターネット4を介してクライアント端末2からWebページ閲覧履歴データ203を取得できるようになっている。Webページ閲覧履歴データ203に含まれる個人情報はクライアント端末2が実行する手順S101〜S109によりマスク処理されている。   In this network system, the Web browsing history collection server 5 can acquire the Web page browsing history data 203 from the client terminal 2 via the Internet 4. The personal information included in the Web page browsing history data 203 is masked by steps S101 to S109 executed by the client terminal 2.

以上の本実施形態のネットワークシステムによればWeb閲覧履歴収集サーバ5は個々のクライアント端末2から個人情報がマスク処理されたWebページ閲覧履歴データ203を効率的に収集できる。   According to the network system of the present embodiment described above, the Web browsing history collection server 5 can efficiently collect the Web page browsing history data 203 in which the personal information is masked from the individual client terminals 2.

また、Webページ閲覧履歴データ201に含まれる個人情報がマスク処理されると次回以降に当該データ201の入力を受け付けるとこのデータ201に含まれる個人情報を重点マスク情報蓄積サーバ3内の重点マスク情報辞書60に反映させる必要がなくなる。したがって、クライアント端末2のネットワーク利用の負荷が軽減する。   Further, when the personal information included in the Web page browsing history data 201 is masked, when the input of the data 201 is accepted from the next time onward, the personal information included in the data 201 is converted into the priority mask information in the priority mask information storage server 3. It is not necessary to reflect in the dictionary 60. Therefore, the network usage load of the client terminal 2 is reduced.

[本発明のプログラムとしての態様]
本発明は文字列変換装置1を構成する上記の機能部20〜90,112の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。または、文字列変換装置1が実行する上記の手順S101〜109の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。そして、前記プログラムをそのコンピュータが読み取り可能な記録媒体、例えば、FD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、SSD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。さらに、上記のプログラムをインターネットや電子メールなど、ネットワークを介して提供することも可能である。
[Aspect as Program of the Present Invention]
The present invention can be realized by configuring a program that causes a computer to function as a part or all of the functional units 20 to 90 and 112 constituting the character string conversion apparatus 1 and causing the computer to execute the program. Alternatively, it can be realized by configuring a program that causes a computer to execute a part or all of the above steps S101 to S109 executed by the character string conversion device 1, and causing the computer to execute the program. The program can be read by a computer-readable recording medium such as FD (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact Disk). -ROM, DVD (Digital Versatile Disk)-It is possible to record on a ROM, CD-R, CD-RW, HDD, SSD, removable disk, etc., and store or distribute it. Furthermore, the above program can be provided via a network such as the Internet or e-mail.

1…文字列変換装置
40…個人情報辞書
50…重点マスク情報検出部(重点マスク情報検出手段)
60…重点マスク情報辞書
70…個人情報検出部(個人情報検出手段)
80…重点マスク情報管理部(重点マスク情報管理手段)
90…個人情報マスク処理部(個人情報マスク処理手段)
DESCRIPTION OF SYMBOLS 1 ... Character string converter 40 ... Personal information dictionary 50 ... Emphasis mask information detection part (importance mask information detection means)
60 ... Important mask information dictionary 70 ... Personal information detection unit (personal information detection means)
80 ... Important mask information management unit (important mask information management means)
90. Personal information mask processing section (personal information mask processing means)

Claims (10)

電子文書に含まれる個人情報を他の文字列に変換する文字列変換装置であって、
保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書と、
電子情報が入力されると、過去に閲覧された電子情報に含まれた個人情報の項目情報を重点マスク情報として当該電子情報の識別情報毎に格納した重点マスク情報辞書を参照し、当該入力された電子情報に含まれる個人情報の項目情報と一致する重点マスク情報が当該辞書内に有るか否かを判断する重点マスク情報検出手段と、
前記重点マスク情報が有ると判断された場合に前記入力された電子情報から当該重点マスク情報に基づき個人情報文字列を検出する一方で前記重点マスク情報が無いと判断された場合に前記入力された電子情報から前記個人情報辞書内の個人情報文字列データに基づき個人情報文字列を検索する個人情報検出手段と、
前記検出された個人情報文字列を他の文字列に置き換える個人情報マスク処理手段と
を備えたこと
を特徴とする文字列変換装置。
A character string conversion device that converts personal information contained in an electronic document into another character string,
Personal information dictionary storing personal information character string data to be protected for each item of personal information,
When electronic information is input, the item information of the personal information included in the electronic information browsed in the past is referred to as the priority mask information dictionary stored for each identification information of the electronic information as the priority mask information. Priority mask information detecting means for determining whether or not there is priority mask information in the dictionary that matches the item information of the personal information included in the electronic information;
When it is determined that the emphasis mask information is present, the personal information character string is detected from the input electronic information based on the emphasis mask information, while the input is performed when it is determined that the emphasis mask information is not present. Personal information detecting means for searching a personal information character string based on personal information character string data in the personal information dictionary from electronic information;
A character string conversion device comprising personal information mask processing means for replacing the detected personal information character string with another character string.
前記個人情報検出手段は前記重点マスク情報が有ると判断された場合に前記入力された電子情報から当該重点マスク情報に基づくあいまい検索により個人情報文字列を検出することを特徴とする請求項1に記載の文字列変換装置。   2. The personal information detection unit detects a personal information character string from the input electronic information by a fuzzy search based on the priority mask information when it is determined that the priority mask information is present. The character string converter described. 前記他の文字列は個人情報の項目の識別子を含むことを特徴とする請求項1または2に記載の文字列変換装置。   The character string conversion apparatus according to claim 1 or 2, wherein the other character string includes an identifier of an item of personal information. 前記重点マスク情報は蓄積された電子情報の閲覧履歴に基づく統計的な処理により複数の個人情報の項目が選択されて成ることを特徴とする請求項1から3のいずれか1項に記載の文字列変換装置。   4. The character according to claim 1, wherein the priority mask information includes a plurality of items of personal information selected by statistical processing based on a browsing history of stored electronic information. Column conversion device. 前記個人情報検出手段によって検出された個人情報文字列を当該入力された電子情報の識別情報と対応付けて前記重点マスク情報辞書に保存する重点マスク情報管理手段をさらに備えたことを特徴とする請求項1から4のいずれか1項に記載の文字列変換装置。   The apparatus further comprises important mask information management means for storing the personal information character string detected by the personal information detecting means in association with the identification information of the inputted electronic information in the important mask information dictionary. Item 5. The character string conversion device according to any one of Items 1 to 4. 保護対象の個人情報文字列データを個人情報の項目毎に格納した個人情報辞書を備えた文字列変換装置が電子文書に含まれる個人情報を他の文字列に変換する文字列変換方法であって、
電子情報が入力されると過去に閲覧された電子情報に含まれた個人情報の項目情報を重点マスク情報として当該電子情報の識別情報毎に格納した重点マスク情報辞書を参照し当該入力された電子情報に含まれる個人情報の項目情報と一致する重点マスク情報がこの辞書内に有るか否かを判断するステップと、
前記重点マスク情報が無いと判断された場合に前記入力された電子情報から前記個人情報辞書内の個人情報文字列データに基づき個人情報文字列を検索する一方で前記重点マスク情報が有ると判断された場合に前記入力された電子情報から当該重点マスク情報に基づき個人情報文字列を検出するステップと、
前記検出された個人情報文字列を他の文字列に置き換えるステップと
を有すること
を特徴とする文字列変換方法。
A character string conversion method including a personal information dictionary storing personal information character string data to be protected for each item of personal information is a character string conversion method for converting personal information contained in an electronic document into another character string. ,
When the electronic information is input, the item information of the personal information included in the electronic information browsed in the past is referred to as the importance mask information, and the input electronic data is referred to the importance mask information dictionary stored for each identification information of the electronic information. Determining whether or not the importance mask information matching the item information of the personal information included in the information exists in the dictionary;
When it is determined that the emphasis mask information does not exist, it is determined that the emphasis mask information exists while searching for a personal information character string based on the personal information character string data in the personal information dictionary from the input electronic information. Detecting a personal information character string based on the emphasis mask information from the input electronic information when
And replacing the detected personal information character string with another character string.
前記個人情報を検出するステップでは前記重点マスク情報が有ると判断された場合に前記入力された電子情報から当該重点マスク情報に基づくあいまい検索により個人情報文字列を検出することを特徴とする請求項6に記載の文字列変換方法。   The personal information character string is detected by fuzzy search based on the priority mask information from the input electronic information when it is determined that the priority mask information is present in the step of detecting the personal information. 6. The character string conversion method according to 6. 前記他の文字列は個人情報の項目の識別子を含むことを特徴とする請求項6または7に記載の文字列変換方法。   8. The character string conversion method according to claim 6, wherein the other character string includes an identifier of an item of personal information. 前記検索するステップで検出された個人情報文字列を当該入力された電子情報の識別情報と対応付けて前記重点マスク情報辞書に保存するステップをさらに有することを特徴とする請求項6から8のいずれか1項に記載の文字列変換方法。   9. The method according to claim 6, further comprising the step of storing the personal information character string detected in the searching step in the priority mask information dictionary in association with the identification information of the input electronic information. The character string conversion method according to claim 1. コンピュータを請求項1から5のいずれか1項に記載の文字列変換装置を構成する各手段として機能させる文字列変換プログラム。   A character string conversion program for causing a computer to function as each means constituting the character string conversion device according to any one of claims 1 to 5.
JP2011247979A 2011-11-11 2011-11-11 Character string conversion device, character string conversion method, and character string conversion program Expired - Fee Related JP5643177B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011247979A JP5643177B2 (en) 2011-11-11 2011-11-11 Character string conversion device, character string conversion method, and character string conversion program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011247979A JP5643177B2 (en) 2011-11-11 2011-11-11 Character string conversion device, character string conversion method, and character string conversion program

Publications (2)

Publication Number Publication Date
JP2013105274A true JP2013105274A (en) 2013-05-30
JP5643177B2 JP5643177B2 (en) 2014-12-17

Family

ID=48624779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011247979A Expired - Fee Related JP5643177B2 (en) 2011-11-11 2011-11-11 Character string conversion device, character string conversion method, and character string conversion program

Country Status (1)

Country Link
JP (1) JP5643177B2 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6007A (en) * 1849-01-09 Improvement in plows
JP2004094542A (en) * 2002-08-30 2004-03-25 Hitachi Software Eng Co Ltd Document management system
JP2006221560A (en) * 2005-02-14 2006-08-24 Nomura Research Institute Ltd Data replacement device, data replacement method, and data replacement program
JP2007004694A (en) * 2005-06-27 2007-01-11 Toshiba Corp Contact center system, personal information distribution apparatus, distribution method, and distribution program
JP2007058380A (en) * 2005-08-23 2007-03-08 Hitachi Software Eng Co Ltd Electronic document masking system
JP2007207181A (en) * 2006-02-06 2007-08-16 Toshiba Corp Personal information mask function device and program thereof
JP2011034264A (en) * 2009-07-31 2011-02-17 Hitachi Solutions Ltd Personal information masking system
JP2011154602A (en) * 2010-01-28 2011-08-11 Fujitsu Frontech Ltd Character string management apparatus, character string registration method, character string search method and character string management program

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6007A (en) * 1849-01-09 Improvement in plows
JP2004094542A (en) * 2002-08-30 2004-03-25 Hitachi Software Eng Co Ltd Document management system
JP2006221560A (en) * 2005-02-14 2006-08-24 Nomura Research Institute Ltd Data replacement device, data replacement method, and data replacement program
JP2007004694A (en) * 2005-06-27 2007-01-11 Toshiba Corp Contact center system, personal information distribution apparatus, distribution method, and distribution program
JP2007058380A (en) * 2005-08-23 2007-03-08 Hitachi Software Eng Co Ltd Electronic document masking system
JP2007207181A (en) * 2006-02-06 2007-08-16 Toshiba Corp Personal information mask function device and program thereof
JP2011034264A (en) * 2009-07-31 2011-02-17 Hitachi Solutions Ltd Personal information masking system
JP2011154602A (en) * 2010-01-28 2011-08-11 Fujitsu Frontech Ltd Character string management apparatus, character string registration method, character string search method and character string management program

Also Published As

Publication number Publication date
JP5643177B2 (en) 2014-12-17

Similar Documents

Publication Publication Date Title
JP5138046B2 (en) Search system, search method and program
CN103313248B (en) A method and device for identifying junk information
JP5358549B2 (en) Protection target information masking apparatus, protection target information masking method, and protection target information masking program
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
JP2005251206A (en) Word collection method and system for use in word segmentation
US20090083266A1 (en) Techniques for tokenizing urls
WO2008154823A1 (en) Searching method, system and device
WO2007085187A1 (en) Method of data retrieval, method of generating index files and search engine
JP5731361B2 (en) Character string conversion method and character string conversion program
JP2010536086A (en) User-centric information search method and system
Wu et al. Searching services" on the web": A public web services discovery approach
KR100903506B1 (en) Information map management system and method
JP4237813B2 (en) Structured document management system
CN106611029B (en) Method and device for improving search efficiency in website
JP2018206189A (en) Information collecting apparatus and information collecting method
CN102436458B (en) A kind of method of command analysis and system thereof
JP5676522B2 (en) Character string conversion method and program
CN107220249B (en) Classification-based full-text search
JP2004086845A (en) Apparatus, method, and program for expanding electronic document information, and recording medium storing the program
JP5643177B2 (en) Character string conversion device, character string conversion method, and character string conversion program
JP2016018279A (en) Document file search program, document file search device, document file search method, document information output program, document information output device, and document information output method
JP2009205499A (en) Web page specification apparatus, web page specification method, and program for specifying web page
JP2009129202A (en) Data processing apparatus, data processing method, and program
JP2001101184A (en) Structured document generation method and apparatus, and storage medium storing structured document generation program
JP5184987B2 (en) Index information creating apparatus, index information creating method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141030

R150 Certificate of patent or registration of utility model

Ref document number: 5643177

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees