JP2002358230A - Data structure of structured document, structured document generation device and program therefor - Google Patents
Data structure of structured document, structured document generation device and program thereforInfo
- Publication number
- JP2002358230A JP2002358230A JP2001168192A JP2001168192A JP2002358230A JP 2002358230 A JP2002358230 A JP 2002358230A JP 2001168192 A JP2001168192 A JP 2001168192A JP 2001168192 A JP2001168192 A JP 2001168192A JP 2002358230 A JP2002358230 A JP 2002358230A
- Authority
- JP
- Japan
- Prior art keywords
- data
- structured document
- text
- character
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 43
- 238000004891 communication Methods 0.000 abstract description 32
- 238000013075 data extraction Methods 0.000 abstract description 12
- 238000000034 method Methods 0.000 abstract description 12
- 239000000284 extract Substances 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 31
- 238000012546 transfer Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
Description
【0001】[0001]
【発明の利用分野】この発明は、ファクシミリデータや
動画データ、音声データなどのノンキャラクターデータ
を構造化文書に変換することに関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to converting non-character data such as facsimile data, moving image data, and audio data into a structured document.
【0002】[0002]
【従来技術】XML(Extensible Markup Language),
XHTML(Extensible HypertextMarkup Language)
などの構造化文書のための規格が提案されている。これ
らの規格では、データはテキストデータに限られ、静止
画データや動画データ、音声データなどのノンキャラク
ターデータは扱うことができない。2. Description of the Related Art Extensible Markup Language (XML),
XHTML (Extensible Hypertext Markup Language)
Standards for structured documents such as have been proposed. In these standards, data is limited to text data, and non-character data such as still image data, moving image data, and audio data cannot be handled.
【0003】[0003]
【発明の課題】この発明の基本的課題は、画像データな
どのノンキャラクターデータを構造化文書に変換できる
ようにすることにある(請求項1〜4)。この発明の副
次的課題は、構造化文書を元のノンキャラクターデータ
に復元できるようにすることにある(請求項1〜4)。SUMMARY OF THE INVENTION A basic object of the present invention is to make it possible to convert non-character data such as image data into a structured document. A secondary object of the present invention is to enable a structured document to be restored to the original non-character data (claims 1 to 4).
【0004】[0004]
【発明の構成】この発明の構造化文書のデータ構造は、
少なくともテキストデータに変換されたノンキャラクタ
ーデータと、該テキストデータとノンキャラクターデー
タ間のデータ変換条件をテキストデータで表記したも
の、とを属性として含むデータ構造である(請求項
1)。The data structure of the structured document of the present invention is as follows.
The data structure includes, as attributes, at least non-character data converted into text data and data conversion conditions between the text data and the non-character data expressed in text data.
【0005】ノンキャラクターデータは動画データや音
声データなどでも良いが、好ましくは静止画データ(請
求項2)とする。ここで静止画データは、ファクシミリ
通信やイメージスキャナで用いる画像データである。静
止画データは動画データや音声データなどに比べてデー
タ量が比較的小さいので、テキストデータに変換して記
憶するのに適しており、また文書データである場合が多
く、繰り返して使用し、検索する必要性が高いので、構
造化文書に変換してメンテナンスできるようにすると便
利である。The non-character data may be moving image data or audio data, but is preferably still image data (claim 2). Here, the still image data is image data used in facsimile communication or an image scanner. Still image data is relatively small in data amount compared to moving image data and audio data, so it is suitable to be converted to text data and stored.In many cases, it is document data. Therefore, it is convenient to convert it into a structured document so that it can be maintained.
【0006】またこの発明の構造化文書生成装置は、ノ
ンキャラクターデータをテキストデータに変換するため
の手段と、少なくとも前記テキストデータと、前記ノン
キャラクターデータとテキストデータ間のデータ変換条
件をテキストデータで表記したもの、とを属性として構
造化文書を生成するための手段、とを備えたものである
(請求項3)。Further, the structured document generating apparatus according to the present invention includes means for converting non-character data into text data, wherein at least the text data and a data conversion condition between the non-character data and text data are converted into text data. And a means for generating a structured document using the notation and the attribute as attributes (claim 3).
【0007】またこの発明の構造化文書生成プログラム
は、ノンキャラクターデータをテキストデータに変換す
るための命令と、前記テキストデータと、前記ノンキャ
ラクターデータとテキストデータ間のデータ変換条件を
テキストデータで表記したもの、とを属性として構造化
文書を生成するための命令、とを備えたものである(請
求項4)。当然のことながらこのプログラムは、プログ
ラムを読み取って実行可能な情報処理装置のためのもの
で、CD−ROMやハードディスク等の記憶媒体に記憶
させて用い、あるいはインターネット等を介する伝搬波
として情報処理装置に供給する。Further, the structured document generation program according to the present invention includes a command for converting non-character data into text data, the text data, and a data conversion condition between the non-character data and the text data expressed in text data. And a command for generating a structured document by using the attribute as an attribute (claim 4). Naturally, this program is for an information processing apparatus which can read and execute the program, and is used by being stored in a storage medium such as a CD-ROM or a hard disk, or as a propagation wave via the Internet or the like. To supply.
【0008】[0008]
【発明の作用と効果】この発明の構造化文書のデータ構
造では、静止画データなどのノンキャラクターデータを
テキストデータに変換したデータと、テキストデータを
元のノンキャラクターデータへ復元するためのデータと
が、属性として含められている。このためノンキャラク
ターデータを構造化文書に変換して管理でき、しかもノ
ンキャラクターデータが添付ファイルではなく、構造化
文書自体に収容されているので、取り扱いが容易であ
る。またテキストデータとノンキャラクターデータ間の
変換条件が属性に含められているので、容易にノンキャ
ラクターデータに変換できる。これらのため、ノンキャ
ラクターデータの取り扱いが容易になる(請求項1)。According to the data structure of the structured document of the present invention, data obtained by converting non-character data such as still image data into text data, and data for restoring the text data to the original non-character data are stored. Is included as an attribute. Therefore, the non-character data can be converted into a structured document and managed, and the non-character data is contained not in the attached file but in the structured document itself, so that the handling is easy. In addition, since the conversion condition between text data and non-character data is included in the attribute, it can be easily converted to non-character data. For these reasons, handling of non-character data is facilitated (claim 1).
【0009】ここで変換するノンキャラクターデータを
静止画データとすると、ファクシミリ受信したデータや
イメージスキャナで読み取ったデータを、構造化文書に
変換して管理でき、データのメンテナンスが容易になる
(請求項2)。If the non-character data to be converted is still image data, data received by facsimile or data read by an image scanner can be converted into a structured document and managed, thereby facilitating data maintenance. 2).
【0010】この発明の構造化文書生成装置では、ノン
キャラクターデータをテキストデータに変換して構造化
文書の属性とすると共に、テキストデータとノンキャラ
クターデータ間の変換条件をテキスト表記して属性に追
加する。このためノンキャラクターデータを容易に構造
化文書に変換でき、ノンキャラクターデータは構造化文
書のファイル内に存在して添付の別ファイルではないの
で扱いやすく、しかも容易に元のノンキャラクターデー
タに変換できる(請求項3)。In the structured document generating apparatus according to the present invention, the non-character data is converted into text data to be an attribute of the structured document, and a conversion condition between the text data and the non-character data is written in text and added to the attribute. I do. For this reason, non-character data can be easily converted to a structured document, and non-character data exists in the file of the structured document and is not an attached separate file, so it is easy to handle and can be easily converted to the original non-character data. (Claim 3).
【0011】この発明の構造化文書生成プログラムを用
いると、ノンキャラクターデータをテキストデータに変
換して構造化文書の属性とすると共に、テキストデータ
とノンキャラクターデータ間の変換条件をテキスト表記
して属性に追加する。このためノンキャラクターデータ
を容易に構造化文書に変換でき、ノンキャラクターデー
タは構造化文書のファイル内に存在して添付の別ファイ
ルではないので扱いやすく、しかも容易に元のノンキャ
ラクターデータに変換できる(請求項4)。When the structured document generation program of the present invention is used, non-character data is converted into text data to be an attribute of the structured document, and a conversion condition between the text data and the non-character data is expressed in text to obtain an attribute. Add to For this reason, non-character data can be easily converted to a structured document, and non-character data exists in the file of the structured document and is not an attached separate file, so it is easy to handle and can be easily converted to the original non-character data. (Claim 4).
【0012】[0012]
【実施例】図1〜図5に、実施例とその変形とを示す。
図1はこの発明の基本的実施例を示し、2は構造化文書
生成装置で、音声データや静止画データあるいは動画デ
ータ等のノンキャラクターデータの送信と受信とがで
き、かつこれらをテキストデータに変換した構造化文書
の送受信ができる。また構造化文書生成装置2は、静止
画データ等の読み込みができ、構造化文書生成用のプロ
グラムを適宜の記憶媒体から読み取って実行する。構造
化文書生成装置2はLAN4に接続されて、ノンキャラ
クターデータの送受信と構造化文書の送受信とを行う。
これ以外に公衆電話回線網(PSTN)に接続されて、
ファクシミリデータ等の送受信を行う。さらにインター
ネット等のネットワークに接続されて、インターネット
ファクシミリや動画データ、音声データ等の送受信を行
う。1 to 5 show an embodiment and its modifications.
FIG. 1 shows a basic embodiment of the present invention. Reference numeral 2 denotes a structured document generation device capable of transmitting and receiving non-character data such as audio data, still image data or moving image data, and converting these into text data. The converted structured document can be transmitted and received. The structured document generation device 2 can read still image data and the like, and reads a program for generating a structured document from an appropriate storage medium and executes the program. The structured document generation device 2 is connected to the LAN 4 and performs transmission and reception of non-character data and transmission and reception of a structured document.
In addition, it is connected to the public telephone network (PSTN)
Sends and receives facsimile data. Further, it is connected to a network such as the Internet and transmits and receives Internet facsimile, moving image data, audio data, and the like.
【0013】構造化文書生成装置2には、データ抽出・
変換部6とテキスト変換部8とがあり、データ抽出・変
換部6は、通信自体に関する情報等から構造化文書の属
性として用いるものを抽出し、それらの一部をより扱い
やすいデータに変換して構造化文書の属性に変換し、残
部はそのまま構造化文書の属性に変換する。さらにデー
タ抽出・変換部6は、ノンキャラクターデータからテキ
ストデータへの変換方式を示すデータを、元のノンキャ
ラクターデータへの変換用のデータとして属性に追加す
る。これ以外にタイトルなどを適宜に入力して属性とで
きるようにしても良く、イメージスキャナとして用いる
場合はスキャンした日時、枚数、スキャン条件、等をキ
ーワードとして属性に追加する。テキスト変換部8は、
通信により受信したノンキャラクターデータの本体をテ
キストデータに変換する。構造化文書生成装置2は、D
VD,CD−ROM等の記憶媒体9に記憶した構造化文
書生成プログラムを読み取り、これに伴って自己のリソ
ースをデータ抽出・変換部6やテキスト変換部8に割り
当て、構造化文書10の生成を行えるようにする。構造
化文書10は、発信元のIDやデータの種類,テキスト
化したデータ本体をノンキャラクターデータに変換する
ための復元用データ、転送先等と、テキスト化したデー
タ本体の2つの部分から成っている。そして構造化文書
10は、構造化文書生成装置2から構造化文書処理装置
12等の所定の宛先にLAN4等を介して転送される。
なお図1では、図示の都合上、LAN4を介さないかの
ように表示した。The structured document generation device 2 has a data extraction and
There is a conversion unit 6 and a text conversion unit 8, and the data extraction / conversion unit 6 extracts information to be used as an attribute of the structured document from information on the communication itself, and converts a part of the attribute into data that is easier to handle. To the attributes of the structured document, and the rest is converted as is to the attributes of the structured document. Further, the data extraction / conversion unit 6 adds data indicating a conversion method from non-character data to text data to the attribute as data for conversion to the original non-character data. In addition, a title or the like may be input as appropriate to make it an attribute. When used as an image scanner, the date and time of scanning, the number of sheets, scanning conditions, and the like are added to the attribute as keywords. The text conversion unit 8
The main body of the non-character data received by communication is converted into text data. The structured document generation device 2
A structured document generation program stored in a storage medium 9 such as a VD or a CD-ROM is read, and accordingly, its own resources are allocated to a data extraction / conversion unit 6 and a text conversion unit 8 to generate the structured document 10. Be able to do it. The structured document 10 is composed of two parts: the ID of the sender, the type of data, the data for restoration for converting the text data into non-character data, the transfer destination, and the like, and the text data. I have. The structured document 10 is transferred from the structured document generation device 2 to a predetermined destination such as the structured document processing device 12 via the LAN 4 or the like.
In FIG. 1, for the sake of illustration, the display is as if it were not via the LAN 4.
【0014】構造化文書処理装置12は、構造化文書の
属性を用いて、元のノンキャラクターデータへのデータ
変換,プリント,表示,記憶,配信(転送)等の処理を
行い、構造化文書の処理プログラムをDVDやCD−R
OMなどの記憶媒体13から読み込む。これらの処理内
容を決定するため、通信自体に関する情報等を構造化し
た属性をデータ抽出部14で抽出し、抽出したデータを
用いて、処理条件記憶部16に用いた処理条件を検索
し、これに従って転送された構造化文書の処理を決定す
る。ノンテキスト変換部18は、構造化文書中のデータ
本体を元のノンキャラクターデータに変換するためのも
のである。記憶部20は構造化した文書自体や、その処
理、あるいは主要な属性等を記憶する。The structured document processing device 12 performs processing such as data conversion to original non-character data, print, display, storage, distribution (transfer), etc., using the attributes of the structured document, and performs processing of the structured document. Processing program for DVD or CD-R
It is read from the storage medium 13 such as OM. In order to determine these processing contents, the data extraction unit 14 extracts an attribute structured information or the like relating to the communication itself, and searches the processing condition used in the processing condition storage unit 16 using the extracted data. The processing of the transferred structured document is determined according to the above. The non-text converter 18 converts the data body in the structured document into the original non-character data. The storage unit 20 stores the structured document itself, its processing, main attributes, and the like.
【0015】図1の実施例を、ファクシミリサーバ22
と文書管理サーバ24との関係として、具体的に表現し
た例を図2に示す。ファクシミリサーバ22と文書管理
サーバ24とはLAN4を介して接続され、ファクシミ
リサーバ22にはインターネットや公衆電話回線網等か
らファクシミリデータが送信される。ファクシミリデー
タには、データ本体となる静止画データの他に、発信元
のアドレスや解像度,符号化の方式,紙のサイズ,デー
タの枚数,親展送信やポーリング送信等の特殊モード送
信の場合の送信モード等の、通信自体に関するデータが
付加されている。ファクシミリデータを受信したファク
シミリサーバ22では、受信した日時や受信装置が複数
ある場合の受信装置の番号、通信時間や通信結果等の、
受信装置側で判明する情報を生成する。ファクシミリサ
ーバ22で受信した通信自体に関する情報と、ファクシ
ミリサーバ22で生成可能な通信自体に関する情報と
を、通信自体に関する情報とする。通信自体に関する情
報からデータ抽出・変換部6でデータを抽出し、そのう
ち一部を設計図、経理書類などの文書のタイトルや、関
係するクライアント名や、回覧、全員配布、秘密クラス
2などの取り扱い条件等に変換する。さらにテキストデ
ータ/ノンキャラクターデータ間の変換用のデータ(変
換方式)を構造化文書の属性に追加する。テキスト変換
部8は前記のように、ファクシミリデータの本体である
静止画データを、テキストデータに変換する。そしてデ
ータ抽出・変換部6で属性として抽出・変換したデータ
に、テキスト変換部8でテキストデータに変換した静止
画データを追加し、構造化文書10を作成する。The embodiment shown in FIG.
FIG. 2 shows a specific example of the relationship between the document management server 24 and the document management server 24. The facsimile server 22 and the document management server 24 are connected via the LAN 4, and facsimile data is transmitted to the facsimile server 22 from the Internet or a public telephone line network. The facsimile data includes, in addition to the still image data serving as the data itself, the transmission source address, resolution, encoding method, paper size, number of data, confidential transmission, polling transmission, and other special mode transmission. Data regarding the communication itself, such as a mode, is added. In the facsimile server 22 that has received the facsimile data, the received date and time, the number of the receiving device when there are a plurality of receiving devices, the communication time, the communication result, etc.
Generates information that is found on the receiving device side. The information on the communication itself received by the facsimile server 22 and the information on the communication itself that can be generated by the facsimile server 22 are set as information on the communication itself. Data is extracted from the information on the communication itself by the data extraction / conversion unit 6, and a part of the data is handled such as the titles of documents such as design drawings and accounting documents, related client names, circulation, distribution to all members, and secret class 2. Convert to conditions etc. Further, data for conversion between text data / non-character data (conversion method) is added to the attribute of the structured document. As described above, the text converter 8 converts the still image data that is the main body of the facsimile data into text data. Then, the still image data converted into the text data by the text conversion unit 8 is added to the data extracted and converted as the attribute by the data extraction and conversion unit 6 to create the structured document 10.
【0016】構造化文書10は文書管理サーバ24に転
送され、通信自体に関する情報を構造化した部分から、
データ抽出部14で、処理の条件や分類検索のキーワー
ド等を抽出する。抽出したデータから、該当する処理条
件を処理条件記憶部16のデータを参照して決定し、記
憶部20に記憶、所定のクライアント26〜28に配
信、プリントアウトなどの処理を行う。ノンテキスト変
換部18は、記憶部20に記憶した構造化文書を、変換
条件の属性を参照して、元のノンキャラクターデータに
変換する。The structured document 10 is transferred to the document management server 24, and the information on the communication itself is structured from
The data extraction unit 14 extracts processing conditions, classification search keywords, and the like. From the extracted data, a corresponding processing condition is determined with reference to the data in the processing condition storage unit 16, stored in the storage unit 20, distributed to predetermined clients 26 to 28, and printed out. The non-text conversion unit 18 converts the structured document stored in the storage unit 20 into the original non-character data with reference to the attribute of the conversion condition.
【0017】図3に、図2の場合を例に受信データの構
造化アルゴリズムを示す。ステップ1でファクシミリデ
ータを受信すると、自機を含む通信路に関する情報や通
信方法に関する情報を抽出する。通信路に関する情報と
しては、受信装置の番号や通信時間,受信日時,通信結
果,発信元の番号や発信元のサブアドレス等がある。ま
た通信方法に関する情報としては、ファクシミリデータ
の解像度や符号化の方式,紙のサイズ等がある(ステッ
プ2)。次いで処理条件記憶部に記憶した構造化条件テ
ーブルを参照し、抽出した情報のうちそのまま属性とし
て用いるものと、変換して属性化するものと、廃棄する
部分とを決定し、構造化する部分に適宜のタグを付す。
また構造化文書の転送先を決定する(ステップ3)。次
いで静止画データをテキストデータに変換し、用いた変
換用のデータ(変換方式)を属性に追加する(ステップ
4)。そして構造化文書を転送し、構造化に用いたデー
タと転送先並びに転送結果を記憶する(ステップ5)。FIG. 3 shows a structuring algorithm of received data, taking the case of FIG. 2 as an example. When facsimile data is received in step 1, information about a communication path including the own device and information about a communication method are extracted. The information on the communication path includes the number of the receiving device, the communication time, the reception date and time, the communication result, the source number, the sub address of the source, and the like. The information on the communication method includes the resolution of facsimile data, the encoding method, the size of paper, and the like (step 2). Next, by referring to the structuring condition table stored in the processing condition storage unit, the extracted information to be used as it is as an attribute, the converted information to be attributed, and the discarded part are determined, and the information to be structured is determined. Attach appropriate tags.
Further, the transfer destination of the structured document is determined (step 3). Next, the still image data is converted into text data, and the used conversion data (conversion method) is added to the attribute (step 4). Then, the structured document is transferred, and the data used for structuring, the transfer destination, and the transfer result are stored (step 5).
【0018】図4に、図1での構造化文書生成装置2と
構造化文書処理装置12との関係を模式化して示す。テ
キストデータあるいは構造化文書側を上層、ノンキャラ
クターデータ側を下層とすると、構造化文書生成装置2
は、静止画データ40と通信路や通信方法に関する通信
自体に関する情報42とを受信する。そして通信自体に
関する情報からデータを抽出し、その一部をデータ変換
部44でキーワード等に変換し、構造化部46でタグ等
を付して構造化する。これ以外に静止画データをテキス
ト変換する際の変換方式に、タグ等を付して構造化す
る。また静止画データをテキスト変換部8でテキストデ
ータに変換し、タグ等を付して構造化する。これらを合
体したものが構造化文書ファイル10である。FIG. 4 schematically shows the relationship between the structured document generation device 2 and the structured document processing device 12 in FIG. If the text data or structured document side is the upper layer and the non-character data side is the lower layer, the structured document generation device 2
Receives the still image data 40 and the information 42 on the communication itself regarding the communication path and the communication method. Then, data is extracted from the information related to the communication itself, a part of the data is converted into a keyword or the like by the data conversion unit 44, and a structuring unit 46 adds a tag or the like to structure the data. In addition to this, the conversion method for converting the still image data into text is structured by attaching a tag or the like. Further, the still image data is converted into text data by the text conversion unit 8 and structured by attaching a tag or the like. The combination of these is the structured document file 10.
【0019】構造化文書ファイル10は構造化文書処理
装置12へ転送され、データ抽出部14で処理条件を決
定し、あるいは保管・検索等のためのキーワードを抽出
し、抽出したデータに従って処理条件記憶部16で処理
・加工の条件を決定する。ノンキャラクターデータに復
元して処理する場合、ノンテキスト変換部18で静止画
データ等へ復元し、処理部48で所定の処理を施して出
力する。またテキストデータのまま処理する場合、同様
に処理部48で処理して出力する。処理としては、記憶
部に所定の条件で記憶する、所定のクライアントに転送
する、通信自体に関する情報を用いてデータベースを作
成する、静止画データ等へ復元する際に例えば先頭ペー
ジだけ等の要約版を作成する、あるいは静止画データに
抽出したキーワード等を合成して表示する、等がある。The structured document file 10 is transferred to the structured document processing apparatus 12, and the processing conditions are determined by the data extracting unit 14, or keywords for storage and retrieval are extracted, and the processing conditions are stored in accordance with the extracted data. The processing / processing conditions are determined by the unit 16. When processing is performed by restoring to non-character data, the non-text data is restored to still image data or the like by the non-text converter 18 and the processing unit 48 performs predetermined processing and outputs the processed data. When the text data is processed as it is, the data is similarly processed and output by the processing unit 48. The processing includes storing in a storage unit under predetermined conditions, transferring to a predetermined client, creating a database using information related to communication itself, and restoring to still image data, etc. Or combining the extracted keyword with the still image data and displaying it.
【0020】図5にTIFFデータをXML規格で構造
化した例を示す。図5の上左側はTIFFデータを示
し、静止画データのテキスト変換の手法としてBASE
64を用い、テキストデータに変換する。静止画データ
のテキスト変換の手法としては、他にBinHex、u
uencodeなどがある。元々のデータがTIFF形
式であったことや、TIFFデータをBASE64によ
りテキストデータに変換したこと、並びに通信自体から
得られた情報等をキーワードとして属性化し、これ以外
にBASE64によりテキストデータに変換した静止画
データを記載する。FIG. 5 shows an example in which TIFF data is structured according to the XML standard. The upper left side of FIG. 5 shows TIFF data, and BASE is used as a text conversion method for still image data.
64, and is converted into text data. Other methods of text conversion of still image data include BinHex, u
uencode and the like. The original data was in TIFF format, the TIFF data was converted to text data by BASE64, and information obtained from the communication itself was attributed as a keyword. Describe the image data.
【0021】実施例の作用効果を示す。実施例では、フ
ァクシミリデータや動画データ、音声データ等のよう
に、本来構造化文書には向かないデータを構造化文書に
変換できる。構造化文書の処理や管理等を行うためのキ
ーワードは、通信自体に関する情報から抽出・変換でき
るので、これらのキーワードを自動的に生成できる。こ
のため、ノンキャラクターデータ自体の意味の解釈や特
徴の抽出等を行わずに、構造化文書を管理できる。構造
化文書ではノンキャラクターデータをテキストデータに
変換して構造化文書の一部とするので、添付の別ファイ
ルとする場合と異なり、管理が容易になる。通信自体に
関する情報を抽出・変換してキーワードとすると、発信
元と通信の日時やデータの種類等から、相当の程度にデ
ータの意味や内容を特定できる。これに、ある発信元か
らファクシミリ送信されたデータは設計図書である、な
どの簡単なルールを抽出・変換部に入力自在にすれば、
文書の内容自体をかなりの程度に特定できる。またイメ
ージスキャンした際の日時、条件、枚数、ユーザ名、フ
ァイルのタイトルなどを属性とすると、構造化文書の内
容を特定できる。そして構造化文書には、テキストデー
タからノンキャラクターデータへの変換条件が記載され
ているので、必要に応じて元のノンキャラクターデータ
を復元できる。The operation and effect of the embodiment will be described. In the embodiment, data that is not originally suitable for a structured document, such as facsimile data, moving image data, and audio data, can be converted into a structured document. Keywords for performing processing, management, and the like of the structured document can be extracted and converted from information related to the communication itself, so that these keywords can be automatically generated. For this reason, the structured document can be managed without interpreting the meaning of the non-character data itself or extracting features. In the structured document, the non-character data is converted into text data to be a part of the structured document, so that the management becomes easy unlike the case where the file is attached to another file. If information relating to the communication itself is extracted and converted into a keyword, the meaning and content of the data can be specified to a considerable extent from the source, the date and time of the communication, the type of data, and the like. In addition, if simple data such as data sent by facsimile from a certain source is a design document can be freely input to the extraction and conversion unit,
The content of the document itself can be identified to a large extent. Further, if attributes such as the date and time at the time of image scanning, the condition, the number of copies, the user name, the title of the file, and the like, the content of the structured document can be specified. Then, since the conversion condition from the text data to the non-character data is described in the structured document, the original non-character data can be restored if necessary.
【図1】 実施例での、ノンキャラクターデータの構造
化と転送並びに処理を示すブロック図FIG. 1 is a block diagram showing structuring, transfer, and processing of non-character data in an embodiment.
【図2】 図1の実施例をファクシミリデータの処理に
適用した例を示すブロック図FIG. 2 is a block diagram showing an example in which the embodiment of FIG. 1 is applied to processing of facsimile data.
【図3】 ファクシミリデータの構造化プログラムを説
明するフローチャートFIG. 3 is a flowchart illustrating a program for structuring facsimile data.
【図4】 ファクシミリデータの構造化と転送先での処
理のモデルを示す図FIG. 4 is a diagram showing a model of facsimile data structuring and processing at a transfer destination.
【図5】 ファクシミリデータをXML文書に構造化し
た例を示す図FIG. 5 is a diagram showing an example in which facsimile data is structured into an XML document.
2 構造化文書生成装置 4 LAN 6 データ抽出・変換部 8 テキスト変換部 9,13 記憶媒体 10 構造化文書 12 構造化文書処理装置 14 データ抽出部 16 処理条件記憶部 18 ノンテキスト変換部 20 記憶部 22 ファクシミリサーバ 24 文書管理サーバ 26〜28 クライアント 40 静止画データ 42 通信自体に関する情報 44 データ変換部 46 構造化部 48 処理部 Reference Signs List 2 structured document generation device 4 LAN 6 data extraction / conversion unit 8 text conversion unit 9, 13 storage medium 10 structured document 12 structured document processing device 14 data extraction unit 16 processing condition storage unit 18 non-text conversion unit 20 storage unit Reference Signs List 22 facsimile server 24 document management server 26-28 client 40 still image data 42 information related to communication itself 44 data conversion unit 46 structuring unit 48 processing unit
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/91 H04N 5/91 L 5/92 5/92 H Fターム(参考) 5B009 NA05 TA11 5B082 GA02 5C052 AA01 AA16 AB04 AC08 CC06 DD04 5C053 FA07 GB06 GB21 HA29 JA21 KA05 LA03 LA06 LA14 ──────────────────────────────────────────────────の Continued on the front page (51) Int.Cl. 7 Identification symbol FI theme coat ゛ (reference) H04N 5/91 H04N 5/91 L 5/92 5/92 HF term (reference) 5B009 NA05 TA11 5B082 GA02 5C052 AA01 AA16 AB04 AC08 CC06 DD04 5C053 FA07 GB06 GB21 HA29 JA21 KA05 LA03 LA06 LA14
Claims (4)
クターデータ、及び該テキストデータと、ノンキャラク
ターデータ間のデータ変換条件をテキストデータで表記
したもの、とを属性として含む構造化文書のデータ構
造。1. A data structure of a structured document including, as attributes, non-character data converted to text data, and text data and data conversion conditions between the non-character data expressed in text data.
ータであることを特徴とする、請求項1の構造化文書の
データ構造。2. The data structure of a structured document according to claim 1, wherein said non-character data is still image data.
タに変換するための手段と、 少なくとも前記テキストデータと、前記ノンキャラクタ
ーデータとテキストデータ間のデータ変換条件をテキス
トデータで表記したもの、とを属性として構造化文書を
生成するための手段、とを備えた構造化文書生成装置。3. A structure for converting non-character data into text data, wherein at least the text data and data conversion conditions between the non-character data and the text data are represented by text data as attributes. Means for generating a structured document.
タに変換するための命令と、 前記テキストデータと、前記ノンキャラクターデータと
テキストデータ間のデータ変換条件をテキストデータで
表記したもの、とを属性として構造化文書を生成するた
めの命令、とを備えた構造化文書生成プログラム。4. An instruction for converting non-character data to text data, the text data, and data conversion conditions between the non-character data and text data expressed in text data are structured as attributes. And a command for generating a document.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001168192A JP2002358230A (en) | 2001-06-04 | 2001-06-04 | Data structure of structured document, structured document generation device and program therefor |
| US10/160,978 US7069503B2 (en) | 2001-06-04 | 2002-05-30 | Device and program for structured document generation data structure of structural document |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001168192A JP2002358230A (en) | 2001-06-04 | 2001-06-04 | Data structure of structured document, structured document generation device and program therefor |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2002358230A true JP2002358230A (en) | 2002-12-13 |
Family
ID=19010455
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001168192A Pending JP2002358230A (en) | 2001-06-04 | 2001-06-04 | Data structure of structured document, structured document generation device and program therefor |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2002358230A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003196269A (en) * | 2001-06-27 | 2003-07-11 | Canon Inc | How to parse documents expressed in markup language |
| JP2007048215A (en) * | 2005-08-12 | 2007-02-22 | Canon Inc | Communication apparatus, relay apparatus, and message transmission / reception method in the apparatus |
-
2001
- 2001-06-04 JP JP2001168192A patent/JP2002358230A/en active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003196269A (en) * | 2001-06-27 | 2003-07-11 | Canon Inc | How to parse documents expressed in markup language |
| JP2007048215A (en) * | 2005-08-12 | 2007-02-22 | Canon Inc | Communication apparatus, relay apparatus, and message transmission / reception method in the apparatus |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7437366B2 (en) | Document management system having document transmission device, document management server, and document management client | |
| JP4066691B2 (en) | Print control apparatus and program | |
| WO1997022203A1 (en) | Image transmission apparatus | |
| JP3638181B2 (en) | Electronic bulletin board registration device | |
| JP4349183B2 (en) | Image processing apparatus and image processing method | |
| JP2002269017A (en) | Device and method for transmitting data, data transmission program, and computer readable recording medium recorded with data transmission program | |
| JPH10307826A (en) | Document management device | |
| US20060075334A1 (en) | Information processing apparatus, history file generation method and program | |
| JP2006115544A (en) | Apparatus and method with facsimile function | |
| JPH1115723A (en) | Multimedia data supplying method and multimedia data server | |
| JP2002358230A (en) | Data structure of structured document, structured document generation device and program therefor | |
| JP2001292272A (en) | Facsimile system, facsimile terminal device used in this facsimile system, format converter, and storage medium | |
| JP3724728B2 (en) | Structured document processing device | |
| JP2010028509A (en) | Image forming system, image forming apparatus, and computer program | |
| JP2012243286A (en) | Information processing device, document data update method and computer program | |
| JP3682861B2 (en) | Facsimile server and its program | |
| JP2005104154A5 (en) | ||
| JP2008242820A (en) | Document processing system | |
| JP4165482B2 (en) | Image display program and image display apparatus | |
| JP2006331274A (en) | Network document management system, control method therefor, and storage medium | |
| JP3724729B2 (en) | Structured document processing apparatus and program thereof | |
| KR100892330B1 (en) | Image processing system, image processing method, computer readable recording medium recording an image processing program, and image forming apparatus | |
| KR100771198B1 (en) | Method and apparatus for transmitting image data to electronic picture frame | |
| JP2003288345A (en) | Structured document processor and program | |
| CN100507900C (en) | Structured file processing device and structured file processing method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060523 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060718 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060818 |