KR20020097389A - Method of Making Encoding Table for Hangul Compression and Method of Hangul Compression By Using It - Google Patents
Method of Making Encoding Table for Hangul Compression and Method of Hangul Compression By Using It Download PDFInfo
- Publication number
- KR20020097389A KR20020097389A KR1020010035177A KR20010035177A KR20020097389A KR 20020097389 A KR20020097389 A KR 20020097389A KR 1020010035177 A KR1020010035177 A KR 1020010035177A KR 20010035177 A KR20010035177 A KR 20010035177A KR 20020097389 A KR20020097389 A KR 20020097389A
- Authority
- KR
- South Korea
- Prior art keywords
- encoding
- hangul
- symbol
- encoding table
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000007906 compression Methods 0.000 title claims abstract description 55
- 230000006835 compression Effects 0.000 title claims abstract description 55
- 238000004519 manufacturing process Methods 0.000 title 1
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 2
- 101100136728 Cricetulus griseus Pisd gene Proteins 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/41—Bandwidth or redundancy reduction
- H04N1/411—Bandwidth or redundancy reduction for the transmission or storage or reproduction of two-tone pictures, e.g. black and white pictures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2362—Generation or processing of Service Information [SI]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
1. 청구범위에 기재된 발명이 속한 기술분야1. TECHNICAL FIELD OF THE INVENTION
본 발명은 한글 압축 부호화를 위한 인코딩 테이블 생성 방법 및 그를 이용한 한글 압축 부호화 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.The present invention relates to a method of generating an encoding table for Hangul compression coding, a Hangul compression coding method using the same, and a computer-readable recording medium having recorded thereon a program for realizing the method.
2. 발명이 해결하려고 하는 기술적 과제2. The technical problem to be solved by the invention
본 발명은, 고용량 데이터 서비스에서 허프만 부호화 기법을 이용하여 한글을 압축 전송하기 위한, 한글 압축 부호화를 위한 인코딩 테이블 생성 방법 및 그를 이용한 한글 압축 부호화 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.The present invention provides a method of generating an encoding table for Hangul compression coding, a Hangul compression coding method using the same, and a program for realizing the method for compressing and transmitting Hangul using Huffman coding in a high-capacity data service. To provide a record medium.
3. 발명의 해결방법의 요지3. Summary of Solution to Invention
본 발명은, 인코딩 테이블 생성 장치에 적용되는 한글 압축 부호화를 위한 인코딩 테이블 생성 방법에 있어서, 한글 데이터의 표본을 추출하는 제 1 단계; 상기 추출된 한글 데이터 표본에서 각 심볼의 발생확률을 계산하는 제 2 단계; 및 각각의 심볼에 대해 상기 제 2 단계의 심볼의 발생확률이 소정의 값 이상인지를 확인한 후에 허프만 부호화를 수행하여 인코딩 테이블을 생성하는 제 3 단계를 포함함.The present invention provides an encoding table generating method for Korean compression encoding, which is applied to an encoding table generating apparatus, comprising: a first step of extracting a sample of Korean data; Calculating a probability of occurrence of each symbol in the extracted Korean data sample; And a third step of generating an encoding table by performing Huffman coding after confirming that a probability of occurrence of the symbol of the second step is equal to or greater than a predetermined value for each symbol.
4. 발명의 중요한 용도4. Important uses of the invention
본 발명은 디지털 방송 등에 이용됨.The present invention is used for digital broadcasting.
Description
본 발명은 한글 압축 부호화를 위한 인코딩 테이블 생성 방법 및 그를 이용한 한글 압축 부호화 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 디지털 텔레비젼 방송에서 데이터 방송 및 프로그램 정보에서 사용되는 한글 텍스트 정보를 허프만 부호화 기법을 이용하여 압축 전송하기 위한, 한글 압축 부호화를 위한 인코딩 테이블 생성 방법 및 그를 이용한 한글 압축 부호화 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.The present invention relates to a method for generating an encoding table for Korean compression encoding, a method for encoding Korean characters using the same, and a computer-readable recording medium having recorded thereon a program for realizing the method, and more particularly, to data broadcasting in digital television broadcasting. And a method of generating an encoding table for Hangul compression coding, a Hangul compression coding method using the same, and a program for realizing the method, for compressing and transmitting the Hangul text information used in the program information using the Huffman coding technique. The present invention relates to a recording medium which can be used.
1940년대부터 TV방송이 시작된 이래 아날로그 시대를 거쳐 디지털 TV에 대한 연구가 1990년대 들어 활발히 전개되었으며, ATSC(Advanced Television System Committee) 방식으로 일컬어지는 미국식 시스템과 DVB(Digital Video Broadcasting)라 명명된 유럽식 DTV가 개발되었다.Since TV broadcasting began in the 1940s, research on digital TV has been actively conducted in the 1990s, and the American system called the Advanced Television System Committee (ATSC) method and the European DTV named DVB (Digital Video Broadcasting). Was developed.
우리나라에서 채택한 DTV 표준은 ATSC 방식을 근간으로 하였으며, 최대 19.4 Mbps 범위내에서 영상, 음향, 데이터 등 정보를 필요에 따라 전송할 수 있다. 이는 선명한 화질을 가시청 지역내에서 보장하고 HDTV(High Definition TeleVision) 신호를 전송할 수 있다는 디지털 TV의 특성이 있으나 시청자의 욕구는 데이터방송과 같은 양방향 서비스를 선호하고 있으며, 이에 따라 새로운 서비스로서 데이터 방송의 제공이 요구되고 있다.The DTV standard adopted in Korea is based on the ATSC method and can transmit information such as video, sound, and data as needed within the maximum range of 19.4 Mbps. This is a characteristic of digital TV that guarantees clear picture quality in the visible region and transmits High Definition TeleVision (HDTV) signal, but the viewer's desire is to prefer interactive services such as data broadcasting. The provision of is required.
상기와 같이, 다중의 서비스, 고속 데이터 전송, 인터넷 서비스 등 프로그램과 관련/비관련한 다양한 기능을 제공하는 데이터방송의 정보량이 날로 확대될 가능성이 크므로 한글 문자 데이터에 대한 압축의 필요성이 대두된다. 즉, 아날로그 TV에서 자막방송은 데이터량이 크지 않아 9600bps 정도의 속도로 충분하였으나 데이터방송에서는 영상 데이터 만큼의 정보도 전송될 필요가 있어 압축을 필요로 한다는 것이다.As described above, since the amount of information of data broadcasting that provides various functions related to the program such as multiple services, high-speed data transmission, Internet service, etc. is likely to increase day by day, the need for compression of Korean character data emerges. In other words, in caption broadcasting in analog TV, the data volume is not large, and a speed of about 9600bps is sufficient, but in data broadcasting, information as much as video data needs to be transmitted, which requires compression.
한편, 미국의 ATSC에서는 영문 텍스트 데이터 전송을 위해 PSIP(ATSC Program and System Information Protocol) 규격을 제정하였다. 이 표준에서는 영문자에 대한 압축으로 허프만 코드를 사용하고 있으며, 또한 타이틀과 내용에 따라 별도의 테이블을 사용하고 있다. 허프만 코드는 2차로 정의되며, 발생빈도가 적은 알파벳은 예외부호화된다.On the other hand, ATSC of the United States has established the PSSC (ATSC Program and System Information Protocol) standard for text data transmission in English. In this standard, Huffman code is used to compress English letters and separate table is used according to title and contents. Huffman codes are defined as quadratic, and low frequency alphabets are exception coded.
그러나, 국내 디지털 방송 규격에서는 한글코드 압축 테이블이 마련되어 있지 않아 현재까지 한글문자를 압축하지 않고 전송하는 형태를 취하고 있어 2001년부터 디지털 방송이 시작되고 데이터방송이 본격화되면 한글데이터가 차지하는 전송량으로 인해 심각한 문제가 야기될 것으로 예상된다.However, the Korean digital broadcasting standard does not have a Korean code compression table, so it has been used to transmit Korean characters without compressing them. Since 2001, when digital broadcasting starts and data broadcasting starts in earnest, the amount of data occupied by Korean data is severe. It is expected that problems will arise.
또한, PSIP 규격과 같이 2차 허프만 코드를 적용할 경우 효율은 증가하지만, 한글은 최대 심볼 수가 11,172자에 이르고 있어 2차 허프만 부호화를 하게 되면 부호의 수가 제곱에 이르게 되는 문제점이 있다.In addition, although the efficiency increases when the second Huffman code is applied as in the PSIP standard, the maximum number of symbols in Korean is 11,172 characters. Therefore, when the second Huffman coding is performed, the number of codes reaches a square.
본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 고용량 데이터 서비스에서 허프만 부호화 기법을 이용하여 한글을 압축 전송하기 위한, 한글 압축 부호화를 위한 인코딩 테이블 생성 방법 및 그를 이용한 한글 압축 부호화 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.The present invention has been proposed to solve the above problems, and a method of generating an encoding table for Hangul compression coding and a Hangul compression coding method using the same for compressing and transmitting Hangul using Huffman coding in a high capacity data service. And a computer readable recording medium having recorded thereon a program for realizing the above method.
도 1 은 본 발명에 따른 한글 압축 부호화를 위한 인코딩 테이블 생성 방법에 대한 일실시예 흐름도.1 is a flowchart illustrating a method of generating an encoding table for Korean compression encoding according to the present invention.
도 2 는 심볼의 발생확률에 따라 부호화를 수행한 결과 심볼의 평균 부호길이에 대한 예시도.2 is an exemplary diagram of an average code length of a symbol as a result of performing encoding according to a probability of occurrence of the symbol.
도 3 은 본 발명에 따른 한글 허프만 부호화의 예시도.3 is an exemplary diagram of Hangul Huffman coding according to the present invention.
도 4 는 본 발명에 따른 한글 디코딩 테이블의 예시도.4 is an exemplary diagram of a Hangul decoding table according to the present invention;
도 5 는 본 발명에 따른 한글 디코딩을 위한 트리의 일실시예 구조도.5 is a structural diagram of an embodiment of a tree for Hangul decoding according to the present invention;
도 6a 내지 6j는 본 발명의 일실시예에 따른 허프만 인코딩 테이블의 예시도.6A-6J illustrate an Huffman encoding table in accordance with one embodiment of the present invention.
도 7a 내지 7y는 본 발명의 일실시예에 따른 허프만 디코딩 테이블의 예시도.7A-7Y illustrate an Huffman decoding table in accordance with an embodiment of the present invention.
도 8 은 본 발명에 따른 한글 압축 부호화 방법에 대한 일실시예 흐름도.8 is a flowchart illustrating an embodiment of a Hangul compression coding method according to the present invention.
상기 목적을 달성하기 위한 본 발명의 인코딩 테이블 생성 방법은, 인코딩 테이블 생성 장치에 적용되는 한글 압축 부호화를 위한 인코딩 테이블 생성 방법에 있어서, 한글 데이터의 표본을 추출하는 제 1 단계; 상기 추출된 한글 데이터 표본에서 각 심볼의 발생확률을 계산하는 제 2 단계; 및 각각의 심볼에 대해 상기 제 2 단계의 심볼의 발생확률이 소정의 값 이상인지를 확인한 후에 허프만 부호화를 수행하여 인코딩 테이블을 생성하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.An encoding table generating method of the present invention for achieving the above object comprises: a encoding table generating method for Korean compression encoding applied to an encoding table generating apparatus, comprising: a first step of extracting a sample of Korean data; Calculating a probability of occurrence of each symbol in the extracted Korean data sample; And a third step of generating an encoding table by performing Huffman coding after checking whether a probability of occurrence of the symbol of the second step is equal to or greater than a predetermined value for each symbol.
또한, 본 발명의 한글 압축 부호화 방법은, 한글 압축 부호화 장치에 적용되는 한글 압축 부호화 방법에 있어서, 한글 압축 부호화를 위한 인코딩 테이블을 생성하는 제 1 단계; 전송을 위해 주어진 심볼이 상기 인코딩 테이블에 포함되는지를 확인하는 제 2 단계; 상기 제 2 단계의 확인 결과, 상기 심볼이 상기 인코딩 테이블에 포함되면 상기 인코딩 테이블의 값으로 부호화하는 제 3 단계; 및 상기 제 2 단계의 확인 결과, 상기 심볼이 상기 인코딩 테이블에 포함되지 않으면 예외 코드와 함께 소정의 한글 코드로 부호화하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.In addition, the Hangul compression coding method of the present invention, the Hangul compression coding method applied to the Hangul compression coding apparatus, comprising: a first step of generating an encoding table for Hangul compression coding; A second step of confirming whether a given symbol for transmission is included in the encoding table; A third step of encoding a value of the encoding table when the symbol is included in the encoding table as a result of the checking of the second step; And a fourth step of encoding the predetermined Hangul code together with an exception code if the symbol is not included in the encoding table as a result of the checking of the second step.
한편, 본 발명은, 프로세서를 구비한 인코딩 테이블 생성 장치에, 한글 데이터의 표본을 추출하는 제 1 기능; 상기 추출된 한글 데이터 표본에서 각 심볼의 발생확률을 계산하는 제 2 기능; 및 각각의 심볼에 대해 상기 제 2 기능에 의한 심볼의 발생확률이 소정의 값 이상인지를 확인한 후에 허프만 부호화를 수행하여 인코딩 테이블을 생성하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.On the other hand, the present invention provides an encoding table generating apparatus having a processor, comprising: a first function of extracting a sample of Hangul data; A second function of calculating a probability of occurrence of each symbol in the extracted Korean data sample; And a program for realizing a third function of generating an encoding table by performing Huffman coding after confirming that a probability of occurrence of a symbol by the second function is equal to or greater than a predetermined value for each symbol. Provide a record carrier.
또한, 본 발명은, 프로세서를 구비한 한글 압축 부호화 장치에, 한글 압축 부호화를 위한 인코딩 테이블을 생성하는 제 1 기능; 전송을 위해 주어진 심볼이 상기 인코딩 테이블에 포함되는지를 확인하는 제 2 기능; 상기 제 2 기능에 의한 확인 결과, 상기 심볼이 상기 인코딩 테이블에 포함되면 상기 인코딩 테이블의 값으로 부호화하는 제 3 기능; 및 상기 제 2 기능에 의한 확인 결과, 상기 심볼이 상기 인코딩 테이블에 포함되지 않으면 예외 코드와 함께 소정의 한글 코드로 부호화하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.The present invention also provides a Hangul compression coding apparatus having a processor, comprising: a first function of generating an encoding table for Hangul compression coding; A second function of confirming whether a given symbol for transmission is included in the encoding table; A third function of encoding a value of the encoding table when the symbol is included in the encoding table as a result of the confirmation by the second function; And a computer-readable recording medium having recorded thereon a program for realizing a fourth function of encoding a predetermined Hangul code with an exception code if the symbol is not included in the encoding table as a result of the confirmation by the second function. do.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.The above objects, features and advantages will become more apparent from the following detailed description taken in conjunction with the accompanying drawings. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1 은 본 발명에 따른 한글 압축 부호화를 위한 인코딩 테이블 생성 방법에 대한 일실시예 흐름도이다.1 is a flowchart illustrating a method of generating an encoding table for Korean compression encoding according to the present invention.
한글코드란 한글 및 한국어를 컴퓨터 내부에서 이진수로 처리하도록 정의한 문자 집합을 말한다. 현재 널리 사용되고 있는 한글 코드는 표준완성형코드와 표준조합형코드의 두 가지이며, 앞으로 국제 표준으로 제정된 유니코드의 사용이 점차로 증가될 전망이다.Hangul code is a character set that defines Korean and Korean as binary. Currently, there are two types of Hangul code that are widely used, standard completion code and standard combination code, and the use of Unicode, which is established as an international standard, is expected to increase gradually.
이와 같은 한글코드를 압축 부호화하여 디지털 방송에 이용하기 위해서는 압축 부호화를 위한 인코딩 테이블이 필요하게 된다.In order to compress-encode such Hangul code and use it for digital broadcasting, an encoding table for compression encoding is required.
본 발명에 따른 한글 압축 부호화를 위한 인코딩 테이블 생성 방법은 다음과 같다.A method of generating an encoding table for Korean compression encoding according to the present invention is as follows.
우선, 방송용으로 사용되는 한글의 표본을 추출하여야 한다(11). 이는 허프만 부호화 방법에 의한 압축 부호화를 하기 위하여 각각의 사용확률이 필요하기 때문에, 표본을 추출하여 확률을 구하기 위함이다.First, a sample of Hangul used for broadcasting should be extracted (11). This is to obtain a probability by extracting a sample since each use probability is required for compression coding by the Huffman coding method.
본 발명의 바람직한 일실시예에서는, 디지털 방송에서 발생할 한글데이터는 현재 방송중인 아날로그 방송에서 사용된 데이터와 유사한 것으로 가정하여 KBS, MBC, SBS 등 방송 3사에서 2000. 5월부터 10월까지 6개월간 방송된 뉴스, 드라마, 및 영화 데이터를 수집하였다.In a preferred embodiment of the present invention, the Hangul data to be generated in the digital broadcast is assumed to be similar to the data used in the current analog broadcast broadcasts, such as KBS, MBC, SBS for three months from May 2000 to October 2000 Broadcast news, drama, and movie data were collected.
상기에서 수집한 데이터에는 표준완성형 한글 675만자(2바이트/자), ASCII(American Standard Code for Information Interchange) 문자 328만자(1바이트/자) 및 기타 한자 등 특수문자 2만 2천자(2바이트/자)가 포함되어 있으며, 이 중 한글과 영문 데이터만을 실험의 대상으로 한다.The data collected above includes 22,000 special characters, including 67.5 million standardized Hangul characters (2 bytes / character), 3,380,000 ASCII characters (1 byte / character), and other Chinese characters. I) is included, and only Korean and English data are included in the experiment.
이때, 각각의 분야별(드라마, 뉴스, 영화 등) 한글의 발생확률을 서로 비교해 보면, 각각의 분야별로 발생분포확률이 거의 비슷하게 나타난다.At this time, when comparing the probability of occurrence of Hangul in each field (drama, news, movie, etc.) with each other, the probability of occurrence of distribution in each field is almost the same.
그리고, 상기 추출된 표본을 통해서 심볼 전체의 엔트로피를 구한다(12). 이렇게 구한 심볼의 엔트로피를 통해 심볼의 발생확률을 파악하게 되고, 파악된 심볼의 발생확률이 어느 일정한 값 이상이면(13), 허프만 부호화 방법에 의한 부호화를 실시한다(14).Then, the entropy of the entire symbol is obtained from the extracted sample (12). The probability of occurrence of a symbol is identified through the entropy of the symbol thus obtained. If the determined probability of occurrence of the symbol is equal to or greater than a certain value (13), encoding by the Huffman encoding method is performed (14).
여기서, 허프만 부호화 방법에 의한 부호화과정에서는 심볼의 발생확률에 따라, 발생확률이 높은 심볼에는 짧은 부호를 할당하고, 발생확률이 낮은 심볼에는 긴 부호를 할당한다.In the encoding process according to the Huffman coding method, a short code is assigned to a symbol having a high probability of occurrence and a long code is assigned to a symbol having a low probability of occurrence according to the probability of occurrence of a symbol.
이때, 각 심볼을 독립적으로 다루지 않고 두 심볼을 묶어서 부호화하는 2차 허프만 부호화에 의하면 효율이 증가하지만, 한글은 최대 심볼 수가 11,172자에 이르러서 부호의 수가 제곱으로 증가하기 때문에 1차 허프만 부호화를 수행한다.In this case, although the efficiency increases according to the second-order Huffman coding that encodes two symbols by not combining each symbol independently, the Hangul performs the first-order Huffman coding because the maximum number of symbols reaches 11,172 characters and the number of codes increases by the square. .
그리고, 일정한 발생확률 이상을 가지는 모든 심볼에 대한 압축 부호화 테이블을 구성한다(15-16).Then, a compression encoding table for all symbols having a predetermined probability of occurrence or more is configured (15-16).
상기와 같이 1차 허프만 부호화에 의한 부호화를 수행하는 경우에도 전체 심볼에 코드를 부여하지 않고 발생확률이 일정 이상인 심볼에만 코드를 부여하고 나머지는 예외코드(ESC)와 함께 원래 코드인 한글조합형코드, 한글완성형코드 또는 유니코드를 전송한다.Even when the encoding is performed by the first Huffman coding as described above, the code is assigned only to symbols having a predetermined probability or more, and the rest is the original Korean code combined with the exception code (ESC). Transmit Hangul completion code or Unicode.
상기 도 1 의 허프만 부호화 방법에 의한 부호화를 실시하기 위해 부호화 효율을 최대로 하는 조건으로 본 발명의 바람직한 실시예에서는 발생확률 0.0043 이상인 1000개의 한글코드에 대해 허프만 코드를 부여하여 인코딩 테이블과 디코딩 테이블을 고안하였다.In the preferred embodiment of the present invention, a Huffman code is assigned to 1000 Korean codes having a probability of 0.0043 or more, and the encoding table and the decoding table are used to perform encoding by the Huffman coding method of FIG. 1. Devised.
도 2 는 심볼의 발생확률에 따라 부호화를 수행한 결과 심볼의 평균 부호길이에 대한 예시도이다.2 is an exemplary diagram of an average code length of a symbol as a result of performing encoding according to a probability of occurrence of a symbol.
도 2 는 국내 TV방송에서 사용되는 한글 데이터의 엔트로피와 허프만 부호화 결과를 보인다. 엔트로피는 7.14비트/심볼로서 점선으로 표시하고, 발생확률 0.0043 이하의 심볼을 제외한 허프만코드의 평균부호길이는 큰 점선으로 표시하며, 예외부호화를 포함한 전체 부호의 평균부호길이를 실선으로 표시하여, 최저점 즉, 부호화 효율이 가장 좋은 곳을 찾을 수 있도록 한다.2 shows entropy and Huffman coding results of Korean data used in domestic TV broadcasting. Entropy is represented by dotted line as 7.14 bits / symbol, average code length of Huffman code except symbols with probability of occurrence less than 0.0043 is indicated by big dotted line, and average code length of all codes including exception coding is represented by solid line. That is, the best coding efficiency can be found.
본 발명의 바람직한 실시예에서는 상기 부호화 효율이 가장 좋은 점으로 발생확률이 0.0043 인 점을 찾았다.In the preferred embodiment of the present invention, the best coding efficiency is found to have a probability of occurrence of 0.0043.
도 3 은 본 발명에 따른 한글 허프만 부호화의 예시도이다.3 is an exemplary diagram of Hangul Huffman coding according to the present invention.
도 3 은 "" 라는 문자열에 대한 한글 허프만 부호화 과정을 예로 보여주는 것이다. 여기서, "" 은 표준완성형코드를 벗어난 문자이기 때문에 한글 허프만 부호화가 적용되지 않는다. 이 문자는 예외 부호화를 하는데 있어 한글 허프만 부호화에 적용된 "ESC" 와 "" 의 코드값을 쓰게 된다.3 is " Here is an example showing the Hangul Huffman encoding process for the string ". "Is not a standard completion type code, so Korean Huffman coding is not applied. This character is used for" ESC "and" "Will be used.
이때, 예외화 부호의 방법으로 "ESC"키를 사용하는 것은 영문 PSIP와는 달리 한글 허프만 부호화는 1차 허프만 부호화이므로 "ESC"키 만으로도 구별이 용이 하기 때문이다.In this case, the use of the "ESC" key as an exception code is because the Korean Huffman coding is a first order Huffman coding, unlike the English PSIP.
그 외의 "방", "각", "하" 는 한글 허프만 부호화 방법에 의해 부호화된다.Other "rooms", "angles", and "ha" are encoded by the Hangul Huffman coding method.
도 4 는 본 발명에 따른 한글 디코딩 테이블의 예시도이다.4 is an exemplary diagram of a Hangul decoding table according to the present invention.
도 4 에 도시된 바와 같이, "가나다" 라는 문자열에 대한 디코딩 테이블을 보면, 영문 디코딩 테이블과 달리 각각의 심볼이 2바이트씩 차지하기 때문에 서로 두 개씩 묶어 위는 상위바이트를, 아래는 하위바이트를 표시한다. 맨 위부터 두 개씩 묶어 각 노드에 대하여 "1" 과 "0" 를 할당한다. 맨 위는 루트(root)가 되고 나머지는 차례로 노드가 정해진다. 한글에서는 노드나 코드가 모두 2바이트(16 비트)로 구성되어 있기 때문에 노드와 코드를 구별하기 위해서, 코드 값에 부호화한 문자 수 보다 큰 수를 더하는데 여기서는 상위 바이트에 1024를 더한다. 이하 도 5 에서는 이를 트리 구조로 표시한 일예를 나타낸다.As shown in Fig. 4, when the decoding table for the string “to go” is seen, unlike the English decoding table, since each symbol occupies 2 bytes, the upper byte is tied to the upper byte and the lower byte is lowered to each other. Display. Bind two from the top and assign "1" and "0" to each node. The top is root, and the rest are nodes in turn. In Korean, since both nodes and codes are composed of two bytes (16 bits), in order to distinguish between nodes and codes, a larger value is added to the code value than the number of encoded characters. Here, 1024 is added to the upper byte. 5 shows an example in which this is represented by a tree structure.
<표 1> 은 상기 방법에 의해 얻어진 한글 압축 코드를 국내의 지상파 DTV 규격의 PSIP다중 문자열 구조에 적용하기 위한 압축 형식이다.<Table 1> is a compression format for applying the Korean compression code obtained by the method to the PSIP multi-string structure of the domestic terrestrial DTV standard.
한글 압축형식으로 유니코드용 한글 허프만 코드는 0xA0, 표준완성형 한글코드에 대해서는 0xB0, 그리고 표준조합형 한글 허프만 코드에 대해서는 0xB1을 사용하였다. 그러나, 한글의 통계적 특성은 한글코드의 종류에 따라 다르지 않기 때문에 같은 허프만부호를 사용한다.As the Korean compression format, 0xA0 is used for the Unicode Huffman code, 0xB0 for the standardized Hangul code, and 0xB1 for the standard combined Korean Huffman code. However, the same Huffman code is used because the statistical characteristics of Korean characters do not vary depending on the type of Korean code.
<표 2>는 디코딩 테이블 포맷을 나타내는 것으로, 한글은 2바이트(16비트)로 구성되고 1차원 허프만 부호화는 2차원과 달리 각 문자의 트리 루트가 필요없기 때문에 디코딩 테이블에는 좌/우 오프셋만을 2바이트로 정의하여 나타낸다.<Table 2> shows the decoding table format. Hangul consists of 2 bytes (16 bits), and since 1-D Huffman coding does not require the tree root of each character, unlike 2-D, only the left / right offset is included in the decoding table. Defined by byte.
도 6 은 본 발명의 일실시예에 따른 허프만 인코딩 테이블의 예시도이며, 도 7 은 본 발명의 일실시예에 따른 허프만 디코딩 테이블의 예시도이다.6 is an exemplary diagram of a Huffman encoding table according to an embodiment of the present invention, and FIG. 7 is an exemplary diagram of a Huffman decoding table according to an embodiment of the present invention.
여기서 본 발명의 일실시예라 함은, 디지털 방송에서 발생할 한글데이터는 현재 방송중인 아날로그 방송에서 사용된 데이터와 유사한 것으로 가정하여 KBS, MBC, SBS 등 방송 3사에서 2000. 5월부터 10월까지 6개월간 방송된 뉴스, 드라마, 및 영화 데이터를 수집하여 이에 대한 엔트로피를 계산하고 각 심볼의 발생확률에 따라 분류한 후, 발생확률이 0.0043이상인 심볼에 대해 허프만 부호화를 수행한 것을 말한다.Herein, an embodiment of the present invention refers to Korean data to be generated in digital broadcasting, which is similar to data used in analog broadcasting currently being broadcast, and is broadcasted by three broadcasting companies including KBS, MBC, and SBS. After collecting news, drama, and movie data that has been broadcast for months, entropy is calculated, classified according to the probability of occurrence of each symbol, and Huffman coding is performed on symbols having an occurrence probability of 0.0043 or more.
도 8 은 본 발명에 따른 한글 압축 부호화 방법에 대한 일실시예 흐름도이다.8 is a flowchart illustrating a Hangul compression coding method according to the present invention.
우선, 한글 압축 부호화를 위해 압축 부호화를 위한 인코딩 테이블 생성한다(81). 상기 인코딩 테이블로는 도 1 에서 생성된 인코딩 테이블을 사용한다.First, an encoding table for compression encoding is generated for Korean compression encoding (81). As the encoding table, the encoding table generated in FIG. 1 is used.
그리고, 압축을 하려고 하는 목적 심볼이 상기에서 생성된 인코딩 테이블에 포함되는지를 확인하고(82), 확인 결과, 심볼이 인코딩 테이블에 포함되면 인코딩 테이블의 값으로 부호화한다(83).Then, it is checked whether the target symbol to be compressed is included in the encoding table generated above (82). If the symbol is included in the encoding table as a result of the verification, the encoding is performed by the value of the encoding table (83).
반면, 확인 결과, 심볼이 인코딩 테이블에 포함되지 않으면 예외코드와 함께 한글코드로 부호화한다(84). 여기서 예외코드는 "ESC" 키를 사용하는데, 이는 한글 압축 부호화는 1차 허프만 부호화에 의하기 때문에 예외코드가 1개면 족하기 때문이다. 또, 예외코드와 함께 사용되는 한글코드는 유니코드, 표준조합형코드 및 표준완성형코드 중 하나를 사용하면 된다. 상기 한글 코드의 구별은 상기 <표 1>의 압축 형식에 따르도록 한다.On the other hand, if the symbol is not included in the encoding table as a result of the verification, the Korean code is encoded with the exception code (84). Here, the exception code uses the "ESC" key, because the Hangul compression coding is based on the first-order Huffman coding, so one exception code is sufficient. In addition, the Hangul code used with the exception code may be one of Unicode, Standard Combination Code, and Standard Completion Code. The Korean code is to be distinguished according to the compression format of Table 1.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.As described above, the method of the present invention may be implemented as a program and stored in a recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.) in a computer-readable form.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.The present invention described above is not limited to the above-described embodiments and the accompanying drawings, and various substitutions, modifications, and changes are possible in the art without departing from the technical spirit of the present invention. It will be apparent to those of ordinary knowledge.
상기한 바와 같은 본 발명은, 디지털 TV를 이용하여 데이터 방송을 하는 경우에 발생하는 많은 양의 한글 데이터 전송량을 압축하여 전송할 수 있는 효과가 있다.As described above, the present invention has an effect of compressing and transmitting a large amount of Korean data transmission amount generated when data broadcasting is performed using digital TV.
또한, 본 발명은, 한글조합형, 한글완성형 및 유니코드에 대한 하나의 허프만 압축코드를 제공하며 프로그램 전송을 위한 PSIP에서 압축 전송을 고려하여 구문을 정의할 수 있는 효과가 있다.In addition, the present invention provides one Huffman compression code for Hangul combination type, Hangul completion type and Unicode, and has the effect of defining the syntax in consideration of compression transmission in PSIP for program transmission.
또한, 본 발명은, 1차 허프만 부호화에 의하여 수행되기 때문에 한글 심볼의 수가 많음에 의해 발생하는 부호화를 위한 경우의 수를 줄일 수 있는 효과가 있다.In addition, the present invention has the effect of reducing the number of cases for encoding caused by the large number of Korean symbols because it is performed by the first order Huffman coding.
Claims (10)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020010035177A KR20020097389A (en) | 2001-06-20 | 2001-06-20 | Method of Making Encoding Table for Hangul Compression and Method of Hangul Compression By Using It |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020010035177A KR20020097389A (en) | 2001-06-20 | 2001-06-20 | Method of Making Encoding Table for Hangul Compression and Method of Hangul Compression By Using It |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20020097389A true KR20020097389A (en) | 2002-12-31 |
Family
ID=27710212
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020010035177A Ceased KR20020097389A (en) | 2001-06-20 | 2001-06-20 | Method of Making Encoding Table for Hangul Compression and Method of Hangul Compression By Using It |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20020097389A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7298783B2 (en) | 2002-10-17 | 2007-11-20 | Pantech Co., Ltd | Method of compressing sounds in mobile terminals |
| US9083972B2 (en) | 2005-07-20 | 2015-07-14 | Humax Holdings Co., Ltd. | Encoder and decoder |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5488616A (en) * | 1992-04-17 | 1996-01-30 | Kokusai Denshin Denwa Co., Ltd. | System for providing reversible variable length codes |
| KR970002578A (en) * | 1995-06-08 | 1997-01-28 | Hangul Font Saving and Restoration System using Double Modified Huffman Code | |
| KR970056108A (en) * | 1995-12-29 | 1997-07-31 | 이우복 | Compression Method of Combinational Hangul |
| KR19980015868A (en) * | 1996-08-24 | 1998-05-25 | 구자홍 | Hangul caption processing method |
| KR20000073634A (en) * | 1999-05-13 | 2000-12-05 | 구자홍 | Image encode method for rearrangement of huffman table and image encoder and decoder |
-
2001
- 2001-06-20 KR KR1020010035177A patent/KR20020097389A/en not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5488616A (en) * | 1992-04-17 | 1996-01-30 | Kokusai Denshin Denwa Co., Ltd. | System for providing reversible variable length codes |
| KR970002578A (en) * | 1995-06-08 | 1997-01-28 | Hangul Font Saving and Restoration System using Double Modified Huffman Code | |
| KR970056108A (en) * | 1995-12-29 | 1997-07-31 | 이우복 | Compression Method of Combinational Hangul |
| KR19980015868A (en) * | 1996-08-24 | 1998-05-25 | 구자홍 | Hangul caption processing method |
| KR20000073634A (en) * | 1999-05-13 | 2000-12-05 | 구자홍 | Image encode method for rearrangement of huffman table and image encoder and decoder |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7298783B2 (en) | 2002-10-17 | 2007-11-20 | Pantech Co., Ltd | Method of compressing sounds in mobile terminals |
| US9083972B2 (en) | 2005-07-20 | 2015-07-14 | Humax Holdings Co., Ltd. | Encoder and decoder |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100565614B1 (en) | How to send and receive captions | |
| US5548338A (en) | Compression of an electronic programming guide | |
| CN1262837A (en) | System for forming and processing text data for use in program specific information for broadcast | |
| CN1262838A (en) | Program-specific information generation and processing systems including text data for terrestrial, cable or satellite broadcasting | |
| US8723703B2 (en) | Method and apparatus for encoding and decoding structured data | |
| US20040237123A1 (en) | Apparatus and method for operating closed caption of digital TV | |
| KR20020097389A (en) | Method of Making Encoding Table for Hangul Compression and Method of Hangul Compression By Using It | |
| EP3549349B1 (en) | A decoder, encoder, computer program and method | |
| KR101128819B1 (en) | method of transmitting a digital broadcast signal | |
| KR100939721B1 (en) | Digital broadcast receiver and digital broadcast signal processing method | |
| KR20120031033A (en) | Method of transmitting a digital broadcast signal | |
| KR100943903B1 (en) | Method of caption transmitting and receiving | |
| KR101208562B1 (en) | method of transmitting a digital broadcast signal | |
| KR100980047B1 (en) | Apparatus for transmitting and receiving a digital broadcast signal and method of transmitting and receiving a digital broadcast signal | |
| KR100980046B1 (en) | Apparatus for receiving a digital broadcast signal and method of receiving a digital broadcast signal | |
| KR101092459B1 (en) | method for transmitting a digital broadcast signal | |
| KR101019486B1 (en) | Digital broadcast transceiver and digital broadcast signal transmission and reception method | |
| KR100964705B1 (en) | Digital broadcast receiver and digital broadcast signal processing method | |
| KR101012395B1 (en) | Apparatus for transmitting a digital broadcast signal | |
| KR101041826B1 (en) | Apparatus for transmitting a digital broadcast signal | |
| CN102724558A (en) | System and method for playing program content and Internet relevant information of program content | |
| KR20120107897A (en) | Method of transmitting a digital broadcast signal | |
| KR101405979B1 (en) | method of transmitting a digital broadcast signal | |
| KR101342387B1 (en) | method of transmitting a digital broadcast signal | |
| KR101341539B1 (en) | method of transmitting a digital broadcast signal |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20010620 |
|
| PA0201 | Request for examination | ||
| PG1501 | Laying open of application | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20030626 Patent event code: PE09021S01D |
|
| E601 | Decision to refuse application | ||
| PE0601 | Decision on rejection of patent |
Patent event date: 20031125 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20030626 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |