KR100710663B1 - How to search for text in image-based e-books to show searched pages - Google Patents
How to search for text in image-based e-books to show searched pages Download PDFInfo
- Publication number
- KR100710663B1 KR100710663B1 KR1020040098402A KR20040098402A KR100710663B1 KR 100710663 B1 KR100710663 B1 KR 100710663B1 KR 1020040098402 A KR1020040098402 A KR 1020040098402A KR 20040098402 A KR20040098402 A KR 20040098402A KR 100710663 B1 KR100710663 B1 KR 100710663B1
- Authority
- KR
- South Korea
- Prior art keywords
- book
- text
- search
- image
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 JPG 등 이미지 기반으로 제작된 전자책이 JPG 등 이미지 파일로 생성된 책 속의 텍스트(text)를 제대로 인식할 수가 없는 한계가 있음에 따라 방대한 양의 텍스트 정보를 가진 책을 이미지 기반의 전자책으로 만들 경우, 사용자가 원하는 텍스트 정보를 찾는데 많은 시간과 노력이 드는 문제점을 해결할 수 있는 방법으로서 전자책 데이터베이스와는 별도로 텍스트 데이터베이스를 구성하여, 사용자들이 텍스트 검색을 통하여 원하는 정보가 담긴 페이지로 자동으로 이동할 수 있도록 한다.According to the present invention, there is a limitation in that an e-book produced based on an image such as JPG cannot recognize text in a book generated as an image file such as JPG properly. When creating a book, a text database can be set up separately from the e-book database to solve the problem of user's time and effort to find the text information. To move to.
전자책, 디지털북, ebook, e-book, 검색, 서치, searchEBook, digital book, ebook, e-book, search, search, search
Description
도1은 본 발명의 전체적인 개요를 보여주는 개념도이다.1 is a conceptual diagram showing an overall overview of the present invention.
도2는 본 발명의 바람직한 실시 예에 따른 텍스트 데이터베이스의 구성을 나타내는 개념도이다.2 is a conceptual diagram illustrating a configuration of a text database according to a preferred embodiment of the present invention.
도3은 텍스트 데이터베이스에 전자책의 텍스트를 포함한 관련 정보 데이터를 등록하는 방법에 관한 설명도이다.3 is an explanatory diagram of a method of registering related information data including text of an e-book in a text database.
도4는 전자책 데이터베이스의 페이지별 이미지 데이터와 텍스트 데이터베이스 내에 저장된 데이터들과의 관계를 나타내는 개념도이다.4 is a conceptual diagram illustrating a relationship between image data for each page of an e-book database and data stored in a text database.
도5는 상기 도1에 표시된 입출력 제어부의 구성을 나타내는 블럭도이다.FIG. 5 is a block diagram showing the configuration of the input / output control unit shown in FIG.
도6은 상기 도5와 관련되어 검색 처리가 되는 과정을 나타내는 흐름도이다.FIG. 6 is a flowchart illustrating a process of performing a search process in relation to FIG. 5.
도7은 본 발명에 따라 구현한 예를 보여주는 그림이다.7 shows an example implementation in accordance with the present invention.
도8은 본 발명에 따라 구현한 복합 검색 방법을 구현한 예를 보여주는 그림이다.8 is a diagram illustrating an example of a complex search method implemented according to the present invention.
컴퓨터에 연결된 모니터 등 화면(스크린)을 통하여 실제 책을 보듯이 페이지를 넘기는 기능을 통하여 종이 기반 출판물 등을 디지털 방식으로 볼 수 있도록 하는 전자책(e-Book) 기술은 현재까지 크게 두가지 방향으로 발전해왔다. 하나는 텍스트(text) 위주의 전자책이며, 다른 하나는 이미지 기반의 전자책이다. 텍스트 기반의 전자책은 서로 다른 장치들과의 연동과 텍스트 위주의 정보 전달을 중시하는 방향으로 발전하면서, XML과 같은 기술적 기반 위에 발전해왔으며, 이미지 기반의 전자책은 책의 정보를 JPG 파일 등 고해상도 이미지 파일로 변환하는 이미지 처리 기술 기반 위에 발전해왔다. The e-book technology, which enables users to digitally view paper-based publications through the function of turning pages, as if viewing a real book through a screen connected to a computer, has developed in two directions. Have been. One is a text-based e-book, and the other is an image-based e-book. Text-based e-books have evolved on the basis of XML, with the emphasis on interworking with different devices and the delivery of text-oriented information. Image-based e-books have high resolutions such as JPG files. It has evolved on the basis of image processing technology to convert image files.
이러한 이미지 기반의 전자책은 원본 책자의 편집 디자인을 그대로 재현함으로써 외관상의 미적 효과를 사용자들에게 그대로 전달할 수 있다는 장점이 있지만, JPG 등 이미지 파일(그림 파일) 방식으로 제작됨으로써 이미지 파일로 생성된 책 속의 텍스트(text)를 제대로 인식할 수가 없는 한계가 있다. 이에 따라 방대한 양의 텍스트 정보를 가진 책을 이미지 기반의 전자책으로 만들 경우, 사용자가 원하는 텍스트 정보를 찾는데 많은 시간과 노력이 들게 된다. 본 발명은 이러한 이미지 기반의 전자책 속의 텍스트를 인식할 수 있는 방법을 제시하여, 사용자들이 텍스트 검색을 통하여 원하는 정보가 담긴 페이지로 자동으로 이동할 수 있도록 하는데 그 목적이 있다.
Such an image-based e-book has the advantage that the aesthetic effect can be delivered to users by reproducing the edited design of the original book as it is, but the book created as an image file by being produced in the form of an image file (picture file) such as JPG There is a limitation that the text in the inside cannot be recognized properly. Accordingly, when a book with a large amount of text information is made into an image-based e-book, it takes a lot of time and effort to find the text information desired by the user. An object of the present invention is to present a method for recognizing text in an image-based e-book, so that users can automatically move to a page containing desired information through text search.
본 발명의 바람직한 구성의 예로서 도1과 같이 인터넷에 연결된 서버(100)와, 이 서버(100)의 내부 또는 외부에 전자책 데이터가 들어 있는 데이터베이스(200)와 이 전자책 각 페이지의 텍스트 정보를 수록한 텍스트 데이터베이스(300), 아울러 인터넷(300)을 통하여 접속하는 사용자(500)의 검색 요청에 따라 전자책을 입출력하는 제어부(400)로 구성이 될 수 있다.As an example of the preferred configuration of the present invention, as shown in FIG. 1, a server 100 connected to the Internet, a database 200 containing e-book data inside or outside the server 100, and text information of each page of the e-book. It may be configured as a
도2는 전자책의 텍스트 데이터를 보유하고 있는 텍스트 데이터베이스(300)의 구성을 보여주는 것이다. 본 발명에서 말하는 전자책은 각각의 페이지가 jpg등 이미지로 되어 있기 때문에, 책의 텍스트 정보를 인식할 수가 없다. 이에 따라 전자책의 데이터베이스(200)와는 별도로 책의 각 페이지별 텍스트들을 구분하여 저장한 텍스트 데이터베이스(300)를 둔다. 텍스트 데이터베이스(300)는 책의 페이지별로 각각 페이지의 '제목', 해당 페이지의 '본문'을 포함하여 기타 필요하다고 생각하는 정보들을 보관한다. 이때 페이지의 '제목'은 원래 책의 제목 또는 사용자가 검색한 페이지를 찾았을 때, 그 페이지를 대표하는 '문구'를 설정하기 위하여 필요하며, '본문'은 사용자가 검색할 때, 검색의 주요 대상이 된다. 기타 신문 기사 전자책과 같이 날짜 정보, 발행 기관(신문사 등) 정보도 중요할 경우 추가할 수 있다.2 shows the configuration of a text database 300 holding text data of an e-book. In the e-book according to the present invention, since each page is an image such as jpg, the text information of the book cannot be recognized. Accordingly, the text database 300 separately stores texts of each page of the book separately from the database 200 of the e-book. The text database 300 stores information, such as the title of the page and the text of the page, which are considered necessary for each page of the book. At this time, 'Title' of the page is necessary to set the title of the original book or 'phrase' that represents the page when the user finds the page, and 'Body' is the main function of the search when the user searches. It becomes a target. Like other newspaper article ebooks, date information and publishers (newspapers, etc.) can also be added if they are important.
도8은 위 텍스트 데이터베이스의 구성에 따라 단순히 본문 검색만 되는 것이 아니라, 기간(날짜)별 검색, 발행 기관(언론사)별 검색 등 복합 검색이 가능한 것을 보 여주는 적용예이다. 이와 같이 전자책 페이지의 정보를 구성하는 방법에 따라 다양한 복합 검색이 가능하다.8 is an application example showing that a complex search such as a search by period (date) and a search by an issuer (journalist) is possible, not merely a text search according to the configuration of the text database. In this way, various complex searches are possible according to the method of organizing the information of the e-book page.
도3은 전자책의 텍스트 정보들을 텍스트 데이터베이스에 입력, 등록하는 방법에 관한 그림이다. 전자책으로 제작하는 원본 파일(file)은 대부분 종이 출판물을 제작하는 파일을 PDF 등으로 변환한 후, jpg 등 이미지 파일로 변환하여 전자책으로 제작한다. 이때 jpg 등 이미지 파일로 변환하기 전에 책의 각 페이지별 텍스트를 복사하여 텍스트 데이터베이스(300)에 저장한다.(S110) 이때 실제 책의 페이지 번호, 제목, 본문, 기타 필요한 사항(날짜, 발행 기관 등)을 데이터베이스의 컬럼(column)으로 구분하여 각각 저장한다. (S120)3 is a diagram illustrating a method of inputting and registering text information of an e-book into a text database. Most of the original files (files) produced as e-books are converted to PDF files, and then converted into image files such as jpgs. At this time, the text of each page of the book is copied and stored in the text database 300 before being converted into an image file such as jpg. (S110) In this case, the actual book page number, title, text, and other necessary matters (date, publisher, etc.). ) Are stored as columns in the database. (S120)
도4는 전자책 데이터베이스(200)의 각 페이지별 책 이미지(210)들과 텍스트 데이터베이스(300)의 페이지별 데이터(310)들과의 관계를 도시한 것이다. 도4와 같이 전자책의 페이지 이미지(210)들과 해당 페이지들의 텍스트 정보(310)들은 등치 관계로 존재하게 된다.4 illustrates a relationship between
도5는 사용자가 검색을 요청한 전자책 페이지를 찾아서 보여주는 입출력 제어부(400)의 구성을 도시한 것이다. 전자책을 보던 사용자가 찾고자하는 단어가 들어 있는 전자책 페이지를 찾고자할 경우 '검색' 버튼을 클릭하여 검색할 단어를 입력하면, 텍스트 입력부(410)에서 사용자의 검색어를 받아 들여서, 텍스트 데이터 베이스 조회부(420)를 통하여 해당 전자책의 텍스트 정보가 저장된 텍스트 데이터베이스(300)에 쿼리(Quary)를 보내어 검색어가 포함된 페이지들을 조회한 후, 검색어가 포함된 텍스트 페이지들을 찾은 경우, 전자책 페이지 주소 확인부(430)에서 검색어가 포함되었다고 확인된 해당 전자책 페이지 주소를 찾아내어, 전자책 페이지 리스트 출력부(440)를 통하여 검색어가 포함된 전자책 페이지 리스트를 사용자에게 보여주게 된다. 이때 사용자가 해당 전자책 페이지 리스트를 각각 클릭하게 되면 바로 해당 페이지로 전자책이 이동하게 된다. 만약 검색어가 텍스트 데이터베이스(300)에서 조회가 안될 경우 '찾는 단어가 존재하지 않는다.'는 메시지를 사용자에게 보내주게 된다.FIG. 5 illustrates a configuration of an input /
도6은 앞의 도5의 입출력 제어부(400)와 관련된 진행 프로세스를 다시 한번 더 도시한 것이다. 사용자가 검색어를 입력하면(S210), 텍스트 데이터베이스(300)를 확인하여 사용자가 입력한 검색어가 존재하는지 조회를 하고(S220), 조회한 검색어가 텍스트 데이터베이스(300)에 존재할 경우 전자책 데이터베이스에 접속하여 해당 페이지 정보를 불러와서(S240), 사용자에게 보여주게 되며(S250), 조회한 검색어가 텍스트 데이터베이스(300)에 존재하지 않을 경우 검색한 단어가 없다는 메시지를 보여주게 된다.(S260)FIG. 6 illustrates the progress process related to the input /
도7은 본 발명을 실제로 적용한 예를 도시한 것이다. S310을 보면 이미지 기반의 전자책에서 '검색' 버튼이 있음을 확인할 수 있다. 사용자가 이 '검색' 버튼을 클 릭하면, S320과 같이 검색창을 확인할 수 있다. S330과 같이 사용자가 단일 검색어 또는 검색식을 적용하여 검색식을 입력하게 되면, S340과 같이 해당 검색 결과의 전자책 페이지 리스트가 표시되며, 사용자가 해당 리스트 중 원하는 것을 클릭하면 해당 페이지로 바로 이동하게 됨을 알 수 있다.7 shows an example in which the present invention is actually applied. Looking at S310, we can see that there is a 'search' button in the image-based e-book. If the user clicks the 'search' button, the search box can be checked as in S320. When the user inputs a search term by applying a single search term or a search expression, as shown in S330, a list of e-book pages of the search result is displayed as shown in S340. It can be seen that.
이미지 기반의 전자책은 원본 책자의 편집 디자인을 그대로 재현함으로써 외관상의 미적 효과를 사용자들에게 그대로 전달할 수 있다는 장점이 있지만, JPG 등 이미지 파일(그림 파일) 방식으로 제작됨으로써 이미지 파일로 생성된 책 속의 텍스트(text)를 제대로 인식할 수가 없는 한계가 있다. 이에 본 발명에 따라 방대한 양의 텍스트 정보를 가진 책을 이미지 기반의 전자책으로 만들 경우, 사용자가 원하는 텍스트 정보를 찾는데 많은 시간과 노력이 들게 된다.Image-based e-books have the advantage of delivering the aesthetic effect to users by reproducing the edited design of the original book as it is, but by creating an image file (picture file) method such as JPG, There is a limitation that text cannot be recognized properly. Accordingly, when a book having a large amount of text information is made into an image-based e-book according to the present invention, it takes a lot of time and effort to find the text information desired by the user.
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040098402A KR100710663B1 (en) | 2004-11-29 | 2004-11-29 | How to search for text in image-based e-books to show searched pages |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040098402A KR100710663B1 (en) | 2004-11-29 | 2004-11-29 | How to search for text in image-based e-books to show searched pages |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050002718A KR20050002718A (en) | 2005-01-10 |
KR100710663B1 true KR100710663B1 (en) | 2007-04-23 |
Family
ID=37218117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040098402A Expired - Fee Related KR100710663B1 (en) | 2004-11-29 | 2004-11-29 | How to search for text in image-based e-books to show searched pages |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100710663B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190123644A (en) * | 2018-04-24 | 2019-11-01 | (주)한국교육문화연구원 | Method of providing a service of key sentence |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100810271B1 (en) | 2005-11-22 | 2008-03-07 | 삼성전자주식회사 | Apparatus and method for transmitting/receiving a signal in a communication system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020066618A (en) * | 2001-02-13 | 2002-08-21 | (주)신종 | An electronic book system using wireless internet |
-
2004
- 2004-11-29 KR KR1020040098402A patent/KR100710663B1/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020066618A (en) * | 2001-02-13 | 2002-08-21 | (주)신종 | An electronic book system using wireless internet |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190123644A (en) * | 2018-04-24 | 2019-11-01 | (주)한국교육문화연구원 | Method of providing a service of key sentence |
KR102045576B1 (en) * | 2018-04-24 | 2019-11-15 | (주)한국교육문화연구원 | Method of providing a service of key sentence |
Also Published As
Publication number | Publication date |
---|---|
KR20050002718A (en) | 2005-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101150132B1 (en) | Method and system for mapping content between a starting template and a target template | |
KR101377379B1 (en) | Rendering document views with supplemental informational content | |
US7778994B2 (en) | Computer-implemented interactive, virtual bookshelf system and method | |
US8407576B1 (en) | Situational web-based dashboard | |
US20070118794A1 (en) | Shared annotation system and method | |
US20040139400A1 (en) | Method and apparatus for displaying and viewing information | |
US9639518B1 (en) | Identifying entities in a digital work | |
US9286309B2 (en) | Representation of last viewed or last modified portion of a document | |
JP2010522935A (en) | Providing annotations about digital works | |
EP1800222A4 (en) | Shared annotation system and method | |
US20090144158A1 (en) | System And Method For Enabling Viewing Of Documents Not In HTML Format | |
Eggert | Text-encoding, Theories of the Text, and the ‘Work-Site’1 | |
US9852117B1 (en) | Text-fragment based content editing and publishing | |
Macaulay | Introduction to web interaction design: With Html and Css | |
KR100955750B1 (en) | System and method for providing multiple renditions of document content | |
US8650485B2 (en) | Method for integrating really simple syndication documents | |
CN111078915A (en) | Click-to-read content acquisition method in click-to-read mode and electronic equipment | |
KR100710663B1 (en) | How to search for text in image-based e-books to show searched pages | |
KR20130095511A (en) | Method for producing literary work using e-book contents in e-book library | |
KR20070077174A (en) | How to show pages retrieved from ebooks (image-based) | |
JP2003345783A (en) | Document preparing method | |
Pavani | A model of multilingual digital library | |
Chiffoleau | Keeping it open: a TEI-based publication pipeline for historical documents | |
KR101079766B1 (en) | Document Editor for Easily Inputting Metadata of Auxiliary Explanation and Link with Associating Internet Search | |
AFOLARANMI | ONLINE PUBLISHING |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
E90F | Notification of reason for final refusal | ||
PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20100418 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20100418 |
|
PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |