KR101019627B1 - Pattern-based Bibliography Automatic Construction System and Method and Recording Media for It - Google Patents
Pattern-based Bibliography Automatic Construction System and Method and Recording Media for It Download PDFInfo
- Publication number
- KR101019627B1 KR101019627B1 KR1020080096593A KR20080096593A KR101019627B1 KR 101019627 B1 KR101019627 B1 KR 101019627B1 KR 1020080096593 A KR1020080096593 A KR 1020080096593A KR 20080096593 A KR20080096593 A KR 20080096593A KR 101019627 B1 KR101019627 B1 KR 101019627B1
- Authority
- KR
- South Korea
- Prior art keywords
- pattern
- bibliography
- standardization
- information
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 참고문헌의 기술(description) 패턴을 인식하여 참고문헌 서지항목을 해당 기술 패턴에 따라 자동으로 파싱한 후, 미리 저장된 데이터베이스의 서지정보와 매칭하여 타 참고문헌과의 연계가 이루어질 수 있도록 하기 위한 것으로서, 참고문헌 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 자동으로 파악하고, 파악된 기술 패턴의 구성항목을 이용하여 상기 참고문헌의 서지정보를 각각의 구성항목으로 파싱하는 참고문헌 파싱부; 파싱된 참고문헌의 구성항목을 표준화 기준에 따라 표준화를 수행하는 참고문헌 표준화 처리부;를 포함하여, 이전에 사람이 직접 수작업을 수행하는 것에 비해 참고문헌의 매칭률이 높아지고, 이에 따라 참고문헌 데이터베이스의 품질을 보다 향상시킬 수 있다는 효과를 기대할 수 있다. The present invention recognizes a description pattern of a reference to automatically parse a reference bibliography according to the corresponding description pattern, and then matches the bibliographic information of a pre-stored database so that linkage with other references can be made. For reference, the bibliographic information is compared with a plurality of preset technical patterns to automatically identify matching technical patterns, and the bibliographic information of the bibliography is parsed into the respective configuration items by using the configuration items of the identified technical patterns. Reference parsing unit; Reference standardization processing unit for performing the standardization of the parsed bibliography according to the standardization standard; including, the matching rate of the bibliography is higher than that of the manual manual human, and accordingly It can be expected that the quality can be further improved.
Description
본 발명은 패턴 기반 참고문헌 자동 구축 시스템에 관한 것으로서, 보다 상세하게는 참고문헌의 기술(description) 패턴을 인식하여 참고문헌 서지항목을 해당 기술 패턴에 따라 자동으로 파싱한 후, 미리 저장된 데이터베이스의 서지정보와 매칭하여 타 참고문헌과의 연계가 이루어질 수 있도록 하기 위한 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한 기록매체에 관한 것이다.The present invention relates to a system for automatically constructing a reference based bibliography, and more particularly, recognizing a bibliography pattern of a bibliography and automatically parsing a bibliography bibliography according to the descriptive pattern. The present invention relates to a system and method for automatically constructing a reference-based reference for matching information with other references and to a recording medium therefor.
현재, 학술논문에 기재된 참고문헌의 관리는 운용자가 참고문헌의 구성 항목을 수작업으로 일일이 구분하여 입력한 후, 학술논문 데이터베이스인 크로스랩(CrossRef), 퍼브매드(Pubmed) 등을 직접 검색하여 참고문헌과 매칭되는 식별자를 획득하고, 이를 이용하여 참고문헌을 파싱하는 방법으로 이루어지고 있다.At present, the management of the bibliography described in the scholarly article is input manually by dividing the composition items of the bibliography by the operator, and then directly search the bibliography (CrossRef), Pubmed, etc. It is obtained by obtaining an identifier matched with and parsing the reference using the identifier.
참고문헌을 관리하는 종래의 방식은 사람이 수작업으로 참고문헌의 구성 항목을 한 건씩 분리 입력한 후, 복수의 사이트를 직접 방문 및 검색하여 식별자를 매칭하는 것으로 비효율적이며, 작업을 처리하는 데 많은 비용이 소용된다는 문제점이 있다.The conventional method of managing a bibliography is inefficient, in which a person manually enters a bibliography of a bibliography item by hand, visits and searches a plurality of sites, and matches identifiers, which is inefficient and expensive to process the work. There is a problem that this is useful.
최근, 디지털 기술의 발전으로 학술논문이 디지털 형태로 출판되는 경우가 대부분이며, 이에 따라 생산량도 급격하게 증가하는 추세이다.Recently, due to the development of digital technology, academic papers are mostly published in digital form, and accordingly, production volume is increasing rapidly.
본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 입력되는 참고문헌을 인식하여 해당 기술 패턴을 자동으로 파악한 후, 참고문헌의 서지정보를 표준화하여 기 저장된 참고문헌의 서지정보와 매칭하여 저장할 수 있도록 하기 위한 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한 기록매체를 제공하는 데 그 기술적 과제가 있다.The present invention has been made in order to solve the above-described problems, and automatically recognize the input reference to recognize the corresponding technical pattern, then standardize the bibliographic information of the reference can be stored and matched with the bibliographic information of the previously stored reference There is a technical challenge to provide a system and method for automatically constructing a reference-based bibliography and a recording medium therefor.
또한, 본 발명은 참고문헌의 기술 패턴이 신규 기술 패턴인 경우, 기존에 저장된 참고문헌의 기술 패턴에 추가로 등록하여 이후에 등록되는 참고문헌의 기술 패턴 파악에 참조할 수 있도록 하는 데 목적이 있다.In addition, the present invention has an object to refer to the technical pattern of the reference to be registered later by additionally registering the technical pattern of the reference, if the technical pattern of the reference is a new technical pattern. .
상술한 목적을 달성하기 위한 본 발명의 참고문헌 자동 구축 시스템은 참고문헌을 자동으로 파싱 및 매칭하기 위한 시스템으로서,Automatic reference construction system of the present invention for achieving the above object as a system for automatically parsing and matching the reference,
참고문헌 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 자동으로 파악하고, 파악된 기술 패턴의 구성항목을 이용하여 상기 참고문헌의 서지정보를 각각의 구성항목으로 파싱하는 참고문헌 파싱부; 파싱된 참고문헌의 구성항목을 표준화 기준에 따라 표준화를 수행하는 참고문헌 표준화 처리부;를 포함한다.Bibliography Bibliography is used to compare bibliographic information with a plurality of preset technical patterns to automatically identify matching technical patterns, and to parse bibliographic information of the bibliographic information into individual configuration items using the configuration items of the identified technical patterns. A parser; And a bibliography standardization processor that performs standardization on the parsed bibliography of the bibliography according to standardization criteria.
또한, 참고문헌 자동 구축 시스템은, 복수의 참고문헌 기술 패턴을 관리하여, 상기 참고문헌 파싱부에서 참고문헌의 기술 패턴을 인식할 때 기준이 되는 기술 패턴 정보를 제공하는 패턴 관리부;를 더 포함한다.The automatic reference construction system may further include a pattern manager configured to manage a plurality of bibliographic description patterns and to provide descriptive pattern information as a reference when the bibliography parser recognizes a bibliography pattern. .
그리고, 참고문헌 표준화 처리부는, 참고문헌 파싱부에서 참고문헌의 서지정보와 일치하는 기술 패턴이 파악되지 않는 경우, 해당 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식하는 신규 패턴 인식수단; 및 상기 패턴 관리부로 신규 패턴 인식수단에 의해서 인식된 신규 기술 패턴을 등록하도록 요청하는 신규 패턴 등록 요청수단;을 더 포함한다.The reference standardization processing unit may include: new pattern recognition means for recognizing a description pattern of the reference as a new description pattern when a reference pattern matching the bibliographic information of the reference is not recognized by the reference parsing unit; And new pattern registration requesting means for requesting the pattern manager to register the new technology pattern recognized by the new pattern recognition means.
이에 더하여, 참고문헌 표준화 처리부는, 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출하는 표준 여부 검토수단; 및 상기 표준 여부 검토수단에 의해 추출된 참고문헌의 구성항목을 해당 구성항목의 표준화 기준에 따라 표준화 수행하는 표준화 처리수단;을 더 포함한다.In addition, the reference standardization processing unit may compare the configuration items of the parsed reference documents with a predetermined standardization standard, check whether they match, and extract the configuration items of the reference items that do not match; And standardization processing means for standardizing the configuration items of the reference extracted by the standard checking means according to the standardization criteria of the corresponding configuration items.
상기 표준화 처리수단은, 상기 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이 스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행한다.According to the standardization standard, the standardization processing unit performs at least one of unification of information written in upper and lowercase letters in any one of uppercase and lowercase letters, deletion of special characters and tag information, space deletion, and unification method.
한편, 참고문헌 자동 구축 시스템은, 상기 참고문헌 표준화 처리부에 의해서 표준화된 참고문헌의 서지정보를 기 저장된 서지정보와 매칭하여 데이터베이스에 저장하는 참고문헌 매칭부; 및 참고문헌 서지정보를 비롯하여 참고문헌 자동 구축 시스템과 관련된 정보를 저장하는 데이터베이스;를 더 포함한다.On the other hand, the automatic reference construction system, the reference matching unit for matching the bibliographic information of the standardized by the reference standardization processing unit with the bibliographic information stored in advance; And a database for storing information related to the automatic bibliography system, including bibliography information.
이에 더하여, 참고문헌 자동 구축 시스템은 신규 참고문헌이 등록되면, 상기 데이터베이스에 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 상기 신규 참고문헌을 연계 처리하는 관련문서 연계 처리부;를 더 포함한다.In addition, when a new reference is registered, the automatic reference construction system searches for bibliography information stored in the database, extracts the related bibliography, and links the associated bibliography with the extracted bibliography. It further comprises a processing unit.
다른 본 발명의 패턴 기반 참고문헌 자동 구축 방법은, 참고문헌 자동 구축 시스템에서 참고문헌을 자동으로 파싱 및 매칭하기 위한 방법으로서, a) 참고문헌 자동 구축 시스템이 입력되는 참고문헌의 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 파악하는 단계; b) 참고문헌의 구성항목을 상기 a) 단계에서 파악된 기술 패턴의 구성항목을 기준으로 파싱하는 단계; c) 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리하는 단계;를 포함한다.Another automatic pattern-based reference construction method of the present invention is a method for automatically parsing and matching a reference in a reference automatic construction system, and a) preset bibliographic information of a reference to which the automatic reference construction system is input. Identifying a matching technical pattern by comparing with a plurality of technical patterns; b) parsing the configuration item of the reference based on the configuration item of the technical pattern identified in step a); and c) standardizing the configuration items of the parsed references according to preset criteria.
또한, 상기 a) 단계 이전에, 복수의 참고문헌 기술 패턴을 관리하여, 상기 a) 단계에서 참고문헌의 기술 패턴을 파악할 때 기준이 되는 정보를 참조할 수 있도록 하는 단계;를 더 포함한다.In addition, before the step a), by managing a plurality of reference description patterns, so that the reference information can be referenced when determining the description pattern of the reference in step a);
이에 더하여, 상기 a) 단계에서 복수의 기술 패턴 중 일치하는 기술 패턴이 파악되지 않은 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식하는 단계; 상기 신규 기술 패턴을 기 저장된 참고문헌 기술 패턴에 추가로 등록하는 단계;를 더 포함한다.In addition, the step of recognizing the description pattern of the reference that does not have a matching description pattern of the plurality of description patterns as a new description pattern in step a); The method may further include registering the new technology pattern in a previously stored reference technology pattern.
상기 c) 단계는, 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출하는 단계; 및 추출된 참고문헌을 해당 구성항목의 표준화 기준에 따라 표준화 수행하는 단계;를 포함한다.The step c) may include comparing configuration items of the parsed reference with a preset standardization criterion, and extracting configuration items of the reference that do not match; And standardizing the extracted reference according to the standardization criteria of the corresponding configuration item.
상기 표준화 수행하는 단계는, 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행한다.In the performing of the standardization, the information written in uppercase and lowercase is unified to one of the uppercase and lowercase letters, the special character and the tag information are deleted, the space is deleted, and the unification method is unified.
상기 c) 단계 이후에, 표준화된 참고문헌 서지정보를 기 저장된 참고문헌 서지정보와 매칭하여 저장하는 단계;를 더 포함한다.After the c), the step of storing the standardized bibliographic information by matching the bibliographic information stored in advance.
신규 참고문헌이 등록되면, 기 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 상기 신규 참고문헌을 연계 처리하여 저장하는 단계;를 더 포함한다.When a new reference is registered, searching for bibliographic information stored in advance, extracting a related reference, and storing the extracted reference by linking and processing the new reference.
또 다른 본 발명의 기록매체는, 참고문헌을 자동으로 파싱 및 매칭하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로서, 입력되는 참고문헌의 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 파악하는 기능; 참고문헌의 구성항목을 파악된 기술 패턴의 구성항목을 이용하여 파싱하는 기능; 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리하는 기능;을 포함한다.Another recording medium of the present invention is a computer-readable recording medium that records a program for automatically parsing and matching a reference, and compares bibliographic information of an input reference with a plurality of preset technical patterns. The ability to identify technical patterns; Parsing a configuration item of a reference using the configuration item of the identified technical pattern; And standardizing a configuration item of a parsed reference according to a preset criterion.
또한, 복수의 참고문헌 기술 패턴을 관리하여, 참고문헌의 기술 패턴을 파악할 때 기준이 되는 정보를 참조할 수 있도록 제공하는 기능;을 포함한다.In addition, a function of managing a plurality of reference description patterns to provide reference information when determining the description pattern of the reference; includes.
이에 더하여, 참고문헌의 서지정보를 기 저장된 복수의 기술 패턴과 비교한 결과, 일치하는 기술 패턴이 파악되지 않은 경우, 해당 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식하는 기능; 상기 신규 기술 패턴을 기 저장된 참고문헌 기술 패턴에 추가로 등록하는 기능;을 포함한다.In addition, when the bibliographic information of the reference is compared with a plurality of stored technical patterns, and a matching technical pattern is not found, the technical pattern of the reference is recognized as a new technical pattern; And a function of additionally registering the new description pattern in a previously stored reference description pattern.
상기 표준화 처리하는 기능은, 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출하는 기능; 및 추출된 참고문헌을 해당 구성항목의 표준화 기준에 따라 표준화를 수행하는 기능;을 포함한다.The standardizing function may include: comparing a parsing item of a parsed reference with a preset standardization criterion to check whether the parity is identical, and extracting a parsing item of a bibliography that does not match; And a function of performing standardization on the extracted reference according to the standardization criteria of the corresponding configuration item.
상기 표준화를 수행하는 기능은, 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행하는 기능이다.The function of performing standardization is a function of performing at least one of unification of information written in upper and lowercase letters into one of uppercase and lowercase letters, deletion of special characters and tag information, deletion of spaces, and unification in accordance with standardization criteria.
상기 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리하는 기능 이후에, 표준화된 참고문헌 서지정보를 기 저장된 참고문헌 서지정보와 매칭하여 저장하는 기능;을 더 포함한다.And a function of standardizing the bibliographic bibliographic information and storing the bibliographic bibliographic information that has been stored in the standardized bibliography after matching the bibliographic reference.
그리고, 신규 참고문헌이 등록되면, 기 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 상기 신규 참고문헌을 연계 처리하여 저장하는 기능;을 더 포함한다.And, if a new reference is registered, the function of retrieving the reference bibliographic information stored in advance, extracting the related reference, and storing the extracted reference by linking and processing the new reference.
상술한 바와 같이 본 발명의 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한 기록매체는 입력되는 참고문헌을 인식하여 해당 기술 패턴을 자동으로 파악한 후, 참고문헌의 서지정보를 표준화하여 기 저장된 참고문헌의 서지정보와 매칭하여 저장할 수 있기 때문에, 참고문헌 구축 및 매칭 작업을 자동화함으로써 업무 생산성을 개선할 수 있으며, 이에 소요되는 비용을 절감할 수 있다는 효과를 기대할 수 있다. As described above, the automatic pattern-based reference construction system and method and a recording medium therefor according to the present invention automatically recognize a corresponding technical pattern by recognizing an input reference, and then standardize bibliographic information of the reference to save the reference. Because it can be matched and stored in the bibliographic information, it is possible to improve the work productivity by automating the reference construction and matching work, it can be expected to reduce the cost required.
또한, 본 발명은 참고문헌 데이터베이스를 구축하는 데, 이전에 사람이 직접 수작업을 수행하는 것에 비해 참고문헌의 매칭률이 높아지고, 이에 따라 참고문헌 데이터베이스의 품질을 보다 향상시킬 수 있다는 장점이 있다.In addition, the present invention is to build a reference database, compared with the manual manual work is performed by the person, the matching ratio of the reference is higher, thereby improving the quality of the reference database.
본 발명의 실시를 위한 구체적인 내용에서 개시하고 있는 참고문헌 기술 패턴은 Turabian, APA, MLA, PubMed 뿐만 아니라, 참고문헌 서지정보의 패턴을 파악하기 위한 기준 패턴을 모두 포함하며, 이하에서는 설명의 편의를 위해 Turabian, APA, MLA, PubMed 만을 언급하기로 한다.The reference description patterns disclosed in the detailed description for carrying out the present invention include not only Turabian, APA, MLA, and PubMed, but also reference patterns for identifying patterns of bibliography information. I will only mention Turabian, APA, MLA, and PubMed.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
먼저, 도 1은 본 발명에 의한 참고문헌 자동 구축 시스템을 나타내는 도면이 다.First, Figure 1 is a view showing the automatic reference construction system according to the present invention.
도시하는 것과 같이, 참고문헌 자동 구축 시스템(100)은 패턴 관리부(110), 참고문헌 파싱부(120), 참고문헌 표준화 처리부(130), 참고문헌 매칭부(140), 관련문서 연계 처리부(150) 및 데이터베이스(160)를 포함한다.As shown in the drawing, the automatic
보다 상세히 설명하면, 패턴 관리부(110)는 복수의 참고문헌 기술 패턴을 관리하여, 참고문헌 파싱부(120)에서 참고문헌의 기술 패턴을 인식할 때 기준이 되는 기술 패턴 정보를 제공한다.In more detail, the
예를 들어, 참고문헌 기술 패턴은 Turabian, APA, MLA, PubMed 등이 있으며, 각각의 구성항목은 Turabian은 저자명, '논문명', 학술지명, 권, 호, 출판월 출판년, 페이지 또는 저자명, '논문명', 학술지명, 권, 호, 페이지, 출판월 출판년이며, APA는 저자명, 출판년도, '논문명', 학술지명, 권, 호, 페이지 또는 저자명, 출판년도, '논문명', 학술지명, 권, 페이지로 구성된다.For example, the bibliographic description patterns include Turabian, APA, MLA, and PubMed, and each of the configuration items is Turabian as author name, 'paper name', journal name, volume, issue, month of publication, page or author name, Title, journal name, volume, issue, page, month of publication, and APA is the name of the author, year of publication, 'name of the article', name of journal, volume, issue, page or author's name, year of publication, 'name of article', name of journal, Volume, page.
또한, PubMed는 저자명, 논문명, 학술지명, 발행년도; 권 : 호 : 페이지 또는 저자명, 논문명, 학술지명, 발행년도; 권 : 페이지로 구성된다.PubMed also includes the author's name, thesis title, journal title, and publication year; Volume: Issue: Page or author name, thesis name, journal name, year of publication; Volume: consists of pages.
이에 더하여, 저자 (출판년도) 논문명, 학술지명, 권(호), 페이지로 구성되거나, 또는 저자, '논문명', 학술지명, 권 페이지(출판년도)로 구성되고, 저자: 학술지명, '논문명', 권(호) (출판년도) 페이지로 구성되는 참고문헌 기술 패턴도 있다.In addition, it consists of author (publish year) thesis name, journal name, volume (volume), page, or author, 'paper name', journal name, volume page (year of publication), author: journal name, 'paper name' There is also a bibliographic description pattern consisting of pages of ', vol.' (Published year).
상술한 바와 같이, 참고문헌 기술 패턴을 파악하는 기준은 저자명, 논문명, 학술지명, 권, 호, 페이지, 출판년도의 배열순서, 각 항목들의 존재 유무, 각 항목 을 구분하는 구분자 존재 유무(공백 : , : () '' "" 등의 구분자)이다.As described above, the criteria for identifying the bibliography description pattern are author name, article name, journal name, volume, issue, page, order of publication year, existence of each item, existence of separator to separate each item (space: ,: () '' "" And so on).
이에 더하여, 참고문헌 기술 패턴을 파악하는 기준은 권, 호, 페이지를 기술할 때 vol, no, pp 등의 기호를 사용하는지 여부이다.In addition, a criterion for identifying a bibliography description pattern is whether to use vol, no, pp, and the like when describing a volume, an issue, and a page.
참고문헌 파싱부(120)는 참고문헌 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 자동으로 파악하고, 파악된 기술 패턴의 구성항목을 이용하여 상기 참고문헌의 서지정보를 각각의 구성항목으로 파싱한다.The
예를 들어, 참고문헌 파싱부(120)는 참고문헌이 입력되면, 패턴 관리부(110)에서 관리하는 복수의 참고문헌 기술 패턴을 참고하여 입력된 참고문헌 서지정보와 일치하는 기술 패턴을 파악하는 것이다.For example, when the bibliography is input, the
참고문헌 표준화 처리부(130)는 파싱된 참고문헌의 구성항목을 표준화 기준에 따라 표준화를 수행한다.Reference
여기에서, 참고문헌 표준화 처리부(130)는 참고문헌 서지정보를 데이터베이스(160)에 기 저장된 서지정보와 매칭하기 위한 전처리 작업으로, 참고문헌 서지정보에 기재되어 있는 형식을 해당 기술 패턴의 항목별 특성에 맞게 표준화 처리하는 것이다.Here, the
참고문헌 매칭부(140)는 참고문헌 표준화 처리부(130)에 의해서 표준화된 참고문헌의 서지정보를 기 저장된 서지정보와 매칭하여 데이터베이스(160)에 저장한다.The reference matching
여기에서, 참고문헌 매칭부(140)는 타 참고문헌 서지정보와의 참조연계 서비스(Reference Linking)에 활용하기 위해 참고문헌 서지정보를 구분하기 위한 식별 자를 설정한 후, 참고문헌 서지정보와 함께 저장한다.Here, the reference matching
관련문서 연계 처리부(150)는 신규 참고문헌이 등록되면, 데이터베이스(160)에 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 신규 참고문헌을 연계 처리한다.When the new document is registered, the related document
예를 들어, A 참고문헌과 타 참고문헌을 연계 처리하는 경우, 관련문서 연계 처리부(150)는 기 저장된 복수의 참고문헌 서지정보 중 A 참고문헌과 관련이 있는 참고문헌을 추출하여, 추출된 참고문헌과 A 참고문헌이 연계되어 데이터베이스(160)에 저장되도록 한다. For example, when linking A reference and other references, the related document
여기에서, 관련문서 연계 처리부(150)는 참고문헌 연계 시, 각각의 참고문헌 식별자를 이용한다.Here, the related document
데이터베이스(160)는 참고문헌 서지정보를 비롯하여 참고문헌 자동 구축 시스템(100)과 관련된 정보를 저장한다.The
도 2는 본 발명에 의한 참고문헌 표준화 처리부를 보다 상세하게 나타내는 도면으로서, 도 1에서 개시하고 있는 참고문헌 표준화 처리부의 구성을 보다 상세하게 설명하기로 한다.FIG. 2 is a diagram illustrating the reference standardization processing unit according to the present invention in more detail, and the configuration of the reference standardization processing unit disclosed in FIG. 1 will be described in more detail.
도시하는 바와 같이, 참고문헌 표준화 처리부(130)는 표준 여부 검토수단(131), 표준화 처리수단(133), 신규 패턴 인식수단(135) 및 신규 패턴 등록 요청수단(137)을 포함한다.As illustrated, the reference
보다 상세히 설명하면, 표준 여부 검토수단(131)은 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출한다.In more detail, the standard review means 131 compares the configuration item of the parsed reference document with a preset standardization criterion, and extracts the configuration item of the reference document that does not match.
표준화 처리수단(133)은 표준 여부 검토수단(131)에 의해 추출된 참고문헌의 구성항목을 해당 구성항목의 표준화 기준에 따라 표준화 수행한다.The
여기에서, 표준화 처리수단(133)은 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행한다.Here, the standardization processing means 133 performs at least one of unification of information written in upper and lowercase letters in any one of uppercase and lowercase letters, deletion of special characters and tag information, space deletion, and unification method according to standardization criteria.
예를 들어, 표준화 처리수단(133)은 대소문자로 표기된 정보를 소문자로 통일하거나, 특수문자와 태그 정보를 제거하거나, 스페이스를 삭제하여 공백을 없애거나, 표기방식이 다양한 Page, Volume/Issue 등을 삭제하여, 참고문헌 서지정보의 형태가 통일성을 갖도록 한다.For example, the
신규 패턴 인식수단(135)은 참고문헌 파싱부(120)에서 참고문헌의 서지정보와 일치하는 기술 패턴이 파악되지 않는 경우, 해당 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식한다.The new
신규 패턴 등록 요청수단(137)은 패턴 관리부(110)로 신규 패턴 인식수단(135)에 의해서 인식된 신규 기술 패턴을 등록하도록 요청한다.The new pattern registration requesting means 137 requests the
패턴 관리부(110)는 신규 패턴 등록 요청수단(137)으로부터의 요청에 따라, 신규 기술 패턴을 기존에 저장된 복수의 참고문헌 기술 패턴에 추가로 등록시켜 이후 입력되는 참고문헌의 기술 패턴 파악 시, 참조되도록 한다.In response to a request from the new pattern
한편, 참고문헌 자동 구축 시스템(100)은 신규 기술 패턴으로 인식된 참고문 헌에 대해서 참고문헌 파싱부(120) 및 참고문헌 표준화 처리부(130)를 통해 참고문헌 파싱 및 표준화 과정을 재 수행하여, 참고문헌 서지정보 매칭을 위한 절차를 수행한다.Meanwhile, the automatic
도 3은 본 발명에 의한 참고문헌 자동 구축 방법을 설명하기 위한 흐름도이다.3 is a flowchart illustrating a method for automatically constructing a reference according to the present invention.
먼저, 참고문헌 자동 구축 시스템(100)의 참고문헌 파싱부(120)는 참고문헌 서지사항의 데이터베이스 구축을 위해 입력되는 참고문헌의 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 파악한다(S101).First, the
이어서, 참고문헌 파싱부(120)는 참고문헌의 구성항목을 단계 S101에서 파악된 기술 패턴의 구성항목을 기준으로 파싱한다(S103).Subsequently, the
예를 들어, 참고문헌 기술 패턴은 Turabian, MLA, PubMed 등이 있으며, 각각의 기술 패턴에 해당하는 구성항목이 있는 데, 참고문헌 파싱부(120)는 입력된 참고문헌과 일치하는 기술 패턴의 구성항목을 기준으로 각각의 항목으로 구분하는 것이다.For example, the reference description pattern is Turabian, MLA, PubMed, etc., there is a configuration item corresponding to each description pattern, the
이후, 참고문헌 표준화 처리부(130)는 단계 S103에서 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리한다(S105).Thereafter, the reference
이어서, 참고문헌 매칭부(140)는 단계 S105에서 표준화된 참고문헌 서지정보를 기 저장된 참고문헌 서지정보와 매칭하여 저장한다(S107).Subsequently, the
관련문서 연계 처리부(150)는 기 저장된 참고문헌 서지정보를 검색하여 단계 S101 내지 단계 S107을 통해 파싱 및 매칭된 참고문헌과 함께 관련된 참고문헌을 연계 처리하여 데이터베이스(160)에 저장한다.The related
한편, 관련문서 연계 처리부(150)는 이후에 신규 참고문헌이 등록되면, 기 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 신규 참고문헌을 연계 처리하여 저장한다.On the other hand, the related document
다른 한편, 참고문헌 자동 구축 시스템(100)의 패턴 관리부(110)는 복수의 참고문헌 기술 패턴을 관리하여, 단계 S101에서 참고문헌의 기술 패턴을 파악할 때 기준이 되는 정보를 참조할 수 있도록 한다.On the other hand, the
도 4는 본 발명에 의한 참고문헌 표준화 처리 방법을 보다 상세하게 설명하기 위한 흐름도로서, 도 3의 단계 S105를 보다 상세하게 설명하기 위한 것이다.FIG. 4 is a flowchart for describing the reference standardization processing method according to the present invention in more detail, and illustrates step S105 of FIG. 3 in more detail.
먼저, 참고문헌 표준화 처리부(130)의 표준 여부 검토수단(131)은 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출한다(S201, S203).First, the
이어서, 표준화 처리수단(133)은 추출된 참고문헌을 해당 구성항목의 표준화 기준에 따라 표준화 수행한다(S205).Subsequently, the
여기에서, 표준화 처리수단(133)은 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스 페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행한다.Here, the
도 5는 본 발명에 의한 신규 패턴 등록 방법을 보다 상세하게 설명하기 위한 흐름도이다.5 is a flowchart illustrating a new pattern registration method according to the present invention in more detail.
먼저, 참고문헌 표준화 처리부(130)의 신규 패턴 인식수단(135)은 도 3 단계 S101에서 복수의 기술 패턴 중 일치하는 기술 패턴이 파악되지 않은 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식한다(S301, S303).First, the new pattern recognition means 135 of the reference
신규 패턴 등록 요청수단(137)은 단계 S303에서 인식된 신규 기술 패턴을 기 저장된 참고문헌 기술 패턴에 추가로 등록할 수 있도록 패턴 관리부(11)로 신규 기술 패턴 등록을 요청한다(S305).The new pattern registration requesting means 137 requests the new technology pattern registration to the pattern manager 11 to further register the new technology pattern recognized in step S303 to the previously stored reference technology pattern (S305).
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.As such, those skilled in the art will appreciate that the present invention can be implemented in other specific forms without changing the technical spirit or essential features thereof. Therefore, the above-described embodiments are to be understood as illustrative in all respects and not as restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.
도 1은 본 발명에 의한 참고문헌 자동 구축 시스템을 나타내는 도면,1 is a view showing an automatic reference construction system according to the present invention,
도 2는 본 발명에 의한 참고문헌 표준화 처리부를 보다 상세하게 나타내는 도면,2 is a view showing in detail the reference standardization processing unit according to the present invention;
도 3은 본 발명에 의한 참고문헌 자동 구축 방법을 설명하기 위한 흐름도,3 is a flowchart illustrating a method for automatically constructing a reference according to the present invention;
도 4는 본 발명에 의한 참고문헌 표준화 처리 방법을 보다 상세하게 설명하기 위한 흐름도,4 is a flowchart illustrating a reference standardization processing method according to the present invention in more detail.
도 5는 본 발명에 의한 신규 패턴 등록 방법을 보다 상세하게 설명하기 위한 흐름도이다.5 is a flowchart illustrating a new pattern registration method according to the present invention in more detail.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
100 : 참고문헌 자동 구축 시스템 110 : 패턴 관리부100: reference automatic construction system 110: pattern management
120 : 참고문헌 파싱부 130 : 참고문헌 표준화 처리부120: reference parsing unit 130: reference standardization processing unit
131 : 표준 여부 검토수단 133 : 표준화 처리수단131: means for reviewing the standard 133: standardized means
135 : 신규 패턴 인식수단 137 : 신규 패턴 등록 요청수단135: new pattern recognition means 137: new pattern registration request means
140 : 참고문헌 매칭부 150 : 관련문서 연계 처리부140: reference matching unit 150: related document link processing unit
160 : 데이터베이스160: database
Claims (21)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080096593A KR101019627B1 (en) | 2008-10-01 | 2008-10-01 | Pattern-based Bibliography Automatic Construction System and Method and Recording Media for It |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080096593A KR101019627B1 (en) | 2008-10-01 | 2008-10-01 | Pattern-based Bibliography Automatic Construction System and Method and Recording Media for It |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100037325A KR20100037325A (en) | 2010-04-09 |
KR101019627B1 true KR101019627B1 (en) | 2011-03-07 |
Family
ID=42214552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080096593A Expired - Fee Related KR101019627B1 (en) | 2008-10-01 | 2008-10-01 | Pattern-based Bibliography Automatic Construction System and Method and Recording Media for It |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101019627B1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101487356B1 (en) * | 2014-04-02 | 2015-01-30 | 전주대학교 산학협력단 | Server providing references of searching thesis and method of the same |
KR101640428B1 (en) * | 2014-11-27 | 2016-07-19 | 손죠 주식회사 | Automatic construction system of references |
US9430451B1 (en) | 2015-04-01 | 2016-08-30 | Inera, Inc. | Parsing author name groups in non-standardized format |
KR102102468B1 (en) * | 2019-07-05 | 2020-04-21 | (주)아이티쓰리 | System for citation compatibility confirmation service using crosschecking, site searching and reformatting |
KR102531477B1 (en) * | 2022-11-07 | 2023-05-12 | 미러 주식회사 | Server and user terminal of the thesis making system that provides information on the extracted original text |
KR102547402B1 (en) * | 2023-03-17 | 2023-06-23 | 주식회사 무하유 | Apparatus and method for verifying validity and reliability of cited documents |
-
2008
- 2008-10-01 KR KR1020080096593A patent/KR101019627B1/en not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
인용발명 1(2007.11.30. 공개된 한국콘텐츠학회 2007 추계종합학술대회 논문집 제5권제2호(상), pp.426-429, 이상기 외 3인 공저에 기재된 발명)* |
인용발명 2(2005.12.31. 공개된 한국문헌정보학회지 제39권제4호, pp.261-279, 남영준 외 2인 공저에 기재된 발명)* |
Also Published As
Publication number | Publication date |
---|---|
KR20100037325A (en) | 2010-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104657402B (en) | Method and system for linguistic labelses management | |
US9251180B2 (en) | Supplementing structured information about entities with information from unstructured data sources | |
WO2019196226A1 (en) | System information querying method and apparatus, computer device, and storage medium | |
KR101019627B1 (en) | Pattern-based Bibliography Automatic Construction System and Method and Recording Media for It | |
WO2019196228A1 (en) | System information processing method, apparatus, computer device and storage medium | |
CN110705515A (en) | Hospital paper archive filing method and system based on OCR character recognition | |
CN110188568B (en) | Confidential information identification method, apparatus, device and computer readable storage medium | |
CN114722137A (en) | Security policy configuration method, device and electronic device based on sensitive data identification | |
US11557141B2 (en) | Text document categorization using rules and document fingerprints | |
US20100100544A1 (en) | Document searching device, document searching method, and document searching program | |
CN118410196B (en) | Drawing tag identification method, system and device for drawing | |
CN118113880A (en) | Knowledge graph-based financial audit chain construction method and system | |
CN117785861A (en) | A multi-source heterogeneous data processing method and system | |
Jeon et al. | Making a graph database from unstructured text | |
KR20120003567A (en) | Recording medium storing log management system, its log processing method and log processing method | |
CN110795561A (en) | Automatic identification system for electronic file material types and autonomous learning method thereof | |
CN112131508A (en) | Method, equipment, device and medium for identifying fingerprint of website application framework | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
JP2014134920A (en) | Design document retrieval system, construction method of design document retrieval system and program therefor | |
CN107491530B (en) | Social relationship mining analysis method based on file automatic marking information | |
KR20220013314A (en) | Data field automatic classification system for de-identification processing of personal information in big-data environment | |
CN114091457A (en) | Method and device for training named entity recognition model | |
CN119003642B (en) | A method and device for fusion of unstructured text information | |
CN107368472B (en) | Storage method of document analysis result capable of being iteratively optimized | |
CN112966101B (en) | Statement clustering method, transaction clustering method, statement clustering device and transaction clustering device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
D13-X000 | Search requested |
St.27 status event code: A-1-2-D10-D13-srh-X000 |
|
D14-X000 | Search report completed |
St.27 status event code: A-1-2-D10-D14-srh-X000 |
|
R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-3-3-R10-R18-oth-X000 |
|
PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
FPAY | Annual fee payment |
Payment date: 20140102 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150223 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160202 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 6 |
|
PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
R17-X000 | Change to representative recorded |
St.27 status event code: A-5-5-R10-R17-oth-X000 |
|
PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R14-asn-PN2301 |
|
FPAY | Annual fee payment |
Payment date: 20170222 Year of fee payment: 7 |
|
PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 7 |
|
P14-X000 | Amendment of ip right document requested |
St.27 status event code: A-5-5-P10-P14-nap-X000 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 8 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
FPAY | Annual fee payment |
Payment date: 20190225 Year of fee payment: 9 |
|
PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 9 |
|
P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
FPAY | Annual fee payment |
Payment date: 20200225 Year of fee payment: 10 |
|
PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 10 |
|
PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 11 |
|
PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20220226 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20220226 |