KR102894893B1 - Method for building a manufacturing language database for obtaining automated manufacturing injection molding data - Google Patents
Method for building a manufacturing language database for obtaining automated manufacturing injection molding dataInfo
- Publication number
- KR102894893B1 KR102894893B1 KR1020240178566A KR20240178566A KR102894893B1 KR 102894893 B1 KR102894893 B1 KR 102894893B1 KR 1020240178566 A KR1020240178566 A KR 1020240178566A KR 20240178566 A KR20240178566 A KR 20240178566A KR 102894893 B1 KR102894893 B1 KR 102894893B1
- Authority
- KR
- South Korea
- Prior art keywords
- manufacturing
- injection molding
- molding process
- data
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/111—Mathematical or scientific formatting; Subscripts; Superscripts
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Library & Information Science (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Injection Moulding Of Plastics Or The Like (AREA)
Abstract
본 발명의 일 실시예에 따른 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법은, a) 단말로부터 웹 크롤러의 코드가 작성되고, 상기 웹 크롤러가 상기 코드에 의해 주기적으로 실행되어 특정 시간마다 인터넷상의 웹페이지를 방문하여 대형언어모델의 학습에 이용될 제조 사출성형 공정과 관련된 문서를 주기적으로 수집하는 단계; b) 상기 제조 사출성형 공정과 관련된 문서가 제조 언어 데이베이스에 저장되는 단계; c) 상기 단말이 상기 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 문서를 메모리에 적재하는 로딩 단계; d) 상기 단말이 상기 메모리에 적재된 제조 사출성형 공정과 관련된 문서로부터 제조 사출성형 공정과 관련된 데이터를 파싱하는 단계; e) 상기 단말이 파싱이 완료된 제조 사출성형 공정과 관련된 문서를 전처리하는 단계; f) 상기 단말이 전처리된 제조 사출성형 공정과 관련된 문서로부터 상기 제조 사출성형 공정과 관련된 데이터를 상기 대형언어모델이 학습할 수 있도록 변환시키는 단계; 및 g) 상기 a) 단계 내지 f) 단계가 반복됨으로써 상기 제조 언어 데이터베이스가 업데이트되는 단계;를 포함할 수 있다.A method for constructing a manufacturing language database for securing automated manufacturing injection molding data according to one embodiment of the present invention comprises the steps of: a) a step in which a code of a web crawler is written from a terminal, and the web crawler is periodically executed by the code to visit web pages on the Internet at specific times and periodically collect documents related to a manufacturing injection molding process to be used for training a large language model; b) a step in which the documents related to the manufacturing injection molding process are stored in a manufacturing language database; c) a loading step in which the terminal loads documents related to the manufacturing injection molding process of the manufacturing language database into a memory; d) a step in which the terminal parses data related to the manufacturing injection molding process from documents related to the manufacturing injection molding process loaded into the memory; e) a step in which the terminal preprocesses documents related to the manufacturing injection molding process that have been parsed; f) a step in which the terminal converts data related to the manufacturing injection molding process from the preprocessed documents related to the manufacturing injection molding process so that the large language model can learn from the documents related to the manufacturing injection molding process; and g) a step of updating the manufacturing language database by repeating steps a) to f).
Description
본 발명은 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법에 관한 것으로, 보다 상세하게는 제조 사출성형 공정에 특화된 대형언어모델을 학습시키기 위한 제조 사출성형 공정과 관련된 문서를 저장하는 제조 언어 데이터베이스를 자동으로 구축하기 위한 방법에 관한 것이다.The present invention relates to a method for constructing a manufacturing language database for securing automated manufacturing injection molding data, and more particularly, to a method for automatically constructing a manufacturing language database for storing documents related to a manufacturing injection molding process for training a large language model specialized for the manufacturing injection molding process.
대형언어모델(Large Language Model, LLM)은 방대한 양의 데이터를 바탕으로 학습되어 자연어 처리(NLP) 작업을 수행하는 인공지능(AI) 기반의 거대언어모델로서, 통상적으로 대규모의 파라미터(가중치)와 수십억 개의 단어로 구성된 데이터셋을 통해 학습되어 다양한 언어 관련 작업을 수행할 수 있다.A Large Language Model (LLM) is an artificial intelligence (AI)-based, massive language model that learns from a massive amount of data and performs natural language processing (NLP) tasks. It is typically trained using datasets consisting of large parameters (weights) and billions of words, and can perform various language-related tasks.
이러한 대형언어모델을 제조 사출성형 공정에 특화된 대형언어모델로 학습시키기 위해서는 제조 사출성형 공정과 관련된 다양한 데이터의 수집과 전처리가 필수적이다.In order to train these large-scale language models into large-scale language models specialized for the manufacturing injection molding process, it is essential to collect and preprocess various data related to the manufacturing injection molding process.
또한, 제조 사출성형 공정과 관련된 데이터는 정형 데이터 뿐만 아니라 비정형 데이터가 포함되는데, 기존의 비정형 데이터 수집 및 전처리 방법은 수작업에 의존하는 경우가 많아 시간과 비용이 많이 소요되며 효율성이 떨어지는 문제점이 있었다.In addition, data related to the manufacturing injection molding process includes not only structured data but also unstructured data. However, existing methods for collecting and preprocessing unstructured data often rely on manual work, which is time-consuming and costly, and has the problem of low efficiency.
특히, 수작업으로 비정형 데이터를 수집 및 전처리하는 경우 데이터의 불완전성, 중복성, 비정형 데이터의 구조적 문제 등으로 인해 데이터 분석의 정확성 및 신뢰성의 저하에 대한 우려가 존재한다.In particular, when collecting and preprocessing unstructured data manually, there are concerns about the decrease in accuracy and reliability of data analysis due to incompleteness, redundancy, and structural problems of unstructured data.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 본 발명의 목적은 제조 사출성형 공정에 특화된 대형언어모델을 학습시키기 위해 수집, 로딩/파싱, 전처리, 변환하는 단계를 순차적으로 거친 제조 사출성형 공정과 관련된 문서를 저장하는 제조 언어 데이터베이스를 자동으로 구축할 수 있는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법을 제공함에 있다.Accordingly, the present invention has been devised to solve the above problems, and the purpose of the present invention is to provide a manufacturing language database construction method for automatically securing manufacturing injection molding data, which can automatically construct a manufacturing language database storing documents related to a manufacturing injection molding process that have gone through the steps of collecting, loading/parsing, preprocessing, and converting sequentially to train a large language model specialized for the manufacturing injection molding process.
다만, 본 발명에서 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the technical problems to be achieved in the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned can be clearly understood by a person having ordinary skill in the technical field to which the present invention belongs from the description below.
상기와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법은, a) 단말로부터 웹 크롤러의 코드가 작성되고, 상기 웹 크롤러가 상기 코드에 의해 주기적으로 실행되어 특정 시간마다 인터넷상의 웹페이지를 방문하여 대형언어모델의 학습에 이용될 제조 사출성형 공정과 관련된 문서를 주기적으로 수집하는 단계; b) 상기 제조 사출성형 공정과 관련된 문서가 제조 언어 데이베이스에 저장되는 단계; c) 상기 단말이 상기 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 문서를 메모리에 적재하는 로딩 단계; d) 상기 단말이 상기 메모리에 적재된 제조 사출성형 공정과 관련된 문서로부터 제조 사출성형 공정과 관련된 데이터를 파싱하는 단계; e) 상기 단말이 파싱이 완료된 제조 사출성형 공정과 관련된 문서를 전처리하는 단계; f) 상기 단말이 전처리된 제조 사출성형 공정과 관련된 문서로부터 상기 제조 사출성형 공정과 관련된 데이터를 상기 대형언어모델이 학습할 수 있도록 변환시키는 단계; 및 g) 상기 a) 단계 내지 f) 단계가 반복됨으로써 상기 제조 언어 데이터베이스가 업데이트되는 단계;를 포함할 수 있다.In order to achieve the above object, according to one embodiment of the present invention, a method for constructing a manufacturing language database for securing automated manufacturing injection molding data comprises the steps of: a) a step in which a code of a web crawler is written from a terminal, and the web crawler is periodically executed by the code to visit web pages on the Internet at specific times and periodically collect documents related to a manufacturing injection molding process to be used for training a large language model; b) a step in which the documents related to the manufacturing injection molding process are stored in a manufacturing language database; c) a loading step in which the terminal loads documents related to the manufacturing injection molding process of the manufacturing language database into a memory; d) a step in which the terminal parses data related to the manufacturing injection molding process from documents related to the manufacturing injection molding process loaded into the memory; e) a step in which the terminal preprocesses documents related to the manufacturing injection molding process that have been parsed; f) a step in which the terminal converts data related to the manufacturing injection molding process from the preprocessed documents related to the manufacturing injection molding process so that the large language model can learn from the documents related to the manufacturing injection molding process; and g) a step of updating the manufacturing language database by repeating steps a) to f).
또한, 상기 a) 단계는, a-1) 상기 웹 크롤러가 특정 시간마다 위키백과(Wikipedia)를 탐색 및 인터넷상의 웹페이지에서 제조 사출성형 공정과 관련된 문서를 수집하는 웹 크롤링(Web crawling)을 진행하는 단계; a-2) 상기 웹 크롤러가 특정 시간마다 학술 데이터베이스에 등록된 국내외 논문 중 상기 제조 사출성형 공정과 관련된 국내외 논문을 수집하는 단계; a-3) 상기 웹 크롤러가 특정 시간마다 인터넷상의 웹페이지에 등록된 국내외 전문도서 중 상기 제조 사출성형 공정과 관련된 국내외 전문도서를 수집하는 단계; a-4) 상기 웹 크롤러가 인터넷상의 웹페이지에 등록된 제조전문 신문 기사 중 상기 제조 사출성형 공정과 관련된 제조전문 신문 기사를 수집하는 단계; 및 a-5) 상기 대형언어모델이 a-1) 내지 a-4) 단계에서 수집된 상기 제조 사출성형 공정과 관련된 문서, 국내외 논문, 국내외 전문도서, 제조전문 신문 기사의 언어를 영어, 한국어 간 상호 번역하는 단계;를 포함할 수 있다.In addition, the step a) may include a-1) a step in which the web crawler searches Wikipedia at specific times and performs web crawling to collect documents related to the manufacturing injection molding process from web pages on the Internet; a-2) a step in which the web crawler collects domestic and foreign papers related to the manufacturing injection molding process from among domestic and foreign papers registered in an academic database at specific times; a-3) a step in which the web crawler collects domestic and foreign specialized books related to the manufacturing injection molding process from among domestic and foreign specialized books registered on web pages on the Internet at specific times; a-4) a step in which the web crawler collects manufacturing-specialized newspaper articles related to the manufacturing injection molding process from among manufacturing-specialized newspaper articles registered on web pages on the Internet; and a-5) a step in which the large language model mutually translates the languages of the documents, domestic and foreign papers, domestic and foreign specialized books, and manufacturing-specialized newspaper articles related to the manufacturing injection molding process collected in steps a-1) to a-4) into English and Korean.
그리고 상기 d) 단계는, d-1) 상기 단말이 상기 메모리에 적재된 제조 사출성형 공정과 관련된 문서를 PDF 파일로 확보 또는 변환시킨 후, 상기 PDF 파일로부터 상기 제조 사출성형 공정과 관련된 텍스트 블록을 파싱하는 단계; d-2) 상기 단말이 상기 PDF 파일로부터 상기 제조 사출성형 공정과 관련된 표와 수식의 파싱을 진행하는 단계; d-3) 상기 단말이 상기 PDF 파일로부터 상기 제조 사출성형 공정과 관련된 레퍼런스 이미지와 그래프 이미지를 추출 및 태깅하는 단계; 및 d-4) 상기 단말이 파싱된 텍스트 블록과 표, 추출 및 태깅된 레퍼런스 이미지와 그래프 이미지로부터 정형 데이터를 추출하고, 상기 정형 데이터를 관계형 데이터베이스의 형태로 변환시킨 후 상기 제조 언어 데이터베이스에 저장되도록 하는 단계;를 포함할 수 있다.And the step d) above may include: d-1) a step in which the terminal secures or converts a document related to the manufacturing injection molding process loaded in the memory into a PDF file, and then parses a text block related to the manufacturing injection molding process from the PDF file; d-2) a step in which the terminal parses a table and formula related to the manufacturing injection molding process from the PDF file; d-3) a step in which the terminal extracts and tags a reference image and a graph image related to the manufacturing injection molding process from the PDF file; and d-4) a step in which the terminal extracts structured data from the parsed text block and table, and the extracted and tagged reference image and graph image, converts the structured data into the form of a relational database, and then stores the same in the manufacturing language database.
또한, 상기 정형 데이터는, 상기 제조 사출성형 공정의 구조화된 데이터인 온도, 압력, 시간, 속도, 설비 스펙을 포함할 수 있다.Additionally, the above-mentioned structured data may include temperature, pressure, time, speed, and equipment specifications, which are structured data of the manufacturing injection molding process.
그리고 상기 d-1) 단계는, d-1-1) 상기 단말이 상기 메모리에 적재된 제조 사출성형 공정과 관련된 문서가 PDF 파일로 확보 또는 변환되면, 상기 PDF 파일의 각 페이지로부터 상기 제조 사출성형 공정과 관련된 데이터가 포함된 관심 영역을 추출하면서 상기 관심 영역을 제외한 불필요한 영역을 제거하는 단계; d-1-2) 상기 단말이 상기 관심 영역 중 상기 제조 사출성형 공정과 관련된 텍스트로 구성되는 텍스트 블록의 좌/우를 구분하여 관심 영역을 파싱하는 단계; d-1-3) 상기 단말에 Fitz 라이브러리가 탑재되며, 상기 Fitz 라이브러리를 이용하여 상기 PDF 파일의 각 페이지로부터 상기 제조 사출성형 공정과 관련된 레퍼런스 이미지와 그래프 이미지를 추출한 후에 태깅을 진행하는 단계; 및 d-1-4) 상기 단말이 상기 PDF 파일의 메타데이터를 태깅하는 단계;를 포함할 수 있다.And the step d-1) may include: d-1-1) a step in which the terminal extracts a region of interest including data related to the manufacturing injection molding process from each page of the PDF file when a document related to the manufacturing injection molding process loaded in the memory is secured or converted into a PDF file, and removes unnecessary regions excluding the region of interest; d-1-2) a step in which the terminal parses the region of interest by distinguishing the left/right of a text block composed of text related to the manufacturing injection molding process among the regions of interest; d-1-3) a step in which the terminal is equipped with a Fitz library, and a step in which the terminal extracts reference images and graph images related to the manufacturing injection molding process from each page of the PDF file using the Fitz library and then performs tagging; and d-1-4) a step in which the terminal tags metadata of the PDF file.
또한, 상기 관심 영역은, 상기 제조 사출성형 공정과 관련된 텍스트를 구성하는 텍스트 블록, 표, 수식, 레퍼런스 이미지, 그래프 이미지를 포함할 수 있다.Additionally, the area of interest may include text blocks, tables, formulas, reference images, and graph images that constitute text related to the manufacturing injection molding process.
그리고 상기 PDF 파일의 메타데이터는, 상기 PDF 파일의 제목, 저자, 조직, 페이지 번호, 개정 내용 및 날짜, 문서 간 관계, 주제(토픽)이 포함될 수 있다.And the metadata of the PDF file may include the title, author, organization, page number, revision content and date, relationship between documents, and subject (topic) of the PDF file.
또한, 상기 d-2) 단계는, 상기 단말이 OCR(Optical Character Recognition)과 이미지 분석 기술을 기반으로 상기 PDF 파일의 각 페이지로부터 표의 경계와 셀의 위치를 감지하여 상기 각 페이지로부터 표를 추출할 수 있다.In addition, in the step d-2), the terminal can detect the border of the table and the location of the cell from each page of the PDF file based on OCR (Optical Character Recognition) and image analysis technology, and extract the table from each page.
그리고 상기 d-2) 단계는, 상기 단말이 추출된 표로부터 병합된 셀을 감지하고, 각 셀의 행 병합 속성 및 열 병합 속성을 기억하여 표를 파싱할 때 파싱된 표에서 각 셀의 병합 속성에 맞게 배열시켜 행/열의 위치가 정확하게 유지되도록 하는 절차와, 상기 각 셀의 행 병합 및 열 병합 속성을 통해 표를 추출할 때, 각 셀의 데이터와 함께 상기 각 셀이 속한 행 정보 및 열 정보를 함께 추출하고, 데이터가 없는 빈 셀도 파싱하여 파싱된 표에서 행/열 구조가 흐트러지지 않도록 하는 절차와, 상기 추출된 표로부터 각 셀의 이상치 또는 결측치를 정제하는 절차가 자동화될 수 있다.And the step d-2) above is a procedure for detecting merged cells from the table extracted by the terminal, remembering the row merge property and column merge property of each cell, and arranging the cells in the parsed table according to the merge property of each cell when parsing the table so that the row/column positions are accurately maintained, a procedure for extracting the row information and column information to which each cell belongs together with the data of each cell when extracting the table through the row merge and column merge property of each cell, and parsing even empty cells without data so that the row/column structure in the parsed table is not disrupted, and a procedure for refining outliers or missing values of each cell from the extracted table can be automated.
또한, 상기 d-3) 단계는, 상기 단말이 OCR(Optical Character Recognition)과 이미지 처리 기술을 기반으로 상기 PDF 파일의 각 페이지로부터 레퍼런스 이미지와 그래프 이미지를 추출 및 태깅할 수 있다.In addition, in the step d-3), the terminal can extract and tag reference images and graph images from each page of the PDF file based on OCR (Optical Character Recognition) and image processing technology.
그리고 상기 d-3) 단계는, 상기 단말이 상기 PDF 파일 내 그래프의 패턴을 감지하여 그래프를 식별하고, 식별된 그래프 부분만 추출하여 상기 그래프 이미지를 획득하는 절차와, 상기 레퍼런스 이미지 및 그래프 이미지의 메타데이터를 추출하여 태깅하고, 딥러닝 기반의 이미지 인식 기술을 기반으로 상기 레퍼런스 이미지 및 그래프 이미지의 주제에 대한 태그를 생성하는 절차와, 상기 레퍼런스 이미지 및 그래프 이미지와, 상기 레퍼런스 이미지 및 그래프 이미지의 주제에 대한 태그를 상기 제조 언어 데이터베이스에 저장하는 절차가 자동화될 수 있다.And the step d-3) above can be automated, including a procedure in which the terminal detects a pattern of a graph in the PDF file to identify the graph, extracts only the identified graph portion to obtain the graph image, a procedure in which metadata of the reference image and the graph image are extracted and tagged, and a procedure in which tags for the subject of the reference image and the graph image are generated based on deep learning-based image recognition technology, and a procedure in which the reference image and the graph image, and tags for the subject of the reference image and the graph image are stored in the manufacturing language database.
또한, 상기 e) 단계는, e-1) 상기 단말이 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링을 진행하는 단계; e-2) 상기 단말이 상기 제조 언어 데이터베이스의 상기 제조 사출성형 공정과 관련된 데이터 중에서 중복되는 데이터를 제거하는 단계; e-3) 상기 단말이 상기 제조 언어 데이터베이스의 상기 제조 사출성형 공정과 관련된 데이터에 포함된 개인 식별 정보의 개인 정보 스크러빙(Privacy scrubbing) 과정을 진행하는 단계; 및 e-4) 상기 단말이 상기 제조 언어 데이터베이스에 저장된 상기 제조 사출성형 공정과 관련된 데이터의 독성/편향 텍스트 필터링(Filtering out toxic and biased text) 과정을 진행하는 단계;를 포함할 수 있다.In addition, the step e) may include: e-1) a step in which the terminal performs quality filtering of documents related to the manufacturing injection molding process for which parsing has been completed; e-2) a step in which the terminal removes duplicate data from data related to the manufacturing injection molding process in the manufacturing language database; e-3) a step in which the terminal performs a privacy scrubbing process of personal identification information included in the data related to the manufacturing injection molding process in the manufacturing language database; and e-4) a step in which the terminal performs a toxic and biased text filtering process of data related to the manufacturing injection molding process stored in the manufacturing language database.
그리고 상기 e-1) 단계는, 상기 단말이 휴리스틱(heuristic) 방식 또는 분류기(classifier) 방식을 기반으로 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링을 진행할 수 있다.And in the above step e-1), the terminal can perform quality filtering of documents related to the manufacturing injection molding process for which parsing has been completed based on a heuristic method or a classifier method.
본 발명은 수작업에 의존하던 비정형 데이터 뿐만 아니라 정형 데이터를 포함한 제조 사출성형 공정과 관련된 문서를 자동적으로 수집함으로써, 반복적이고 시간 소모적인 작업을 최소화하고, 이를 통해 데이터 처리의 효율성을 높여 인건비 및 운영 비용을 절감할 수 있다.The present invention automatically collects documents related to a manufacturing injection molding process, including structured data as well as unstructured data that were previously dependent on manual work, thereby minimizing repetitive and time-consuming tasks and thereby increasing the efficiency of data processing, thereby reducing labor and operating costs.
또한, 본 발명은 수작업으로 인한 제조 사출성형 공정과 관련된 데이터의 입력 오류와 중복 가능성을 줄여 제조 사출성형 공정과 관련된 데이터의 정확성을 높이고, 제조 사출성형 공정과 관련된 데이터의 일관된 처리 방법을 적용하여 신뢰성을 보장하고, 제조 언어 데이터베이스를 주기적으로 업데이트함으로써 대형언어모델의 신뢰성을 높이고 신속한 의사결정을 지원할 수 있다.In addition, the present invention reduces the possibility of input errors and duplication of data related to the manufacturing injection molding process due to manual work, thereby increasing the accuracy of data related to the manufacturing injection molding process, ensures reliability by applying a consistent processing method for data related to the manufacturing injection molding process, and periodically updates the manufacturing language database, thereby increasing the reliability of a large language model and supporting rapid decision-making.
그리고 본 발명은 인터넷상의 웹페이지에서 수집된 제조 사출성형 공정과 관련된 데이터의 영어, 한국어 간 상호 번역을 통해 정확하면서 풍부한 제조 언어 데이터베이스를 구축할 수 있다.In addition, the present invention can construct an accurate and rich manufacturing language database through mutual translation between English and Korean of data related to a manufacturing injection molding process collected from web pages on the Internet.
또한, 본 발명은 제조 사출성형 공정 관련 데이터의 PDF 파일 및 표 파싱을 통해 표 형식의 정보에서 행/열 정보의 상실을 방지함으로써, 대형언어모델의 학습에 용이할 수 있다.In addition, the present invention can facilitate the learning of a large language model by preventing the loss of row/column information in tabular information through PDF file and table parsing of data related to a manufacturing injection molding process.
그리고 본 발명은 제조 사출성형 공정과 관련된 데이터의 개인 정보 스크러빙(Privacy scrubbing) 과정을 통해 데이터 프라이버시 강화, 데이터 보호 법규 준수, 데이터 유용성 증가, 데이터 오용 및 무단 접근 위험 감소, 개인 정보의 잠재적인 유출 위험 우려를 해소할 수 있다.Furthermore, the present invention can enhance data privacy, ensure compliance with data protection laws, increase data usability, reduce the risk of data misuse and unauthorized access, and alleviate concerns about potential leakage of personal information through a privacy scrubbing process of data related to a manufacturing injection molding process.
또한, 본 발명은 제조 사출성형 공정과 관련된 데이터의 독성/편향 텍스트 필터링(Filtering out toxic and biased text) 과정을 통해 사용자 경험 향상, 법적 및 규제 준수, 편향성 감소 및 공정성 유지가 가능하다.Additionally, the present invention enables improved user experience, legal and regulatory compliance, reduced bias, and maintained fairness through a process of filtering out toxic and biased text from data related to a manufacturing injection molding process.
그리고 본 발명은 제조 언어 데이터베이스가 사출성형 온톨로지 또는 제조 사출성형 관련 생성형 AI의 환각/거짓정보 검증 방법론으로서 팩트채킹에 활용될 수 있다.And the present invention can be utilized for fact-checking as a manufacturing language database as a verification methodology for illusion/false information of injection molding ontology or manufacturing injection molding-related generative AI.
다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the effects that can be obtained from the present invention are not limited to the effects mentioned above, and other effects that are not mentioned can be clearly understood by a person having ordinary skill in the technical field to which the present invention belongs from the description below.
도 1은 본 발명의 일 실시예에 따른 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법의 과정을 도시한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 데이터 수집 단계의 세부 과정을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 데이터 로딩/파싱 단계 중 파싱의 세부 과정을 도시한 흐름도이다.
도 4는 PDF 파일 파싱 단계의 세부 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 데이터 전처리 단계의 세부 과정을 도시한 흐름도이다.
도 6은 heuristic-based 퀄리티 필터링 단계의 세부 과정을 도시한 흐름도이다.
도 7은 classifier-based 퀄리티 필터링 단계의 세부 과정을 도시한 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 데이터 변환 단계의 세부 과정을 도시한 흐름도이다.FIG. 1 is a flowchart illustrating a process of a method for constructing a manufacturing language database for securing automated manufacturing injection molding data according to one embodiment of the present invention.
Figure 2 is a flowchart illustrating a detailed process of a data collection step according to one embodiment of the present invention.
FIG. 3 is a flowchart illustrating a detailed process of parsing during the data loading/parsing step according to one embodiment of the present invention.
Figure 4 is a drawing for explaining the detailed process of the PDF file parsing step.
Figure 5 is a flowchart illustrating a detailed process of a data preprocessing step according to one embodiment of the present invention.
Figure 6 is a flowchart illustrating the detailed process of the heuristic-based quality filtering step.
Figure 7 is a flowchart illustrating the detailed process of the classifier-based quality filtering step.
Figure 8 is a flowchart illustrating a detailed process of a data conversion step according to one embodiment of the present invention.
이하에서는, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.Hereinafter, embodiments of the present invention will be described in detail with reference to the attached drawings so that those skilled in the art can easily practice the present invention. However, the description of the present invention is merely an embodiment for structural and functional explanation, and therefore the scope of the present invention should not be construed as being limited by the embodiments described in the text. That is, since the embodiments can be modified in various ways and can have various forms, the scope of the present invention should be understood to include equivalents that can realize the technical idea. In addition, the purposes or effects presented in the present invention do not mean that a specific embodiment must include all of them or only such effects, and therefore the scope of the present invention should not be construed as being limited thereby.
본 발명에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.The meanings of terms described in the present invention should be understood as follows.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.Terms such as "first" and "second" are intended to distinguish one component from another, and the scope of the rights should not be limited by these terms. For example, a first component could be referred to as a second component, and similarly, a second component could also be referred to as a first component. When a component is referred to as being "connected" to another component, it should be understood that it may be directly connected to that other component, but there may also be other components in between. Conversely, when a component is referred to as being "directly connected" to another component, it should be understood that there are no other components in between. Meanwhile, other expressions describing the relationship between components, such as "between" and "immediately between" or "adjacent to" and "directly adjacent to", should be interpreted similarly.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Singular expressions should be understood to include plural expressions unless the context clearly indicates otherwise, and terms such as "comprises" or "has" should be understood to specify the presence of stated features, numbers, steps, operations, components, parts, or combinations thereof, but not to exclude the possibility of the presence or addition of one or more other features, numbers, steps, operations, components, parts, or combinations thereof.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.Unless otherwise defined, all terms used herein have the same meaning as commonly understood by those of ordinary skill in the art to which this invention pertains. Terms defined in commonly used dictionaries should be interpreted to be consistent with their meaning within the context of the relevant technology, and should not be interpreted as having ideal or overly formal meanings unless explicitly defined herein.
제조 언어 데이터베이스 구축 방법How to build a manufacturing language database
이하, 첨부된 도면을 참조하여 본 발명인 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법(S100)의 바람직한 실시예에 대해 상세히 설명하기로 한다.Hereinafter, a preferred embodiment of a manufacturing language database construction method (S100) for securing automated manufacturing injection molding data according to the present invention will be described in detail with reference to the attached drawings.
도 1은 본 발명의 일 실시예에 따른 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법의 과정을 도시한 흐름도이다.FIG. 1 is a flowchart illustrating a process of a method for constructing a manufacturing language database for securing automated manufacturing injection molding data according to one embodiment of the present invention.
도 1을 참조하면, 본 발명의 제조 언어 데이터베이스 구축 방법(S100)은 제조 사출성형 공정에 특화된 대형언어모델(Large Language Model, LLM)을 학습시키기 위한 제조 사출성형 공정과 관련된 문서를 저장하는 제조 언어 데이터베이스(미도시)를 구축하기 위한 방법으로서, 일 실시예에는 데이터 수집 단계(S110), 데이터 로딩/파싱 단계(S120), 데이터 전처리 단계(S130), 데이터 변환 단계(S140), 제조 언어 데이터베이스 업데이트 단계(S150) 순으로 진행되며, 상기 단계(S110~S150)의 과정을 반복하는 것에 기반하여 상기 제조 언어 데이터베이스를 구축 및 업데이트할 수 있다.Referring to FIG. 1, the manufacturing language database construction method (S100) of the present invention is a method for constructing a manufacturing language database (not shown) that stores documents related to a manufacturing injection molding process for training a large language model (LLM) specialized for a manufacturing injection molding process, and in one embodiment, the method proceeds in the following order: a data collection step (S110), a data loading/parsing step (S120), a data preprocessing step (S130), a data conversion step (S140), and a manufacturing language database update step (S150), and the manufacturing language database can be constructed and updated based on repeating the processes of the above steps (S110 to S150).
즉, 본 발명의 제조 언어 데이터베이스는 제조 사출성형 공정에 특화된 대형언어모델(LLM)을 학습시키기 위한 제조 사출성형 공정과 관련된 문서를 저장하는 데이터베이스일 수 있다.That is, the manufacturing language database of the present invention may be a database that stores documents related to a manufacturing injection molding process for training a large language model (LLM) specialized in the manufacturing injection molding process.
한편, 제조 언어 데이터베이스 구축 방법(S100)의 각 단계(S110~S150)는 대형언어모델을 사용하기 위한 사용자(또는 관리자)를 주체로 하여 진행될 수 있으나, 이하에서는 제조 언어 데이터베이스에 저장되는 제조 사출성형 공정과 관련된 문서를 기반으로 학습되어 제조 사출성형 공정의 질문에 대해 답변이 가능하도록 제조 사출성형 공정에 특화된 대형언어모델이 탑재되는 단말을 이용하여 진행하는 것으로 가정하여 설명하도록 하겠다.Meanwhile, each step (S110 to S150) of the manufacturing language database construction method (S100) can be performed by a user (or administrator) who uses a large language model, but below, it will be explained assuming that it is performed using a terminal equipped with a large language model specialized for the manufacturing injection molding process so that it can answer questions about the manufacturing injection molding process by learning based on documents related to the manufacturing injection molding process stored in the manufacturing language database.
상기 데이터 수집 단계(S110)에서, 사용자는 대형언어모델을 학습시키기 위한 제조 사출성형 공정과 관련된 문서를 수집하기 위해, 단말의 조작을 통해 파이썬(Python) 등 프로그래밍 언어를 이용하여 웹 크롤러(Web Crawler)의 코드를 작성함으로써 상기 웹 크롤러의 동작 스케줄을 설정하고, 상기 웹 크롤러는 상기 코드에 의해 주기적으로 실행되어 특정 시간마다 최신 데이터를 수집할 수 있다.In the above data collection step (S110), the user sets the operation schedule of the web crawler by writing a code of the web crawler using a programming language such as Python through the operation of the terminal in order to collect documents related to the manufacturing injection molding process for training a large language model, and the web crawler is periodically executed by the code to collect the latest data at specific times.
이때, 웹 크롤러는 웹사이트(web site)를 탐색 및 정보를 수집하기 위해 자동화된 프로그램 또는 봇으로, 인터넷상의 다양한 웹페이지(web page)를 방문하여 링크를 따라가면서 콘텐츠를 분석하고, 필요한 데이터를 저장하거나 인덱싱할 수 있다.At this time, a web crawler is an automated program or bot that explores websites and collects information. It can visit various web pages on the Internet, follow links, analyze content, and store or index necessary data.
또한, 웹 크롤러가 사용자의 단말에 의해 주기적으로 수집하는 최신 데이터라 함은, 대형언어모델이 제조 사출성형 공정에 특화되도록 학습하기 위해 필요로 하는 제조 사출성형 공정과 관련된 문서를 의미하며, 상기 제조 사출성형 공정과 관련된 문서는 제조 사출성형 공정과 관련된 정형 데이터 또는 비정형 데이터를 포함할 수 있다.In addition, the latest data periodically collected by the web crawler from the user's terminal refers to documents related to the manufacturing injection molding process required to train the large language model to be specialized in the manufacturing injection molding process, and the documents related to the manufacturing injection molding process may include structured data or unstructured data related to the manufacturing injection molding process.
여기서, 정형 데이터는 제조 사출성형 공정의 온도, 압력, 시간, 속도, 설비 스펙 등의 수치 데이터와 같이 구조화된 데이터를 의미하고, 비정형 데이터는 표, 수식, 레퍼런스 이미지, 그래프 이미지 등과 같이 비구조화된 데이터를 의미한다.Here, structured data refers to structured data such as numerical data such as temperature, pressure, time, speed, and equipment specifications of the manufacturing injection molding process, and unstructured data refers to unstructured data such as tables, formulas, reference images, and graph images.
상기 데이터 수집 단계(S110)에서, 사용자는 단말을 조작하여 웹 크롤러에 의해 수집된 최신 데이터의 추출, 변환, 로딩 작업을 자동으로 처리하기 위한 ETL(Extract, Transform, Load) 파이프라인이 단말상에 구축되도록 하고, 최신 데이터를 중앙 데이터 웨어하우스 및 제조 언어 데이터베이스(바람직하게는, 제조 언어 데이터베이스)에 저장하는 제조 주제 영역별 데이터 수집 과정을 자동화시킬 수 있다.In the above data collection step (S110), the user can operate the terminal to automatically build an ETL (Extract, Transform, Load) pipeline on the terminal to process extraction, transformation, and loading of the latest data collected by the web crawler, and automate the data collection process for each manufacturing subject area to store the latest data in a central data warehouse and a manufacturing language database (preferably, a manufacturing language database).
이때, ETL 파이프라인은 최신 데이터인 제조 사출성형 공정과 관련된 문서를 데이터 소스에서 수집하기 위한 추출(Extract) 단계, 수집된 최신 데이터를 원하는 형식으로 파싱, 정제하고 변환하기 위한 변환(Transform), 변환된 최신 데이터를 중앙 데이터 웨어하우스나 제조 언어 데이터베이스에 저장하기 위한 적재(Load) 단계의 과정을 자동화하여 최신 데이터를 처리하는 시스템일 수 있다.At this time, the ETL pipeline can be a system that processes the latest data by automating the process of the Extract step for collecting documents related to the manufacturing injection molding process, which is the latest data, from the data source, the Transform step for parsing, refining, and converting the collected latest data into the desired format, and the Load step for storing the converted latest data in a central data warehouse or manufacturing language database.
또한, 중앙 데이터 웨어하우스는 ETL 파이프라인을 통해 적재되는 최신 데이터를 구조화된 형태로 저장하는 중앙 저장소이며, 제조 사출성형 공정과 관련된 데이터는 중앙 데이터 웨어하우스에 저장되는 경우, 제조 주제 영역별로 중앙 데이터 웨어하우스에 저장될 수 있다. 다만, 이하에서 최신 데이터는 제조 언어 데이터베이스에만 저장되는 것으로 하여 설명하도록 하겠다.Additionally, the central data warehouse serves as a central repository for storing the latest data loaded through the ETL pipeline in a structured format. Data related to the manufacturing injection molding process can be stored in the central data warehouse by manufacturing subject area. However, the following description assumes that the latest data is stored only in the manufacturing language database.
상기 데이터 수집 단계(S110)에서, 사용자는 단말의 조작을 통해 대형언어모델을 이용하여 제조 주제 영역별 관련 목차를 생성 및 세부 목차별로 질문과 답변을 자동으로 생성할 수 있다.In the above data collection step (S110), the user can use a large language model to create a table of contents related to each manufacturing subject area and automatically create questions and answers for each detailed table of contents by operating the terminal.
이때, 대형언어모델이 제조 주제 영역별로 관련 목차를 생성하는 것은 웹 크롤러를 통해 수집된 최신 데이터가 매우 방대하고 비정형적인 경우가 많기 때문에 이러한 최신 데이터를 제조 주제 영역별로 구조화시키기 위함이다.At this time, the large language model generates a table of contents related to each manufacturing subject area because the latest data collected through web crawlers is often very large and unstructured, so this latest data is structured by manufacturing subject area.
또한, 대형언어모델이 세부 목차별로 질문과 답변을 자동 생성하는 것은 웹 크롤러를 통해 수집된 방대한 최신 데이터를 사용자가 직접 분석하고 정리하는데 소요되는 시간을 줄여 인력 소모 및 최신 데이터를 관리하는데 발생하는 운영 비용을 최소화하기 위함이다.Additionally, the large-scale language model automatically generates questions and answers by detailed table of contents to reduce the time required for users to directly analyze and organize the massive amount of up-to-date data collected through web crawlers, thereby minimizing human resources consumption and operational costs incurred in managing up-to-date data.
그리고 대형언어모델은 웹 크롤러를 통해 수집된 최신 데이터인 제조 사출성형 공정과 관련된 문서를 기반으로 지속적인 모델 학습이 진행됨으로써, 시간이 지날수록 제조 사출성형 공정과 관련된 제조 주제 영역의 세부 목차별에 대한 질문과 답변을 정확하게 생성할 수 있게 된다.Furthermore, the large-scale language model undergoes continuous model training based on documents related to the manufacturing injection molding process, which are the latest data collected through web crawlers. As time goes by, it will be able to accurately generate questions and answers about detailed table of contents of manufacturing subject areas related to the manufacturing injection molding process.
상기 데이터 수집 단계(S110)에서, 사용자가 단말의 조작을 통해 주기적으로 실행되도록 스케줄링된 웹 크롤러가 최신 데이터인 제조 사출성형 공정과 관련된 문서를 특정 시간 간격마다 수집하는 세부 과정은 도 2에 도시된 바와 같다.In the above data collection step (S110), the detailed process of collecting documents related to the manufacturing injection molding process, which are the latest data, at specific time intervals by a web crawler scheduled to be run periodically by the user through the operation of the terminal is as shown in Fig. 2.
도 2는 본 발명의 일 실시예에 따른 데이터 수집 단계의 세부 과정을 도시한 흐름도이다.Figure 2 is a flowchart illustrating a detailed process of a data collection step according to one embodiment of the present invention.
도 2를 참조하면, 본 발명의 데이터 수집 단계(S110)는 웹 크롤러가 스케줄링을 통해 특정 시간마다 웹사이트를 탐색할 때, 웹 스크래핑 기반 데이터 수집 단계(S111), 국내외 논문 수집 단계(S112), 국내외 전문도서 수집 단계(S113), 제조 전문 신문 기사 수집 단계(S114) 순으로 최신 데이터를 수집할 수 있으며, 상기 단계(S111~S114)는 순차적으로 진행되거나 동시에 진행될 수 있다.Referring to FIG. 2, the data collection step (S110) of the present invention can collect the latest data in the following order: a web scraping-based data collection step (S111), a domestic and foreign paper collection step (S112), a domestic and foreign specialized book collection step (S113), and a manufacturing specialized newspaper article collection step (S114) when a web crawler searches a website at a specific time through scheduling. The steps (S111 to S114) can be performed sequentially or simultaneously.
상기 웹 스크래핑 기반 데이터 수집 단계(S111)에서, 웹 크롤러는 사용자의 단말을 조작을 통해 스케줄링된 특정 시간마다 위키백과(Wikipedia)를 탐색하여 제조 사출성형 공정과 관련된 데이터를 수집할 수 있고, 추가적으로 Wikipedia를 제외한 인터넷상의 여러 웹페이지에서도 제조 사출성형 공정과 관련된 문서를 수집하는 웹 크롤링(Web crawling)을 진행할 수 있다.In the above web scraping-based data collection step (S111), the web crawler can collect data related to the manufacturing injection molding process by searching Wikipedia at scheduled specific times through manipulation of the user's terminal, and additionally, can perform web crawling to collect documents related to the manufacturing injection molding process from various web pages on the Internet other than Wikipedia.
상기 국내외 논문 수집 단계(S112)에서, 웹 크롤러는 사용자의 단말을 조작을 통해 스케줄링된 특정 시간마다 학술 데이터베이스인 ArXiv, DBPia 등을 탐색하여 상기 학술 데이터베이스에 등록된 국내외 논문 중 제조 사출성형 공정과 관련된 국내외 논문을 수집할 수 있다.In the above domestic and international paper collection step (S112), the web crawler can search academic databases such as ArXiv and DBPia at scheduled specific times by manipulating the user's terminal to collect domestic and international papers related to the manufacturing injection molding process among the domestic and international papers registered in the academic database.
상기 국내외 전문도서 수집 단계(S113)에서, 웹 크롤러는 사용자의 단말을 조작을 통해 스케줄링된 특정 시간마다 인터넷상의 여러 웹사이트에 등록된 국내외 전문도서 중 제조 사출성형 공정과 관련된 국내외 전문도서를 수집할 수 있다.In the above domestic and international specialized book collection step (S113), the web crawler can collect domestic and international specialized books related to the manufacturing injection molding process among domestic and international specialized books registered on various websites on the Internet at scheduled specific times by manipulating the user's terminal.
상기 제조 전문 신문 기사 수집 단계(S114)에서, 웹 크롤러는 사용자의 단말을 조작을 통해 스케줄링된 특정 시간마다 인터넷상의 여러 웹사이트에 등록된 제조전문 신문 기사 중 제조 사출성형 공정과 관련된 제조전문 신문 기사를 수집할 수 있다.In the above manufacturing specialized newspaper article collection step (S114), the web crawler can collect manufacturing specialized newspaper articles related to the manufacturing injection molding process among manufacturing specialized newspaper articles registered on various websites on the Internet at scheduled specific times by manipulating the user's terminal.
이러한 수집 단계(S111~S114) 후, 데이터 수집 단계(S110)는 대형언어모델이 상기 수집 단계(S111~S114)를 통해 수집된 최신 데이터의 언어를 상호 번역(또는 양방향 번역)하는 번역 단계(S115)를 진행할 수 있다.After these collection steps (S111 to S114), the data collection step (S110) may proceed with a translation step (S115) in which the large language model mutually translates (or bidirectionally translates) the languages of the latest data collected through the collection steps (S111 to S114).
상기 번역 단계(S115)에서, 대형언어모델은 수집 단계(S111~S114)에서 수집된 제조 사출성형 공정과 관련된 문서의 언어가 영어인 경우 한국어로 자동 번역할 수 있으며, 이와 반대로 제조 사출성형 공정과 관련된 문서의 언어를 한국어인 경우 영어로 자동 번역할 수 있다.In the above translation step (S115), the large language model can automatically translate into Korean if the language of the document related to the manufacturing injection molding process collected in the collection step (S111 to S114) is English, and conversely, if the language of the document related to the manufacturing injection molding process is Korean, it can automatically translate into English.
이때, 대형언어모델은 번역 단계(S115)에서 영어, 한국어 간 상호 번역을 기반으로 제조 사출성형 공정과 관련된 문서를 번역하는 것으로 설명하였으나 이를 한정하는 것은 아니며, 영어 뿐만 아니라 다른 언어(예: 일본어, 중국어 등)와 한국어 간 상호 번역을 진행할 수도 있다.At this time, the large language model was described as translating documents related to the manufacturing injection molding process based on mutual translation between English and Korean in the translation step (S115), but it is not limited to this, and mutual translation between other languages (e.g., Japanese, Chinese, etc.) and Korean can also be performed in addition to English.
이와 같이, 대형언어모델이 제조 사출성형 공정과 관련된 문서의 상호 번역을 진행함에 따라, 본 발명의 중앙 데이터 웨어하우스 및 제조 언어 데이터베이스는 다양한 언어 기반의 제조 사출성형 공정과 관련된 문서를 저장하는 다국어 데이터베이스로 구축될 수 있다.In this way, as the large language model performs mutual translation of documents related to the manufacturing injection molding process, the central data warehouse and manufacturing language database of the present invention can be constructed as a multilingual database that stores documents related to the manufacturing injection molding process based on various languages.
또한, 대형언어모델은 제조 언어 데이터베이스가 다양한 언어 기반의 제조 사출성형 공정과 관련된 문서를 저장하는 다국어 데이터베이스로 구축됨에 따라, 제조 사출성형 공정과 관련된 질문에 대해 특정 언어 뿐만 아니라 다양한 언어의 형태로 답변을 제공할 수 있다.Additionally, the large-scale language model can provide answers to questions related to the manufacturing injection molding process in various languages, not just in a specific language, as the manufacturing language database is built as a multilingual database that stores documents related to the manufacturing injection molding process based on various languages.
다시 도 1을 참조하면, 상기 데이터 로딩/파싱 단계(S120)는 로딩 단계와 파싱 단계 순으로 진행될 수 있다.Referring again to FIG. 1, the data loading/parsing step (S120) may be performed in the order of the loading step and the parsing step.
상기 데이터 로딩/파싱 단계(S120) 중 로딩 단계에서, 단말은 사용자에 의해 조작되어 제조 언어 데이터베이스에 저장된 제조 사출성형 공정과 관련된 문서를 단말의 메모리(미도시)에 적재할 수 있다.In the loading step among the above data loading/parsing steps (S120), the terminal can be operated by the user to load a document related to the manufacturing injection molding process stored in the manufacturing language database into the terminal's memory (not shown).
상기 데이터 로딩/파싱 단계(S120) 중 파싱 단계에서, 단말은 사용자에 의해 조작되어 메모리에 적재된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 문서를 파싱할 수 있으며, 제조 사출성형 공정과 관련된 데이터 파싱의 세부 과정은 도 3에 도시된 바와 같다.In the parsing step among the above data loading/parsing steps (S120), the terminal can parse a document related to the manufacturing injection molding process of the manufacturing language database loaded into the memory by being manipulated by the user, and the detailed process of data parsing related to the manufacturing injection molding process is as illustrated in FIG. 3.
도 3은 본 발명의 일 실시예에 따른 데이터 로딩/파싱 단계 중 파싱의 세부 과정을 도시한 흐름도이다.FIG. 3 is a flowchart illustrating a detailed process of parsing during the data loading/parsing step according to one embodiment of the present invention.
도 3을 참조하면, 본 발명의 데이터 로딩/파싱 단계(S120) 중 파싱 단계는 PDF 파일 파싱 단계(S121), 표 파싱 단계(S122), 수식 파싱 단계(S123), 이미지 추출 및 태깅 단계(S124), 정형 데이터 RDB 저장/관리 단계(S125) 순으로 진행될 수 있다.Referring to FIG. 3, the parsing step among the data loading/parsing step (S120) of the present invention may proceed in the following order: PDF file parsing step (S121), table parsing step (S122), formula parsing step (S123), image extraction and tagging step (S124), and structured data RDB storage/management step (S125).
상기 PDF 파일 파싱 단계(S121)에서, 단말은 사용자에 의해 조작되어 메모리에 적재된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 문서를 PDF(Portable Document Format) 파일로 확보 또는 변환시킬 수 있다.In the above PDF file parsing step (S121), the terminal can be operated by the user to obtain or convert a document related to the manufacturing injection molding process of the manufacturing language database loaded into the memory into a PDF (Portable Document Format) file.
이때, PDF 파일에 포함된 제조 사출성형 공정과 관련된 데이터는 비정형 데이터일 수 있다.At this time, data related to the manufacturing injection molding process included in the PDF file may be unstructured data.
이와 같이, 제조 사출성형 공정과 관련된 문서를 PDF 파일로 변환시킨 후 PDF 파일을 파싱하는 세부 과정은 도 4에 도시된 PDF 파일을 기반으로 설명하도록 하겠다.In this way, the detailed process of converting a document related to the manufacturing injection molding process into a PDF file and then parsing the PDF file will be explained based on the PDF file shown in Fig. 4.
도 4는 PDF 파일 파싱 단계의 세부 과정을 설명하기 위한 도면이다.Figure 4 is a drawing for explaining the detailed process of the PDF file parsing step.
도 4를 참조하면, PDF 파일 파싱 단계(S121)에서, 단말은 제조 사출성형 공정과 관련된 문서가 PDF 파일로 확보 또는 변환되면, 상기 PDF 파일의 각 페이지로부터 제조 사출성형 공정과 관련된 데이터를 제조 사출성형 공정의 관심 영역으로 추출(Crop)하고, 이를 제외한 불필요한 영역은 제거할 수 있다(도 4에서 '①').Referring to FIG. 4, in the PDF file parsing step (S121), when a document related to a manufacturing injection molding process is secured or converted into a PDF file, the terminal can extract (crop) data related to the manufacturing injection molding process from each page of the PDF file into an area of interest of the manufacturing injection molding process, and remove unnecessary areas excluding this ('①' in FIG. 4).
이때, 단말이 PDF 파일에서 추출하는 관심 영역은 제조 사출성형 공정과 관련된 텍스트를 구성하는 텍스트 블록, 표, 수식, 레퍼런스 이미지, 그래프 이미지를 포함한다.At this time, the area of interest extracted by the terminal from the PDF file includes text blocks, tables, formulas, reference images, and graph images that constitute text related to the manufacturing injection molding process.
또한, 단말이 PDF 파일에서 제거되는 불필요한 영역이라 함은 PDF 파일에 포함된 상, 하, 좌, 우 외곽 테두리일 수 있다.Additionally, the unnecessary area that is removed from the PDF file may be the upper, lower, left, and right outer borders included in the PDF file.
상기 PDF 파일 파싱 단계(S121)에서, 단말은 PDF 파일의 각 페이지로부터 추출된 제조 사출성형 공정의 관심 영역 중 제조 사출성형 공정과 관련된 텍스트로 구성되는 텍스트 블록이 PDF 파일의 형식 구조 특성상 동일한 페이지의 좌/우로 배치되는 경우에 텍스트 블록의 형태를 유지하도록, 상기 텍스트 블록의 좌/우를 구분하여 관심 영역을 파싱할 수 있다(도 4에서 '②').In the above PDF file parsing step (S121), the terminal can parse the area of interest by distinguishing the left/right of the text block so that the text block composed of text related to the manufacturing injection molding process among the areas of interest of the manufacturing injection molding process extracted from each page of the PDF file is arranged to the left/right of the same page due to the format structure characteristics of the PDF file, so as to maintain the form of the text block ('②' in FIG. 4).
상기 PDF 파일 파싱 단계(S121)에서, 단말은 Fitz 라이브러리가 탑재되며, 상기 Fitz 라이브러리를 이용하여 PDF 파일의 각 페이지로부터 제조 사출성형 공정과 관련된 레퍼런스 이미지와 그래프 이미지를 추출한 후에 태깅을 진행할 수 있다(도 4에서 '③').In the above PDF file parsing step (S121), the terminal is equipped with a Fitz library, and by using the Fitz library, reference images and graph images related to the manufacturing injection molding process can be extracted from each page of the PDF file, and then tagging can be performed ('③' in Fig. 4).
이때, 레퍼런스 이미지와 그래프 이미지를 태깅하는 것은 비정형 데이터인 레퍼런스 이미지와 그래프 이미지를 제조 언어 데이터베이스에 체계적으로 분류한 후에 저장하고, RAG(Retrieval Augmented Generation)를 적용할 때 질의와 관련있는 이미지 검색(Retrieval)에 활용하기 위함이다.At this time, tagging reference images and graph images is to systematically classify and store reference images and graph images, which are unstructured data, in a manufacturing language database, and then use them for image retrieval related to the query when applying RAG (Retrieval Augmented Generation).
상기 PDF 파일 파싱 단계(S121)에서, 단말은 PDF 파일의 메타데이터를 태깅할 수 있다(도 4에서 '④').In the above PDF file parsing step (S121), the terminal can tag the metadata of the PDF file ('④' in Fig. 4).
이때, PDF 파일의 메타데이터는 상기 PDF 파일의 제목, 저자, 조직, 페이지 번호, 개정 내용 및 날짜, 문서 간 관계, 주제(토픽) 등이 포함될 수 있다.At this time, the metadata of the PDF file may include the title, author, organization, page number, revision content and date, relationship between documents, subject (topic), etc. of the PDF file.
또한, 단말이 PDF 파일의 메타데이터를 태깅하는 것은 PDF 파일로 확보 또는 변환된 제조 사출성형 공정과 관련된 문서를 제조 언어 데이터베이스에 체계적으로 분류한 후에 저장하고, RAG(Retrieval Augmented Generation)에서 질의와 관련있는 문서 검색에 활용하기 위함이다.In addition, the terminal tags the metadata of PDF files to systematically classify and store documents related to the manufacturing injection molding process acquired or converted into PDF files in a manufacturing language database, and to utilize them for retrieving documents related to queries in RAG (Retrieval Augmented Generation).
상기 표 파싱 단계(S122)에서, 단말은 사용자에 의해 조작되어 행/열 정보의 상실을 방지하는 형태로, 제조 사출성형 공정과 관련된 데이터인 표의 파싱을 진행할 수 있다.In the above table parsing step (S122), the terminal can be operated by the user to parse the table, which is data related to the manufacturing injection molding process, in a manner that prevents loss of row/column information.
상기 표 파싱 단계(S122)에서, 단말은 PDF 파일 파싱 단계(S121)에 의해 제조 사출성형 공정과 관련된 문서가 PDF 파일로 확보 또는 변환되는 경우, OCR(Optical Character Recognition)과 이미지 분석 기술을 기반으로 PDF 파일의 각 페이지로부터 표의 경계와 셀의 위치를 감지함으로써, 상기 PDF 파일의 각 페이지로부터 표를 추출할 수 있다.In the above table parsing step (S122), when a document related to a manufacturing injection molding process is acquired or converted into a PDF file by the PDF file parsing step (S121), the terminal can extract a table from each page of the PDF file by detecting the border of the table and the location of the cell from each page of the PDF file based on OCR (Optical Character Recognition) and image analysis technology.
다만, 상기 표 파싱 단계(S122)에서, 단말은 웹 크롤러를 통해 인터넷상의 웹페이지로부터 수집된 제조 사출성형 공정과 관련된 문서로부터 표를 파싱할 수도 있다.However, in the above table parsing step (S122), the terminal may also parse the table from a document related to the manufacturing injection molding process collected from a web page on the Internet through a web crawler.
이때, 단말은 웹 크롤러를 통해 인터넷상의 웹페이지로부터 제조 사출성형 공정과 관련된 문서가 수집되면, 상기 제조 사출성형 공정과 관련된 문서로부터 HTML 태그(<table>, <tr>, <td>, <th>)와 CSS 스타일을 분석하여, 상기 제조 사출성형 공정과 관련된 데이터로부터 표를 추출할 수 있다.At this time, when a document related to a manufacturing injection molding process is collected from a web page on the Internet through a web crawler, the terminal can analyze HTML tags (<table>, <tr>, <td>, <th>) and CSS styles from the document related to the manufacturing injection molding process, and extract a table from the data related to the manufacturing injection molding process.
본 발명의 단말은 표를 파싱하기 위해 표 파싱 단계(S122)에서 이하의 절차가 자동화될 수 있다.The terminal of the present invention can automate the following procedures in the table parsing step (S122) to parse the table.
상기 표 파싱 단계(S122)에서, 단말은 제조 사출성형 공정과 관련된 문서로부터 추출된 표로부터 병합된 셀을 감지하고, 각 셀의 행 병합 속성 및 열 병합 속성을 기억하여 표를 파싱할 때, 파싱된 표에서 각 셀의 병합 속성에 맞게 배열시켜 행/열의 위치가 정확하게 유지되도록 한다.In the above table parsing step (S122), the terminal detects merged cells from a table extracted from a document related to a manufacturing injection molding process, remembers the row merge attribute and column merge attribute of each cell, and arranges them in accordance with the merge attribute of each cell in the parsed table when parsing the table so that the row/column positions are accurately maintained.
이때, 단말은 웹 크롤러를 통해 인터넷상의 웹페이지로부터 수집된 제조 사출성형 공정과 관련된 문서로부터 표를 파싱할 때를 기준으로, HTML 태그에서 <td>나 <th> 태그의 행 병합 및 열 병합 속성을 통해 제조 사출성형 공정과 관련된 문서로부터 표가 추출되면, 상기 표로부터 셀을 병합할 수 있다.At this time, when the terminal parses a table from a document related to a manufacturing injection molding process collected from a web page on the Internet through a web crawler, if a table is extracted from the document related to the manufacturing injection molding process through the row merge and column merge attributes of the <td> or <th> tag in the HTML tag, cells from the table can be merged.
상기 표 파싱 단계(S122)에서, 단말은 각 셀의 행 병합 및 열 병합 속성을 통해 표를 추출할 때, 각 셀의 데이터와 함께 각 셀이 속한 행 정보 및 열 정보를 함께 추출하고, 데이터가 없는 빈 셀도 파싱하여 파싱된 표에서 행/열 구조가 흐트러지지 않도록 한다.In the above table parsing step (S122), when the terminal extracts the table through the row merge and column merge properties of each cell, it extracts the row information and column information to which each cell belongs together with the data of each cell, and parses empty cells without data to prevent the row/column structure in the parsed table from being disrupted.
상기 표 파싱 단계(S122)에서, 단말은 필요에 따라 추출된 표로부터 각 셀의 데이터 정규화를 통해 일관성을 유지하고, 이상치 또는 결측치를 정제할 수 있다.In the above table parsing step (S122), the terminal can maintain consistency and refine outliers or missing values through data normalization of each cell from the extracted table as needed.
이때, 각 셀의 데이터 정규화는 각 셀의 데이터 단위를 표기법을 통일하는 것일 수 있으며, 이상치 정제는 셀의 데이터 단위 값을 평균 범위로 조정하는 것일 수 있고, 결측치 정제는 셀의 데이터 중 중복된 데이터를 제거하는 것일 수 있다.At this time, data normalization of each cell may be to unify the notation of the data unit of each cell, outlier cleaning may be to adjust the data unit value of the cell to the average range, and missing value cleaning may be to remove duplicate data among the data of the cell.
상기 수식 파싱 단계(S123)에서, 단말은 수식(Math Formula)을 인식하고 인공지능 모델을 사용하여 LaTex 포맷으로 변환할 수 있다.In the above formula parsing step (S123), the terminal can recognize the formula and convert it into LaTex format using an artificial intelligence model.
상기 이미지 추출 및 태깅 단계(S124)에서, 단말은 PDF 파일 파싱 단계(S121)에 의해 제조 사출성형 공정과 관련된 문서가 PDF 파일로 확보 또는 변환되는 경우, OCR과 이미지 처리 기술을 기반으로 PDF 파일의 각 페이지로부터 레퍼런스 이미지와 그래프 이미지를 추출 및 태깅할 수 있다.In the above image extraction and tagging step (S124), if a document related to the manufacturing injection molding process is secured or converted into a PDF file through the PDF file parsing step (S121), the terminal can extract and tag reference images and graph images from each page of the PDF file based on OCR and image processing technology.
다만, 상기 이미지 추출 및 태깅 단계(S124)에서, 단말은 웹 크롤러를 통해 인터넷상의 웹페이지로부터 수집된 제조 사출성형 공정과 관련된 문서로부터 레퍼런스 이미지 및 그래프 이미지를 추출한 후 태깅할 수도 있다.However, in the image extraction and tagging step (S124), the terminal may extract reference images and graph images from documents related to the manufacturing injection molding process collected from web pages on the Internet through a web crawler and then tag them.
이때, 단말은 웹 크롤러를 통해 인터넷상의 웹페이지로부터 제조 사출성형 공정과 관련된 문서가 수집되면, 상기 제조 사출성형 공정과 관련된 문서로부터 레퍼런스 이미지와 그래프 이미지에 대한 <img> 태그와 CSS 배경 이미지를 감지한 후 다운로드하여, 상기 제조 사출성형 공정과 관련된 데이터로부터 레퍼런스 이미지와 그래프 이미지를 추출할 수 있다.At this time, when a document related to a manufacturing injection molding process is collected from a web page on the Internet through a web crawler, the terminal detects and downloads <img> tags and CSS background images for reference images and graph images from the document related to the manufacturing injection molding process, thereby extracting reference images and graph images from data related to the manufacturing injection molding process.
본 발명의 단말은 레퍼런스 이미지와 그래프 이미지를 추출 및 태깅하기 위해 이미지 추출 및 태깅 단계(S124)에서 이하의 절차가 자동화될 수 있다.The terminal of the present invention can automate the following procedures in the image extraction and tagging step (S124) to extract and tag reference images and graph images.
상기 이미지 추출 및 태깅 단계(S124)에서, 단말은 그래프 이미지를 추출할 때 PDF 파일 내 축, 데이터 포인트, 레이블 등의 그래프의 특정 패턴을 감지하여 그래프를 식별하고, 식별된 그래프 부분만을 추출하여 그래프 이미지를 획득할 수 있다.In the above image extraction and tagging step (S124), when extracting a graph image, the terminal can detect specific patterns of the graph, such as axes, data points, and labels in the PDF file, identify the graph, and extract only the identified graph portion to obtain a graph image.
상기 이미지 추출 및 태깅 단계(S124)에서, 단말은 제목, 캡션, 출처 등 레퍼런스 이미지 및 그래프 이미지의 메타데이터를 추출하여 태깅하고, 딥러닝 기반의 이미지 인식 기술을 기반으로 상기 레퍼런스 이미지 및 그래프 이미지의 주제에 대한 태그를 생성할 수 있다.In the above image extraction and tagging step (S124), the terminal can extract and tag metadata of reference images and graph images, such as titles, captions, and sources, and generate tags for the subjects of the reference images and graph images based on deep learning-based image recognition technology.
상기 이미지 추출 및 태깅 단계(S124)에서, 단말은 사용자가 제조 언어 데이터베이스를 통해 레퍼런스 이미지 및 그래프 이미지를 쉽게 검색 및 관리할 수 있도록 하면서 레퍼런스 이미지와 그래프 이미지가 포함된 PDF 파일 또는 표와의 연관성을 유지하도록, 레퍼런스 이미지 및 그래프 이미지와, 상기 레퍼런스 이미지 및 그래프 이미지의 주제에 대한 태그를 제조 언어 데이터베이스에 저장할 수 있다.In the image extraction and tagging step (S124) above, the terminal can store the reference image and graph image and tags for the subject of the reference image and graph image in the manufacturing language database so that the user can easily search and manage the reference image and graph image through the manufacturing language database while maintaining the association with the PDF file or table containing the reference image and graph image.
상기 정형 데이터 RDB 저장/관리 단계(S125)에서, 단말은 PDF 파일 파싱 단계(S121), 표 파싱 단계(S122)에서 파싱된 텍스트 블록 및 표와, 수식 파싱 단계(S123)에서 LaTex 포맷으로 추출한 수식, 이미지 추출 및 태깅 단계(S124)에서 추출 및 태깅된 레퍼런스 이미지 및 그래프 이미지로부터 설비 스펙 등의 정형 데이터를 추출하고, 추출된 정형 데이터의 검색 및 관리가 용이해지도록 추출된 정형 데이터를 관계형 데이터베이스(RDB)의 형태로 변환시킨 후 제조 언어 데이터베이스에 저장되도록 한다.In the above structured data RDB storage/management step (S125), the terminal extracts structured data such as equipment specifications from text blocks and tables parsed in the PDF file parsing step (S121) and table parsing step (S122), formulas extracted in LaTex format in the formula parsing step (S123), and reference images and graph images extracted and tagged in the image extraction and tagging step (S124), and converts the extracted structured data into the form of a relational database (RDB) so that the search and management of the extracted structured data becomes easy, and then stores the extracted structured data in a manufacturing language database.
이때, 추출된 정형 데이터가 관계형 데이터베이스(RDB)의 형태로 변환되는 것은, 정형 데이터가 테이블(표) 간의 관계를 정의하는 것이 가능하도록 테이블의 형식으로 구조화되는 것을 의미한다.At this time, the extracted structured data is converted into the form of a relational database (RDB), which means that the structured data is structured in the form of tables so that it is possible to define relationships between tables.
다시 도 1을 참조하면, 상기 데이터 전처리 단계(S130)에서, 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서를 전처리시킬 수 있으며, 문서 내에서 제조 사출성형 공정과 관련된 데이터를 전처리하기 위한 데이터 전처리 단계(S130)의 세부 과정은 도 5에 도시된 바와 같다.Referring back to FIG. 1, in the data preprocessing step (S130), the terminal can preprocess a document containing data related to a manufacturing injection molding process for which parsing has been completed, and the detailed process of the data preprocessing step (S130) for preprocessing data related to a manufacturing injection molding process within the document is as illustrated in FIG. 5.
이때, 제조 사출성형 공정과 관련된 데이터가 포함된 문서는 한정하지 아니하나, 일 실시예에서는 상기 PDF 파일 파싱 단계(S121)를 거쳐 제조 사출성형 공정과 관련된 데이터가 포함된 PDF 파일일 수 있다.At this time, the document containing data related to the manufacturing injection molding process is not limited, but in one embodiment, it may be a PDF file containing data related to the manufacturing injection molding process through the PDF file parsing step (S121).
도 5는 본 발명의 일 실시예에 따른 데이터 전처리 단계의 세부 과정을 도시한 흐름도이다.Figure 5 is a flowchart illustrating a detailed process of a data preprocessing step according to one embodiment of the present invention.
도 5를 참조하면, 상기 데이터 전처리 단계(S130)는 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서를 전처리하기 위해 퀄리티 필터링 단계(S131), 데이터 중복 제거 단계(S132), 개인 정보 스크러빙 단계(S133), 독성/편향 텍스트 필터링 단계(S134) 순으로 진행될 수 있다.Referring to FIG. 5, the data preprocessing step (S130) may be performed in the following order: a quality filtering step (S131), a data deduplication step (S132), a personal information scrubbing step (S133), and a toxicity/bias text filtering step (S134) to preprocess a document containing data related to a manufacturing injection molding process for which parsing has been completed.
상기 퀄리티 필터링 단계(S131)에서, 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 문서 중에서 특정 키워드의 데이터가 포함된 문서를 제거하거나, 신뢰도가 낮아 불완전하거나 오류가 존재하는 문서를 제거함으로써, 상기 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링(Quality filtering)을 진행할 수 있다.In the above quality filtering step (S131), the terminal can perform quality filtering of documents related to the manufacturing injection molding process for which parsing has been completed by removing documents containing data of specific keywords from among documents related to the manufacturing injection molding process for which parsing has been completed, or removing documents that are incomplete or contain errors due to low reliability.
상기 퀄리티 필터링 단계(S131)에서, 단말은 도 6 및 도 7에 도시된 방식 중 적어도 하나의 퀄리티 필터링 방식을 기반으로 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링을 진행할 수 있다.In the above quality filtering step (S131), the terminal can perform quality filtering of documents related to the manufacturing injection molding process for which parsing has been completed based on at least one quality filtering method among the methods illustrated in FIGS. 6 and 7.
도 6은 heuristic-based 퀄리티 필터링 단계의 세부 과정을 도시한 흐름도이다.Figure 6 is a flowchart illustrating the detailed process of the heuristic-based quality filtering step.
도 6을 참조하면, 상기 퀄리티 필터링 단계(S131)에서, 단말은 사전 정의된 규칙을 기반으로 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서 중 규칙에 맞지 않는 문서를 제거하는 휴리스틱(heuristic) 방식을 통해 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링을 진행할 수 있다.Referring to FIG. 6, in the quality filtering step (S131), the terminal may perform quality filtering of documents related to the manufacturing injection molding process for which parsing has been completed through a heuristic method that removes documents that do not conform to rules among documents containing data related to the manufacturing injection molding process for which parsing has been completed based on predefined rules.
일 실시예에서, 휴리스틱(heuristic) 방식을 기반으로 한 퀄리티 필터링 단계는 데이터 로드 단계(S131-1), 전처리 단계(S131-2), 규칙 정의 단계(S131-3), 데이터 검토 단계(S131-4), 키워드 필터링 포함 여부 판단 단계(S131-5), 문서 제거 단계(S131-6), 길이 검사 단계(S131-7), 형식 검사 단계(S131-8), 특수문자 및 공백 검사 단계(S131-9) 순으로 진행될 수 있다.In one embodiment, the quality filtering step based on a heuristic method may proceed in the following order: data loading step (S131-1), preprocessing step (S131-2), rule definition step (S131-3), data review step (S131-4), keyword filtering inclusion/exclusion determination step (S131-5), document removal step (S131-6), length check step (S131-7), format check step (S131-8), and special character and space check step (S131-9).
상기 데이터 로드 단계(S131-1)에서, 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링을 진행하기 위해, 제조 언어 데이터베이스로부터 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서를 로드할 수 있다.In the above data loading step (S131-1), the terminal can load a document containing data related to a manufacturing injection molding process for which parsing has been completed from a manufacturing language database in order to perform quality filtering of the document related to a manufacturing injection molding process for which parsing has been completed.
상기 전처리 단계(S131-2)에서, 단말은 로드된 문서에서 제조 사출성형 공정과 관련된 데이터에서 중복된 데이터를 제거하거나 결측값을 처리할 수 있다.In the above preprocessing step (S131-2), the terminal can remove duplicate data or process missing values from data related to the manufacturing injection molding process in the loaded document.
상기 규칙 정의 단계(S131-3)에서, 단말은 휴리스틱(heuristic)에 기반하여 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링이 진행될 때, 상기 문서로부터 특정 문서를 제거하기 위한 규칙을 정의할 수 있다.In the above rule definition step (S131-3), the terminal can define a rule for removing a specific document from the document when quality filtering of a document related to a manufacturing injection molding process for which parsing has been completed is performed based on a heuristic.
이때, 상기 규칙 정의 단계(S131-3)에서 정의되는 규칙이라 함은 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서를 구성하는 텍스트 중 제거되어야 할 특정 키워드, 상기 문서 내 텍스트의 길이 범위, 형식(예: 날짜 형식), 특수문자 및 공백 제거 등이 포함될 수 있다.At this time, the rule defined in the rule definition step (S131-3) may include specific keywords to be removed from the text constituting the document containing data related to the manufacturing injection molding process for which parsing has been completed, the length range of the text within the document, the format (e.g., date format), special characters, and space removal, etc.
상기 데이터 검토 단계(S131-4)에서, 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서가 대형언어모델의 학습에 이용 가능한 문서인지 검토할 수 있으며, 추가적으로 상기 문서 내에서 이상치 또는 결측치가 존재하는지 검토한 후 상기 이상치 또는 결측치가 존재하는 문서를 제조 언어 데이터베이스로부터 제거할 수 있다.In the above data review step (S131-4), the terminal can review whether a document containing data related to a manufacturing injection molding process for which parsing has been completed is a document available for training of a large language model, and additionally, after reviewing whether there are outliers or missing values in the document, the terminal can remove documents with outliers or missing values from the manufacturing language database.
상기 키워드 필터링 포함 여부 판단 단계(S131-5)에서, 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서에 상기 규칙 정의 단계(S131-3)에서 규칙으로 정의된 특정 키워드가 포함되는지 여부를 판단할 수 있다.In the step (S131-5) of determining whether the keyword filtering is included, the terminal can determine whether a specific keyword defined as a rule in the rule definition step (S131-3) is included in a document containing data related to the manufacturing injection molding process for which parsing has been completed.
이때 만약, 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서에 특정 키워드가 포함되는 경우(S131-5_YES), 단말은 특정 키워드가 포함된 문서를 제거할 수 있다(S131-6).At this time, if a document containing data related to a manufacturing injection molding process for which parsing has been completed contains a specific keyword (S131-5_YES), the terminal can remove the document containing the specific keyword (S131-6).
상기 문서 제거 단계(S131-6)에서 제거된 문서는 제조 언어 데이터베이스로부터 제거되는 것을 의미한다.It means that the documents removed in the above document removal step (S131-6) are removed from the manufacturing language database.
이와 달리 만약, 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서에 특정 키워드가 포함되지 않는 경우(S131-5_NO), 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서가 대형언어모델의 학습에 이용 가능하다고 판단하며, 상기 문서의 텍스트 길이를 검사할 수 있다(S131-7).In contrast, if a document containing data related to a manufacturing injection molding process for which parsing has been completed does not contain a specific keyword (S131-5_NO), the terminal determines that the document containing data related to a manufacturing injection molding process for which parsing has been completed is available for training of a large language model, and can examine the text length of the document (S131-7).
상기 길이 검사 단계(S131-7)에서, 단말은 텍스트 길이가 상기 규칙 정의 단계(S131-3)에서 정의된 규칙에 따라, 규칙으로 정의된 텍스트 길이 범위 미만이거나 초과하는 문서를 제조 언어 데이터베이스로부터 제거할 수 있다.In the above length checking step (S131-7), the terminal can remove documents whose text length is less than or exceeds the text length range defined by the rule defined in the above rule definition step (S131-3) from the manufacturing language database.
상기 형식 검사 단계(S131-8)에서, 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서의 형식을 검사하고, 상기 규칙 정의 단계(S131-3)에서 정의된 규칙에 따라, 규칙으로 정의된 형식에 맞지 않는 문서를 제조 언어 데이터베이스로부터 제거할 수 있다.In the above format inspection step (S131-8), the terminal checks the format of a document containing data related to a manufacturing injection molding process for which parsing has been completed, and, according to the rules defined in the above rule definition step (S131-3), can remove documents that do not conform to the format defined by the rules from the manufacturing language database.
상기 특수문자 및 공백 검사 단계(S131-9)에서, 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서의 특수문자 및 공백 정도를 검사하고, 상기 규칙 정의 단계(S131-3)에서 정의된 규칙에 따라, 규칙으로 정의된 특수문자가 존재하거나 규칙으로 정의된 공백 정도를 초과하는 문서를 제조 언어 데이터베이스로부터 제거할 수 있다.In the above special character and space inspection step (S131-9), the terminal inspects the special characters and space level of a document containing data related to a manufacturing injection molding process for which parsing has been completed, and, according to the rules defined in the above rule definition step (S131-3), documents that contain special characters defined by the rules or exceed the space level defined by the rules can be removed from the manufacturing language database.
도 7은 classifier-based 퀄리티 필터링 단계의 세부 과정을 도시한 흐름도이다.Figure 7 is a flowchart illustrating the detailed process of the classifier-based quality filtering step.
도 7을 참조하면, 상기 퀄리티 필터링 단계(S131)에서, 단말은 머신 러닝 모델을 훈련 및 훈련된 머신 러닝 모델을 이용하는 분류기(classifier) 방식을 통해 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링을 진행할 수 있다.Referring to FIG. 7, in the quality filtering step (S131), the terminal can perform quality filtering of documents related to the manufacturing injection molding process for which parsing has been completed through a classifier method that trains a machine learning model and uses the trained machine learning model.
일 실시예에서, 분류기(classifier) 방식을 기반으로 한 퀄리티 필터링 단계는 데이터 로드 단계(S131a), 전처리 단계(S131b), 특징 추출 단계(S131c), 훈련 데이터 준비 단계(S131d), 모델 훈련 단계(S131e), 신뢰도 필터링 수준 판단 단계(S131f), 문서 제거 단계(S131g), 길이 검사 단계(S131h), 형식 검사 단계(S131i), 특수문자 및 공백 검사 단계(S131j) 순으로 진행될 수 있다.In one embodiment, the quality filtering step based on a classifier method may be performed in the following order: a data loading step (S131a), a preprocessing step (S131b), a feature extraction step (S131c), a training data preparation step (S131d), a model training step (S131e), a confidence filtering level determination step (S131f), a document removal step (S131g), a length checking step (S131h), a format checking step (S131i), and a special character and space checking step (S131j).
상기 데이터 로드 단계(S131a)에서, 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서의 품질 필터링을 진행하기 위해, 제조 언어 데이터베이스로부터 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서를 로드할 수 있다.In the above data loading step (S131a), the terminal can load a document containing data related to a manufacturing injection molding process for which parsing has been completed from a manufacturing language database in order to perform quality filtering of the document containing data related to a manufacturing injection molding process for which parsing has been completed.
상기 전처리 단계(S131b)에서, 단말은 로드된 문서에서 제조 사출성형 공정과 관련된 문서에서 중복된 데이터를 제거하거나 결측값을 처리할 수 있다.In the above preprocessing step (S131b), the terminal can remove duplicate data or process missing values in documents related to the manufacturing injection molding process from the loaded documents.
상기 특징 추출 단계(S131c)에서, 단말은 문서의 파싱이 완료된 제조 사출성형 공정과 관련된 데이터를 수치화하여 벡터로 변환함으로써 분류 모델(머신 러닝 모델)의 학습에 이용될 특징을 추출할 수 있다.In the above feature extraction step (S131c), the terminal can extract features to be used for learning a classification model (machine learning model) by converting data related to the manufacturing injection molding process for which document parsing has been completed into a vector by digitizing the data.
이때, 단말은 파싱이 완료된 제조 사출성형 공정과 관련된 데이터가 포함된 문서의 텍스트로부터 특정 키워드의 빈도, 상기 문서 내 텍스트의 길이 범위, 형식(예: 날짜 형식), 특수문자 및 공백 정도를 기반으로, 상기 문서로부터 분류 모델의 학습에 이용될 특징을 추출할 수 있다.At this time, the terminal can extract features to be used for learning a classification model from the document based on the frequency of specific keywords, the length range of the text within the document, format (e.g., date format), special characters, and the degree of spaces from the text of the document containing data related to the manufacturing injection molding process for which parsing has been completed.
상기 훈련 데이터 준비 단계(S131d)에서, 단말은 벡터로 변환된 제조 사출성형 공정과 관련된 데이터가 포함된 문서의 품질 기준에 따라 "양질(값은 '1')" 또는 "불량(값은 '0')"으로 라벨링하여, 분류 모델을 훈련시키기 위한 데이터를 준비할 수 있다.In the above training data preparation step (S131d), the terminal can prepare data for training a classification model by labeling the document containing data related to a manufacturing injection molding process converted into a vector as “good (value is ‘1’)” or “bad (value is ‘0’)” according to the quality criteria.
상기 모델 훈련 단계(S131e)에서, 분류 모델은 상기 특징 추출 단계(S131c)에서 추출된 특징과 상기 훈련 데이터 준비 단계(S131d)의 라벨 간 관계를 학습함으로써, 벡터로 변환된 제조 사출성형 공정과 관련된 데이터가 포함된 문서의 품질을 분류하도록 훈련될 수 있다.In the above model training step (S131e), the classification model can be trained to classify the quality of a document containing data related to a manufacturing injection molding process converted into a vector by learning the relationship between the features extracted in the above feature extraction step (S131c) and the labels in the above training data preparation step (S131d).
상기 신뢰도 필터링 수준 판단 단계(S131f)에서, 훈련된 분류 모델은 벡터로 변환된 제조 사출성형 공정과 관련된 데이터가 포함된 문서가 양질 또는 불량일 가능성을 예측하고, 문서가 양질 또는 불량일 가능성을 예측한 결과의 신뢰도가 기설정된 수준 이상인지 여부를 판단할 수 있다.In the above confidence filtering level determination step (S131f), the trained classification model can predict the likelihood that a document containing data related to a manufacturing injection molding process converted into a vector is of good or bad quality, and determine whether the reliability of the result of the prediction of the likelihood that the document is of good or bad quality is above a preset level.
이때 만약, 훈련된 분류 모델이 예측한 결과의 신뢰도가 기설정된 수준 미만인 경우(S131f-NO), 훈련된 분류 모델은 신뢰도가 기설정된 수준 미만인 문서를 제거할 수 있다(S131g).At this time, if the confidence level of the result predicted by the trained classification model is below a preset level (S131f-NO), the trained classification model can remove documents with a confidence level below a preset level (S131g).
상기 문서 제거 단계(S131g)에서 제거된 문서는 제조 언어 데이터베이스로부터 제거되는 것을 의미한다.It means that the documents removed in the above document removal step (S131g) are removed from the manufacturing language database.
이와 달리 만약, 훈련된 분류 모델이 예측한 결과의 신뢰도가 기설정된 수준 이상인 경우(S131f-YES), 훈련된 분류 모델은 벡터로 변환된 제조 사출성형 공정과 관련된 데이터가 포함된 문서가 대형언어모델의 학습에 이용 가능하다고 판단하며, 상기 문서의 텍스트 길이를 검사할 수 있다(S131h).In contrast, if the reliability of the result predicted by the trained classification model is higher than a preset level (S131f-YES), the trained classification model determines that the document containing data related to the manufacturing injection molding process converted into a vector is available for training the large language model, and the text length of the document can be inspected (S131h).
상기 길이 검사 단계(S131h)에서, 훈련된 분류 모델은 상기 특징 추출 단계(S131c)에서 추출된 특징에 따라, 텍스트 길이 범위 미만이거나 초과하는 문서를 제조 언어 데이터베이스로부터 제거할 수 있다.In the above length inspection step (S131h), the trained classification model can remove documents that are less than or exceed the text length range from the manufacturing language database according to the features extracted in the above feature extraction step (S131c).
상기 형식 검사 단계(S131i)에서, 훈련된 분류 모델은 벡터로 변환된 제조 사출성형 공정과 관련된 데이터가 포함된 문서의 형식을 검사하고, 상기 특징 추출 단계(S131c)에서 추출된 특징에 따라, 특징으로 추출되지 않은 형식의 문서를 제조 언어 데이터베이스로부터 제거할 수 있다.In the above format inspection step (S131i), the trained classification model inspects the format of a document containing data related to a manufacturing injection molding process converted into a vector, and, based on the features extracted in the above feature extraction step (S131c), documents in formats not extracted as features can be removed from the manufacturing language database.
상기 특수문자 및 공백 검사 단계(S131j)에서, 훈련된 분류 모델은 벡터로 변환된 제조 사출성형 공정과 관련된 데이터가 포함된 문서의 특수문자 및 공백 정도를 검사하고, 상기 특징 추출 단계(S131c)에서 추출된 특징에 따라, 특징으로 추출된 특수문자가 존재하거나 특징으로 추출된 공백 정도를 초과하는 문서를 제조 언어 데이터베이스로부터 제거할 수 있다.In the above special character and space inspection step (S131j), the trained classification model inspects the special characters and space extent of a document containing data related to a manufacturing injection molding process converted into a vector, and, based on the features extracted in the above feature extraction step (S131c), documents in which the special characters extracted as features exist or the space extent extracted as features exceeds the level of features can be removed from the manufacturing language database.
상기 데이터 중복 제거 단계(S132)에서, 단말은 제조 언어 데이터베이스에 저장된 제조 사출성형 공정과 관련된 데이터에서 중복되는 데이터를 제거하여 고유한 데이터만 남기는 중복 제거(Deduplication) 과정을 진행하여, 제조 언어 데이터베이스에 저장된 제조 사출성형 공정과 관련된 데이터를 전처리시킬 수 있다.In the above data deduplication step (S132), the terminal performs a deduplication process to remove duplicate data from data related to the manufacturing injection molding process stored in the manufacturing language database, leaving only unique data, thereby preprocessing data related to the manufacturing injection molding process stored in the manufacturing language database.
상기 개인 정보 스크러빙 단계(S133)에서, 단말은 개인 정보 스크러빙(Privacy scrubbing) 과정을 진행하여 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터에 포함된 개인 식별 정보(예: ID, password, API Key 등)의 유출이나 침해를 방지할 수 있다.In the above personal information scrubbing step (S133), the terminal can prevent leakage or infringement of personal identification information (e.g., ID, password, API Key, etc.) included in data related to the manufacturing injection molding process of the manufacturing language database by performing a personal information scrubbing process.
이때, 단말은 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터에 포함된 개인 식별 정보를 제거하거나 변환하여 개인 식별 정보가 식별되지 않도록 식별화 과정을 진행할 수 있다.At this time, the terminal may perform an identification process to remove or convert personally identifiable information contained in data related to the manufacturing injection molding process of the manufacturing language database so that the personally identifiable information is not identifiable.
또한, 단말은 식별화 뿐만 아니라, 비식별화(De-identification) 또는 데이터 마스킹(Data Masking) 과정을 진행하여 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터에 포함된 개인 식별 정보(예: ID, password, API Key 등)의 유출이나 침해를 방지할 수도 있다.In addition, the terminal can prevent leakage or infringement of personally identifiable information (e.g., ID, password, API key, etc.) included in data related to the manufacturing injection molding process of the manufacturing language database by performing a de-identification or data masking process in addition to identification.
여기서, 비식별화 과정은 본 발명의 단말이 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터에 포함된 개인 식별 정보를 가명으로 변환하여 개인 식별 정보가 원래 데이터와 다르게 식별되도록 전처시키는 과정을 의미한다.Here, the de-identification process means a process in which the terminal of the present invention converts personal identification information contained in data related to the manufacturing injection molding process of the manufacturing language database into a pseudonym so that the personal identification information is identified differently from the original data.
그리고 데이터 마스킹 과정은 본 발명의 단말이 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터에 포함된 개인 식별 정보가 데이터의 형태를 유지하면서도 실제 값을 숨기도록 마스킹 처리하여 전처리시키는 과정을 의미한다.And the data masking process means a process in which the terminal of the present invention preprocesses personal identification information included in data related to the manufacturing injection molding process of the manufacturing language database by masking it so that the actual value is hidden while maintaining the form of the data.
상기 독성/편향 텍스트 필터링 단계(S134)에서, 단말은 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터 중에서 증오/혐오 표현, 성/인종/종교/정치 차별적 표현 등의 유해하고 편향된 텍스트를 제거하는 독성/편향 텍스트 필터링(Filtering out toxic and biased text) 과정을 진행하여, 제조 언어 데이터베이스에 저장된 제조 사출성형 공정과 관련된 데이터를 전처리시킬 수 있다.In the above toxic/biased text filtering step (S134), the terminal may perform a toxic/biased text filtering process to remove harmful and biased texts such as hate/loathing expressions and sexual/racial/religious/political discrimination expressions from among data related to the manufacturing injection molding process of the manufacturing language database, thereby preprocessing data related to the manufacturing injection molding process stored in the manufacturing language database.
다시 도 1을 참조하면, 상기 데이터 변환 단계(S140)에서, 단말은 대형언어모델이 전처리된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터를 통해 학습할 수 있도록 제조 사출성형 공정과 관련된 데이터를 변환시킬 수 있으며,제조 사출성형 공정과 관련된 데이터를 변환시키기 위한 데이터 변환 단계(S140)의 세부 과정은 도 8에 도시된 바와 같다.Referring back to FIG. 1, in the data conversion step (S140), the terminal can convert data related to the manufacturing injection molding process so that the large language model can learn through data related to the manufacturing injection molding process of the preprocessed manufacturing language database, and the detailed process of the data conversion step (S140) for converting data related to the manufacturing injection molding process is as illustrated in FIG. 8.
도 8은 본 발명의 일 실시예에 따른 데이터 변환 단계의 세부 과정을 도시한 흐름도이다.Figure 8 is a flowchart illustrating a detailed process of a data conversion step according to one embodiment of the present invention.
도 8을 참조하면, 상기 데이터 변환 단계(S140)는 대형언어모델이 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터를 통해 학습할 수 있도록 파인 튜닝 포맷 데이터 변환 단계(S141), 상용의 OpenAI사 ChatGPT API 서비스뿐만 아니라 오픈소스 LLM API 서비스를 이용하는 것이 가능한 대형언어모델 API 서비스 자동화 단계(S142), 토큰화 단계(S143), 텍스트 임베딩/인덱싱 단계(S144) 순으로 진행될 수 있다.Referring to FIG. 8, the data conversion step (S140) may be performed in the following order: a fine tuning format data conversion step (S141) so that the large language model can learn through data related to the manufacturing injection molding process of the manufacturing language database; a large language model API service automation step (S142) that can utilize not only the commercial OpenAI ChatGPT API service but also the open source LLM API service; a tokenization step (S143); and a text embedding/indexing step (S144).
상기 파인 튜닝 포맷 데이터 변환 단계(S141)에서, 단말은 전처리된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터를 BERT 및 GPT 모델의 파인 튜닝(Fine-tunning) 포맷에 상응하도록 형변환시킬 수 있다.In the above fine-tuning format data conversion step (S141), the terminal can convert data related to the manufacturing injection molding process of the preprocessed manufacturing language database to correspond to the fine-tuning format of the BERT and GPT models.
여기서, BERT 모델은 언어이해(Language Understanding)의 성능이 우수한 Auto-Encoding 계열의 모델로서, 질문과 컨텍스트(문단)을 함께 입력받아 답변을 추출할 수 있다.Here, the BERT model is a model of the Auto-Encoding series that excels in language understanding, and can extract answers by inputting questions and context (paragraphs) together.
또한, GPT 모델은 언어생성(Language generation)의 성능이 우수한 Auto-Regressive 계열의 모델로서, 질문에 대한 답변을 생성할 수 있다.Additionally, the GPT model is a model of the Auto-Regressive series with excellent language generation performance, and can generate answers to questions.
이와 같이, 전처리된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터가 BERT 및 GPT 모델의 파인 튜닝의 포맷에 상응하도록 형변환됨에 따라, 본 발명의 대형언어모델은 BERT 모델 또는 GPT 모델인 것이 바람직하다.In this way, since the data related to the manufacturing injection molding process of the preprocessed manufacturing language database is transformed to correspond to the format of the fine tuning of the BERT and GPT models, it is preferable that the large language model of the present invention is a BERT model or a GPT model.
상기 대형언어모델 API 서비스 자동화 단계(S142)에서, 단말은 자연어 처리(NLP) 모델인 대형언어모델 API의 서비스를 이용하여 형변환된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터에서 제조 사출성형 공정과 관련된 질문과, 상기 질문에 대한 적절한 답변을 자동으로 생성할 수 있다.In the above large language model API service automation step (S142), the terminal can automatically generate questions related to the manufacturing injection molding process and appropriate answers to the questions from data related to the manufacturing injection molding process of the converted manufacturing language database using the service of the large language model API, which is a natural language processing (NLP) model.
이때, 제조 사출성형 공정과 관련된 질문과 답변은 대형언어모델이 상기 질문에 대해 적절한 답변을 생성할 수 있도록 명확한 짝을 이루도록 조정되는 것이 바람직하다.At this time, it is desirable that questions and answers related to the manufacturing injection molding process be aligned so that the large language model can generate appropriate answers to the questions.
상기 토큰화 단계(S143)에서, 단말은 형변환된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터를 텍스트 문장 형태로 변환하여 텍스트 문장 형태의 텍스트 데이터를 확보하고, 텍스트 데이터를 BERT 및 GPT 모델이 이해할 수 있는 토큰 단위(단어, 하위 단어 또는 문자)로 분해하는 토큰화(Tokenization) 과정을 진행할 수 있다.In the above tokenization step (S143), the terminal can convert data related to the manufacturing injection molding process of the converted manufacturing language database into a text sentence form to secure text data in the text sentence form, and perform a tokenization process to break down the text data into token units (words, subwords, or characters) that the BERT and GPT models can understand.
이때, 토큰화 과정은 텍스트 데이터를 토큰 단위로 분리하는 토큰 분리 단계와, 텍스트 데이터 내 문장의 시작과 끝을 나타내는 특수 토큰을 추가하는 특수 토큰 추가 단계와, 각 토큰을 BERT 및 GPT 모델의 어휘 사전에 있는 고유 ID로 변환시키는 어휘 사전 매핑 단계(인덱싱)로 구성될 수 있다.At this time, the tokenization process can be composed of a token separation step that separates text data into token units, a special token addition step that adds special tokens indicating the beginning and end of sentences in the text data, and a vocabulary dictionary mapping step (indexing) that converts each token into a unique ID in the vocabulary dictionary of the BERT and GPT models.
상기 텍스트 임베딩/인덱싱 단계(S144)에서, 단말은 토큰화 과정에서 토큰 단위로 분해된 텍스트 데이터 내 텍스트의 의미를 연속적인 벡터 공간에서 숫자로 인코딩하여 BERT 및 GPT 모델이 학습하고 예측할 수 있도록 하는 임베딩(Embedding) 과정을 진행할 수 있다.In the above text embedding/indexing step (S144), the terminal can perform an embedding process to encode the meaning of text in text data decomposed into token units in the tokenization process into numbers in a continuous vector space so that BERT and GPT models can learn and predict.
이때, 단말은 임베딩 모델이 탑재되어 임베딩 과정을 진행할 수 있으며, 텍스트의 임베딩 과정을 통해 텍스트를 수치 벡터로 변환하게 되며, 임베딩을 통해 단어들 간의 의미적 유사성은 벡터 간의 거리로 표현될 수 있다.At this time, the terminal is equipped with an embedding model and can perform the embedding process, and the text is converted into a numerical vector through the text embedding process, and the semantic similarity between words can be expressed as the distance between vectors through embedding.
상기 텍스트 임베딩/인덱싱 단계(S144)에서, 단말은 임베딩된 텍스트 데이터를 상기 제조 언어 데이터베이스상에서 특정 구조화된 방식으로 정리하며, 상기 임베딩된 텍스트 데이터가 제조 언어 데이터베이스로부터 효율적으로 검색되도록 인덱스를 구축할 수 있다.In the above text embedding/indexing step (S144), the terminal organizes the embedded text data in a specific structured manner on the manufacturing language database, and can build an index so that the embedded text data can be efficiently searched from the manufacturing language database.
이때, 대형언어모델은 텍스트 인덱싱 과정을 통해 유사한 의미를 가진 제조 사출성형 공정의 질문이 입력될 때 제조 언어 데이터베이스로부터 가장 관련 있는 문서를 빠르게 검색한 후에 답변을 생성할 수 있다.At this time, the large language model can quickly retrieve the most relevant documents from the manufacturing language database and then generate an answer when a question about the manufacturing injection molding process with similar meaning is input through the text indexing process.
한편, 단말은 텍스트 임베딩/인덱싱 단계(S144)를 진행한 후 오픈 소스(SentenceTransformer)를 이용하여 대형언어모델의 파인 튜닝을 진행할 수 있다.Meanwhile, after the terminal performs the text embedding/indexing step (S144), it can perform fine tuning of the large language model using open source (SentenceTransformer).
이때, 오픈 소스를 이용하여 대형언어모델의 파인 튜닝을 진행하는 것은 제조 사출성형 공정과 같은 특정 도메인에서 일반적으로 사전 학습된 대형언어모델이 해당 분야의 용어나 문맥을 완벽하게 이해하지 못할 수 있기 때문이다.At this time, fine-tuning a large-scale language model using open source is because, in a specific domain such as a manufacturing injection molding process, a pre-trained large-scale language model may not fully understand the terminology or context of the relevant field.
다시 도 1을 참조하면, 상기 제조 언어 데이터베이스 업데이트 단계(S150)는 상술한 단계(S110~S140)를 통해 제조 사출성형 공정과 관련된 데이터가 수집, 로딩/파싱, 전처리, 변환되는 과정이 일회성으로 이루어지는 것이 아니라, 상기 단계(S110~S140)를 반복함으로써 제조 언어 데이터베이스를 업데이트하는 단계일 수 있다.Referring back to FIG. 1, the manufacturing language database update step (S150) may be a step of updating the manufacturing language database by repeating the steps (S110 to S140) rather than a one-time process in which data related to the manufacturing injection molding process is collected, loaded/parsed, preprocessed, and converted through the steps (S110 to S140) described above.
상기 제조 언어 데이터베이스 업데이트 단계(S150)에서, 단말은 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터를 주기적으로 검증하고, 검증 과정에서 대형언어모델의 학습에 불필요한 데이터를 제거하는 프로세스를 진행할 수 있다.In the above manufacturing language database update step (S150), the terminal can periodically verify data related to the manufacturing injection molding process of the manufacturing language database, and perform a process of removing data unnecessary for learning the large language model during the verification process.
또한, 단말은 제조 언어 데이터베이스의 업데이트때마다 여러 출처로부터 수집된 제조 사출성형 공정과 관련된 데이터의 형식을 통일시켜 제조 언어 데이터베이스에 저장함으로써, 상기 제조 언어 데이터베이스가 통합 데이터베이스로 구축되도록 한다.In addition, the terminal stores data related to the manufacturing injection molding process collected from various sources in a unified format in the manufacturing language database whenever the manufacturing language database is updated, thereby constructing the manufacturing language database as an integrated database.
본 발명의 제조 언어 데이터베이스 구축 방법(S100)을 통해 구축된 제조 언어 데이터베이스는 지속적인 업데이트를 통해 제조 사출성형 공정에 대한 지식체계(온톨로지)를 구축하게 되며, 제조 사출성형 관련 생성형 AI의 환각/거짓정보 검증 방법론으로서 팩트채킹에 활용될 수 있다.The manufacturing language database constructed through the manufacturing language database construction method (S100) of the present invention constructs a knowledge system (ontology) for the manufacturing injection molding process through continuous updates, and can be utilized for fact-checking as a methodology for verifying illusion/false information of generative AI related to manufacturing injection molding.
본 발명에 따른 효과Effects according to the present invention
본 발명인 제조 언어 데이터베이스 구축 방법(S100)은 수작업에 의존하던 비정형 데이터 뿐만 아니라 정형 데이터를 포함한 제조 사출성형 공정과 관련된 문서를 자동적으로 수집함으로써, 반복적이고 시간 소모적인 작업을 최소화하고, 이를 통해 데이터 처리의 효율성을 높여 인건비 및 운영 비용을 절감할 수 있다.The manufacturing language database construction method (S100) of the present invention automatically collects documents related to a manufacturing injection molding process including structured data as well as unstructured data that were previously dependent on manual work, thereby minimizing repetitive and time-consuming tasks and thereby increasing the efficiency of data processing, thereby reducing labor and operating costs.
또한, 본 발명인 제조 언어 데이터베이스 구축 방법(S100)은 수작업으로 인한 제조 사출성형 공정과 관련된 데이터의 입력 오류와 중복 가능성을 줄여 제조 사출성형 공정과 관련된 데이터의 정확성을 높이고, 제조 사출성형 공정과 관련된 데이터의 일관된 처리 방법을 적용하여 신뢰성을 보장하고, 제조 언어 데이터베이스를 주기적으로 업데이트함으로써 대형언어모델의 신뢰성을 높이고 신속한 의사결정을 지원할 수 있다.In addition, the manufacturing language database construction method (S100) of the present invention reduces the possibility of input errors and duplication of data related to the manufacturing injection molding process due to manual work, thereby increasing the accuracy of data related to the manufacturing injection molding process, ensuring reliability by applying a consistent processing method for data related to the manufacturing injection molding process, and periodically updating the manufacturing language database, thereby increasing the reliability of a large language model and supporting rapid decision-making.
그리고 본 발명인 제조 언어 데이터베이스 구축 방법(S100)은 인터넷상의 웹페이지에서 수집된 제조 사출성형 공정과 관련된 데이터의 영어, 한국어 간 상호 번역을 통해 정확하면서 풍부한 제조 언어 데이터베이스를 구축할 수 있다.And the manufacturing language database construction method (S100) of the present invention can construct an accurate and rich manufacturing language database through mutual translation between English and Korean of data related to a manufacturing injection molding process collected from a web page on the Internet.
또한, 본 발명인 제조 언어 데이터베이스 구축 방법(S100)은 제조 사출성형 공정 관련 데이터의 PDF 파일 및 표 파싱을 통해 표 형식의 정보에서 행/열 정보의 상실을 방지함으로써, 대형언어모델의 학습에 용이할 수 있다.In addition, the manufacturing language database construction method (S100) of the present invention can facilitate learning of a large language model by preventing loss of row/column information in tabular information through parsing of PDF files and tables of data related to a manufacturing injection molding process.
그리고 본 발명인 제조 언어 데이터베이스 구축 방법(S100)은 제조 사출성형 공정과 관련된 데이터의 개인 정보 스크러빙(Privacy scrubbing) 과정을 통해 데이터 프라이버시 강화, 데이터 보호 법규 준수, 데이터 유용성 증가, 데이터 오용 및 무단 접근 위험 감소, 개인 정보의 잠재적인 유출 위험 우려를 해소할 수 있다.And the manufacturing language database construction method (S100) of the present invention can strengthen data privacy, comply with data protection laws, increase data usability, reduce the risk of data misuse and unauthorized access, and resolve concerns about potential leakage of personal information through a privacy scrubbing process of data related to a manufacturing injection molding process.
또한, 본 발명인 제조 언어 데이터베이스 구축 방법(S100)은 제조 사출성형 공정과 관련된 데이터의 독성/편향 텍스트 필터링(Filtering out toxic and biased text) 과정을 통해 사용자 경험 향상, 법적 및 규제 준수, 편향성 감소 및 공정성 유지가 가능하다.In addition, the manufacturing language database construction method (S100) of the present invention can improve user experience, comply with laws and regulations, reduce bias, and maintain fairness through a process of filtering out toxic and biased text from data related to a manufacturing injection molding process.
그리고 본 발명인 제조 언어 데이터베이스 구축 방법(S100)은 제조 언어 데이터베이스가 사출성형 온톨로지 또는 제조 사출성형 관련 생성형 AI의 환각/거짓정보 검증 방법론으로서 팩트채킹에 활용될 수 있다.And the manufacturing language database construction method (S100) of the present invention can be utilized for fact-checking as a manufacturing language database verification methodology for injection molding ontology or manufacturing injection molding-related generative AI against illusion/false information.
상술한 바와 같이 개시된 본 발명의 바람직한 실시예들에 대한 상세한 설명은 당업자가 본 발명을 구현하고 실시할 수 있도록 제공되었다. 상기에서는 본 발명의 바람직한 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 본 발명의 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 예를 들어, 당업자는 상술한 실시예들에 기재된 각 구성을 서로 조합하는 방식으로 이용할 수 있다. 따라서, 본 발명은 여기에 나타난 실시형태들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다.The detailed description of the preferred embodiments of the present invention disclosed above has been provided to enable those skilled in the art to implement and practice the present invention. While the above description has been made with reference to preferred embodiments of the present invention, those skilled in the art will appreciate that various modifications and variations can be made to the present invention without departing from the scope of the present invention. For example, those skilled in the art can utilize the individual components described in the above-described embodiments in combination with each other. Accordingly, the present invention is not intended to be limited to the embodiments described herein but is to be accorded the widest scope consistent with the principles and novel features disclosed herein.
본 발명은 본 발명의 기술적 사상 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 본 발명은 여기에 나타난 실시형태들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함할 수 있다.The present invention may be embodied in other specific forms without departing from the technical spirit and essential characteristics thereof. Therefore, the above detailed description should not be construed as limiting in all respects but should be considered illustrative. The scope of the present invention should be determined by a reasonable interpretation of the appended claims, and all changes coming within the equivalent scope of the present invention are intended to be included therein. The present invention is not intended to be limited to the embodiments set forth herein but is to be accorded the widest scope consistent with the principles and novel features disclosed herein. Furthermore, claims that are not explicitly cited in the claims may be combined to form an embodiment or incorporated into a new claim by post-application amendment.
S100: 제조 언어 데이터베이스 구축 방법,
S110: 데이터 수집 단계,
S120: 데이터 로딩/파싱 단계,
S130: 데이터 전처리 단계,
S140: 데이터 변환 단계,
S150: 제조 언어 데이터베이스 업데이트 단계.S100: Method for building a manufacturing language database,
S110: Data collection phase,
S120: Data loading/parsing phase,
S130: Data preprocessing step,
S140: Data conversion step,
S150: Manufacturing Language Database Update Step.
Claims (13)
b) 상기 제조 사출성형 공정과 관련된 문서가 제조 언어 데이베이스에 저장되는 단계;
c) 상기 단말이 상기 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 문서를 메모리에 적재하는 로딩 단계;
d) 상기 단말이 상기 메모리에 적재된 제조 사출성형 공정과 관련된 문서로부터 제조 사출성형 공정과 관련된 데이터를 파싱하는 단계;
e) 상기 단말이 파싱이 완료된 제조 사출성형 공정과 관련된 문서를 전처리하는 단계;
f) 상기 단말이 전처리된 제조 사출성형 공정과 관련된 문서로부터 상기 제조 사출성형 공정과 관련된 데이터를 상기 대형언어모델이 학습할 수 있도록 변환시키는 단계; 및
g) 상기 a) 단계 내지 f) 단계가 반복됨으로써 상기 제조 언어 데이터베이스가 업데이트되는 단계;를 포함하고,
상기 d) 단계는,
d-1) 상기 단말이 상기 메모리에 적재된 제조 사출성형 공정과 관련된 문서를 PDF 파일로 확보 또는 변환시킨 후, 상기 PDF 파일로부터 상기 제조 사출성형 공정과 관련된 텍스트 블록을 파싱하는 단계;
d-2) 상기 단말이 상기 PDF 파일로부터 상기 제조 사출성형 공정과 관련된 표와 수식의 파싱을 진행하는 단계;
d-3) 상기 단말이 상기 PDF 파일로부터 상기 제조 사출성형 공정과 관련된 레퍼런스 이미지와 그래프 이미지를 추출 및 태깅하는 단계; 및
d-4) 상기 단말이 파싱된 텍스트 블록과 표, 추출 및 태깅된 레퍼런스 이미지와 그래프 이미지로부터 정형 데이터를 추출하고, 상기 정형 데이터를 관계형 데이터베이스의 형태로 변환시킨 후 상기 제조 언어 데이터베이스에 저장되도록 하는 단계;를 포함하며,
상기 d-1) 단계는,
d-1-1) 상기 단말이 상기 메모리에 적재된 제조 사출성형 공정과 관련된 문서가 PDF 파일로 확보 또는 변환되면, 상기 PDF 파일의 각 페이지로부터 상기 제조 사출성형 공정과 관련된 데이터가 포함된 관심 영역을 추출하면서 상기 관심 영역을 제외한 불필요한 영역을 제거하는 단계;
d-1-2) 상기 단말이 상기 관심 영역 중 상기 제조 사출성형 공정과 관련된 텍스트로 구성되는 텍스트 블록의 좌/우를 구분하여 관심 영역을 파싱하는 단계;
d-1-3) 상기 단말에 Fitz 라이브러리가 탑재되며, 상기 Fitz 라이브러리를 이용하여 상기 PDF 파일의 각 페이지로부터 상기 제조 사출성형 공정과 관련된 레퍼런스 이미지와 그래프 이미지를 추출한 후에 태깅을 진행하는 단계; 및
d-1-4) 상기 단말이 상기 PDF 파일의 메타데이터를 태깅하는 단계;를 포함하고,
상기 d-2) 단계는,
상기 단말이 OCR(Optical Character Recognition)과 이미지 분석 기술을 기반으로 상기 PDF 파일의 각 페이지로부터 표의 경계와 셀의 위치를 감지하여 상기 각 페이지로부터 표를 추출하며,
상기 대형언어모델은,
상기 a) 단계에서, 웹 크롤러를 통해 수집된 최신 데이터인 제조 사출성형 공정과 관련된 문서를 제조 주제 영역별로 구조화시키기 위해, 제조 주제 영역별 관련 목차를 생성 및 세부 목차별로 질문과 답변을 자동으로 생성하며,
상기 단말은,
상기 d-1-3) 단계에서, RAG(Retrieval Augmented Generation)를 적용할 때 제조 사출성형 공정의 질문과 관련있는 이미지 검색(Retrieval)에 활용하기 위해 상기 제조 사출성형 공정과 관련된 레퍼런스 이미지와 그래프 이미지를 태깅하고,
상기 d-1-4) 단계에서, RAG를 적용할 때 제조 사출성형 공정의 질문과 관련있는 문서 검색에 활용하기 위해 상기 PDF 파일의 메타데이터를 태깅하며,
상기 f) 단계는,
f-1) 상기 단말이 전처리된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터를 BERT 및 GPT 모델의 파인 튜닝(Fine-tunning) 포맷에 상응하도록 형변환시키는 파인 튜닝 포맷 데이터 변환 단계;
f-2) 상기 단말이 자연어 처리(NLP) 모델인 대형언어모델 API의 서비스를 이용하여 형변환된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터에서 상기 제조 사출성형 공정의 질문과 상기 질문에 대한 답변을 자동으로 생성하는 대형언어모델 API 서비스 자동화 단계;
f-3) 상기 단말이 상기 형변환된 제조 언어 데이터베이스의 제조 사출성형 공정과 관련된 데이터를 텍스트 문장 형태로 변환한 후, 텍스트 문장 형태의 텍스트 데이터를 상기 대형언어모델이 이해하도록 토큰 단위로 분해하는 토큰화 단계;
f-4) 상기 단말이 토큰 단위로 분해된 텍스트 데이터 내 텍스트의 의미를 연속적인 벡터 공간에서 숫자로 인코딩하여 상기 대형언어모델이 학습하고 예측할 수 있도록 하는 임베딩 과정을 진행한 후, 임베딩된 텍스트 데이터가 상기 제조 언어 데이터베이스로부터 검색되도록 인덱스를 구축하는 텍스트 임베딩/인덱싱 단계;를 포함하고,
상기 단말은,
상기 f-4) 단계를 진행한 후, 오픈 소스(SentenceTransformer)를 이용하여 상기 대형언어모델의 파인 튜닝을 진행하며,
상기 대형언어모델은,
상기 f-4) 단계를 통해 제조 사출성형 공정의 질문이 입력될 때, 상기 제조 언어 데이터베이스로부터 상기 제조 사출성형 공정의 질문과 의미적으로 가장 유사한 텍스트 데이터가 포함된 문서를 검색하여, 상기 제조 사출성형 공정의 질문에 대한 답변을 생성하는 BERT 또는 GPT 모델인 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.a) A step in which a code of a web crawler is written from a terminal, and the web crawler is periodically executed by the code to visit web pages on the Internet at specific times and periodically collect documents related to a manufacturing injection molding process to be used for learning a large language model;
b) A step in which documents related to the above manufacturing injection molding process are stored in a manufacturing language database;
c) a loading step in which the terminal loads documents related to the manufacturing injection molding process of the manufacturing language database into memory;
d) a step of parsing data related to a manufacturing injection molding process from a document related to a manufacturing injection molding process loaded in the memory by the terminal;
e) a step of preprocessing a document related to a manufacturing injection molding process for which parsing has been completed by the terminal;
f) a step of converting data related to the manufacturing injection molding process from a document related to the manufacturing injection molding process preprocessed by the terminal so that the large language model can learn; and
g) a step in which the manufacturing language database is updated by repeating steps a) to f);
Step d) above,
d-1) A step of the terminal obtaining or converting a document related to the manufacturing injection molding process loaded in the memory into a PDF file, and then parsing a text block related to the manufacturing injection molding process from the PDF file;
d-2) A step in which the terminal parses tables and formulas related to the manufacturing injection molding process from the PDF file;
d-3) A step in which the terminal extracts and tags reference images and graph images related to the manufacturing injection molding process from the PDF file; and
d-4) A step of extracting structured data from the parsed text block and table, extracted and tagged reference image and graph image of the terminal, converting the structured data into the form of a relational database, and storing it in the manufacturing language database;
Step d-1) above,
d-1-1) When the terminal obtains or converts a document related to the manufacturing injection molding process loaded in the memory into a PDF file, a step of extracting an area of interest containing data related to the manufacturing injection molding process from each page of the PDF file and removing unnecessary areas excluding the area of interest;
d-1-2) A step of parsing the region of interest by distinguishing the left/right of a text block composed of text related to the manufacturing injection molding process among the regions of interest;
d-1-3) A step of tagging after extracting reference images and graph images related to the manufacturing injection molding process from each page of the PDF file using the Fitz library, in which the terminal is equipped with the Fitz library; and
d-1-4) A step in which the terminal tags metadata of the PDF file;
Step d-2) above,
The above terminal detects the border of the table and the location of the cell from each page of the PDF file based on OCR (Optical Character Recognition) and image analysis technology, and extracts the table from each page.
The above large language model is,
In step a) above, in order to structure documents related to the manufacturing injection molding process, which are the latest data collected through a web crawler, by manufacturing subject area, a related table of contents by manufacturing subject area is created and questions and answers are automatically created by detailed table of contents.
The above terminal,
In the above step d-1-3), when applying RAG (Retrieval Augmented Generation), reference images and graph images related to the manufacturing injection molding process are tagged to be used for image retrieval related to questions about the manufacturing injection molding process.
In the above step d-1-4), when applying RAG, the metadata of the PDF file is tagged to be used for document search related to questions about the manufacturing injection molding process.
Step f) above,
f-1) A fine-tuning format data conversion step in which the terminal converts data related to the manufacturing injection molding process of the preprocessed manufacturing language database into a format corresponding to the fine-tuning format of the BERT and GPT models;
f-2) A large language model API service automation step in which the terminal automatically generates questions about the manufacturing injection molding process and answers to the questions from data related to the manufacturing injection molding process in the converted manufacturing language database using the service of the large language model API, which is a natural language processing (NLP) model;
f-3) A tokenization step in which the terminal converts data related to the manufacturing injection molding process of the converted manufacturing language database into a text sentence form, and then decomposes the text data in the text sentence form into token units so that the large language model can understand it;
f-4) A text embedding/indexing step in which the terminal performs an embedding process in which the meaning of the text in the text data decomposed into token units is encoded as numbers in a continuous vector space so that the large language model can learn and predict, and then builds an index so that the embedded text data can be searched from the manufactured language database;
The above terminal,
After performing the above step f-4), fine tuning of the large language model is performed using open source (SentenceTransformer).
The above large language model is,
A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that the manufacturing language database is a BERT or GPT model that searches for a document containing text data that is semantically most similar to the question of the manufacturing injection molding process when a question of the manufacturing injection molding process is input through the above step f-4) and generates an answer to the question of the manufacturing injection molding process.
상기 a) 단계는,
a-1) 상기 웹 크롤러가 특정 시간마다 위키백과(Wikipedia)를 탐색 및 인터넷상의 웹페이지에서 제조 사출성형 공정과 관련된 문서를 수집하는 웹 크롤링(Web crawling)을 진행하는 단계;
a-2) 상기 웹 크롤러가 특정 시간마다 학술 데이터베이스에 등록된 국내외 논문 중 상기 제조 사출성형 공정과 관련된 국내외 논문을 수집하는 단계;
a-3) 상기 웹 크롤러가 특정 시간마다 인터넷상의 웹페이지에 등록된 국내외 전문도서 중 상기 제조 사출성형 공정과 관련된 국내외 전문도서를 수집하는 단계;
a-4) 상기 웹 크롤러가 인터넷상의 웹페이지에 등록된 제조전문 신문 기사 중 상기 제조 사출성형 공정과 관련된 제조전문 신문 기사를 수집하는 단계; 및
a-5) 상기 대형언어모델이 a-1) 내지 a-4) 단계에서 수집된 상기 제조 사출성형 공정과 관련된 문서, 국내외 논문, 국내외 전문도서, 제조전문 신문 기사의 언어를 영어, 한국어 간 상호 번역하는 단계;를 포함하는 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.In the first paragraph,
Step a) above,
a-1) A step in which the above web crawler searches Wikipedia at specific intervals and performs web crawling to collect documents related to the manufacturing injection molding process from web pages on the Internet;
a-2) A step in which the above web crawler collects domestic and foreign papers related to the manufacturing injection molding process among domestic and foreign papers registered in an academic database at specific times;
a-3) A step in which the above web crawler collects domestic and foreign specialized books related to the manufacturing injection molding process among domestic and foreign specialized books registered on web pages on the Internet at specific times;
a-4) A step in which the web crawler collects manufacturing-specialized newspaper articles related to the manufacturing injection molding process among manufacturing-specialized newspaper articles registered on web pages on the Internet; and
a-5) A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that the method comprises a step of mutually translating the languages of documents, domestic and foreign papers, domestic and foreign specialized books, and manufacturing specialized newspaper articles related to the manufacturing injection molding process collected in steps a-1) to a-4) into English and Korean.
상기 정형 데이터는,
상기 제조 사출성형 공정의 구조화된 데이터인 온도, 압력, 시간, 속도, 설비 스펙을 포함하는 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.In the first paragraph,
The above structured data is,
A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that the manufacturing injection molding process includes structured data such as temperature, pressure, time, speed, and equipment specifications.
상기 관심 영역은,
상기 제조 사출성형 공정과 관련된 텍스트를 구성하는 텍스트 블록, 표, 수식, 레퍼런스 이미지, 그래프 이미지를 포함하는 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.In the first paragraph,
The above areas of interest are:
A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that it includes text blocks, tables, formulas, reference images, and graph images that constitute text related to the manufacturing injection molding process.
상기 PDF 파일의 메타데이터는,
상기 PDF 파일의 제목, 저자, 조직, 페이지 번호, 개정 내용 및 날짜, 문서 간 관계, 주제(토픽)이 포함되는 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.In the first paragraph,
The metadata of the above PDF file is:
A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that the PDF file includes the title, author, organization, page number, revision content and date, relationship between documents, and subject (topic).
상기 d-2) 단계는,
상기 단말이 추출된 표로부터 병합된 셀을 감지하고, 각 셀의 행 병합 속성 및 열 병합 속성을 기억하여 표를 파싱할 때 파싱된 표에서 각 셀의 병합 속성에 맞게 배열시켜 행/열의 위치가 정확하게 유지되도록 하는 절차와,
상기 각 셀의 행 병합 및 열 병합 속성을 통해 표를 추출할 때, 각 셀의 데이터와 함께 상기 각 셀이 속한 행 정보 및 열 정보를 함께 추출하고, 데이터가 없는 빈 셀도 파싱하여 파싱된 표에서 행/열 구조가 흐트러지지 않도록 하는 절차와,
상기 추출된 표로부터 각 셀의 이상치 또는 결측치를 정제하는 절차와,
상기 단말이 수식을 인식하고 수식을 LaTex 포맷으로 변환하는 절차가 자동화된 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.In the first paragraph,
Step d-2) above,
A procedure for detecting merged cells from the table extracted by the above terminal, remembering the row merge property and column merge property of each cell, and arranging the cells in the parsed table according to the merge property of each cell when parsing the table so that the row/column positions are accurately maintained;
When extracting a table through the row merge and column merge properties of each cell above, a procedure to extract the row information and column information to which each cell belongs together with the data of each cell, and to parse empty cells without data to prevent the row/column structure from being disrupted in the parsed table;
A procedure for refining outliers or missing values in each cell from the above extracted table,
A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that the terminal recognizes the formula and converts the formula into LaTex format.
상기 d-3) 단계는,
상기 단말이 OCR(Optical Character Recognition)과 이미지 처리 기술을 기반으로 상기 PDF 파일의 각 페이지로부터 레퍼런스 이미지와 그래프 이미지를 추출 및 태깅하는 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.In the first paragraph,
Step d-3) above,
A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that the terminal extracts and tags reference images and graph images from each page of the PDF file based on OCR (Optical Character Recognition) and image processing technology.
상기 d-3) 단계는,
상기 단말이 상기 PDF 파일 내 그래프의 패턴을 감지하여 그래프를 식별하고, 식별된 그래프 부분만 추출하여 상기 그래프 이미지를 획득하는 절차와,
상기 레퍼런스 이미지 및 그래프 이미지의 메타데이터를 추출하여 태깅하고, 딥러닝 기반의 이미지 인식 기술을 기반으로 상기 레퍼런스 이미지 및 그래프 이미지의 주제에 대한 태그를 생성하는 절차와,
상기 레퍼런스 이미지 및 그래프 이미지와, 상기 레퍼런스 이미지 및 그래프 이미지의 주제에 대한 태그를 상기 제조 언어 데이터베이스에 저장하는 절차가 자동화되는 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.In paragraph 10,
Step d-3) above,
A procedure in which the terminal detects a pattern of a graph in the PDF file to identify the graph, extracts only the identified portion of the graph, and obtains the graph image;
A procedure for extracting and tagging metadata of the above reference images and graph images, and generating tags for the subjects of the above reference images and graph images based on deep learning-based image recognition technology;
A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that the procedure for storing the reference image and graph image and the tag for the subject of the reference image and graph image in the manufacturing language database is automated.
상기 e) 단계는,
e-1) 상기 단말이 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링을 진행하는 단계;
e-2) 상기 단말이 상기 제조 언어 데이터베이스의 상기 제조 사출성형 공정과 관련된 데이터 중에서 중복되는 데이터를 제거하는 단계;
e-3) 상기 단말이 상기 제조 언어 데이터베이스의 상기 제조 사출성형 공정과 관련된 데이터에 포함된 개인 식별 정보의 개인 정보 스크러빙(Privacy scrubbing) 과정을 진행하는 단계; 및
e-4) 상기 단말이 상기 제조 언어 데이터베이스에 저장된 상기 제조 사출성형 공정과 관련된 데이터의 독성/편향 텍스트 필터링(Filtering out toxic and biased text) 과정을 진행하는 단계;를 포함하는 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.In the first paragraph,
Step e) above,
e-1) A step in which the terminal performs quality filtering of documents related to the manufacturing injection molding process for which parsing has been completed;
e-2) A step of removing duplicate data from data related to the manufacturing injection molding process of the manufacturing language database by the terminal;
e-3) A step in which the terminal performs a privacy scrubbing process of personal identification information included in data related to the manufacturing injection molding process of the manufacturing language database; and
e-4) A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that it comprises a step of filtering out toxic and biased text of data related to the manufacturing injection molding process stored in the manufacturing language database by the terminal.
상기 e-1) 단계는,
상기 단말이 휴리스틱(heuristic) 방식 또는 분류기(classifier) 방식을 기반으로 파싱이 완료된 제조 사출성형 공정과 관련된 문서의 품질 필터링을 진행하는 것을 특징으로 하는 자동화된 제조 사출성형 데이터 확보를 위한 제조 언어 데이터베이스 구축 방법.In paragraph 12,
The above step e-1) is,
A method for constructing a manufacturing language database for securing automated manufacturing injection molding data, characterized in that the terminal performs quality filtering of documents related to a manufacturing injection molding process for which parsing has been completed based on a heuristic method or a classifier method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020240178566A KR102894893B1 (en) | 2024-12-04 | 2024-12-04 | Method for building a manufacturing language database for obtaining automated manufacturing injection molding data |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020240178566A KR102894893B1 (en) | 2024-12-04 | 2024-12-04 | Method for building a manufacturing language database for obtaining automated manufacturing injection molding data |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR102894893B1 true KR102894893B1 (en) | 2025-12-05 |
Family
ID=98058095
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020240178566A Active KR102894893B1 (en) | 2024-12-04 | 2024-12-04 | Method for building a manufacturing language database for obtaining automated manufacturing injection molding data |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR102894893B1 (en) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20220066737A (en) * | 2020-11-16 | 2022-05-24 | 주식회사 솔트룩스 | Knowledge extraction system for scientific technology papers |
| KR20230057841A (en) * | 2021-10-22 | 2023-05-02 | 한국원자력 통제기술원 | Nuclear-related industry information collection, analysis and classification system and method thereof |
| KR102629133B1 (en) * | 2023-08-17 | 2024-01-25 | (주)유알피 | Document recognition device using optical character recognition and document structuring tags for building ai learning dataset |
| KR20240074062A (en) * | 2022-11-18 | 2024-05-28 | 메이저맵 주식회사 | Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information |
| KR102674954B1 (en) | 2023-10-20 | 2024-06-14 | 주식회사 마인즈앤컴퍼니 | Method and apparatus for providing search service using large language model and deep learning |
| KR102731386B1 (en) * | 2024-06-25 | 2024-11-20 | 주식회사 인터엑스 | A system and method for providing chatbot services using a manufacturing-specific small language model-based generative ai |
-
2024
- 2024-12-04 KR KR1020240178566A patent/KR102894893B1/en active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20220066737A (en) * | 2020-11-16 | 2022-05-24 | 주식회사 솔트룩스 | Knowledge extraction system for scientific technology papers |
| KR20230057841A (en) * | 2021-10-22 | 2023-05-02 | 한국원자력 통제기술원 | Nuclear-related industry information collection, analysis and classification system and method thereof |
| KR20240074062A (en) * | 2022-11-18 | 2024-05-28 | 메이저맵 주식회사 | Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information |
| KR102629133B1 (en) * | 2023-08-17 | 2024-01-25 | (주)유알피 | Document recognition device using optical character recognition and document structuring tags for building ai learning dataset |
| KR102674954B1 (en) | 2023-10-20 | 2024-06-14 | 주식회사 마인즈앤컴퍼니 | Method and apparatus for providing search service using large language model and deep learning |
| KR102731386B1 (en) * | 2024-06-25 | 2024-11-20 | 주식회사 인터엑스 | A system and method for providing chatbot services using a manufacturing-specific small language model-based generative ai |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112199511B (en) | Cross-language multi-source vertical domain knowledge graph construction method | |
| CN111723215B (en) | Device and method for establishing biotechnological information knowledge graph based on text mining | |
| Aussenac-Gilles et al. | The TERMINAE Method and Platform for Ontology Engineering from Texts. | |
| CN115455935A (en) | A text information intelligent processing system | |
| US20240370649A1 (en) | Method of training a natural language search system, search system and corresponding use | |
| US20220004545A1 (en) | Method of searching patent documents | |
| US20210350125A1 (en) | System for searching natural language documents | |
| US20190129903A1 (en) | Automated Curation of Documents in a Corpus for a Cognitive Computing System | |
| CN110188349A (en) | A kind of automation writing method based on extraction-type multiple file summarization method | |
| CN119396997A (en) | Real-time data analysis and visualization method and system in big data environment | |
| CN119578557A (en) | A hybrid enhancement strategy for LLM capability enhancement | |
| CN119311818A (en) | Intelligent question-answering method, system, device and storage medium for power safety knowledge | |
| CN109522396B (en) | Knowledge processing method and system for national defense science and technology field | |
| Ribeiro et al. | Discovering IMRaD structure with different classifiers | |
| CN120449861B (en) | Policy file intelligent rule extraction and change comparison method for electric charge checking | |
| KR102894893B1 (en) | Method for building a manufacturing language database for obtaining automated manufacturing injection molding data | |
| CN120197623A (en) | A rule-based vectorized segmentation and paragraph annotation method for judicial documents | |
| KR100910895B1 (en) | Automation system and method for reviewing and amending / revisioning amendments to the law | |
| Algosaibi et al. | Using the semantics inherent in sitemaps to learn ontologies | |
| KR102895581B1 (en) | Cost effective fine tuning and lightweight methods to optimize the performance and efficiency of manufacturing specific language models | |
| Gulla et al. | An interactive ontology learning workbench for non-experts | |
| KR100659370B1 (en) | Method for Forming Document DV by Information Thesaurus Matching and Information Retrieval Method | |
| KR102842729B1 (en) | Method for providing answers from manufacturing specific language models using user scenario based prompts | |
| CN112346711A (en) | A programming specification knowledge graph construction system and method for semantic recognition | |
| Mesmia et al. | Semi-Automatic Building and Learning of a Multilingual Ontology |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| PA0302 | Request for accelerated examination |
St.27 status event code: A-1-2-D10-D16-exm-PA0302 |
|
| D13-X000 | Search requested |
St.27 status event code: A-1-2-D10-D13-srh-X000 |
|
| D14-X000 | Search report completed |
St.27 status event code: A-1-2-D10-D14-srh-X000 |
|
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-3-3-R10-R18-oth-X000 |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| D22 | Grant of ip right intended |
Free format text: ST27 STATUS EVENT CODE: A-1-2-D10-D22-EXM-PE0701 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| U11 | Full renewal or maintenance fee paid |
Free format text: ST27 STATUS EVENT CODE: A-2-2-U10-U11-OTH-PR1002 (AS PROVIDED BY THE NATIONAL OFFICE) Year of fee payment: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| Q13 | Ip right document published |
Free format text: ST27 STATUS EVENT CODE: A-4-4-Q10-Q13-NAP-PG1601 (AS PROVIDED BY THE NATIONAL OFFICE) |