[go: up one dir, main page]

KR102837271B1 - Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information - Google Patents

Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information

Info

Publication number
KR102837271B1
KR102837271B1 KR1020220155194A KR20220155194A KR102837271B1 KR 102837271 B1 KR102837271 B1 KR 102837271B1 KR 1020220155194 A KR1020220155194 A KR 1020220155194A KR 20220155194 A KR20220155194 A KR 20220155194A KR 102837271 B1 KR102837271 B1 KR 102837271B1
Authority
KR
South Korea
Prior art keywords
literature data
language model
career
occupation
advancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020220155194A
Other languages
Korean (ko)
Other versions
KR20240074062A (en
Inventor
이중훈
이준원
임지훈
백진헌
천삼열
민유성
Original Assignee
메이저맵 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 메이저맵 주식회사 filed Critical 메이저맵 주식회사
Priority to KR1020220155194A priority Critical patent/KR102837271B1/en
Publication of KR20240074062A publication Critical patent/KR20240074062A/en
Application granted granted Critical
Publication of KR102837271B1 publication Critical patent/KR102837271B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Mathematical Optimization (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Primary Health Care (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

진로진학 언어모델 생성 장치 및 방법과, 진로진학 정보 추천 장치가 개시된다. 일 실시예에 따른 진로진학 언어모델 생성 장치는 직업 또는 학과를 서술하는 문헌 데이터를 수집하는 데이터 수집부; 상기 수집된 문헌 데이터를 기반으로 직업 간 또는 학과 간 유사도가 반영된 그래프를 생성하는 그래프 생성부; 및 상기 수집된 문헌 데이터 및 상기 생성된 그래프를 기반으로 언어 모델을 사전학습시켜 진로진학 언어모델을 생성하는 모델 생성부; 를 포함한다.A device and method for generating a career guidance and advancement language model and a device for recommending career guidance and advancement information are disclosed. The device for generating a career guidance and advancement language model according to one embodiment includes: a data collection unit for collecting literature data describing occupations or departments; a graph generation unit for generating a graph reflecting similarities between occupations or departments based on the collected literature data; and a model generation unit for generating a career guidance and advancement language model by pre-training a language model based on the collected literature data and the generated graph.

Description

진로진학 언어모델 생성 장치 및 방법과, 진로진학 정보 추천 장치{Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information}Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information

진로진학 언어모델 생성과 이를 이용한 진로진학 정보 제공 기술과 관련된다.It is related to the creation of a career guidance language model and the technology for providing career guidance information using the same.

일반적으로, 학생들은 자신들의 진로에 대하여 많은 고민을 한다. 예를 들면, 어떤 직업이 자신에게 어울리는지, 어울리는 직업을 가지기 위해서는 어떤 학과, 어떤 고교 선택교과를 선택할 것인가에 대한 고민을 하게 된다. 이런 경우 대부분 막연히 학교 선생님, 부모 및 친구들과 이야기 나누지만 뚜렷한 해답을 찾을 수 없는 문제가 있다. 따라서, 대부분의 학생들은 자신의 성적과 학교 선호도 및 적성을 고려하여 임의적으로 판단하는 경우가 많다.In general, students worry a lot about their career paths. For example, they worry about what kind of job suits them, what major they should choose, and what kind of high school electives they should choose to get the job that suits them. In most cases, they talk vaguely with their school teachers, parents, and friends, but there are problems that they cannot find a clear answer to. Therefore, most students tend to make arbitrary decisions based on their grades, school preferences, and aptitude.

한국공개특허공보 제10-2013-0058568호Korean Patent Publication No. 10-2013-0058568

진로진학 언어모델 생성 장치 및 방법과, 진로진학 정보 추천 장치를 제공하는 것을 목적으로 한다.The purpose is to provide a device and method for generating a career guidance and advancement language model and a device for recommending career guidance and advancement information.

일 양상에 따른 진로진학 언어모델 생성 장치는, 직업 또는 학과를 서술하는 문헌 데이터를 수집하는 데이터 수집부; 상기 수집된 문헌 데이터를 기반으로 직업 간 또는 학과 간 유사도가 반영된 그래프를 생성하는 그래프 생성부; 및 상기 수집된 문헌 데이터 및 상기 생성된 그래프를 기반으로 언어 모델을 사전학습시켜 진로진학 언어모델을 생성하는 모델 생성부; 를 포함할 수 있다.A device for generating a career guidance and advancement language model according to an aspect of the present invention may include: a data collection unit for collecting literature data describing occupations or departments; a graph generation unit for generating a graph reflecting similarities between occupations or departments based on the collected literature data; and a model generation unit for generating a career guidance and advancement language model by pre-training a language model based on the collected literature data and the generated graph.

상기 그래프 생성부는, 상기 수집된 문헌 데이터의 임베딩 벡터를 판단하고, 상기 판단된 임베딩 벡터를 기반으로 직업 간 또는 학과 간 유사도를 판단하고, 각 직업 또는 각 학과를 노드로 표현하고 유사도가 소정 임계값 이상인 노드들을 에지로 연결하여 상기 그래프를 생성할 수 있다.The above graph generation unit can determine the embedding vector of the collected literature data, determine the similarity between occupations or departments based on the determined embedding vector, express each occupation or each department as a node, and generate the graph by connecting nodes with a similarity greater than a predetermined threshold value as edges.

상기 모델 생성부는, 상기 그래프를 기반으로 각 직업 또는 각 학과와의 유사도가 소정 임계값 이상인 직업 또는 학과를 추출하고, 각 직업 또는 각 학과를 서술하는 문헌 데이터와, 상기 추출된 직업 또는 학과를 서술하는 문헌 데이터를 이용하여 상기 언어모델을 사전학습시킬 수 있다.The above model generation unit can extract occupations or departments whose similarity with each occupation or each department is greater than a predetermined threshold based on the above graph, and pre-train the language model using the literature data describing each occupation or each department and the literature data describing the extracted occupations or departments.

상기 모델 생성부는, 각 직업 또는 각 학과를 서술하는 문헌 데이터에서 일부 토큰을 랜덤으로 마스킹하고, 상기 마스킹된 문헌 데이터와 상기 추출된 직업 또는 학과를 서술하는 문헌 데이터를 기반으로 상기 마스킹된 일부 토큰을 맞추도록 상기 언어모델을 사전학습시킬 수 있다.The above model generation unit can randomly mask some tokens from the literature data describing each occupation or each department, and pre-train the language model to match some of the masked tokens based on the masked literature data and the extracted literature data describing the occupation or department.

상기 모델 생성부는, 하기 수학식의 목적 함수를 이용하여 상기 언어모델을 사전학습시킬 수 있다.The above model generation unit can pre-train the language model using the objective function of the following mathematical formula.

[수학식][Mathematical formula]

(는 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 의 스킹된 문헌 데이터를 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 가 결합된 문헌 데이터를 나타냄)( represents literature data describing an occupation or discipline, Is It represents the skimmed literature data, Is It represents literature data whose similarity with is greater than a certain threshold value, Is and (represents literature data combined with

상기 모델 생성부는, 하기 수학식의 목적 함수를 이용하여 상기 언어모델을 사전학습시킬 수 있다.The above model generation unit can pre-train the language model using the objective function of the following mathematical formula.

[수학식][Mathematical formula]

(는 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 의 마스킹된 문헌 데이터를 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 가 결합된 문헌 데이터를 나타내고, 는 언어모델 로부터 획득되는 내 토큰들의 임베딩 벡터들의 평균을 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 는 언어모델 로부터 획득되는 내 토큰들의 임베딩 벡터들의 평균을 나타냄)( represents literature data describing an occupation or discipline, Is Represents masked literature data, Is It represents literature data whose similarity with is greater than a certain threshold value, Is and It represents the combined literature data, is a language model Obtained from Represents the average of the embedding vectors of my tokens, Is It represents literature data whose similarity with is greater than a certain threshold value, is a language model Obtained from (represents the average of the embedding vectors of my tokens)

다른 양상에 따른 진로진학 정보 추천 장치는, 진로진학과 관련된 문헌 데이터를 수집하는 데이터 수집부; 진로진학 언어모델을 이용하여 상기 수집된 문헌 데이터의 임베딩 벡터를 판단하고, 각 문헌 데이터의 임베딩 벡터를 기반으로 진로진학 데이터베이스를 구축하는 데이터베이스 구축부; 및 직업, 학과, 교과 및 도서 중 어느 하나에 대한 정보를 입력받아, 이를 기반으로 상기 진로진학 데이터베이스를 검색하여 진로진학 관련 정보를 추출하는 정보 제공부; 를 포함할 수 있다.A device for recommending career guidance and advancement information according to another aspect may include a data collection unit that collects literature data related to career guidance and advancement; a database construction unit that determines an embedding vector of the collected literature data using a career guidance and advancement language model and constructs a career guidance and advancement database based on the embedding vector of each literature data; and an information provision unit that receives information on any one of an occupation, a department, a subject, and a book, and searches the career guidance and advancement database based on the information to extract career guidance and advancement-related information.

상기 진로진학과 관련된 문헌 데이터는, 직업을 서술하는 문헌 데이터, 학과를 서술하는 문헌 데이터, 교과를 서술하는 문헌 데이터 및 도서를 서술하는 문헌 데이터를 포함할 수 있다.The above-mentioned literature data related to career paths may include literature data describing occupations, literature data describing departments, literature data describing subjects, and literature data describing books.

상기 데이터베이스 구축부는, 각 문헌 데이터의 임베딩 벡터를 기반으로 직업과 학과 사이, 직업과 교과 사이, 직업과 도서 사이, 학과와 교과 사이, 학과와 도서 사이, 또는 교과와 도서 사이의 유사도를 판단하고, 유사도가 소정 임계값 이상인 직업과 학과, 직업과 교과, 직업과 도서, 학과와 교과, 학과와 도서, 또는 교과와 도서를 매칭하여 상기 진로진학 데이터베이스를 구축할 수 있다.The above database construction unit can determine the similarity between an occupation and a department, an occupation and a subject, an occupation and a book, a department and a subject, a department and a book, or a subject and a book based on the embedding vector of each document data, and match occupations and departments, occupations and subjects, occupations and books, departments and subjects, departments and books, or subjects and books having a similarity higher than a predetermined threshold value, thereby constructing the career guidance and advancement database.

상기 정보 제공부는, 상기 진로진학 데이터베이스로부터 상기 입력된 정보에 매칭되는 직업, 학과, 교과 및 도서 중 적어도 하나에 대한 정보를 진로진학 정보로 추출할 수 있다.The above information provision unit can extract information on at least one of the occupations, departments, subjects, and books matching the entered information from the career guidance database as career guidance information.

또 다른 양상에 따른 컴퓨팅 장치에 의해 수행되는 진로진학 언어모델 생성 방법은, 직업 또는 학과를 서술하는 문헌 데이터를 수집하는 단계; 상기 수집된 문헌 데이터를 기반으로 직업 간 또는 학과 간 유사도가 반영된 그래프를 생성하는 단계; 및 상기 수집된 문헌 데이터 및 상기 생성된 그래프를 기반으로 언어 모델을 사전학습시켜 진로진학 언어모델을 생성하는 단계; 를 포함할 수 있다.A method for generating a career guidance language model performed by a computing device according to another aspect may include: a step of collecting literature data describing occupations or departments; a step of generating a graph reflecting similarities between occupations or departments based on the collected literature data; and a step of generating a career guidance language model by pre-training a language model based on the collected literature data and the generated graph.

상기 그래프를 생성하는 단계는, 상기 수집된 문헌 데이터의 임베딩 벡터를 판단하고, 상기 판단된 임베딩 벡터를 기반으로 직업 간 또는 학과 간 유사도를 판단하고, 각 직업 또는 각 학과를 노드로 표현하고 유사도가 소정 임계값 이상인 노드들을 에지로 연결하여 상기 그래프를 생성할 수 있다.The step of generating the above graph may include determining an embedding vector of the collected literature data, determining similarity between occupations or departments based on the determined embedding vector, expressing each occupation or department as a node, and connecting nodes with a similarity greater than a predetermined threshold value as edges to generate the above graph.

상기 진로진학 언어모델을 생성하는 단계는, 상기 그래프를 기반으로 각 직업 또는 각 학과와의 유사도가 소정 임계값 이상인 직업 또는 학과를 추출하는 단계; 및 각 직업 또는 각 학과를 서술하는 문헌 데이터와, 상기 추출된 직업 또는 학과를 서술하는 문헌 데이터를 이용하여 상기 언어모델을 사전학습시키는 단계; 를 포함할 수 있다.The step of generating the above career guidance language model may include a step of extracting an occupation or department having a similarity with each occupation or each department that is greater than a predetermined threshold based on the graph; and a step of pre-training the language model using literature data describing each occupation or each department and literature data describing the extracted occupation or department.

상기 언어모델을 사전학습시키는 단계는, 각 직업 또는 각 학과를 서술하는 문헌 데이터에서 일부 토큰을 랜덤으로 마스킹하는 단계; 및 상기 마스킹된 문헌 데이터와 상기 추출된 직업 또는 학과를 서술하는 문헌 데이터를 기반으로 상기 마스킹된 일부 토큰을 맞추도록 상기 언어모델을 사전학습시키는 단계; 를 포함할 수 있다.The step of pre-training the above language model may include a step of randomly masking some tokens from literature data describing each occupation or each department; and a step of pre-training the language model to match some of the masked tokens based on the masked literature data and the extracted literature data describing the occupation or department.

상기 언어모델을 사전학습시키는 단계는, 하기 수학식의 목적 함수를 이용하여 상기 언어모델을 사전학습시킬 수 있다.The step of pre-training the above language model can pre-train the language model using the objective function of the following mathematical formula.

[수학식][Mathematical formula]

(는 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 의 마스킹된 문헌 데이터를 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 가 결합된 문헌 데이터를 나타냄)( represents literature data describing an occupation or discipline, Is Represents masked literature data, Is It represents literature data whose similarity with is greater than a certain threshold value, Is and (represents literature data combined with

상기 언어모델을 사전학습시키는 단계는, 하기 수학식의 목적 함수를 이용하여 상기 언어모델을 사전학습시킬 수 있다.The step of pre-training the above language model can pre-train the language model using the objective function of the following mathematical formula.

[수학식][Mathematical formula]

(는 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 의 마스킹된 문헌 데이터를 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 가 결합된 문헌 데이터를 나타내고, 는 언어모델 로부터 획득되는 내 토큰들의 임베딩 벡터들의 평균을 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 는 언어모델 로부터 획득되는 내 토큰들의 임베딩 벡터들의 평균을 나타냄)( represents literature data describing an occupation or discipline, Is Represents masked literature data, Is It represents literature data whose similarity with is greater than a certain threshold value, Is and It represents the combined literature data, is a language model Obtained from Represents the average of the embedding vectors of my tokens, Is It represents literature data whose similarity with is greater than a certain threshold value, is a language model Obtained from (represents the average of the embedding vectors of my tokens)

직업 또는 학과를 서술하는 문헌 데이터를 기반으로 직업 간 또는 학과 간 유사도가 반영된 그래프를 생성하고, 생성된 그래프를 기반으로 언어모델을 사전학습시켜 진로진학 언어모델을 생성함으로써, 다양한 진로진학 탐색 문제 해결에 특화된 언어모델을 생성할 수 있다.By creating a graph reflecting the similarity between occupations or departments based on literature data describing occupations or departments, and pre-training a language model based on the created graph to create a career guidance language model, a language model specialized for solving various career guidance exploration problems can be created.

또한, 진로진학 언어모델을 이용하여 학생 맞춤형 진로진학 관련 정보를 제공할 수 있다.In addition, career guidance and advancement information tailored to students can be provided using the career guidance and advancement language model.

도 1은 예시적 실시예에 따른 진로진학 언어모델 생성 장치를 도시한 도면이다.
도 2는 예시적 실시예에 따른 진로진학 정보 추천 장치를 도시한 도면이다
도 3은 예시적 실시예에 따른 진로진학 언어모델 생성 방법을 도시한 도면이다.
도 4는 예시적 실시예에 따른 진로진학 정보 추천 방법을 도시한 도면이다.
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.
Figure 1 is a diagram illustrating a career path language model generation device according to an exemplary embodiment.
Figure 2 is a drawing illustrating a career path information recommendation device according to an exemplary embodiment.
FIG. 3 is a diagram illustrating a method for creating a career path language model according to an exemplary embodiment.
FIG. 4 is a diagram illustrating a method for recommending career path information according to an exemplary embodiment.
FIG. 5 is a block diagram illustrating a computing environment including a computing device suitable for use in exemplary embodiments.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.Hereinafter, an embodiment of the present invention will be described in detail with reference to the attached drawings. When adding reference numerals to components in each drawing, it should be noted that the same components are given the same numerals as much as possible even if they are shown in different drawings. In addition, when describing the present invention, if it is determined that a specific description of a related known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted.

한편, 각 단계들에 있어, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 수행될 수 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.Meanwhile, for each step, each step may occur in a different order than stated, unless the context clearly states a specific order. That is, each step may be performed in the same order as stated, may be performed substantially simultaneously, or may be performed in the opposite order.

후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.The terms described below are terms defined in consideration of their functions in the present invention, and may vary depending on the intention or custom of the user or operator. Therefore, their definitions should be made based on the contents throughout this specification.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하고, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Although the terms first, second, etc. may be used to describe various components, the components should not be limited by the terms. The terms are used only to distinguish one component from another. The singular expression includes the plural expression unless the context clearly indicates otherwise, and it should be understood that the terms "comprises" or "has" are intended to specify the presence of a feature, number, step, operation, component, part, or combination thereof described in the specification, but do not exclude the possibility of the presence or addition of one or more other features, numbers, steps, operations, components, parts, or combinations thereof.

또한, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주 기능별로 구분한 것에 불과하다. 즉, 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있다. 각 구성부는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, the division of components in this specification is only a division by the main function of each component. In other words, two or more components may be combined into one component, or one component may be divided into two or more by more detailed functions. In addition to its own main function, each component may additionally perform some or all of the functions of other components, and some of the main functions of each component may be performed exclusively by other components. Each component may be implemented by hardware or software, or by a combination of hardware and software.

도 1은 예시적 실시예에 따른 진로진학 언어모델 생성 장치를 도시한 도면이다.Figure 1 is a diagram illustrating a career path language model generation device according to an exemplary embodiment.

도 1의 진로진학 언어모델 생성 장치(100)는 다양한 진로진학 탐색 문제 해결에 특화된 언어모델을 생성하기 위한 장치일 수 있다.The career path and advancement language model generation device (100) of Fig. 1 may be a device for generating a language model specialized for solving various career path and advancement exploration problems.

도 1을 참조하면, 진로진학 언어모델 생성 장치(100)는 데이터 수집부(110), 그래프 생성부(120) 및 모델 생성부(130)를 포함할 수 있다.Referring to FIG. 1, the career path language model generation device (100) may include a data collection unit (110), a graph generation unit (120), and a model generation unit (130).

데이터 수집부(110)는 직업 또는 학과를 서술하는 문헌 데이터를 수집할 수 있다. 예를 들어, 문헌 데이터는 텍스트 데이터로서, 직업 소개 데이터 또는 학과 소개 데이터 등을 포함할 수 있다.The data collection unit (110) can collect literature data describing an occupation or department. For example, the literature data is text data and can include job introduction data or department introduction data, etc.

예시적 실시예에 따르면, 데이터 수집부(110)는 사용자로부터 다수의 문헌 데이터를 입력받거나, 유무선 통신 기술을 이용하여 외부 장치로부터 다수의 문헌 데이터를 수신함으로써, 문헌 데이터를 수집할 수 있다.According to an exemplary embodiment, the data collection unit (110) can collect literature data by receiving a plurality of literature data from a user or receiving a plurality of literature data from an external device using wired or wireless communication technology.

그래프 생성부(120)는 수집된 문헌 데이터를 기반으로 직업 간 또는 학과 간 유사도가 반영된 그래프를 생성할 수 있다.The graph generation unit (120) can generate a graph that reflects similarities between occupations or departments based on collected literature data.

구체적으로, 그래프 생성부(120)는 수집된 각 문헌 데이터를 임베딩 공간 상에 표현하여, 각 문헌 데이터에 대응하는 임베딩 벡터를 판단할 수 있다. 예를 들어, 그래프 생성부(120)는 LSA, Word2Vec, FastText, Glove, mpnet 등 다양한 단어 임베딩 또는 문장 임베딩 모델을 이용하여 각 문헌 데이터의 임베딩 벡터를 판단할 수 있으나 이에 한정되는 것은 아니다.Specifically, the graph generation unit (120) can determine the embedding vector corresponding to each document data by expressing each collected document data on the embedding space. For example, the graph generation unit (120) can determine the embedding vector of each document data by using various word embedding or sentence embedding models such as LSA, Word2Vec, FastText, Glove, and mpnet, but is not limited thereto.

그래프 생성부(120)는 각 문헌 데이터의 임베딩 벡터를 기반으로 직업 간 또는 학과 간 유사도를 판단할 수 있다. 예를 들어, 그래프 생성부(120)는 코사인 유사도, 유클리드 거리, 자카드 유사도 등 다양한 유사도 판단 기법을 이용하여 직업 또는 학과간 유사도를 판단할 수 있으나 이에 한정되는 것은 아니다.The graph generation unit (120) can determine the similarity between occupations or departments based on the embedding vector of each document data. For example, the graph generation unit (120) can determine the similarity between occupations or departments using various similarity determination techniques such as cosine similarity, Euclidean distance, and Jaccard similarity, but is not limited thereto.

일 실시예에 따르면, 그래프 생성부(120)는 코사인 유사도 기반의 수학식 1을 이용하여 직업 간 또는 학과 간 유사도를 판단할 수 있다.According to one embodiment, the graph generation unit (120) can determine similarity between occupations or departments using mathematical expression 1 based on cosine similarity.

여기서, 는 각각 i번째 직업 또는 학과를 서술하는 문헌 데이터와 j번째 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 는 임베딩 모델 또는 임베딩 함수를 나타내고, 는 각각 로부터 획득되는 의 임베딩 벡터를 나타내고, 는 i번째 직업 또는 학과와, j번째 직업 또는 학과 간의 유사도를 나타낼 수 있다.Here, and represents the literature data describing the i-th occupation or department and the literature data describing the j-th occupation or department, respectively. represents an embedding model or embedding function, and are each Obtained from and Represents the embedding vector of , can represent the similarity between the ith occupation or department and the jth occupation or department.

그래프 생성부(120)는 직업 간 또는 학과 간 유사도를 기반으로 그래프를 생성할 수 있다. 이때, 그래프는 노드와 에지를 포함하며, 노드는 각 직업 또는 각 학과를 표현하고, 에지는 직업 또는 학과 간의 유사도 관계를 표현할 수 있다.The graph generation unit (120) can generate a graph based on similarity between occupations or departments. At this time, the graph includes nodes and edges, with nodes representing each occupation or department, and edges representing similarity relationships between occupations or departments.

예시적 실시예에 따르면, 그래프 생성부(120)는 유사도가 소정 임계값 이상인 노드(직업 또는 학과)들 사이만 에지로 연결하여 그래프를 생성할 수 있다. 그러나 이에 한정되는 것은 아니며, 그래프 생성부(120)는 모든 노드(직업 또는 학과)들 사이를 그 유사도에 따라 상이한 형태의 에지로 연결할 수도 있다.According to an exemplary embodiment, the graph generation unit (120) may generate a graph by connecting only nodes (occupations or departments) with a similarity greater than a predetermined threshold value with edges. However, this is not limited to this, and the graph generation unit (120) may connect all nodes (occupations or departments) with edges of different shapes according to their similarity.

예를 들어, 각 직업 또는 각 학과를 그래프의 노드로 표현하면, i번째 직업 또는 학과는 그래프에서 i번째 노드라고 생각할 수 있다. 그래프에서 i번째 직업 또는 학과와, j번째 직업 또는 학과 사이의 유사도 가 소정 임계값(σ) 이상인 경우에만 두 노드들 사이에 에지가 존재하는 경우, 생성된 그래프는 수학식 2로 표현될 수 있다.For example, if each occupation or each department is represented as a node in the graph, the ith occupation or department can be considered as the ith node in the graph. The similarity between the ith occupation or department and the jth occupation or department in the graph If an edge exists between two nodes only when the number of edges is greater than or equal to a predetermined threshold value (σ), the generated graph can be expressed by mathematical expression 2.

여기서, 는 에지 세트를 나타내고, 는 직업 또는 학과 세트를 나타내고, 는 그래프를 나타낼 수 있다.Here, represents a set of edges, represents a set of occupations or disciplines, can represent a graph.

모델 생성부(130)는 수집된 문헌 데이터 및 생성된 그래프를 기반으로 언어모델을 사전학습시켜 진로진학 언어모델을 생성할 수 있다. 여기서, 언어모델은 BERT(Bidirectional Encoder Representations from Transformers) 또는 BERT의 파생 모델(예컨대, ALBERT(A Lite BERT for Self-supervised Learning of Language Representations), RoBERTa(A Robustly Optimized BERT Pretraining Approach), ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately) 등)과 동일하거나 유사한 구조를 가질 수 있다. 진로진학 언어모델은 다양한 진로진학 탐색 문제 해결에 특화된 언어모델로서 학생 맞춤형 진로진학 정보를 추천 및 제공하는데 이용될 수 있다.The model generation unit (130) can generate a career guidance language model by pre-training a language model based on the collected literature data and the generated graph. Here, the language model can have the same or similar structure as BERT (Bidirectional Encoder Representations from Transformers) or a derivative model of BERT (e.g., ALBERT (A Lite BERT for Self-supervised Learning of Language Representations), RoBERTa (A Robustly Optimized BERT Pretraining Approach), ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately), etc.). The career guidance language model is a language model specialized in solving various career guidance exploration problems and can be used to recommend and provide career guidance information customized for students.

예시적 실시예에 따르면, 모델 생성부(130)는 생성된 그래프를 기반으로 각 직업 또는 학과와의 유사도가 소정 임계값 이상인 직업 또는 학과를 추출하고, 각 직업 또는 학과를 서술하는 문헌 데이터와, 추출된 직업 또는 학과를 서술하는 문헌 데이터를 이용하여 언어 모델을 사전학습시킬 수 있다. 이때, 모델 생성부(130)는 마스크드 언어 모델링(Masked Language Modeling) 기법을 이용할 수 있다.According to an exemplary embodiment, the model generation unit (130) may extract occupations or departments whose similarity with each occupation or department is greater than a predetermined threshold based on the generated graph, and may pre-train a language model using the literature data describing each occupation or department and the literature data describing the extracted occupation or department. At this time, the model generation unit (130) may use a masked language modeling technique.

예를 들어, 모델 생성부(130)는 각 직업 또는 학과를 서술하는 문헌 데이터에서 일부 토큰(예컨대 전체 토큰 중 15%)을 랜덤으로 마스킹하고, 마스킹된 문헌 데이터와, 해당 직업 또는 학과와 유사한(유사도가 소정 임계값 이상인) 직업 또는 학과를 서술하는 문헌 데이터를 결합하고, 결합된 문헌 데이터를 기반으로 마스킹된 일부 토큰을 맞추도록 언어모델을 사전학습시킬 수 있다.For example, the model generation unit (130) may randomly mask some tokens (e.g., 15% of all tokens) from literature data describing each occupation or department, combine the masked literature data with literature data describing an occupation or department similar to the corresponding occupation or department (having a similarity level higher than a predetermined threshold), and pre-train a language model to match some of the masked tokens based on the combined literature data.

이를 위한 목적함수는 수학식 3으로 표현될 수 있다.The objective function for this can be expressed as mathematical formula 3.

여기서, 는 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 의 마스킹된 문헌 데이터를 나타내고, 와 유사한(유사도가 소정 임계값 이상인) 문헌 데이터를 나타내고, 가 결합된 문헌 데이터를 나타내고, 는 마스킹된 토큰은 1의 값을 가지고 마스킹되지 않은 토큰은 0의 값을 가지는 인디케이터 함수를 나타내고, 의 t번째 토큰을 나타내고, 를 기반으로 언어모델 로부터 획득되는 의 t번째 토큰의 임베딩 벡터를 나타내고, 는 임베딩 함수를 나타내고, 로부터 획득되는 의 임베딩 벡터를 나타내고, 는 세상의 모든 토큰들의 집합인 어휘 V에서 가능한 모든 토큰(∀x, x ∈ V)에 대한 합을 나타낼 수 있다.Here, represents literature data describing an occupation or discipline, Is Represents masked literature data, Is It represents literature data similar to (similarity level exceeding a certain threshold), Is and It represents the combined literature data, represents an indicator function where masked tokens have a value of 1 and unmasked tokens have a value of 0. Is Represents the tth token of , Is Language model based on Obtained from Represents the embedding vector of the tth token, represents the embedding function, Is Obtained from Represents the embedding vector of , can represent the sum over all possible tokens (∀x, x ∈ V) in a vocabulary V, which is the set of all tokens in the world.

예시적 실시예에 따르면, 모델 생성부(130)는 서로 유사한 직업 또는 학과들은 임베딩 공간 상에서 비슷한 임베딩 벡터를 갖도록 언어모델을 사전학습시킬 수 있다.According to an exemplary embodiment, the model generation unit (130) can pre-train the language model so that similar occupations or departments have similar embedding vectors in the embedding space.

이를 위한 일관성 손실(consistency loss) 함수는 수학식 4로 표현될 수 있다.The consistency loss function for this can be expressed by mathematical expression 4.

여기서, 는 언어모델 로부터 획득되는 의 토큰들의 임베딩 벡터들의 평균을 나타내고, 는 언어모델 로부터 획득되는 의 토큰들의 임베딩 벡터들의 평균을 나타낼 수 있다. 는 유사도가 소정 임계값 이상인 문헌 데이터일 수 있다.Here, is a language model Obtained from It represents the average of the embedding vectors of the tokens, is a language model Obtained from can represent the average of the embedding vectors of the tokens. and It may be literature data with a similarity level higher than a certain threshold.

예시적 실시예에 따르면, 모델 생성부(130)는 각 직업 또는 학과를 서술하는 마스킹된 문헌 데이터와, 해당 직업 또는 학과와 유사한(유사도가 소정 임계값 이상인) 직업 또는 학과를 서술하는 문헌 데이터를 기반으로, 마스킹된 토큰을 맞추도록 함과 동시에, 서로 유사한 직업 또는 학과들은 임베딩 공간 상에 비슷한 임베딩 벡터를 갖도록, 언어모델을 사전학습시킬 수 있다.According to an exemplary embodiment, the model generation unit (130) may pre-train a language model to match masked tokens based on masked literature data describing each occupation or department and literature data describing occupations or departments similar to the corresponding occupation or department (similarity exceeding a predetermined threshold), while ensuring that similar occupations or departments have similar embedding vectors in the embedding space.

이를 위한 목적 함수는 수학식 5로 표현될 수 있다.The objective function for this can be expressed by mathematical expression 5.

즉, 모델 생성부(130)는 수학식 3 또는 수학식 5의 목적 함수를 이용하여 언어모델을 사전학습시켜 진로진학 언어모델을 생성할 수 있다.That is, the model generation unit (130) can generate a career guidance language model by pre-training a language model using the objective function of mathematical expression 3 or mathematical expression 5.

도 2는 예시적 실시예에 따른 진로진학 정보 추천 장치를 도시한 도면이다.FIG. 2 is a diagram illustrating a career path information recommendation device according to an exemplary embodiment.

도 2의 진로진학 정보 추천 장치(200)는 전술한 진로진학 언어모델을 이용하여 학생 맞춤형 진로진학 정보를 추천 및 제공하는 장치일 수 있다.The career and academic advancement information recommendation device (200) of Fig. 2 may be a device that recommends and provides career and academic advancement information customized for students using the career and academic advancement language model described above.

도 2를 참조하면, 진로진학 정보 추천 장치(200)는 데이터 수집부(210), 데이터베이스 구축부(220) 및 정보 제공부(230)를 포함할 수 있다.Referring to FIG. 2, the career path and advancement information recommendation device (200) may include a data collection unit (210), a database construction unit (220), and an information provision unit (230).

데이터 수집부(210)는 진로진학과 관련된 다양한 문헌 데이터를 수집할 수 있다. 여기서 문헌 데이터는 텍스트 데이터로서, 직업을 서술하는 문헌 데이터, 학과를 서술하는 문헌 데이터, 교과를 서술하는 문헌 데이터 및 도서를 서술하는 문헌 데이터 등을 포함할 수 있다.The data collection unit (210) can collect various literature data related to career guidance and advancement. Here, the literature data is text data and can include literature data describing occupations, literature data describing departments, literature data describing subjects, and literature data describing books.

예시적 실시예에 따르면, 데이터 수집부(210)는 사용자로부터 다수의 문헌 데이터를 입력받거나, 유무선 통신 기술을 이용하여 외부 장치로부터 다수의 문헌 데이터를 수신함으로써, 문헌 데이터를 수집할 수 있다.According to an exemplary embodiment, the data collection unit (210) can collect literature data by receiving a plurality of literature data from a user or receiving a plurality of literature data from an external device using wired or wireless communication technology.

데이터베이스 구축부(220)는 진로진학 언어모델(240)을 이용하여, 수집된 각 문헌 데이터의 임베딩 벡터를 판단할 수 있다.The database construction unit (220) can determine the embedding vector of each collected literature data using the career path language model (240).

데이터베이스 구축부(220)는 각 문헌 데이터의 임베딩 벡터를 기반으로 직업과 학과 사이, 직업과 교과 사이, 직업과 도서 사이, 학과와 교과 사이, 학과와 도서 사이, 교과와 도서 사이의 유사도를 판단할 수 있다.The database construction unit (220) can determine the similarity between occupations and departments, occupations and subjects, occupations and books, departments and subjects, departments and books, and subjects and books based on the embedding vector of each document data.

예를 들어, 데이터베이스 구축부(220)는 코사인 유사도, 유클리드 거리, 자카드 유사도 등 다양한 유사도 판단 기법을 이용하여 직업과 학과 사이, 직업과 교과 사이, 직업과 도서 사이, 학과와 교과 사이, 학과와 도서 사이, 교과와 도서 사이의 유사도를 판단할 수 있으나 이에 한정되는 것은 아니다.For example, the database construction unit (220) can use various similarity judgment techniques such as cosine similarity, Euclidean distance, and Jaccard similarity to determine the similarity between occupations and departments, between occupations and subjects, between occupations and books, between departments and subjects, between departments and books, and between subjects and books, but is not limited thereto.

데이터베이스 구축부(220)는 유사도가 소정 임계값 이상인 직업과 학과, 직업과 교과, 직업과 도서, 학과와 교과, 학과와 도서, 교과와 도서를 매칭하여 진로진학 데이터베이스(250)를 구축할 수 있다. 이때 소정 임계값은 전술한 σ일 수 있으나 이는 일 실시예에 불과할 뿐 이에 한정되는 것은 아니다.The database construction unit (220) can build a career and advancement database (250) by matching occupations and departments, occupations and subjects, occupations and books, departments and subjects, departments and books, and subjects and books, whose similarity is greater than a predetermined threshold value. At this time, the predetermined threshold value may be the aforementioned σ, but this is only one example and is not limited thereto.

정보 제공부(230)는 사용자로부터 사용자가 관심있어 하는 직업, 학과, 교과 및 도서 중 어느 하나에 대한 정보를 입력받아, 이를 기반으로 진로진학 데이터베이스(250)를 검색하여 입력된 정보에 매칭되는 직업, 학과, 교과 및 도서 중 적어도 하나에 대한 정보를 진로진학 정보로 추출하고 추출된 진로진학 정보를 사용자에게 제공할 수 있다.The information provision unit (230) receives information from a user about one of the occupations, departments, subjects, and books that the user is interested in, searches the career and advancement database (250) based on the information, extracts information about at least one of the occupations, departments, subjects, and books that match the input information as career and advancement information, and provides the extracted career and advancement information to the user.

예를 들어, a1 직업과 유사도가 소정 임계값 이상인 교과는 b1, b2이고, 학과는 c1이고, 도서는 d1인 경우로서, 사용자로부터 a1 직업에 대한 정보를 입력받은 경우, 정보 제공부(230)는 진로진학 데이터베이스를 검색하여 a1 직업과의 유사도가 소정 임계값 이상인 b1 교과, b2 교과, c1 학과 및 d1 도서에 대한 정보를 추출하여 사용자에게 제공할 수 있다. 이를 통해 진로진학 정보 추천 장치(200)는 a1 직업에 관심이 있는 학생에게 a1 직업과 관련된 b1 교과, b2 교과, c1 학과 및 d1 도서에 대한 정보를 제공하는 것이 가능하다.For example, if subjects b1 and b2, department c1, and book d1 have similarities with occupation a1 that are greater than a predetermined threshold, and information about occupation a1 is input from a user, the information provision unit (230) can search a career guidance database to extract information about subjects b1, b2, department c1, and book d1 that have similarities with occupation a1 that are greater than a predetermined threshold, and provide the extracted information to the user. Through this, the career guidance information recommendation device (200) can provide information about subjects b1, b2, department c1, and book d1 related to occupation a1 to a student interested in occupation a1.

다른 예를 들어, c2 학과와 유사도가 소정 임계값 이상인 직업은 a2이고, 교과는 b3이고, 도서는 d2인 경우로서, 사용자로부터 c2 학과에 대한 정보를 입력받은 경우, 정보 제공부(230)는 진로진학 데이터베이스를 검색하여 c2 학과와 유사도가 소정 임계값 이상인 a2 직업, b3 교과, d2 도서에 대한 정보를 추출하여 사용자에게 제공할 수 있다. 이를 통해 진로진학 정보 추천 장치(200)는 c2 학과에 관심이 있는 학생에게 c2 학과와 관련된 a2 직업, b3 교과 및 d2 도서에 대한 정보를 제공하는 것이 가능하다.For another example, if a job with a similarity to department c2 exceeds a predetermined threshold value is a2, a subject is b3, and a book is d2, and information about department c2 is input from a user, the information provider (230) can search a career and advancement database to extract information about job a2, subject b3, and book d2 that exceed a predetermined threshold value in similarity to department c2, and provide the extracted information to the user. Through this, the career and advancement information recommendation device (200) can provide information about job a2, subject b3, and book d2 related to department c2 to a student interested in department c2.

한편, 예시적 실시예에 따르면, 데이터 수집부(210)는 진로진학과 관련된 새로운 문헌 데이터를 주기적으로 수집할 수 있으며, 이 경우, 데이터베이스 구축부(220)는 새로운 문헌 데이터를 이용하여 기 구축된 진로진학 데이터베이스(250)를 주기적으로 갱신할 수 있다.Meanwhile, according to an exemplary embodiment, the data collection unit (210) can periodically collect new literature data related to career guidance and advancement, and in this case, the database construction unit (220) can periodically update the existing career guidance and advancement database (250) using the new literature data.

도 3은 예시적 실시예에 따른 진로진학 언어모델 생성 방법을 도시한 도면이다.FIG. 3 is a diagram illustrating a method for creating a career path language model according to an exemplary embodiment.

도 3의 진로진학 언어모델 생성 방법은 도 1의 진로진학 언어모델 생성 장치에 의해 수행될 수 있다.The method for generating a career path language model of Fig. 3 can be performed by the career path language model generating device of Fig. 1.

도 3을 참조하면, 진로진학 언어모델 생성 장치는 직업 또는 학과를 서술하는 문헌 데이터를 수집할 수 있다(310). 예를 들어, 문헌 데이터는 텍스트 데이터로서, 직업 소개 데이터 또는 학과 소개 데이터 등을 포함할 수 있다.Referring to Figure 3, the career path language model generation device can collect literature data describing occupations or departments (310). For example, the literature data is text data and can include job introduction data or department introduction data, etc.

예시적 실시예에 따르면, 진로진학 언어모델 생성 장치는 사용자로부터 다수의 문헌 데이터를 입력받거나, 유무선 통신 기술을 이용하여 외부 장치로부터 다수의 문헌 데이터를 수신함으로써, 문헌 데이터를 수집할 수 있다.According to an exemplary embodiment, a career path language model generation device can collect literature data by receiving a plurality of literature data from a user or receiving a plurality of literature data from an external device using wired or wireless communication technology.

진로진학 언어모델 생성 장치는 수집된 문헌 데이터를 기반으로 직업 간 또는 학과 간 유사도가 반영된 그래프를 생성할 수 있다(320).The career path language model generation device can generate a graph reflecting similarities between occupations or departments based on collected literature data (320).

구체적으로, 진로진학 언어모델 생성 장치는 수집된 각 문헌 데이터를 임베딩 공간 상에 표현하여, 각 문헌 데이터에 대응하는 임베딩 벡터를 판단할 수 있다. 예를 들어, 진로진학 언어모델 생성 장치는 LSA, Word2Vec, FastText, Glove, mpnet 등 다양한 단어 임베딩 또는 문장 임베딩 모델을 이용하여 각 문헌 데이터의 임베딩 벡터를 판단할 수 있으나 이에 한정되는 것은 아니다.Specifically, the career path language model generation device can represent each collected document data in an embedding space, and determine an embedding vector corresponding to each document data. For example, the career path language model generation device can determine an embedding vector of each document data using various word embedding or sentence embedding models such as LSA, Word2Vec, FastText, Glove, and mpnet, but is not limited thereto.

또한, 진로진학 언어모델 생성 장치는 각 문헌 데이터의 임베딩 벡터를 기반으로 직업 간 또는 학과 간 유사도를 판단하고, 직업 간 또는 학과 간 유사도를 기반으로 그래프를 생성할 수 있다. 이때 그래프는 노드와 에지를 포함하며, 노드는 각 직업 또는 각 학과를 표현하고, 에지는 직업 또는 학과 간의 유사도 관계를 표현할 수 있다.In addition, the career path language model generation device can determine the similarity between occupations or departments based on the embedding vector of each document data, and can generate a graph based on the similarity between occupations or departments. At this time, the graph includes nodes and edges, and the nodes can express each occupation or each department, and the edges can express the similarity relationship between occupations or departments.

예시적 실시예에 따르면, 진로진학 언어모델 생성 장치는 유사도가 소정 임계값 이상인 노드(직업 또는 학과)들 사이만 에지로 연결하여 그래프를 생성할 수 있다. 그러나 이에 한정되는 것은 아니며, 진로진학 언어모델 생성 장치는 모든 노드(직업 또는 학과)들 사이를 그 유사도에 따라 상이한 형태의 에지로 연결할 수도 있다.According to an exemplary embodiment, the career guidance and advancement language model generation device can generate a graph by connecting only nodes (occupations or departments) with similarities higher than a predetermined threshold value with edges. However, this is not limited to this, and the career guidance and advancement language model generation device can connect all nodes (occupations or departments) with edges of different shapes according to their similarities.

진로진학 언어모델 생성 장치는 수집된 문헌 데이터 및 생성된 그래프를 기반으로 언어모델을 사전학습시켜 진로진학 언어모델을 생성할 수 있다(330). 여기서, 언어모델은 BERT(Bidirectional Encoder Representations from Transformers)와 BERT의 파생 모델(예컨대, ALBERT(A Lite BERT for Self-supervised Learning of Language Representations), RoBERTa(A Robustly Optimized BERT Pretraining Approach), ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately) 등)을 포함할 수 있다. 진로진학 언어모델은 다양한 진로진학 탐색 문제 해결에 특화된 언어모델로서 학생 맞춤형 진로진학 정보를 추천 및 제공하는데 이용될 수 있다.The device for generating a career guidance and advancement language model can generate a career guidance and advancement language model by pre-training a language model based on collected literature data and generated graphs (330). Here, the language model can include BERT (Bidirectional Encoder Representations from Transformers) and derivative models of BERT (e.g., ALBERT (A Lite BERT for Self-supervised Learning of Language Representations), RoBERTa (A Robustly Optimized BERT Pretraining Approach), ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately), etc.). The career guidance and advancement language model is a language model specialized in solving various career guidance and advancement exploration problems and can be used to recommend and provide career guidance and advancement information customized for students.

예시적 실시예에 따르면, 진로진학 언어모델 생성 장치는 생성된 그래프를 기반으로 각 직업 또는 학과와의 유사도가 소정 임계값 이상인 직업 또는 학과를 추출하고, 각 직업 또는 학과를 서술하는 문헌 데이터와, 추출된 직업 또는 학과를 서술하는 문헌 데이터를 이용하여 언어 모델을 사전학습시킬 수 있다.According to an exemplary embodiment, a career guidance and advancement language model generation device can extract occupations or departments whose similarity with each occupation or department is greater than a predetermined threshold based on the generated graph, and pre-train a language model using literature data describing each occupation or department and literature data describing the extracted occupations or departments.

예를 들어, 진로진학 언어모델 생성 장치는 각 직업 또는 학과를 서술하는 문헌 데이터에서 일부 토큰(예컨대 전체 토큰 중 15%)을 랜덤으로 마스킹하고, 마스킹된 문헌 데이터와, 해당 직업 또는 학과와 유사한(유사도가 소정 임계값 이상인) 직업 또는 학과를 서술하는 문헌 데이터를 결합하고, 결합된 문헌 데이터를 기반으로 마스킹된 일부 토큰을 맞추도록 언어모델을 사전학습시킬 수 있다.For example, a language model creation device for career guidance and advancement can randomly mask some tokens (e.g., 15% of all tokens) from literature data describing each occupation or department, combine the masked literature data with literature data describing occupations or departments similar to the relevant occupation or department (having a similarity level higher than a predetermined threshold), and pre-train a language model to match some of the masked tokens based on the combined literature data.

다른 예를 들어, 진로진학 언어모델 생성 장치는 서로 유사한 직업 또는 학과들은 임베딩 공간 상에서 비슷한 임베딩 벡터를 갖도록 언어모델을 사전학습시킬 수 있다.As another example, a language model generation device for career guidance can pre-train a language model so that similar occupations or departments have similar embedding vectors in the embedding space.

또 다른 예를 들어, 진로진학 언어모델 생성 장치는 각 직업 또는 학과를 서술하는 마스킹된 문헌 데이터와, 해당 직업 또는 학과와 유사한(유사도가 소정 임계값 이상인) 직업 또는 학과를 서술하는 문헌 데이터를 기반으로, 마스킹된 토큰을 맞추도록 함과 동시에, 서로 유사한 직업 또는 학과들은 임베딩 공간 상에 비슷한 임베딩 벡터를 갖도록, 언어모델을 사전학습시킬 수 있다.As another example, the career guidance and advancement language model generation device can pre-train the language model so that masked tokens are matched based on masked literature data describing each occupation or department and literature data describing occupations or departments similar to the relevant occupation or department (with a similarity level higher than a predetermined threshold), while similar occupations or departments have similar embedding vectors in the embedding space.

즉, 진로진학 언어모델 생성 장치는 수학식 3 또는 수학식 5의 목적 함수를 이용하여 언어모델을 사전학습시켜 진로진학 언어모델을 생성할 수 있다.That is, the career guidance and advancement language model generation device can generate a career guidance and advancement language model by pre-training a language model using the objective function of mathematical expression 3 or mathematical expression 5.

도 4는 예시적 실시예에 따른 진로진학 정보 추천 방법을 도시한 도면이다.FIG. 4 is a diagram illustrating a method for recommending career path information according to an exemplary embodiment.

도 4의 진로진학 정보 추천 방법은 도 2의 진로진학 정보 추천 장치에 의해 수행될 수 있다.The career and academic advancement information recommendation method of Fig. 4 can be performed by the career and academic advancement information recommendation device of Fig. 2.

도 4를 참조하면, 진로진학 정보 추천 장치는 진로진학과 관련된 다양한 문헌 데이터를 수집할 수 있다(410). 여기서 문헌 데이터는 텍스트 데이터로서, 직업을 서술하는 문헌 데이터, 학과를 서술하는 문헌 데이터, 교과를 서술하는 문헌 데이터 및 도서를 서술하는 문헌 데이터 등을 포함할 수 있다.Referring to Figure 4, the career and advancement information recommendation device can collect various literature data related to career and advancement (410). Here, the literature data is text data and can include literature data describing occupations, literature data describing departments, literature data describing subjects, and literature data describing books.

진로진학 정보 추천 장치는 진로진학 언어모델을 이용하여, 수집된 각 문헌 데이터의 임베딩 벡터를 판단할 수 있다(420).The career and advancement information recommendation device can determine the embedding vector of each collected literature data using the career and advancement language model (420).

진로진학 정보 추천 장치는 각 문헌 데이터의 임베딩 벡터를 기반으로 직업과 학과 사이, 직업과 교과 사이, 직업과 도서 사이, 학과와 교과 사이, 학과와 도서 사이, 교과와 도서 사이의 유사도를 판단할 수 있다(430).The career and academic advancement information recommendation device can determine the similarity between occupations and departments, occupations and subjects, occupations and books, departments and subjects, departments and books, and subjects and books based on the embedding vector of each literature data (430).

예를 들어, 진로진학 정보 추천 장치는 코사인 유사도, 유클리드 거리, 자카드 유사도 등 다양한 유사도 판단 기법을 이용하여 직업과 학과 사이, 직업과 교과 사이, 직업과 도서 사이, 학과와 교과 사이, 학과와 도서 사이, 교과와 도서 사이의 유사도를 판단할 수 있으나 이에 한정되는 것은 아니다.For example, a career guidance and education information recommendation device can use various similarity judgment techniques such as cosine similarity, Euclidean distance, and Jaccard similarity to determine the similarity between occupations and departments, between occupations and subjects, between occupations and books, between departments and subjects, between departments and books, and between subjects and books, but is not limited thereto.

진로진학 정보 추천 장치는 유사도가 소정 임계값 이상인 직업과 학과, 직업과 교과, 직업과 도서, 학과와 교과, 학과와 도서, 교과와 도서를 매칭하여 진로진학 데이터베이스를 구축할 수 있다(440). 이때 소정 임계값은 전술한 σ일 수 있으나 이는 일 실시예에 불과할 뿐 이에 한정되는 것은 아니다.The career guidance and advancement information recommendation device can build a career guidance and advancement database by matching occupations and departments, occupations and subjects, occupations and books, departments and subjects, departments and books, and subjects and books with similarities exceeding a predetermined threshold value (440). At this time, the predetermined threshold value may be the aforementioned σ, but this is only one example and is not limited thereto.

진로진학 정보 추천 장치는 사용자로부터 사용자가 관심있어 하는 직업, 학과, 교과 및 도서 중 어느 하나에 대한 정보를 입력받아, 이를 기반으로 진로진학 데이터베이스를 검색하여 입력된 정보에 매칭되는 직업, 학과, 교과 및 도서 중 적어도 하나에 대한 정보를 진로진학 정보로 추출하고 추출된 진로진학 정보를 사용자에게 제공할 수 있다(450).A career guidance and advancement information recommendation device may receive information from a user about one of the occupations, departments, subjects, and books that the user is interested in, search a career guidance and advancement database based on the information, extract information about at least one of the occupations, departments, subjects, and books that match the input information as career guidance and advancement information, and provide the extracted career guidance and advancement information to the user (450).

도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.FIG. 5 is a block diagram illustrating a computing environment including a computing device suitable for use in exemplary embodiments. In the illustrated embodiment, each of the components may have different functions and capabilities other than those described below, and may include additional components other than those described below.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 진로진학 언어모델 생성 장치(100) 또는 진로진학 정보 추천 장치(200)일 수 있다.The illustrated computing environment (10) includes a computing device (12). In one embodiment, the computing device (12) may be a career guidance and advancement language model generation device (100) or a career guidance and advancement information recommendation device (200).

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.A computing device (12) includes at least one processor (14), a computer-readable storage medium (16), and a communication bus (18). The processor (14) may cause the computing device (12) to operate in accordance with the exemplary embodiments described above. For example, the processor (14) may execute one or more programs stored in the computer-readable storage medium (16). The one or more programs may include one or more computer-executable instructions, which, when executed by the processor (14), may be configured to cause the computing device (12) to perform operations in accordance with the exemplary embodiments.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.A computer-readable storage medium (16) is configured to store computer-executable instructions or program code, program data, and/or other suitable forms of information. A program (20) stored in the computer-readable storage medium (16) includes a set of instructions executable by the processor (14). In one embodiment, the computer-readable storage medium (16) may be a memory (volatile memory such as random access memory, non-volatile memory, or a suitable combination thereof), one or more magnetic disk storage devices, optical disk storage devices, flash memory devices, any other form of storage medium that can be accessed by the computing device (12) and capable of storing desired information, or a suitable combination thereof.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.A communication bus (18) interconnects various other components of the computing device (12), including the processor (14) and computer-readable storage media (16).

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.The computing device (12) may also include one or more input/output interfaces (22) that provide interfaces for one or more input/output devices (24) and one or more network communication interfaces (26). The input/output interfaces (22) and the network communication interfaces (26) are coupled to the communication bus (18). The input/output devices (24) may be coupled to other components of the computing device (12) via the input/output interfaces (22). Exemplary input/output devices (24) may include input devices such as a pointing device (such as a mouse or trackpad), a keyboard, a touch input device (such as a touchpad or a touchscreen), a voice or sound input device, various types of sensor devices and/or photographing devices, and/or output devices such as a display device, a printer, speakers, and/or a network card. The exemplary input/output devices (24) may be included within the computing device (12) as a component that constitutes the computing device (12), or may be coupled to the computing device (12) as a separate device distinct from the computing device (12).

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.The present invention has been described so far with reference to preferred embodiments thereof. Those skilled in the art will understand that the present invention can be implemented in modified forms without departing from the essential characteristics of the present invention. Accordingly, the scope of the present invention should not be limited to the above-described embodiments, but should be interpreted to include various embodiments within a scope equivalent to the contents described in the patent claims.

100: 진로진학 언어모델 생성 장치
110, 210: 데이터 수집부
120: 그래프 생성부
130: 모델 생성부
200: 진로진학 정보 추천 장치
220: 데이터베이스 구축부
230: 정보 제공부
240: 진로진학 언어모델
250: 진로진학 데이터베이스
100: Career Path Language Model Generation Device
110, 210: Data Collection Unit
120: Graph generation section
130: Model Generation Section
200: Career and Academic Advancement Information Recommendation Device
220: Database Construction Department
230: Information Department
240: Career Path Language Model
250: Career Path Database

Claims (16)

직업 또는 학과를 서술하는 문헌 데이터를 수집하는 데이터 수집부;
상기 수집된 문헌 데이터를 기반으로 직업 간 또는 학과 간 유사도가 반영된 그래프를 생성하는 그래프 생성부; 및
상기 수집된 문헌 데이터 및 상기 생성된 그래프를 기반으로 언어 모델을 사전학습시켜 진로진학 언어모델을 생성하는 모델 생성부; 를 포함하되,
상기 모델 생성부는,
상기 그래프를 기반으로 각 직업 또는 각 학과와의 유사도가 소정 임계값 이상인 직업 또는 학과를 추출하고, 각 직업 또는 각 학과를 서술하는 문헌 데이터와, 상기 추출된 직업 또는 학과를 서술하는 문헌 데이터를 이용하여 상기 언어모델을 사전학습시키되,
상기 각 직업 또는 각 학과를 서술하는 문헌 데이터에서 일부 토큰을 랜덤으로 마스킹하고, 상기 마스킹된 문헌 데이터와 상기 추출된 직업 또는 학과를 서술하는 문헌 데이터를 결합하고, 상기 결합된 문헌 데이터를 기반으로 상기 마스킹된 일부 토큰을 맞추도록 상기 언어모델을 사전학습시키는,
진로진학 언어모델 생성 장치.
A data collection unit that collects literature data describing occupations or disciplines;
A graph generation unit that generates a graph reflecting similarities between occupations or departments based on the collected literature data; and
A model generation unit that generates a career guidance and advancement language model by pre-training a language model based on the collected literature data and the generated graph; including,
The above model generation unit,
Based on the above graph, occupations or departments whose similarity with each occupation or each department is greater than a predetermined threshold are extracted, and the language model is pre-trained using the literature data describing each occupation or each department and the literature data describing the extracted occupation or department.
Randomly masking some tokens from the literature data describing each of the above occupations or departments, combining the masked literature data with the literature data describing the extracted occupations or departments, and pre-training the language model to match some of the masked tokens based on the combined literature data.
A device for generating a language model for career advancement.
제1항에 있어서,
상기 그래프 생성부는,
상기 수집된 문헌 데이터의 임베딩 벡터를 판단하고, 상기 판단된 임베딩 벡터를 기반으로 직업 간 또는 학과 간 유사도를 판단하고, 각 직업 또는 각 학과를 노드로 표현하고 유사도가 소정 임계값 이상인 노드들을 에지로 연결하여 상기 그래프를 생성하는,
진로진학 언어모델 생성 장치.
In the first paragraph,
The above graph generation unit,
The embedding vector of the collected literature data is determined, and the similarity between occupations or departments is determined based on the determined embedding vector, and each occupation or department is expressed as a node, and nodes with a similarity greater than a predetermined threshold are connected as edges to generate the graph.
A device for generating language models for career advancement.
삭제delete 삭제delete 제1항에 있어서,
상기 모델 생성부는,
하기 수학식의 목적 함수를 이용하여 상기 언어모델을 사전학습시키는,
진로진학 언어모델 생성 장치.
[수학식]

(는 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 의 마스킹된 문헌 데이터를 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 가 결합된 문헌 데이터를 나타냄)
In the first paragraph,
The above model generation unit,
Pre-training the language model using the objective function of the following mathematical formula.
A device for generating a language model for career advancement.
[Mathematical formula]

( represents literature data describing an occupation or discipline, Is Represents masked literature data, Is It represents literature data whose similarity with is greater than a certain threshold value, Is and (represents literature data combined with
제1항에 있어서,
상기 모델 생성부는,
하기 수학식의 목적 함수를 이용하여 상기 언어모델을 사전학습시키는,
진로진학 언어모델 생성 장치.
[수학식]

(는 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 의 마스킹된 문헌 데이터를 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 가 결합된 문헌 데이터를 나타내고, 는 언어모델 로부터 획득되는 내 토큰들의 임베딩 벡터들의 평균을 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 는 언어모델 로부터 획득되는 내 토큰들의 임베딩 벡터들의 평균을 나타냄)
In the first paragraph,
The above model generation unit,
Pre-training the language model using the objective function of the following mathematical formula.
A device for generating a language model for career advancement.
[Mathematical formula]

( represents literature data describing an occupation or discipline, Is Represents masked literature data, Is It represents literature data whose similarity with is greater than a certain threshold value, Is and It represents the combined literature data, is a language model Obtained from Represents the average of the embedding vectors of my tokens, Is It represents literature data whose similarity with is greater than a certain threshold value, is a language model Obtained from (represents the average of the embedding vectors of my tokens)
진로진학과 관련된 문헌 데이터를 수집하는 데이터 수집부;
진로진학 언어모델을 이용하여 상기 수집된 문헌 데이터의 임베딩 벡터를 판단하고, 각 문헌 데이터의 임베딩 벡터를 기반으로 진로진학 데이터베이스를 구축하는 데이터베이스 구축부; 및
직업, 학과, 교과 및 도서 중 어느 하나에 대한 정보를 입력받아, 이를 기반으로 상기 진로진학 데이터베이스를 검색하여 진로진학 관련 정보를 추출하는 정보 제공부; 를 포함하고,
상기 진로진학 언어모델은, 각 직업 또는 각 학과를 서술하는 문헌 데이터에서 일부 토큰을 랜덤으로 마스킹하여 생성된 마스킹된 문헌 데이터와 상기 각 직업 또는 상기 각 학과와의 유사도가 소정 임계 값 이상인 직업 또는 학과를 서술하는 문헌 데이터가 결합된 문헌 데이터를 기반으로 상기 마스킹된 일부 토큰을 맞추도록 사전학습되는, 진로진학 정보 추천 장치.
Data collection department that collects literature data related to career paths and advancement;
A database construction unit that determines the embedding vector of the collected literature data using the career path and advancement language model and constructs a career path and advancement database based on the embedding vector of each literature data; and
An information provision unit that inputs information on one of occupation, department, subject, and book, searches the career and advancement database based on the information, and extracts career and advancement-related information; including;
The above career guidance and advancement language model is a career guidance and advancement information recommendation device, which is pre-learned to match some of the masked tokens based on literature data that is generated by randomly masking some tokens from literature data describing each occupation or each department and literature data that describes occupations or departments having a similarity with each occupation or each department above a predetermined threshold value.
제7항에 있어서,
상기 진로진학과 관련된 문헌 데이터는,
직업을 서술하는 문헌 데이터, 학과를 서술하는 문헌 데이터, 교과를 서술하는 문헌 데이터 및 도서를 서술하는 문헌 데이터를 포함하는,
진로진학 정보 추천 장치.
In Article 7,
The literature data related to the above career path is as follows:
Including literature data describing occupations, literature data describing departments, literature data describing subjects, and literature data describing books.
Career and academic advancement information recommendation device.
제7항에 있어서,
상기 데이터베이스 구축부는,
각 문헌 데이터의 임베딩 벡터를 기반으로 직업과 학과 사이, 직업과 교과 사이, 직업과 도서 사이, 학과와 교과 사이, 학과와 도서 사이, 또는 교과와 도서 사이의 유사도를 판단하고, 유사도가 소정 임계값 이상인 직업과 학과, 직업과 교과, 직업과 도서, 학과와 교과, 학과와 도서, 또는 교과와 도서를 매칭하여 상기 진로진학 데이터베이스를 구축하는,
진로진학 정보 추천 장치.
In Article 7,
The above database construction unit,
Based on the embedding vector of each literature data, the similarity between an occupation and a department, an occupation and a subject, an occupation and a book, a department and a subject, a department and a book, or a subject and a book is determined, and the occupation and department, occupation and subject, occupation and book, department and subject, department and book, or subject and book with a similarity higher than a predetermined threshold are matched to build the career and advancement database.
A device that recommends career and academic information.
제9항에 있어서,
상기 정보 제공부는,
상기 진로진학 데이터베이스로부터 상기 입력된 정보에 매칭되는 직업, 학과, 교과 및 도서 중 적어도 하나에 대한 정보를 진로진학 정보로 추출하는,
진로진학 정보 추천 장치.
In Article 9,
The above information provider is,
Extracting information on at least one of the occupations, departments, subjects, and books matching the entered information from the career guidance database as career guidance information.
Career and academic advancement information recommendation device.
컴퓨팅 장치에 의해 수행되는 진로진학 언어모델 생성 방법에 있어서,
직업 또는 학과를 서술하는 문헌 데이터를 수집하는 단계;
상기 수집된 문헌 데이터를 기반으로 직업 간 또는 학과 간 유사도가 반영된 그래프를 생성하는 단계; 및
상기 수집된 문헌 데이터 및 상기 생성된 그래프를 기반으로 언어 모델을 사전학습시켜 진로진학 언어모델을 생성하는 단계; 를 포함하되,
상기 진로진학 언어모델을 생성하는 단계는,
상기 그래프를 기반으로 각 직업 또는 각 학과와의 유사도가 소정 임계값 이상인 직업 또는 학과를 추출하는 단계; 및
각 직업 또는 각 학과를 서술하는 문헌 데이터와, 상기 추출된 직업 또는 학과를 서술하는 문헌 데이터를 이용하여 상기 언어모델을 사전학습시키는 단계;를 포함하고,
상기 언어모델을 사전학습시키는 단계는,
각 직업 또는 각 학과를 서술하는 문헌 데이터에서 일부 토큰을 랜덤으로 마스킹하는 단계;
상기 마스킹된 문헌 데이터와 상기 추출된 직업 또는 학과를 서술하는 문헌 데이터를 결합하는 단계; 및
상기 결합된 문헌 데이터를 기반으로 상기 마스킹된 일부 토큰을 맞추도록 상기 언어모델을 사전학습시키는 단계를 포함하는, 진로진학 언어모델 생성 방법.
In a method for generating a career guidance language model performed by a computing device,
A step of collecting literature data describing an occupation or discipline;
A step of generating a graph reflecting similarity between occupations or departments based on the collected literature data; and
A step of generating a career guidance and advancement language model by pre-training a language model based on the collected literature data and the generated graph; including,
The steps for creating the above career path language model are:
A step of extracting occupations or departments whose similarity with each occupation or each department is greater than a predetermined threshold based on the above graph; and
It includes a step of pre-training the language model using literature data describing each occupation or each department and the extracted literature data describing the occupation or department;
The step of pre-training the above language model is:
A step of randomly masking some tokens from the literature data describing each occupation or each discipline;
A step of combining the above masked literature data with the above extracted literature data describing the occupation or department; and
A method for creating a career advancement language model, comprising the step of pre-training the language model to match some of the masked tokens based on the combined literature data.
제11항에 있어서,
상기 그래프를 생성하는 단계는,
상기 수집된 문헌 데이터의 임베딩 벡터를 판단하고, 상기 판단된 임베딩 벡터를 기반으로 직업 간 또는 학과 간 유사도를 판단하고, 각 직업 또는 각 학과를 노드로 표현하고 유사도가 소정 임계값 이상인 노드들을 에지로 연결하여 상기 그래프를 생성하는,
진로진학 언어모델 생성 방법.
In Article 11,
The steps for generating the above graph are:
The embedding vector of the collected literature data is determined, and the similarity between occupations or departments is determined based on the determined embedding vector, and each occupation or department is expressed as a node, and nodes with a similarity greater than a predetermined threshold are connected as edges to generate the graph.
How to create a career path language model.
삭제delete 삭제delete 제11항에 있어서,
상기 언어모델을 사전학습시키는 단계는,
하기 수학식의 목적 함수를 이용하여 상기 언어모델을 사전학습시키는,
진로진학 언어모델 생성 방법.
[수학식]

(는 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 의 마스킹된 문헌 데이터를 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 가 결합된 문헌 데이터를 나타냄)
In Article 11,
The step of pre-training the above language model is:
Pre-training the language model using the objective function of the following mathematical formula.
How to create a career path language model.
[Mathematical formula]

( represents literature data describing an occupation or discipline, Is Represents masked literature data, Is It represents literature data whose similarity with is greater than a certain threshold value, Is and (represents literature data combined with
제11항에 있어서,
상기 언어모델을 사전학습시키는 단계는,
하기 수학식의 목적 함수를 이용하여 상기 언어모델을 사전학습시키는,
진로진학 언어모델 생성 방법.
[수학식]

(는 직업 또는 학과를 서술하는 문헌 데이터를 나타내고, 의 마스킹된 문헌 데이터를 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 가 결합된 문헌 데이터를 나타내고, 는 언어모델 로부터 획득되는 내 토큰들의 임베딩 벡터들의 평균을 나타내고, 와의 유사도가 소정 임계값 이상인 문헌 데이터를 나타내고, 는 언어모델 로부터 획득되는 내 토큰들의 임베딩 벡터들의 평균을 나타냄)
In Article 11,
The step of pre-training the above language model is:
Pre-training the language model using the objective function of the following mathematical formula.
How to create a career path language model.
[Mathematical formula]

( represents literature data describing an occupation or discipline, Is Represents masked literature data, Is It represents literature data whose similarity with is greater than a certain threshold value, Is and It represents the combined literature data, is a language model Obtained from Represents the average of the embedding vectors of my tokens, Is It represents literature data whose similarity with is greater than a certain threshold value, is a language model Obtained from (represents the average of the embedding vectors of my tokens)
KR1020220155194A 2022-11-18 2022-11-18 Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information Active KR102837271B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220155194A KR102837271B1 (en) 2022-11-18 2022-11-18 Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220155194A KR102837271B1 (en) 2022-11-18 2022-11-18 Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information

Publications (2)

Publication Number Publication Date
KR20240074062A KR20240074062A (en) 2024-05-28
KR102837271B1 true KR102837271B1 (en) 2025-07-22

Family

ID=91277601

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220155194A Active KR102837271B1 (en) 2022-11-18 2022-11-18 Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information

Country Status (1)

Country Link
KR (1) KR102837271B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118277638B (en) * 2024-05-29 2024-10-22 天津建设发展集团股份公司 Enterprise information management method and system
CN119293330A (en) * 2024-10-08 2025-01-10 卓世智星(青田)元宇宙科技有限公司 A book recommendation method and system based on vector database

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101377341B1 (en) * 2006-02-27 2014-03-25 마이크로소프트 코포레이션 Training a ranking function using propagated document relevance

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130058568A (en) 2011-11-25 2013-06-04 (주)진학어플라이 Method for estimation of one's ability or aptitude in regard to determining higher grade school to enter or his course of future
KR102343385B1 (en) * 2019-10-07 2021-12-27 주식회사 아이서티 Apparatus and Method for Managing Curriculum based on Job Competence which is corresponded to Society Demand based on ontology and deep-learning
KR20220083123A (en) * 2020-12-11 2022-06-20 주식회사 웨시 System for entrance examination analysis service provision and method thereof
KR102470007B1 (en) * 2021-05-03 2022-11-25 다움커리어주식회사 Appratus and Method for Providing Customized Subject-Centered Curriculum service based on Bigdata

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101377341B1 (en) * 2006-02-27 2014-03-25 마이크로소프트 코포레이션 Training a ranking function using propagated document relevance

Also Published As

Publication number Publication date
KR20240074062A (en) 2024-05-28

Similar Documents

Publication Publication Date Title
Karanikolas et al. Large language models versus natural language understanding and generation
Sunilkumar et al. A survey on semantic similarity
Shardlow et al. Predicting lexical complexity in english texts: the complex 2.0 dataset
KR102837271B1 (en) Apparatus and method for generating academic guidance language model, and apparatus for recommending academic guidance information
Dessí et al. Deep learning adaptation with word embeddings for sentiment analysis on online course reviews
US12190753B2 (en) Methods, systems, devices, and software for managing and conveying knowledge
Tripathy et al. Sentiment classification of movie reviews using GA and NeuroGA
Razek et al. Text-based intelligent learning emotion system
Najeeb A novel hadith processing approach based on genetic algorithms
Bhanuse et al. Optimal e-learning course recommendation with sentiment analysis using hybrid similarity framework
El-Rashidy et al. New weighted BERT features and multi-CNN models to enhance the performance of MOOC posts classification
Timperley et al. Assessment of large language models for use in generative design of model based spacecraft system architectures
Santana et al. A Chatbot to Support Basic Students Questions.
CN114282542B (en) Network public opinion monitoring method and equipment
Lapesa et al. Analysis of political debates through newspaper reports: methods and outcomes
Kara et al. Job recommendation based on extracted skill embeddings
Panahandeh Nigjeh et al. Leveraging ParsBERT for cross-domain polarity sentiment classification of Persian social media comments
Wu English Vocabulary Learning Aid System Using Digital Twin Wasserstein Generative Adversarial Network Optimized With Jelly Fish Optimization Algorithm
Shafi et al. Query intent recognition by integrating latent dirichlet allocation in conditional random field
Vysotska et al. Information technology for textual content author’s gender and age determination based on machine learning
Goossens et al. Extracting decision dependencies and decision logic from text using deep learning techniques
Stańczyk Weighting of features by sequential selection
Dong et al. Extending sparse text with induced domain-specific lexicons and embeddings: A case study on predicting donations
Youssef et al. GQM-based tree model for automatic recommendation of design pattern category
Oliseenko et al. Big Five: What User Posts Say?

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

R17-X000 Change to representative recorded

St.27 status event code: A-3-3-R10-R17-oth-X000

D13-X000 Search requested

St.27 status event code: A-1-2-D10-D13-srh-X000

D14-X000 Search report completed

St.27 status event code: A-1-2-D10-D14-srh-X000

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601