CN111241397A - 一种内容推荐方法、装置和计算设备 - Google Patents
一种内容推荐方法、装置和计算设备 Download PDFInfo
- Publication number
- CN111241397A CN111241397A CN202010022607.5A CN202010022607A CN111241397A CN 111241397 A CN111241397 A CN 111241397A CN 202010022607 A CN202010022607 A CN 202010022607A CN 111241397 A CN111241397 A CN 111241397A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- word
- content
- user
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B7/00—Electrically-operated teaching apparatus or devices working with questions and answers
- G09B7/02—Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种内容推荐方法,适于在计算设备中执行,包括步骤:响应于用户的生词本学习操作,提取用户在该生词本学习和历史词汇量测试过程中对所出现的各单词的答题特征,构成答题特征序列;将答题特征序列输入到预先训练好的词汇量预测模型中,得到用户对词表中每个单词的正确答题概率;基于所得到的每个单词的正确答题概率计算用户的当前词汇量水平;获取多篇待推荐的候选内容,并计算各候选内容的难度等级;以及选取难度等级与用户的当前词汇量水平相匹配的候选内容来进行推荐。本发明公开了对应的内容推荐装置和计算设备。
Description
技术领域
本发明涉及计算机和科学技术领域,尤其涉及一种内容推荐方法、装置和计算设备。
背景技术
随着在线教育的发展,使用互联网学习英语阅读的人急速增多,为用户提供英文内容的阅读产品和服务也逐渐变多。传统的内容推荐包括基于内容的推荐和基于协同过滤的推荐技术,主要根据用户的标签或关注过的文章进行个性化推荐,这类推荐方法在兴趣维度的推荐效果较好。
而对于英文阅读的细分场景,仅仅基于兴趣的推荐,无法满足用户的学习需求。经常出现用户对文章内容感兴趣,但文章难度过大,导致用户体验过差、无法使用和学习。现有部分方案中,是根据用户的单词量测试结果推荐英文文章,但测试之后默认用户的英文水平不变,而并未考虑到用户的英文阅读水平是动态提升的过程,所以现有方案只能满足初步的基于难度的文章推荐。
发明内容
鉴于上述问题,本发明提出了一种内容推荐方法、装置和计算设备,以力图解决或者至少解决上面存在的问题。
根据本发明的一个方面,提供了一种内容推荐方法,适于在计算设备中执行,包括步骤:响应于用户的生词本学习操作,提取用户在该生词本学习和历史词汇量测试过程中对所出现的各单词的答题特征,构成答题特征序列;将答题特征序列输入到预先训练好的词汇量预测模型中,得到用户对词表中每个单词的正确答题概率;基于所得到的每个单词的正确答题概率计算用户的当前词汇量水平;获取多篇待推荐的候选内容,并计算各候选内容的难度等级;以及选取难度等级与用户的当前词汇量水平相匹配的候选内容来进行推荐。
可选地,在根据本发明的内容推荐方法中,所出现的各单词为生词本和历史词汇量测试中所有单词的并集;答题特征包括单词是否回答正确、单词的首次回答用时、单词的答题次数、答题操作是直接回答还是求助提示信息、以及先验单词等级中的至少一种。
可选地,在根据本发明的内容推荐方法中,还包括词汇量预测模型的训练步骤:采集多个用户对词表中各单词的答题特征,并将该答题特征输入到待训练的词汇量预测模型中,得到预测答题概率;基于该预测答题概率和用户的实际答题结果,对该词汇量预测模型进行训练,得到训练好的模型。
可选地,在根据本发明的内容推荐方法中,计算各候选内容的难度等级的步骤包括:对各候选内容进行分段和分句处理后,提取每句话的语法结构;基于所提取的语法结构计算各候选内容的内容特征,并将该内容特征输入到预先训练好的难度预测模型中,得到各候选内容的难度等级。
可选地,在根据本发明的内容推荐方法中,还包括难度预测模型的训练步骤:获取多篇标注有难度等级的内容,并对各内容进行分段和分句处理后,提取每句话的语法结构;基于所提取的语法结构计算各内容的内容特征,并基于该内容特征及其对应的难度等级,对构建好的难度预测模型进行训练,得到训练好的模型。
可选地,在根据本发明的内容推荐方法中,内容特征包括基础统计特征、词汇语义特征、句子语法树特征和命名实体识别特征中的至少一种。
可选地,在根据本发明的内容推荐方法中,基础统计特征包括平均每段句子数、平均每句单词数、平均每个单词音节数、可读性指标中的至少一种;词汇语义特征包括类符与形符比、单词难度分布比例和词性变化度中的至少一种;句子语法树特征包括平均语法树深度和/或平均每句从句个数;命名实体识别特征包括命名实体个数和/或命名实体占比。
可选地,在根据本发明的内容推荐方法中,在对各内容进行分段和分句处理之前,还包括步骤:对各内容进行数据清洗和数据增强处理。
可选地,在根据本发明的内容推荐方法中,数据清洗包括非法字符替换和/或内容格式整理;数据增强包括同义词替换、随机插入、随机交换和随机删除中的至少一种。
可选地,在根据本发明的内容推荐方法中,还包括步骤:在推荐给用户的内容中,基于用户的当前词汇量水平,自动标注该内容中待学习的单词。
可选地,在根据本发明的内容推荐方法中,待学习的词汇中包括所述词表中正确答题概率小于等于一定数值的单词。
根据本发明的又一个方面,提供了一种内容推荐装置,适于驻留在计算设备,包括:特征提取模块,适于响应于用户的生词本学习操作,提取用户在该生词本学习和历史词汇量测试过程中对所出现的各单词的答题特征,构成答题特征序列;概率预测模块,适于将答题特征序列输入到预先训练好的词汇量预测模型中,得到用户对词表中每个单词的正确答题概率;词汇量计算模块,适于基于所得到的每个单词的正确答题概率计算用户的当前词汇量水平;难度计算模块,适于获取多篇待推荐的候选内容,并计算各候选内容的难度等级;以及内容推荐模块,适于选取难度等级与用户的当前词汇量水平相匹配的候选内容来进行推荐。
根据本发明的又一个方面,提供了一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,该程序指令被配置为适于由所述至少一个处理器执行,程序指令包括用于执行如上所述的内容推荐方法的指令。
根据本发明的又一个方面,提供了一种存储有程序指令的可读存储介质,当该程序指令被计算设备读取并执行时,使得该计算设备执行如上所述的内容推荐方法。
根据本发明的技术方案,在基于单词量测试的结果上,每当用户进行了生词本学习操作,即可动态计算用户的当前词汇量水平,从而可以动态获得系统推荐的、符合用户水平的外文阅读内容,有助于用户循序渐进提高外文阅读能力的效率,提高用户体验。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的结构框图;
图2示出了根据本发明一个实施例的内容推荐方法200的流程图;
图3示出了根据本发明一个实施例的生词本学习的示意图;
图4示出了根据本发明一个实施例的内容难度预测过程的示意图;
图5示出了根据本发明一个实施例的为用户所推荐内容的示意图;
图6示出了根据本发明一个实施例的在内容中标注待学习词汇的示意图;
图7示出了根据本发明一个实施例的内容推荐装置700的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令,在根据本发明的计算设备100中,程序数据124包含用于执行内容推荐方法200的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100被配置为执行根据本发明的内容推荐方法200。
图2示出了根据本发明一个实施例的内容推荐方法200,在计算设备中执行,如在计算设备100中执行。如图2所示,该方法始于步骤S210。
在步骤S210,响应于用户的生词本学习操作,提取用户在该生词本学习和历史词汇量测试过程中对所出现的各单词的答题特征,构成答题特征序列。
一般地,用户在软件上学习某外文语言(如英文、日文、法语等)时,会在该软件上进行一次或多次该语言的词汇量测试,软件会向用户推荐该外文语言的内容(文章或书籍)供用户学习。用户在学习过程中会将不认识的单词加入到生词本中,以便后续在生词本中复习该单词,如图3所示。词汇量测试和生词本学习,可以选择题的方式进行,一种选项方式是给出多个备选词义供用户选择,如给出A、B、C三个选项,另可给出一个提示选项,选择正确则答题结果标记为1,选择错误或求助提示信息则答题结果标记为0。另一种选项方式包括“认识”和“不认识”,用户点击“认识”选项,代表其了解该单词,答题结果标记为1。反之,用户点击“不认识”选项,则代表用户求助提示信息,软件会显示正确词义,答题结果标记为0。
其中,生词本学习和历史词汇量测试过程中所出现的各单词为生词本和历史词汇量测试中所有单词的并集。假设历史单词量测试中出现了200个单词,生词本中有100个单词,这些词之间不重复,则所出现的单词即为加起来的这300个词。相对应地,答题特征序列即为这300个词的答题特征所组成的序列。对于每个词来说,其答题特征包括单词是否回答正确、单词的首次回答用时、单词的答题次数、第几次答题、答题操作是直接回答还是求助提示信息、以及先验单词等级中的至少一种。
每种答题特征可以转换为一个编码标识,如单词是否正确表示为01编码、首次回答用户表示为时长的数值、答题操作也可表示为01编码。将这些特征进行拼接后可以得到每个单词的词向量表示,而所有单词的词向量表示即为用户当前的答题特征序列。
随后,在步骤S220中,将答题特征序列输入到预先训练好的词汇量预测模型中,得到用户对词表中每个单词的正确答题概率。
这里,词汇量预测模型能够基于一定数量的单词的答题特征序列,输出词表中每个单词的正确答题概率,该正确答题概率为一个[0,1]之间的概率值。输入项中对单词数目不作限制,不同用户可以有不同的单词数目,如用户A中有300个单词的特征序列,用户B有400个单词的特征序列。对于不同数目的输入项,输出项均统一为词表中每个单词的正确答题概率。词表中例如可以有2万个词,当然不限于此,本发明对此不作限制。
当然,计算设备中还可以维护一个代表性词库,该词库中有多个代表性单词(例如有100个单词,当然不限于此),这些代表性单词必然曾出现于用户的词汇量测试和/或生词本中,基于这些代表性单词即可输出词表中每个单词的正确答题概率。一般地,当用户完成生词本学习后,即可提取这些代表性单词的答题特征,构成答题特征序列,之后输入到词汇量预测模型中进行预测。
根据一个实施例,方法200还包括词汇量预测模型的训练步骤:采集多个用户对词表中各单词的答题特征,并将该答题特征输入到待训练的词汇量预测模型中,得到预测答题概率。之后,基于该预测答题概率和用户的实际答题结果,对该词汇量预测模型进行训练,得到训练好的模型。作为优选地,词汇量预测模型为循环神经网络模型(RNN),该模型包括输入层、LSTM层和输出层。该模型的详细结构参数,本领域技术人员可以根据需要自行设定,本发明对此不作限制。
一般地,数据库中存储有数千万用户对不同单词的测试特征,每个用户所测试的单词可能不同,一般每个用户会测试词表中的一部分单词。但考虑到人的答题错误的相似性,且各单词之间具有一定的勾连关系,因此可认为数据库中覆盖有词表中每个单词的答题特征,包括是否正确回答的标签、以及答题用时、答题次数、答题操作等特征。基于这些标签和特征,即可对模型进行训练,使模型输出的正确答题概率尽量接近这些标签数据。假设有三千万的用户量测试数据,每个用户测试100个单词,则可汇总所有用户的所有单词的答题特征,构成一个序列长度极长的答题特征序列。这样可选取该序列的80%数据作为训练集来对词汇量预测模型进行训练,剩下的20%数据作为测试集来验证模型。
进一步地,本发明还可以训练多个用户等级的词汇量预测模型。用户注册时一般会提交其外文等级选项,如用户选择当前水平为六级,则默认用户为该等级。之后,在模型训练过程中,提取每种外文等级的用户的所有答题特征,构成该外文等级所对应的模型的训练集,来对模型进行训练,得到对应等级的词汇量预测模型。例如,提取所有六级用户的所有答题特征,训练出六级难度的词汇量预测模型。
当用户注册时提其交外文等级选项后,在后续的词汇量测试和生词本学习过程中,优先将答题特征序列输入到高于或等于用户提交的外文等级的词汇量预测模型中。考虑到用户实际水平和注册水平可能不一致,例如用户在注册账户前长时间未学习而导致外文水平的下降,或长期学习后提升了外文水平,因此在选择输入的模型时,可选择以下三种模型进行词汇量预测:比用户注册等级低一级的模型、与用户注册等级相同的模型、以及比用户注册等级高一级的模型。之后,从多个模型中选取输出准确度最高的预测结果,作为用户的最终预测结果。
随后,在步骤S230中,基于所得到的每个单词的正确答题概率计算用户的当前词汇量水平。
在一种实现方式中,设词表中单词数目为a,所有单词的正确答题概率之和为b,则用户的当前词汇量水平为a*b。在另一种实现方式中,统计正确答题概率大于预定阈值(例如0.7,当然不限于此)的单词数目,该数目即可认为是用户的当前词汇量水平。当然还可以设置其他单词总数计算方法,本发明对此不作限制,例如还可以设置每种答题概率所对应的权重,如正确答题概率在0.9以上的词汇权重、答题概率在[0.8,0.9]之间的词汇权重,再基于该答题概率与对应的权重,计算其词汇量。
随后,在步骤S240中,获取多篇待推荐的候选内容,并计算各候选内容的难度等级。
其中,内容可以为文章和/或书籍,相对应的候选内容为候选文章和/或候选书籍。多篇待推荐的候选内容,可以基于用户画像进行获取,如基于用户的兴趣标签、历史浏览记录、收藏记录等,从推荐系统中获取多篇排名比较靠前的文章。
另外,候选内容的难度等级可以根据以下步骤计算:对各候选内容进行分段和分句处理后,提取每句话的语法结构;基于所提取的语法结构计算各候选内容的内容特征,并将该内容特征输入到预先训练好的难度预测模型中,得到各候选内容的难度等级。
这里,难度预测模型能够基于内容的内容特征,输出内容的难度等级。其中,难度等级可包括高考、四级、六级、考研、雅思&托福&专四、SAT&专八、GRE中的至少一个等级,如包括这完整七个等级(对应标记为R0-R6)。内容特征包括基础统计特征、词汇语义特征、句子语法树特征和命名实体识别特征中的至少一种。
具体而言,基础统计特征包括平均每段句子数、平均每句单词数、平均每个单词音节数、可读性指标中的至少一种。可读性指标代表文章等内容的易读性,其可包括Flesch-Kincaid可读性指标和Coleman-Liau可读性指标等。词汇语义特征包括类符与形符比(TTR,Type-token ratio)、单词难度分布比例和词性变化度(不同词性的词占所有标记的比例)中的至少一种。其中TTR中类符一般指文章等内容中的单词种类,而形符一般指文章所有单词数目。词性变化度例如形容词、副词、动词的变化度。句子语法树特征包括平均语法树深度和/或平均每句从句个数。命名实体识别特征包括命名实体个数和/或命名实体占比。应当理解的是,这里只示例性的示出了部分内容特征,实际还可以加入其他多种内容特征,本发明对该内容特征的总数不作限制。一般地,内容特征共可包括92种特征。
在此基础上,方法200还包括难度预测模型的训练步骤:获取多篇标注有难度等级的内容,并对各内容进行分段和分句处理后,提取每句话的语法结构;基于所提取的语法结构计算各内容的内容特征,并基于该内容特征及其对应的难度等级,对构建好的难度预测模型进行训练,得到训练好的模型。其中,分段和分句处理为目前比较成熟的技术,本领域技术人员可以根据需要自行选定分段和分句方法进行实现。
可选地,在对各内容(如前文中的候选内容或用于训练模型的内容)进行分段和分句处理之前,还可以对各内容进行数据清洗和数据增强处理。其中,数据清洗包括非法字符替换和/或内容格式整理,如清除文章的html代码、去除停止词(a、an、the等冠词)等。数据增强包括同义词替换、随机插入、随机交换和随机删除中的至少一种,分别代表将某个词替换为同义词、随机插入某个词、随机交换两个词、随机删除某个词。
内容难度预测过程的简略示意图如图4所示,其中该难度预测模型可以为决策树分类模型。应当理解的是,存在多种分类模型的实现方法,所有能够基于内容特征输出难度等级的分类模型,均在本发明的保护范围之内。而关于该决策树分类模型的详细结构和参数,本领域技术人员可以根据需要自行设定,本发明对此不作限制。
随后,在步骤S250中,选取难度等级与用户的当前词汇量水平相匹配的候选内容来进行推荐。
一般地,本发明可以基于词汇量水平进行推荐,例如对词汇量500以内的推荐一种难度的文章,对词汇量500-1000的推荐另一难度,2000-4000的推荐更高难度的。而不同的词汇量水平代表不同的外文等级,例如四级水平对应有词汇量范围,六级水平也对应有词汇量范围,等等。因此本发明也可以基于词汇量水平所对应的外文等级来进行推荐。当用户为四级水平时,向其推荐四级难度的文章,当用户为六级水平时,向其推荐六级难度的文章,如图5所示。
另外,步骤S250中,还可以在推荐给用户的内容中,基于用户的当前词汇量水平,自动标注该内容中待学习的单词,如图6所示。其中待学习的单词中包括词表中正确答题概率小于等于第一数值(如60%,当然不限于此)的单词。答题概率小于等于该数值,一般可认为用户对该单词的熟悉度偏低,需要进行学习,因此在推荐文章中进行标注。进一步地,待学习的单词中不包括正确答题概率大于等于第二数值(如90%,当然不限于此)的单词,此时一般认为用户对这些单词比较熟悉,因此不进行标注。
图7示出了根据本发明一个实施例的内容推荐装置700的结构框图,该装置可以驻留在计算设备中,如驻留在计算设备700中。如图7所示,装置700包括:特征提取模块710、概率预测模块720、词汇量计算模块730、难度计算模块740和内容推荐模块750。
特征提取模块710响应于用户的生词本学习操作,提取用户在该生词本学习和历史词汇量测试过程中对所出现的各单词的答题特征,构成答题特征序列。特征提取模块710可以进行与上面在步骤S210中描述的处理相对应的处理,这里不再展开赘述。
概率预测模块720将答题特征序列输入到预先训练好的词汇量预测模型中,得到用户对词表中每个单词的正确答题概率。概率预测模块720可以进行与上面在步骤S220中描述的处理相对应的处理,这里不再展开赘述。
词汇量计算模块730基于所得到的每个单词的正确答题概率计算用户的当前词汇量水平。词汇量计算模块730可以进行与上面在步骤S230中描述的处理相对应的处理,这里不再展开赘述。
难度计算模块740获取多篇待推荐的候选内容,并计算各候选内容的难度等级。根据一个实施例,难度计算模块740对各候选内容进行分段和分句处理后,提取每句话的语法结构。之后,基于所提取的语法结构计算各候选内容的内容特征,并将该内容特征输入到预先训练好的内容难度预测模型中,得到各候选内容的难度等级。难度计算模块740在对内容进行分段和分句之前,还对各内容进行数据清洗和数据增强处理。难度计算模块740可以进行与上面在步骤S240中描述的处理相对应的处理,这里不再展开赘述。
内容推荐模块750选取难度等级与用户的当前词汇量水平相匹配的候选内容来进行推荐。根据一个实施例,内容推荐模块750还可以在推荐给用户的内容中,基于用户的当前词汇量水平,自动标注该内容中待学习的单词。其中,待学习的词汇中包括词表中正确答题概率小于等于一定数值的单词。内容推荐模块750可以进行与上面在步骤S250中描述的处理相对应的处理,这里不再展开赘述。
根据一个实施例,装置700还可以包括第一模型训练模块(图中未示出),适于采集多个用户对词表中各单词的答题特征,并将该答题特征输入到待训练的词汇量预测模型中,得到预测答题概率。之后,基于该预测答题概率和用户的实际答题结果,对该词汇量预测模型进行训练,得到训练好的模型。
根据一个实施例,装置700还可以包括第二模型训练模块(图中未示出),适于获取多篇标注有难度等级的内容,并对各内容进行分段和分句处理后,提取每句话的语法结构。之后,基于所提取的语法结构计算各内容的内容特征,并基于该内容特征及其对应的难度等级,对构建好的难度预测模型进行训练,得到训练好的模型。
根据本发明的技术方案,基于用户阅读过程中的学习行为,获得用户的实时词汇量和英文水平,动态推荐适合用户阅读的英文内容(文章和书籍)和词汇标注。用户只需要持续使用本发明的内容推荐系统、生词本学习、词汇标注功能,无须反复进行单词量测试,就可以持续提升的英文阅读能力。
A8、如A4或A5所述的方法,其中,在对各内容进行分段和分句处理之前,还包括步骤:对各内容进行数据清洗和数据增强处理。A9、如A8所述的方法,其中,所述数据清洗包括非法字符替换和/或内容格式整理;所述数据增强包括同义词替换、随机插入、随机交换和随机删除中的至少一种。A10、如A4所述的方法,其中,所述内容为文章和/或书籍,所述词汇量预测模型为循环神经网络模型,所述难度预测模型为决策树分类模型。A11、如A1-A10中任一项所述的方法,还包括步骤:在推荐给用户的内容中,基于用户的当前词汇量水平,自动标注该内容中待学习的单词。A12、如A11所述的方法,其中,所述待学习的词汇中包括所述词表中正确答题概率小于等于一定数值的单词。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的内容推荐方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种内容推荐方法,适于在计算设备中执行,包括步骤:
响应于用户的生词本学习操作,提取用户在该生词本学习和历史词汇量测试过程中对所出现的各单词的答题特征,构成答题特征序列;
将所述答题特征序列输入到预先训练好的词汇量预测模型中,得到用户对词表中每个单词的正确答题概率;
基于所得到的每个单词的正确答题概率计算用户的当前词汇量水平;
获取多篇待推荐的候选内容,并计算各候选内容的难度等级;以及
选取难度等级与用户的当前词汇量水平相匹配的候选内容来进行推荐。
2.如权利要求1所述的方法,其中,
所述所出现的各单词为生词本和历史词汇量测试中所有单词的并集;
所述答题特征包括单词是否回答正确、单词的首次回答用时、单词的答题次数、答题操作是直接回答还是求助提示信息、以及先验单词等级中的至少一种。
3.如权利要求1或2所述的方法,还包括所述词汇量预测模型的训练步骤:
采集多个用户对词表中各单词的答题特征,并将该答题特征输入到待训练的词汇量预测模型中,得到预测答题概率;
基于该预测答题概率和用户的实际答题结果,对该词汇量预测模型进行训练,得到训练好的模型。
4.如权利要求1-3中任一项所述的方法,其中,所述计算各候选内容的难度等级的步骤包括:
对各候选内容进行分段和分句处理后,提取每句话的语法结构;
基于所提取的语法结构计算各候选内容的内容特征,并将该内容特征输入到预先训练好的难度预测模型中,得到各候选内容的难度等级。
5.如权利要求4所述的方法,还包括所述难度预测模型的训练步骤:
获取多篇标注有难度等级的内容,并对各内容进行分段和分句处理后,提取每句话的语法结构;
基于所提取的语法结构计算各内容的内容特征,并基于该内容特征及其对应的难度等级,对构建好的难度预测模型进行训练,得到训练好的模型。
6.如权利要求4或5所述的方法,其中,所述内容特征包括基础统计特征、词汇语义特征、句子语法树特征和命名实体识别特征中的至少一种。
7.如权利要求6所述的方法,其中,
所述基础统计特征包括平均每段句子数、平均每句单词数、平均每个单词音节数、可读性指标中的至少一种;
所述词汇语义特征包括类符与形符比、单词难度分布比例和词性变化度中的至少一种;
所述句子语法树特征包括平均语法树深度和/或平均每句从句个数;
所述命名实体识别特征包括命名实体个数和/或命名实体占比。
8.一种内容推荐装置,适于驻留在计算设备,包括:
特征提取模块,适于响应于用户的生词本学习操作,提取用户在该生词本学习和历史词汇量测试过程中对所出现的各单词的答题特征,构成答题特征序列;
概率预测模块,适于将所述答题特征序列输入到预先训练好的词汇量预测模型中,得到用户对词表中每个单词的正确答题概率;
词汇量计算模块,适于基于所得到的每个单词的正确答题概率计算用户的当前词汇量水平;
难度计算模块,适于获取多篇待推荐的候选内容,并计算各候选内容的难度等级;以及
内容推荐模块,适于选取难度等级与用户的当前词汇量水平相匹配的候选内容来进行推荐。
9.一种计算设备,包括:
至少一个处理器;以及
包括计算机程序指令的至少一个存储器;
所述至少一个存储器和所述计算机程序指令被配置为与所述至少一个处理器一起使得所述计算设备执行如权利要求1-7中任一项所述的方法。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由服务器执行时,使得所述服务器执行根据权利要求1-7中所述的方法中的任一方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010022607.5A CN111241397A (zh) | 2020-01-09 | 2020-01-09 | 一种内容推荐方法、装置和计算设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010022607.5A CN111241397A (zh) | 2020-01-09 | 2020-01-09 | 一种内容推荐方法、装置和计算设备 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN111241397A true CN111241397A (zh) | 2020-06-05 |
Family
ID=70870917
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010022607.5A Pending CN111241397A (zh) | 2020-01-09 | 2020-01-09 | 一种内容推荐方法、装置和计算设备 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111241397A (zh) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111861370A (zh) * | 2020-06-19 | 2020-10-30 | 北京国音红杉树教育科技有限公司 | 一种词听最佳复习时间规划的方法及装置 |
| CN112364152A (zh) * | 2020-11-09 | 2021-02-12 | 上海束水智能科技有限公司 | 一种响应式学习辅助的方法、系统及设备 |
| CN114647721A (zh) * | 2022-05-23 | 2022-06-21 | 风林科技(深圳)有限公司 | 教育智能机器人控制方法、设备及介质 |
| CN116070625A (zh) * | 2021-10-29 | 2023-05-05 | 广州视源电子科技股份有限公司 | 词汇量预测方法、装置、存储介质以及计算机设备 |
| CN116189490A (zh) * | 2022-12-07 | 2023-05-30 | 网易有道信息技术(杭州)有限公司 | 可视化教学方法、装置、设备及存储介质 |
| CN116259199A (zh) * | 2023-05-11 | 2023-06-13 | 南京汉卫教育科技有限公司 | 基于大数据语音交互的语言自主学习系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107506346A (zh) * | 2017-07-10 | 2017-12-22 | 北京享阅教育科技有限公司 | 一种基于机器学习的中文阅读难度分级方法及系统 |
| CN110188187A (zh) * | 2019-06-04 | 2019-08-30 | 成都终身成长科技有限公司 | 文章推荐方法及装置、存储介质 |
| CN110472227A (zh) * | 2019-07-05 | 2019-11-19 | 平安国际智慧城市科技股份有限公司 | 一种词汇掌握程度评估方法、装置、终端设备及存储介质 |
-
2020
- 2020-01-09 CN CN202010022607.5A patent/CN111241397A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107506346A (zh) * | 2017-07-10 | 2017-12-22 | 北京享阅教育科技有限公司 | 一种基于机器学习的中文阅读难度分级方法及系统 |
| CN110188187A (zh) * | 2019-06-04 | 2019-08-30 | 成都终身成长科技有限公司 | 文章推荐方法及装置、存储介质 |
| CN110472227A (zh) * | 2019-07-05 | 2019-11-19 | 平安国际智慧城市科技股份有限公司 | 一种词汇掌握程度评估方法、装置、终端设备及存储介质 |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111861370A (zh) * | 2020-06-19 | 2020-10-30 | 北京国音红杉树教育科技有限公司 | 一种词听最佳复习时间规划的方法及装置 |
| CN111861370B (zh) * | 2020-06-19 | 2024-02-06 | 北京国音红杉树教育科技有限公司 | 一种词听最佳复习时间规划的方法及装置 |
| CN112364152A (zh) * | 2020-11-09 | 2021-02-12 | 上海束水智能科技有限公司 | 一种响应式学习辅助的方法、系统及设备 |
| CN116070625A (zh) * | 2021-10-29 | 2023-05-05 | 广州视源电子科技股份有限公司 | 词汇量预测方法、装置、存储介质以及计算机设备 |
| CN116070625B (zh) * | 2021-10-29 | 2025-08-26 | 广州视源电子科技股份有限公司 | 词汇量预测方法、装置、存储介质以及计算机设备 |
| CN114647721A (zh) * | 2022-05-23 | 2022-06-21 | 风林科技(深圳)有限公司 | 教育智能机器人控制方法、设备及介质 |
| CN116189490A (zh) * | 2022-12-07 | 2023-05-30 | 网易有道信息技术(杭州)有限公司 | 可视化教学方法、装置、设备及存储介质 |
| CN116259199A (zh) * | 2023-05-11 | 2023-06-13 | 南京汉卫教育科技有限公司 | 基于大数据语音交互的语言自主学习系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
| CN101566998B (zh) | 一种基于神经网络的中文问答系统 | |
| CN111241397A (zh) | 一种内容推荐方法、装置和计算设备 | |
| KR20230171234A (ko) | 사용자 참여 기반의 질의응답 서비스 제공방법 및 이를 위한 장치 | |
| WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
| KR102206781B1 (ko) | 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치 | |
| CN112182145B (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
| CN117520523A (zh) | 数据处理方法、装置、设备及存储介质 | |
| CN116662518A (zh) | 问答方法、装置、电子设备及可读存储介质 | |
| CN106682387A (zh) | 用于输出信息的方法和装置 | |
| CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
| CN116341519B (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
| CN115114919A (zh) | 呈现提示信息的方法和装置以及存储介质 | |
| CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
| CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
| CN116127367A (zh) | 服务评价的审核方法、装置以及计算机可读存储介质 | |
| CN113705207A (zh) | 语法错误识别方法及装置 | |
| CN115221284B (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
| CN113268651B (zh) | 一种搜索信息的摘要自动生成方法及装置 | |
| Dündar et al. | A Hybrid Approach to Question-answering for a Banking Chatbot on Turkish: Extending Keywords with Embedding Vectors. | |
| CN113782123A (zh) | 一种基于网络数据的在线医疗患者满意度测量方法 | |
| CN113688633A (zh) | 一种提纲确定方法及装置 | |
| CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
| CN115563240B (zh) | 文档处理方法、文档摘要生成方法及装置 | |
| CN114491265B (zh) | 一种经营性空间平台运营服务系统的构建方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200605 |
|
| RJ01 | Rejection of invention patent application after publication |