一种基于主要症状与伴随症状词的疾病认知系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于主要症状与伴随症状词的疾病认知系统。
背景技术
每个疾病都有其特定的病因和病理,特别是都有一定的发展演变规律,并且表现出不同的临床症状特征信息。临床症状特征信息是患者因疾病而表现出来的不正常状态。每个人年龄、性别、体质不同,即使患同一种疾病,其症状也不同。疾病初期、中期、晚期的症状,也呈现出阶段性变化。
近年来,相关专家开始研究通过临床症状特征信息来推导和预测疾病的方法。比如,基于临床症状的特征权重推导疾病概率方法等,但是这些方法对于人工依赖比较大,并且精确度不够高,速度较慢,所以亟需一种基于主要症状与伴随症状词的疾病认知系统,能够提高疾病认知速度以及精确度。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
有鉴于此,本发明提出了一种基于主要症状与伴随症状词的疾病认知系统,旨在解决现有技术无法通过二次提取特征词以及Jaccard系数相似性定理来提高疾病认知的精确度的技术问题。
本发明的技术方案是这样实现的:
一方面,本发明提供了一种基于主要症状与伴随症状词的疾病认知系统,所述基于主要症状与伴随症状词的疾病认知系统包括:
数据获取模块,用于获取疾病特征信息以及对应症状特征信息,根据该疾病特征信息以及对应的症状特征信息建立疾病知识数据库;
特征提取模块,用于获取待识别临床症状特征信息,通过TF-IDF从待识别临床症状特征信息中提取疾病特征分词以及对应的症状特征分词,根据该疾病特征分词以及对应的症状特征分词获取待识别疾病特征词以及对应的待识别症状特征词;
匹配模块,用于将待识别疾病特征词与疾病特征信息进行匹配,获取待识别疾病特征词与疾病特征信息之间的匹配相似度,根据该匹配相似度从疾病知识数据库中查找与疾病特征信息对应的症状特征信息;
认知模块,用于建立Jaccard系数相似性算法,通过Jaccard系数相似性算法计算待识别症状特征词与症状特征信息之间的相似性,并生成对应认知报告。
在以上技术方案的基础上,优选的,数据获取模块包括数据集建立模块,用于获取疾病特征信息以及对应的症状特征信息,所述疾病特征信息包括:疾病特征词,症状特征信息包括:主要症状特征词以及伴随症状特征词,根据疾病特征信息以及该症状特征信息建立不同的特征词集合,包括:疾病特征词集合、主要症状特征词集合以及伴随症状特征词集合。
在以上技术方案的基础上,优选的,数据获取模块还包括数据库建立模块,用于根据疾病特征信息以及对应症状特征信息之间的对应关系建立疾病特征信息与对应症状特征信息的关系表,将该特征词集合与关系表组合,作为疾病知识数据库。
在以上技术方案的基础上,优选的,特征提取模块包括特征分词提取模块,用于获取待识别临床症状特征信息,所述待识别临床症状特征信息包括:疾病文本描述以及对应的症状文本描述,利用TF-IDF从待识别临床症状特征信息中提取各个词条的出现频率数据,设定出现频率阈值,将各个词条的出现频率数据与出现频率阈值进行比较,将出现频率数据大于出现频率阈值的词条作为特征分词。
在以上技术方案的基础上,优选的,特征提取模块包括特征词提取模块,用于设定常用词库,根据该常用词库对特征分词进行筛选,将筛选出的常用词从对应的特征分词中删除,保留剩余特征分词作为待识别疾病特征词。
在以上技术方案的基础上,优选的,匹配模块包括匹配计算模块,用于设定匹配相似度阈值,将疾病特征词集合中的各特征词与待识别疾病特征词进行匹配计算,计算出对应的匹配相似度,将该匹配相似度与匹配相似度阈值进行比较,当该匹配相似度大于匹配相似度阈值时,对疾病特征词集合中的特征词进行标记,并通过该特征词从疾病知识数据库查询对应的症状特征信息。
在以上技术方案的基础上,优选的,认知模块包括计算认知模块,用于建立Jaccard系数相似性算法,设定相似性阈值,通过Jaccard系数相似性算法计算待识别症状特征词与症状特征信息之间的相似性,将该相似性与相似性阈值进行比较,当相似性大于相似性阈值时,生成对应的认知报告。
更进一步优选的,所述基于主要症状与伴随症状词的疾病认知设备包括:
数据获取单元,用于获取疾病特征信息以及对应症状特征信息,根据该疾病特征信息以及对应的症状特征信息建立疾病知识数据库;
特征提取单元,用于获取待识别临床症状特征信息,通过TF-IDF从待识别临床症状特征信息中提取疾病特征分词以及对应的症状特征分词,根据该疾病特征分词以及对应的症状特征分词获取待识别疾病特征词以及对应的待识别症状特征词;
匹配单元,用于将待识别疾病特征词与疾病特征信息进行匹配,获取待识别疾病特征词与疾病特征信息之间的匹配相似度,根据该匹配相似度从疾病知识数据库中查找与疾病特征信息对应的症状特征信息;
认知单元,用于建立Jaccard系数相似性算法,通过Jaccard系数相似性算法计算待识别症状特征词与症状特征信息之间的相似性,并生成对应认知报告。
本发明的一种基于主要症状与伴随症状词的疾病认知系统相对于现有技术具有以下有益效果:
(1)通过关键词匹配方法与Jaccard系数相似性定理构建联合认知模型,通过临床症状词之间语义相似性计算,可以相对准确地预测或评估待诊断症状特征信息与可能的疾病之间的关系,提升了系统认知的精确度,同时提升了用户体验;
(2)通过采用无监督的形式,从已有的症状特征信息库中去自学习症状特征,并智能地进行症状特征信息词对之间语义相似度计算,预测疾病,减少了工作量,避免了人工干涉,实现灵活,实用性强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于主要症状与伴随症状词的疾病认知系统第一实施例的结构框图;
图2为本发明基于主要症状与伴随症状词的疾病认知系统的第二实施例结构框图;
图3为本发明基于主要症状与伴随症状词的疾病认知系统的第三实施例结构框图;
图4为本发明基于主要症状与伴随症状词的疾病认知系统的第四实施例结构框图;
图5为本发明基于主要症状与伴随症状词的疾病认知系统的第五实施例结构框图;
图6为本发明基于主要症状与伴随症状词的疾病认知设备结构框图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,图1为本发明基于主要症状与伴随症状词的疾病认知系统第一实施例的结构框图。其中,所述基于主要症状与伴随症状词的疾病认知系统包括:数据获取模块10、特征提取模块20、匹配模块30和认知模块40。
数据获取模块10,用于获取疾病特征信息以及对应症状特征信息,根据该疾病特征信息以及对应的症状特征信息建立疾病知识数据库;
特征提取模块20,用于获取待识别临床症状特征信息,通过TF-IDF从待识别临床症状特征信息中提取疾病特征分词以及对应的症状特征分词,根据该疾病特征分词以及对应的症状特征分词获取待识别疾病特征词以及对应的待识别症状特征词;
匹配模块30,用于将待识别疾病特征词与疾病特征信息进行匹配,获取待识别疾病特征词与疾病特征信息之间的匹配相似度,根据该匹配相似度从疾病知识数据库中查找与疾病特征信息对应的症状特征信息;
认知模块40,用于建立Jaccard系数相似性算法,通过Jaccard系数相似性算法计算待识别症状特征词与症状特征信息之间的相似性,并生成对应认知报告。
应当理解的是,本实施的执行主体可以为患者或者医生认知状态处理终端中的处理器或者控制器等。
应当理解的是,本实施例的方案如下:首先按照疾病的相关类别,建立某一类别疾病以及该类别下具体疾病临床主要症状与伴随症状特征信息以及相应的疾病知识数据库。该库分别包含该类别疾病以及该类别下具体疾病临床主要症状与伴随症状特征信息向量集(或称为第一词对)以及相应的具体的疾病知识等;
其次,通过利用TF-IDF选取特征项,采集患者待识别的临床症状特征信息,提取其症状特征信息向量集(或称第二对词,里面可能包含临床主症状与伴随症状特征信息向量集),建立待识别的临床症状特征信息向量集;
第三,利用关键词匹配方法,对所述第一对词里面的主要特征信息向量集(即主特征关键词集)与待识别第二词对里面所有特征信息向量集(即特征关键词集)进行相似度匹配;如果第二词对里面特征信息关键词与第一对词里面的主要特征信息向量集(即主特征关键词集)出现相似或者相似概率大,则归为该类别疾病,进行下一步认知;反之,不归为该类别疾病,中止下一步认知;
第四,在明确判别上述类别疾病的基础上,利用Jaccard系数相似性定理,计算所述第一词对伴随症状特征信息向量集与待识别第二词伴随症状特征信息量集关系的相似性。如果相似,给出可能的疾病名称与知识,相反,亦然;最后,再根据患者年龄、性别、体质等因素,进行加权,计算并推导出相对精确的结果,并给出解决方案。
进一步地,如图2所示,基于上述各实施例提出本发明基于主要症状与伴随症状词的疾病认知系统的第二实施例结构框图,在本实施例中,数据获取模块10还包括:
数据集建立模块101,用于获取疾病特征信息以及对应的症状特征信息,所述疾病特征信息包括:疾病特征词,症状特征信息包括:主要症状特征词以及伴随症状特征词,根据疾病特征信息以及该症状特征信息建立不同的特征词集合,包括:疾病特征词集合、主要症状特征词集合以及伴随症状特征词集合;
数据库建立模块102,用于根据疾病特征信息以及对应症状特征信息之间的对应关系建立疾病特征信息与对应症状特征信息的关系表,将该特征词集合与关系表组合,作为疾病知识数据库;
应当理解的是,系统会获取疾病特征信息以及对应的症状特征信息,所述疾病特征信息包括:疾病特征词,症状特征信息包括:主要症状特征词以及伴随症状特征词,根据疾病特征信息以及该症状特征信息建立不同的特征词集合,包括:疾病特征词集合、主要症状特征词集合以及伴随症状特征词集合。
应当理解的是,上述步骤还可以解释为按照疾病的相关类别,建立某一类别疾病以及该类别下具体疾病临床主要症状特征信息与伴随症状特征信息以及相应的疾病知识数据库。该库分别包含该类别疾病以及该类别下具体疾病临床主要症状与伴随症状特征信息向量集(或称为第一词对)以及相应的具体的疾病知识等。
简单地举例,假设一个龟头方面疾病特征点信息M(龟头炎)的描述信息包括“外阴、龟头包皮溃疡、男性、以外阴部为主、龟头部由外伤、刺激或感染等因素引起的炎症、表现为龟头局部红肿、糜烂、溃疡”等;另一个特征点信息N的(急性浅表性包皮龟头炎)描述信息包括“外阴、龟头包皮溃疡、男性、阴茎龟头起病之初、局部皮肤潮红、自觉龟头有灼热感、瘙痒感、翻开包皮可见龟头有水肿性红斑、糜烂、渗液、出血、严重者可出现水疱”等,并且又一个特征点信息Z的(环状溃烂性龟头炎)描述信息包括“外阴、龟头包皮溃疡、男性、阴茎龟头及包皮发生红斑、逐渐扩大、呈环状或多环状、以后形成浅表溃疡面”等,并且又一个特征点信息W的(念珠菌性龟头炎)描述信息包括“外阴、龟头包皮溃疡、男性、阴茎龟头处潮红、炎性丘疹、又或点阵式小红疙瘩、大量密集排列、少许鳞屑或渗出、龟头上有粘稠的分泌物、或有白色伪膜样白膜、自觉瘙痒、烧灼感”等,那么,可以通过上述步骤来聚类所有的描述信息以得到如下“外阴、龟头包皮溃疡、男性等”的词条:“外阴、龟头包皮溃疡、男性、以外阴部为主、龟头部由外伤、刺激或感染等因素引起的炎症、表现为龟头局部红肿、糜烂、溃疡、阴茎龟头起病之初、局部皮肤潮红、自觉龟头有灼热感、瘙痒感、翻开包皮可见龟头有水肿性红斑、糜烂、渗液、出血、严重者可出现水疱、阴茎龟头及包皮发生红斑、逐渐扩大、呈环状或多环状、以后形成浅表溃疡面、阴茎龟头处潮红、炎性丘疹、又或点阵式小红疙瘩、大量密集排列、少许鳞屑或渗出、龟头上有粘稠的分泌物、或有白色伪膜样白膜”等,并归于“龟头炎”一类,从而组成龟头炎主要症状特征信息词典,其他则列入伴随症状特征信息词典。再比如,胃部(一般指胃、腹、胃部、腹部、上腹、上消化道等)系统疾病主要症状特征信息主要有:腹痛、腹胀、嗳气、反酸、厌食、恶心、呕吐、腹部不适、胃部隐痛、食欲不振等;如果说糜烂性胃炎,除了上述症状特征信息外,伴随症状特征信息有:胃黏膜多发性点状或弥漫性充血、糜烂、黑粪、晕厥、休克等;如果是急性化脓性胃炎,除了上述症状特征信息外,伴随症状特征信息有:起病急、胃壁细菌感染引起、常伴寒战、高热,上腹部疼痛、发冷发热、呕吐物为脓血样物、便血等;如果是药物性胃病,除了上述症状特征信息外,伴随症状特征信息有用药不当、用药过程中出现胃部症状等。再比如,食积胃病,除了上述症状特征信息外,伴随症状特征信息有:饮食过量、食用生冷食品等。
应当理解的是,之后系统会根据疾病特征信息以及对应症状特征信息之间的对应关系建立疾病特征信息与对应症状特征信息的关系表,将该特征词集合与关系表组合,主要组合方式就是简单的关联关系,通过特征词集合中的特征词可以从关系表中找到对应的特征词,作为疾病知识数据库。
进一步地,如图3所示,基于上述各实施例提出本发明基于主要症状与伴随症状词的疾病认知系统的第三实施例结构框图,在本实施例中,特征提取模块20还包括:
特征分词提取模块201,用于获取待识别临床症状特征信息,所述待识别临床症状特征信息包括:疾病文本描述以及对应的症状文本描述,利用TF-IDF从待识别临床症状特征信息中提取各个词条的出现频率数据,设定出现频率阈值,将各个词条的出现频率数据与出现频率阈值进行比较,将出现频率数据大于出现频率阈值的词条作为特征分词。
特征词提取模块202,用于设定常用词库,根据该常用词库对特征分词进行筛选,将筛选出的常用词从对应的特征分词中删除,保留剩余特征分词作为待识别疾病特征词。
应当理解的是,系统会获取待识别临床症状特征信息,所述待识别临床症状特征信息包括:疾病文本描述以及对应的症状文本描述,然后利用TF-IDF从待识别临床症状特征信息中提取各个词条的出现频率数据,设定出现频率阈值,将各个词条的出现频率数据与出现频率阈值进行比较,将出现频率数据大于出现频率阈值的词条作为特征分词。
应当理解的是,这一步则是通过利用TF-IDF选取特征项,采集患者待识别的临床症状特征信息,提取其症状特征信息向量集(或称第二对词,里面可能包含临床主症状与伴随症状特征信息向量集),建立待识别的临床症状特征信息向量集。TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。词频(TF)表示词条(关键字)在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。
应当理解的是,由于本实施例中的文章以及词条数较少,获取的特征分词可能存在一定误差,所以,本实施例会设定常用词库,根据该常用词库对特征分词进行筛选,将筛选出的常用词从对应的特征分词中删除,保留剩余特征分词作为待识别疾病特征词,通过这种方式对特征分词进一步提取,得到精确的特征词用于后续计算,这样可以提高系统的精确度。
比如,一个短文本这样描述:常先有皮肤瘙痒,随即出现丘疹、风团,呈鲜红色或苍白色、皮肤色,少数患者有水肿性红斑。皮肤此起彼伏的大斑块,起的发生快,消退的快,会大块的像风疹块,此起彼伏的消退很快的这种皮疹,伴有剧烈的瘙痒。皮疹反复成批发生,以傍晚发作者多见。通过分词技术提取并去重后为特征信息向量集为:红斑、丘疹、风团,伴有剧烈的瘙痒;起的发生快、消退的快;反复成批发生;傍晚发作者多见等,这些则是特征分词,然后对这些特征分词进一步提取得到的特征词则是:红斑、丘疹、风团、剧烈的瘙痒、发生快、消退快、反复、成批发生、傍晚发作者多见。
进一步地,如图4所示,基于上述各实施例提出本发明基于主要症状与伴随症状词的疾病认知系统的第四实施例结构框图,在本实施例中,匹配模块30包括:
匹配计算模块301,用于设定匹配相似度阈值,将疾病特征词集合中的各特征词与待识别疾病特征词进行匹配计算,计算出对应的匹配相似度,将该匹配相似度与匹配相似度阈值进行比较,当该匹配相似度大于匹配相似度阈值时,对疾病特征词集合中的特征词进行标记,并通过该特征词从疾病知识数据库查询对应的症状特征信息。
应当理解的是,最后系统会利用关键词匹配方法,对所述第一对词里面的主要特征信息向量集(即主特征关键词集,因为临床主要症状特征信息往往代表了某一类疾病的主要特征信息)与待识别第二词对里面所有特征信息向量集(即特征关键词集)进行相似度匹配;此处为了方便比较,系统会设定匹配相似度阈值,通过这个相似度阈值来判断相似概率的大小,如果第二词对里面特征信息关键词与第一对词里面的主要特征信息向量集(即主特征关键词集)出现相似或者相似概率大,则归为该类别疾病,进行下一步认知;反之,不归为该类别疾病,中止下一步认知。
例如,皮肤病有很多类别:(1)以红斑、丘疹、风团为主的皮肤病;(2)以增生性丘疹、结节为主的皮肤病;(3)以非瘤性结节、斑块为主的皮肤病;(4)以丘疱疹、疱疹为主的皮肤病;(5)以脓疱为主的皮肤病等等。这里拿第一对词里面的主要特征信息向量集(即主特征关键词集)数据库待识别第二词对里面所有特征信息向量集(即特征关键词集)进行相似度匹配后,就可以发现:他们共同的主要特征信息:红斑、丘疹、风团等,那么,毫无疑问,该待识别特征信息归属于红斑、丘疹、风团为主的皮肤病类别。
应当理解的是,这里的文本描述中的分词或者短语识别和分词或者短语标记的主要方法为:将分词或者短语中的分词与疾病词词库中的分词或者短语进行匹配,若匹配成功则标记该分词或者短语为疾病分词或者短语,否则,标记该分词或者短语为描述分词或者短语;这里描述分词或者短语是指疾病症状描述分词或者短语;疾病词词库包含人体运动系统、消化系统、呼吸系统、泌尿系统、生殖系统、内分泌系统、免疫系统、神经系统、循环系统九大系统中各个类别以及各个疾病症状(或者征兆)分词或者短语。
进一步地,如图5所示,基于上述各实施例提出本发明基于主要症状与伴随症状词的疾病认知系统的第五实施例结构框图,在本实施例中,认知模块40包括:
计算认知模块401,用于建立Jaccard系数相似性算法,设定相似性阈值,通过Jaccard系数相似性算法计算待识别症状特征词与症状特征信息之间的相似性,将该相似性与相似性阈值进行比较,当相似性大于相似性阈值时,生成对应的认知报告。
应当理解的是,最后在明确判别上述类别疾病的基础上,利用Jaccard系数相似性定理,计算所述第一词对伴随症状特征信息向量集与待识别第二词伴随症状特征信息量集关系的相似性。如果相似,给出可能的疾病名称与知识,相反,亦然。比如,上述已经判断出待识别特征信息归属于红斑、丘疹、风团为主的皮肤病类别。那么,只要计算“剧烈的瘙痒;起的发生快、消退的快;反复成批发生;傍晚发作者多见”等伴随症状的相似性就可以了。这里,红斑、丘疹、风团为主的皮肤病有哪些具体的病呢?比如荨麻疹、接触性皮炎、药疹、多形红斑、环形红斑、多形性日光疹、系统性红斑狼疮、丹毒等。利用Jaccard系数相似性定理计算的结果为:该皮肤病为荨麻疹。那么,什么是荨麻疹?荨麻疹俗称风疹块。荨麻疹就是皮肤发生风团样的皮疹,所谓风团就是皮肤此起彼伏的大斑块,起的发生快,消退的快,会大块的像风疹块,此起彼伏的消退很快的这种皮疹,伴有剧烈的瘙痒,我们叫荨麻疹,它是因为皮肤过敏导致的。,然后系统设定相似性阈值,通过Jaccard系数相似性算法计算待识别症状特征词与症状特征信息之间的相似性,将该相似性与相似性阈值进行比较,当相似性大于相似性阈值时,生成对应的认知报告,过这种方式,能够更进一步提高认知诊断的精确度,提升用户体验,此处相似性阈值与上述的相似度阈值都由管理员自行进行设定。
应当理解的是,Jaccard系数是两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数。Jaccard系数等于样本集交集个数和样本集并集个数的比值,用J(A,B)表示。给定两个集合A,B,均含有n个共同的属性,每个属性取值为0或1。具体讲:给定两个集合A,B,Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值,J(A,B)∈[0,1],定义如下:
当集合A,B都为空时,J(A,B)定义为1。与Jaccard系数相关的指标叫做Jaccard距离,用于描述集合之间的不相似度。Jaccard距离越大,样本相似度越低。公式定义如下:
其中,对参差(symmetric difference):AΔB=|A∪B|-|A∩B|,比如:M11为集合A与B的属性值都是1的个数;M01为样本A的属性值是1,且样本B的属性值是0的个数;M10为样本A的属性值是0,且样本B的属性值是1的个数;M00为样本A与B的属性值都是0的个数。则有如下结论:
M11+M01+M10+M00=n,J=M11/(M01+M10+M00);
如果集合A,B均为空集,定义J(A,B)=1。显然0≤J(A,B)≤1。J值越大,两样本相似度越大。n维向量指样本的N维特征,组成一个集合。而集合是由元素组成的,在对应的特征位置,如果样本有该特征,这个位置集合值取1,表示包含该元素;否则,取0,表示不包含该元素。可见,元素=特征。
需要说明的是,以上仅为举例说明,并不对本申请的技术方案构成任何限定。
通过上述描述不难发现,本实施例提出了一种基于主要症状与伴随症状词的疾病认知系统,包括:数据获取模块,用于获取疾病特征信息以及对应症状特征信息,根据该疾病特征信息以及对应的症状特征信息建立疾病知识数据库;特征提取模块,用于获取待识别临床症状特征信息,通过TF-IDF从待识别临床症状特征信息中提取疾病特征分词以及对应的症状特征分词,根据该疾病特征分词以及对应的症状特征分词获取待识别疾病特征词以及对应的待识别症状特征词;匹配模块,用于将待识别疾病特征词与疾病特征信息进行匹配,获取待识别疾病特征词与疾病特征信息之间的匹配相似度,根据该匹配相似度从疾病知识数据库中查找与疾病特征信息对应的症状特征信息;认知模块,用于建立Jaccard系数相似性算法,通过Jaccard系数相似性算法计算待识别症状特征词与症状特征信息之间的相似性,并生成对应认知报告。本实施例通过关键词匹配方法与Jaccard系数相似性定理构建联合认知模型,通过联合认知模型精确对待识别疾病进行认知,提高系统的识别精确度,提升了用户体验。
此外,本发明实施例还提出一种基于主要症状与伴随症状词的疾病认知设备。如图6所示,该基于主要症状与伴随症状词的疾病认知设备包括:数据获取单元10、特征提取单元20、匹配单元30以及认知单元40。
数据获取单元10,用于获取疾病特征信息以及对应症状特征信息,根据该疾病特征信息以及对应的症状特征信息建立疾病知识数据库;
特征提取单元20,用于获取待识别临床症状特征信息,通过TF-IDF从待识别临床症状特征信息中提取疾病特征分词以及对应的症状特征分词,根据该疾病特征分词以及对应的症状特征分词获取待识别疾病特征词以及对应的待识别症状特征词;
匹配单元30,用于将待识别疾病特征词与疾病特征信息进行匹配,获取待识别疾病特征词与疾病特征信息之间的匹配相似度,根据该匹配相似度从疾病知识数据库中查找与疾病特征信息对应的症状特征信息;
认知单元40,用于建立Jaccard系数相似性算法,通过Jaccard系数相似性算法计算待识别症状特征词与症状特征信息之间的相似性,并生成对应认知报告。
此外,需要说明的是,以上所描述的装置实施例仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于主要症状与伴随症状词的疾病认知系统,此处不再赘述。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。