[go: up one dir, main page]

CN106997379A - 一种基于图片文本点击量的相近文本的合并方法 - Google Patents

一种基于图片文本点击量的相近文本的合并方法 Download PDF

Info

Publication number
CN106997379A
CN106997379A CN201710165283.9A CN201710165283A CN106997379A CN 106997379 A CN106997379 A CN 106997379A CN 201710165283 A CN201710165283 A CN 201710165283A CN 106997379 A CN106997379 A CN 106997379A
Authority
CN
China
Prior art keywords
text
click
image
dictionary
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710165283.9A
Other languages
English (en)
Other versions
CN106997379B (zh
Inventor
俞俊
谭敏
吴炜晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710165283.9A priority Critical patent/CN106997379B/zh
Publication of CN106997379A publication Critical patent/CN106997379A/zh
Application granted granted Critical
Publication of CN106997379B publication Critical patent/CN106997379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图片文本点击量的相近文本的合并方法。本发明包括以下步骤:步骤1:提取查询文本的图像点击特征;步骤2:基于图像相似度矩阵构建点击传播模型,更新点击特征向量,包括:相似度矩阵计算和点击传播模型的构建;步骤3:构建基于热门查询的文本字典;基于查询文本的总的图像点击数,选择点击量相对较高的构成字典;步骤4:基于步骤(3)得到的文本字典,对任意的查询文本利用稀疏编码为其归类。本发明通过改进图像的点击特征向量来提高细粒度分类识别率。

Description

一种基于图片文本点击量的相近文本的合并方法
技术领域
本发明涉及图像检索与识别领域,尤其涉及一种基于图片文本点击量的相近文本的合并方法。
背景技术
细粒度分类属于目标识别的一个子领域,其主要目的是对于视觉上非常相似的子类进行区分。与传统的图像分类相比,细粒度分类显得更具有挑战性,因为许多类别都非常相似难以区分,而这样的细节难以通过视觉特征区分。为了克服视觉特征的不足,有很多学者提出了使用点击特征进行细粒度的图像分类。
传统的点击特征向量是由图像文本的点击次数直接拼接构成。直接使用它至少会面临如下挑战:1)图像和文本存在语义鸿沟,相似图片下文本的点击量差异很大;2)点击特征的维度完全由文本数量决定,而图像检索一般涉及海量查询文本,进而使点击特征的维度过高。文本合并可以很大程度上缓解这个问题。
传统的文本合并是基于文本特征的相似度(如Google,WordNet),然而文本之间即使相似,也可能存在较大的语义差别,比如“向前走了很长的路”和“向后走了很长的路”,文本上差距很小,在意义上却完全相反。
因此我们设计了一个基于点击特征的文本合并方法来合并语义相似的文本,以解决特征向量维度过大的问题。
发明内容
本发明的目的在于针对现有文本合并技术的不足,提供一种基于图片文本点击量的相近文本的合并方法。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:提取查询文本的图像点击特征;
步骤2:基于图像相似度矩阵构建点击传播模型,更新点击特征向量,包括:相似度矩阵计算和点击传播模型的构建;
步骤3:构建基于热门查询的文本字典;基于查询文本的总的图像点击数,选择点击量相对较高的构成字典;
步骤4:基于步骤(3)得到的文本字典,对任意的查询文本利用稀疏编码为其归类。
步骤1所述的查询文本的图像点击特征向量由图片文本的实际点击量拼接构成:
通过Clickture数据集,获得图片的查询文本、点击数据和图片名称。从专类小数据集DogData获得文本类别标签,图片名称。通过双方相同的图片名称,建立[图片名称,查询文本,文本标签类,点击量]数据集。而图片特征向量由图片文本的实际点击量拼接构成。
实际情况下,很多相似图片真正的点击量差异非常大的。本发明使用点击传播的思想,针对每个文本,将其在一个图像下的点击量基于相似度值传播给与之相似的图像,使得文本的图片点击特征趋于合理。
步骤2所述的基于相似度的点击传播模型:包括相似度矩阵计算和点击传播模型的构建。
2-1.由于不同图片视觉差异较大,因为点击传播只在相似图片之间进行。首先通过K均值方法利用相似图片的深度视觉特征对每类相似图片进行聚类,获得若干个图像子类。
通过聚类索引获得新的点击特征
其中,是类别j中第i个聚类的点击向量,将初始的点击向量定义为:
2-2.建立相似度矩阵和点击传播模型:基于聚类索引及传播函数将传播前稀疏的点击向量转化为传播后较为稠密合理的点击向量
为了保持点击量与图像视觉特征的相似一致性,构建基于图像相似度的点击传播模型。在第j类中的第i个聚类,图像相似度矩阵G定义如下:
其中,Gj,i表示在第j类中的第i个聚类的图像相似度矩阵,φi是第i张图的深度视觉特征,是将第i类中第j个子类样本的索引集合。gu,v指代同类中第u张和第v张的文本相似度。gu,v通过Jaccard相似度计算获取。
利用图像相似度矩阵G,构建如下点击传播模型来更新点击特征:
其中,α是传播系数,E是单位矩阵,是归一化之后的数据图,定义如下:
其中,Mj,i为如下对角矩阵:
步骤3所述的基于热门查询的文本字典的构建,是基于步骤(2)得到任意文本的传播后的点击向量选择点击量相对较高的文本构成文本字典:
3-1.对所有的查询文本进行初步分类得到每类的文本集
其中,yi代表文本的标签类别,ci,j代表第j个文本在第i张图上的点击量。
针对每类文本集,选择点击量相对较高的文本构成字典。对于第k类字典Dk,有如下定义:
其中,s是文本集中关于点击量的倒序排列索引。
步骤4所述基于稀疏编码的相似文本的合并,基于步骤(3)得到的文本字典,对任意的查询文本利用稀疏编码为其归类。
4-1.稀疏编码:
针对第k类文本,每个查询词将会基于字典Dk以稀疏编码方式确定的线性表示:
其中,T为字典的项数约束比例系数,预测查询词的文本类别如下所示:
4-2.基于传播后点击向量的图像识别
基于查询词的文本类别得到K类文本集如下:
从而为每一张图片建立一个较为紧致的实际点击特征:
这种紧致的图片表征被用于图像识别,每一张图的预测类别由1-NN算法和上述模拟点击特征得到:
本发明有益效果如下:
本发明中点击传播模型能够用于预测相近文本点击量,在其他工程中也可作为一种预测手段。基于热门词汇的构建字典方式,在未来稀疏编码方式中多了一种基本手段。本发明通过改进图像的点击特征向量来提高细粒度分类识别率。
附图说明
图1是本发明流程图;
图2是针对每类文本集合并的框架图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1和2所示,描述了本发明方法的处理过程框架,包括了传播和基于稀疏的合并。一种基于图片文本点击量的相近文本的合并方法,具体包括如下步骤:
步骤1:提取查询文本的图像点击特征;
步骤2:基于图像相似度矩阵构建点击传播模型,更新点击特征向量,包括:相似度矩阵计算和点击传播模型的构建;
步骤3:构建基于热门查询的文本字典;基于查询文本的总的图像点击数,选择点击量相对较高的构成字典;
步骤4:基于步骤(3)得到的文本字典,对任意的查询文本利用稀疏编码为其归类。
步骤1所述的查询文本的图像点击特征向量由图片文本的实际点击量拼接构成:
通过Clickture数据集,获得图片的查询文本、点击数据和图片名称。从专类小数据集DogData获得文本类别标签,图片名称。通过双方相同的图片名称,建立[图片名称,查询文本,文本标签类,点击量]数据集。而图片特征向量由图片文本的实际点击量拼接构成。
实际情况下,很多相似图片真正的点击量差异非常大的。本发明使用点击传播的思想,针对每个文本,将其在一个图像下的点击量基于相似度值传播给与之相似的图像,使得文本的图片点击特征趋于合理。
步骤2所述的基于相似度的点击传播模型:包括相似度矩阵计算和点击传播模型的构建。
2-1.由于不同图片视觉差异较大,因为点击传播只在相似图片之间进行。首先通过K均值方法利用相似图片的深度视觉特征对每类相似图片进行聚类,获得若干个图像子类。
通过聚类索引获得新的点击特征
其中,是类别j中第i个聚类的点击向量,将初始的点击向量定义为:
2-2.建立相似度矩阵和点击传播模型:基于聚类索引及传播函数将传播前稀疏的点击向量转化为传播后较为稠密合理的点击向量
为了保持点击量与图像视觉特征的相似一致性,构建基于图像相似度的点击传播模型。在第j类中的第i个聚类,图像相似度矩阵G定义如下:
其中,Gj, i表示在第j类中的第i个聚类的图像相似度矩阵,φi是第i张图的深度视觉特征,是将第i类中第j个子类样本的索引集合。gu,v指代同类中第u张和第v张的文本相似度。gu,v通过Jaccard相似度计算获取。
利用图像相似度矩阵G,构建如下点击传播模型来更新点击特征:
其中,α是传播系数,E是单位矩阵,是归一化之后的数据图,定义如下:
其中,Mj,i为如下对角矩阵:
步骤3所述的基于热门查询的文本字典的构建,是基于步骤(2)得到任意文本的传播后的点击向量选择点击量相对较高的文本构成文本字典:
3-1.对所有的查询文本进行初步分类得到每类的文本集
其中,yi代表文本的标签类别,ci,j代表第j个文本在第i张图上的点击量。
针对每类文本集,选择点击量相对较高的文本构成字典。对于第k类字典Dk,有如下定义:
其中,s是文本集中关于点击量的倒序排列索引。
步骤4所述基于稀疏编码的相似文本的合并,基于步骤(3)得到的文本字典,对任意的查询文本利用稀疏编码为其归类。
4-1.稀疏编码:
针对第k类文本,每个查询词将会基于字典Dk以稀疏编码方式确定的线性表示:
其中,T为字典的项数约束比例系数,预测查询词的文本类别如下所示:
4-2.基于传播后点击向量的图像识别
基于查询词的文本类别得到K类文本集如下:
从而为每一张图片建立一个较为紧致的实际点击特征:
这种紧致的图片表征被用于图像识别,每一张图的预测类别由1-NN算法和上述模拟点击特征得到:
实施例1:
一、实验设置
用基于合并文本的点击特征的图像识别率来评估我们的文本合并方法。我们采用1—NN分类器来统计识别率。
得到数据集后,将其分为3部分:50%训练集,30%验证集,20%测试集。
二、传播的点击特征
通过对比传播后的点击特征和原始特征的识别率来评估我们的传播模型。传播有2种:基于相似度矩阵的带权传播(Prop-W)和平均传播(Prop-E)。其中平均传播则是将点击均衡传播给同一类中相似的图片。
另外,在不同传播比率α下,我们将平均传播(Prop-E)和带权传播(Prop-W)进行对比,结果如下所示。
表一:两种传播方法的对比
α 0.1 0.2 0.3 0.4 0.5
Prop-E 57.76 59.41 59.74 57.49 58.66
Prop-W 63.56 63.65 63.62 65.40 64.31
从表一能够看出带权传播的识别率普遍高于平均传播。为了最大化识别率,在如下实验中,设置α=0.4。
将带权传播(Prop-W)与其他方法作比较,结果如下所示。
表二:不同方法下识别率的比较
Feature CNN Org Sum Prop-E Prop-W
Acc 42.85 42.96 58.15 59.74 65.40
从表二能够看出带权传播的文本合并效果优于其他方法。
三:基于稀疏编码的合并
基于传播的点击特征向量,利用“热词”构建文本字典,并利用稀疏编码对文本进行分类,进而合并相近(同类)文本。
由于类间差异大,仅考虑类内查询文本的合并。对于每一个文本类别,定义γ来控制字典的大小,并选取其中点击量最高的nk=γ|πk|/P个样本作为字典。
3-1.一些参数的影响
众所周知,稀疏编码需要一个健全完备的字典,然而这样的字典并不适用于样本数量太少的类别。因此,我们定义了阈值θ,针对样本数量大于θ的类别采用稀疏编码的方法合并文本,其余类别利用K-均值聚类合并。
在θ=1000,P=1的情况下(P为每个类别中需要取到字典中的样本个数),首先测试不同γ在相同T下的影响(T为字典数量的约束项,这里以比例表示),经测试,得到最优秀的γ=0.15。接下来,测试不同T和P的影响,得到当P=5,T=4%时识别率最高。
在确定了最优参数后,开始测试θ的影响。当θ增加,更多类的文本将利用稀疏编码进行合并,反之则提高。
3-2.将上述方法和常规K-均值的文本合并做对比,在字典学习上,KSVD方法和“热词”作对比。在多项字典学习(P>1)和单项字典学习作对比(P=1),结果如下:
表三:KSVD和热词方法的比较
Method K-means KSVD* HOT* KSVD HOT
Acc 65.40 66.53 68.72 69.14 72.32
其中带*号的代表单项字典学习,HOT代表“热词”方法,可以看出,多字典学习,并且使用“热词”方法可以较为有效地提高文本合并效果。

Claims (5)

1.一种基于图片文本点击量的相近文本的合并方法,其特征在于包括以下步骤:
步骤1:提取查询文本的图像点击特征;
步骤2:基于图像相似度矩阵构建点击传播模型,更新点击特征向量,包括:相似度矩阵计算和点击传播模型的构建;
步骤3:构建基于热门查询的文本字典;基于查询文本的总的图像点击数,选择点击量相对较高的构成字典;
步骤4:基于步骤(3)得到的文本字典,对任意的查询文本利用稀疏编码为其归类。
2.根据权利要求1所述的一种基于图片文本点击量的相近文本的合并方法,其特征在于步骤1所述的查询文本的图像点击特征向量由图片文本的实际点击量拼接构成:
通过Clickture数据集,获得图片的查询文本、点击数据和图片名称;从专类小数据集DogData获得查询文本的类别标签、图片名称;通过双方相同的图片名称,建立[图片名称,查询文本,文本标签类,点击量]数据集;而图片特征向量由图片文本的实际点击量拼接构成。
3.根据权利要求1所述的一种基于图片文本点击量的相近文本的合并方法,其特征在于步骤2所述的基于相似度的点击传播模型:包括相似度矩阵计算和点击传播模型的构建;
2-1.首先通过K均值方法利用相似图片的深度视觉特征对每类相似图片进行聚类,获得若干个图像子类;
通过聚类索引获得新的点击特征
其中,是类别j中第i个聚类的点击向量,将初始的点击向量定义为:
2-2.建立相似度矩阵和点击传播模型:基于聚类索引及传播函数将传播前稀疏的点击向量转化为传播后较为稠密合理的点击向量
为了保持点击量与图像视觉特征的相似一致性,构建基于图像相似度的点击传播模型;在第j类中的第i个聚类,图像相似度矩阵G定义如下:
其中,Gj,i表示在第j类中的第i个聚类的图像相似度矩阵,φi是第i张图的深度视觉特征,是将第i类中第j个子类样本的索引集合;gu,v指代同类中第u张和第v张的文本相似度;gu,v通过Jaccard相似度计算获取;
利用图像相似度矩阵G,构建如下点击传播模型来更新点击特征:
其中,α是传播系数,E是单位矩阵,是归一化之后的数据图,定义如下:
其中,Mj,i为如下对角矩阵:
4.根据权利要求3所述的一种基于图片文本点击量的相近文本的合并方法,其特征在于步骤3所述的基于热门查询的文本字典的构建,是基于步骤(2)得到任意文本的传播后的点击向量选择点击量相对较高的文本构成文本字典:
3-1.对所有的查询文本进行初步分类得到每类的文本集
其中,yi代表文本的标签类别,ci,j代表第j个文本在第i张图上的点击量;
针对每类文本集,选择点击量相对较高的文本构成字典;对于第k类字典Dk,有如下定义:
其中,s是文本集中关于点击量的倒序排列索引。
5.根据权利要求4所述的一种基于图片文本点击量的相近文本的合并方法,其特征在于步骤4所述基于稀疏编码的相似文本的合并,基于步骤(3)得到的文本字典,对任意的查询文本利用稀疏编码为其归类;
4-1.稀疏编码:
针对第k类文本,每个查询词将会基于字典Dk以稀疏编码方式确定的线性表示:
其中,T为字典的项数约束比例系数,预测查询词的文本类别如下所示:
4-2.基于传播后点击向量的图像识别
基于查询词的文本类别得到K类文本集如下:
从而为每一张图片建立一个较为紧致的实际点击特征:
这种紧致的图片表征被用于图像识别,每一张图的预测类别由1-NN算法和上述模拟点击特征得到:
CN201710165283.9A 2017-03-20 2017-03-20 一种基于图片文本点击量的相近文本的合并方法 Active CN106997379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710165283.9A CN106997379B (zh) 2017-03-20 2017-03-20 一种基于图片文本点击量的相近文本的合并方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710165283.9A CN106997379B (zh) 2017-03-20 2017-03-20 一种基于图片文本点击量的相近文本的合并方法

Publications (2)

Publication Number Publication Date
CN106997379A true CN106997379A (zh) 2017-08-01
CN106997379B CN106997379B (zh) 2020-08-04

Family

ID=59431029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710165283.9A Active CN106997379B (zh) 2017-03-20 2017-03-20 一种基于图片文本点击量的相近文本的合并方法

Country Status (1)

Country Link
CN (1) CN106997379B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460086A (zh) * 2018-01-22 2018-08-28 北京工业大学 一种基于点击特征重构的检索结果排序方法
CN108491382A (zh) * 2018-03-14 2018-09-04 四川大学 一种半监督生物医学文本语义消歧方法
CN110147851A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像筛选方法、装置、计算机设备及存储介质
WO2020082272A1 (en) * 2018-10-24 2020-04-30 Alibaba Group Holding Limited Intelligent customer services based on a vector propagation on a click graph model
CN111177521A (zh) * 2018-10-24 2020-05-19 北京搜狗科技发展有限公司 一种查询词分类模型的确定方法和装置
CN111985491A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 基于深度学习的相似信息合并方法、装置、设备及介质
CN116304047A (zh) * 2023-03-21 2023-06-23 北京百度网讯科技有限公司 文本分类方法、深度学习模型的训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036012A (zh) * 2014-06-24 2014-09-10 中国科学院计算技术研究所 字典学习、视觉词袋特征提取方法及检索系统
CN106021362A (zh) * 2016-05-10 2016-10-12 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
WO2016183539A1 (en) * 2015-05-14 2016-11-17 Walleye Software, LLC Data partitioning and ordering
CN106445989A (zh) * 2016-06-03 2017-02-22 新乡学院 基于查询点击图的检索推荐模型优化

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036012A (zh) * 2014-06-24 2014-09-10 中国科学院计算技术研究所 字典学习、视觉词袋特征提取方法及检索系统
WO2016183539A1 (en) * 2015-05-14 2016-11-17 Walleye Software, LLC Data partitioning and ordering
CN106021362A (zh) * 2016-05-10 2016-10-12 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
CN106445989A (zh) * 2016-06-03 2017-02-22 新乡学院 基于查询点击图的检索推荐模型优化

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YU J等: "Learning to rank using user clicks and visual features for image", 《IEEE TRANS CYBERN》 *
YUN CHEN等: "Click-through-based Word Embedding for Large", 《2016 IEEE SECOND INTERNATIONAL CONFERENCE ON MULTIMEDIA BIG DATA》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460086A (zh) * 2018-01-22 2018-08-28 北京工业大学 一种基于点击特征重构的检索结果排序方法
CN108460086B (zh) * 2018-01-22 2022-02-08 北京工业大学 一种基于点击特征重构的检索结果排序方法
CN108491382A (zh) * 2018-03-14 2018-09-04 四川大学 一种半监督生物医学文本语义消歧方法
WO2020082272A1 (en) * 2018-10-24 2020-04-30 Alibaba Group Holding Limited Intelligent customer services based on a vector propagation on a click graph model
CN111177521A (zh) * 2018-10-24 2020-05-19 北京搜狗科技发展有限公司 一种查询词分类模型的确定方法和装置
US10824679B2 (en) 2018-10-24 2020-11-03 Alibaba Group Holding Limited Intelligent customer services based on a vector propagation on a click graph model
JP2021501378A (ja) * 2018-10-24 2021-01-14 アドバンスド ニュー テクノロジーズ カンパニー リミテッド クリックグラフ上のベクトル伝播モデルに基づくインテリジェントなカスタマーサービス
CN110147851A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像筛选方法、装置、计算机设备及存储介质
CN111985491A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 基于深度学习的相似信息合并方法、装置、设备及介质
CN116304047A (zh) * 2023-03-21 2023-06-23 北京百度网讯科技有限公司 文本分类方法、深度学习模型的训练方法及装置

Also Published As

Publication number Publication date
CN106997379B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN106997379B (zh) 一种基于图片文本点击量的相近文本的合并方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN105210064B (zh) 使用深度网络将资源分类
CN106407406B (zh) 一种文本处理方法和系统
CN104317834B (zh) 一种基于深度神经网络的跨媒体排序方法
CN114547303B (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN104036010B (zh) 一种基于半监督cbow的用户搜索词主题分类的方法
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN107180075A (zh) 文本分类集成层次聚类分析的标签自动生成方法
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN110689523A (zh) 基于元学习个性化图像信息评价方法、信息数据处理终端
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN114064885B (zh) 一种无监督中文多文档抽取式摘要方法
CN111444342A (zh) 一种基于多重弱监督集成的短文本分类方法
CN110569920A (zh) 一种多任务机器学习的预测方法
CN101004761A (zh) 大规模文本逐次二分的层次聚类方法
CN108052625A (zh) 一种实体精细分类方法
CN110516098A (zh) 基于卷积神经网络及二进制编码特征的图像标注方法
CN103778206A (zh) 一种网络服务资源的提供方法
CN107145514A (zh) 基于决策树和svm混合模型的中文句型分类方法
Dong et al. Cross-media similarity evaluation for web image retrieval in the wild
CN105893573A (zh) 一种基于地点的多模态媒体数据主题提取模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant