CN108701125A

CN108701125A - 用于建议表情符号的系统和方法

Info

Publication number: CN108701125A
Application number: CN201680082480.8A
Authority: CN
Inventors: 尼基希尔·博亚; S·卡卢普萨米; P·王; S·卡纳安; A·奈顿凯吉安
Original assignee: MZ IP Holdings LLC
Current assignee: MZ IP Holdings LLC
Priority date: 2015-12-29
Filing date: 2016-12-20
Publication date: 2018-10-23
Also published as: CA3009758A1; AU2016383052A1; US20170185581A1; EP3398082A1; WO2017116839A1; JP2019504413A

Abstract

本公开的实施方式涉及用于建议插入到具有文本或其他内容的传送的消息中的表情符号的方法、系统和制品。获得与传送的消息相对应的多个特征并将其提供给多个表情符号检测模块。从每个表情符号检测模块接收一组表情符号和第一置信度分数并将其提供给至少一个分类器。从至少一个分类器接收提议的一组候选表情符号和第二置信度分数。将候选表情符号插入到传送的消息中。

Description

用于建议表情符号的系统和方法

相关申请的交叉引用

本申请要求2015年12月29日提交的美国临时专利申请No.62/272,324的优先权，通过引用的方式将其全部内容合并在此。

背景技术

本公开涉及语言检测，并且特别涉及用于建议表情符号(emoji)的系统和方法。

一般来说，表情符号是通常在电子消息和传送消息中使用的图像、图形符号或表意文字，以传达情绪、想法或意见。可通过各种数字设备(例如，移动电信设备和平板计算设备)使用表情符号，并且经常在起草个人电子邮件、在因特网上发布消息(例如，在社交网站或网络论坛上)、以及移动设备之间的传递消息时使用表情符号。

近年来，用户可以选择的表情符号的数量已经大大增加。几乎每个可以想象的主题都有可使用的表情符号。由于表情符号的数量、使用、可用性和多样性的扩展，用户在参与适用表情符号的计算活动时，浏览表情符号并为给定的上下文选择合适的表情符号可能是耗时的，有时是巨大的。

发明内容

本文描述的系统和方法的实现可以用于向用户建议一个或多个表情符号，以插入到文档和电子传送的消息中的内容或者替换文档和电子传送的消息中的内容。内容可以包括文本(例如，单词，短语，缩写，字符和/或符号)，表情符号，图像，音频，视频及其组合。或者，本文描述的系统和方法的实现可用于自动将表情符号插入到内容中或者用表情符号替换内容的一部分而无需用户输入。例如，当用户键入或输入内容时，系统可以分析内容，并且基于分析，系统可以实时或接近实时地向用户提供表情符号建议。给定的表情符号建议可以包括一个或多个表情符号字符，如果选择建议的一个或多个表情符号字符，则将其插入到内容中以替换内容的一部分。然后，用户可以选择其中的一个表情符号建议，并且可以在适当的位置(例如，在当前输入光标位置处或附近)将建议的表情符号插入到内容中，或者可以替换内容的一部分。

在各种示例中，本系统和方法使用一个或多个表情符号检测方法和分类器来确定表情符号的概率或置信度分数。置信度分数表示用户将要把表情符号插入特定内容或用表情符号替换特定内容(或其一部分)的可能性。例如，可以向用户建议具有最高置信度分数的表情符号，以便可能插入到文本消息中。在一些情况下，每个表情符号检测方法输出与可能的表情符号相关联的概率的集合或向量。分类器可以组合表情符号检测方法的输出以确定对内容的一组建议。每个建议可以包括一个或多个表情符号。为消息选择的特定表情符号检测方法和分类器可以取决于预测的准确度、置信度分数、用户偏好、消息的语言域和/或其他合适的因素。选择检测方法和/或分类器的其他方式是可能的。

在某些示例中，本文描述的系统和方法实时地将内容转换为表情符号。将该过程称为“表情符号化(emojification)”。例如，当用户输入内容时，可以分析内容以识别并提供表情符号建议。用户可以通过文本和表情符号的组合彼此通信，并在用户输入或键入消息时提供表情符号建议。文本和表情符号的混合提供了新的通信范例，其可以用作与各种客户端一起使用的消息传递平台，并且用于各种目的，包括游戏、文本消息传递和聊天室传送消息。

用户可以选择在具有和不具有表情符号的消息之间切换。例如，用户可以在文本消息传递系统中选择“转换为表情符号(emojify)”命令，该命令在纯文本和具有表情符号字符的文本(即，“转换为表情符号(emojify)”版本的文本)之间切换。切换功能可以适应用户偏好，并允许他们更容易的在纯文本和具有表情符号的文本之间进行选择。该特征还可以用于在较大部分内容(例如，整个文本消息对话)中将内容转换为表情符号(即，转换为表情符号(emojify))，与将少部分内容(例如，单个单词或句子)转换为表情符号相比，其可以生成不同的输出(例如，给出关于对话主题的更多信息)。对于难以翻译的消息或者当特定消息的翻译质量不可接受时来说，表情符号也可以用作对该消息的语言翻译的替代方法。

表情符号的插入或使用可以特别适合于游戏环境。聊天通信是某些游戏的重要玩家保留功能。使用表情符号作为通信协议可以增强游戏体验并使玩家更多地参与游戏以及与其他玩家的通信。

在一个方面，本说明书中描述的主题体现在建议表情符号的方法中。该方法包括由一个或多个计算机执行以下操作：获得与从用户传送的消息相对应的多个特征；将所述特征提供给多个表情符号检测模块；从每个表情符号检测模块接收包括一组表情符号和第一置信度分数的相应输出，每个第一置信度分数与该组中的不同表情符号相关联并表示所述用户可能希望将相关的表情符号插入到传送的消息中的可能性；将所述表情符号检测模块的输出提供给至少一个分类器；从所述至少一个分类器接收提议的一组候选表情符号和第二置信度分数，每个第二置信度分数与提议的一组候选表情符号中的不同候选表情符号相关联并且表示所述用户可能希望将相关的候选表情符号插入到所述传送的消息中的可能性；以及将至少一个所述候选表情符号插入到所述传送的消息中。

在某些示例中，所述多个特征包括所述传送的消息中的当前光标位置、来自所述传送的消息的一个或多个单词、来自先前传送的消息的一个或多个单词、用户偏好和/或人口统计信息。所述表情符号检测模块包括语法错误校正模块、统计机器翻译模块、基于词典的模块、信息提取模块、自然语言处理模块、关键词匹配模块和/或有限状态转换器模块。在一个示例中，所述基于词典的模块被配置为将所述传送的消息中的单词的至少一部分单词映射到至少一个对应的表情符号。

在一些实现方式中，所述自然语言处理模块包括解析器、形态分析器和/或语义分析器，以扩展由基于词典的模块提供的单词和表情符号之间的映射。可选地或另外地，所述关键词匹配模块被配置为在所述传送的消息中搜索至少一个关键词，并将所述至少一个关键词和与表情符号相关联的至少一个标签进行匹配。在一些示例中，所述第一置信度分数和/或所述第二置信度分数可以基于用户偏好、语言域、人口统计信息、所述用户和社区用户中的至少一个对表情符号中的先前使用、和/或在先前传送的消息中对表情符号的先前使用，其中，所述先前传送的消息具有与所述传送的消息共有的单词、短语、上下文和情感中的至少一个。

在某些实现方式中，所述至少一个分类器包括监督学习模型、部分监督学习模型、无监督学习模型和/或插值模型。在当前光标位置插入至少一个所述候选表情符号并且至少一个所述候选表情符号替换所述传送的消息中的至少一个单词。在一些情况下，插入至少一个所述候选表情符号包括：识别在提议的一组候选表情符号中具有最高第二置信度分数的最佳表情符号。所述方法还包括接收从提议的一组候选表情符号中对至少一个所述候选表情符号的用户选择；以及基于所述用户选择构建使用历史记录。在一些示例中，所述方法还包括基于所述用户偏好和/或所述人口统计信息来选择至少一个分类器。多个表情符号检测模块可以同时执行操作。

所述方法可以包括通过计算两个或更多个单词的向量表示之间的余弦相似度来扩充用于基于词典的模块的词典。例如，所述方法可以包括：获得两个或更多个单词的向量表示；计算向量表示的余弦相似度；以及基于单词和/或短语之间的余弦相似度来扩充词典(例如，用于基于词典的模块)。

在另一方面，本说明书中描述的主题可以体现在包括一个或多个处理器的系统中，一个或多个处理器被编程为执行操作，所述操作包括：获得与从用户传送的消息相对应的多个特征；将所述特征提供给多个表情符号检测模块；从每个表情符号检测模块接收包括一组表情符号和第一置信度分数的相应输出，每个第一置信度分数与该组中的不同表情符号相关联并表示所述用户可能希望将相关的表情符号插入到传送的消息中的可能性；将所述表情符号检测模块的输出提供给至少一个分类器；从所述至少一个分类器接收提议的一组候选表情符号和第二置信度分数，每个第二置信度分数与提议的一组候选表情符号中的不同候选表情符号相关联并且表示所述用户可能希望将相关的候选表情符号插入到所述传送的消息中的可能性；以及将至少一个所述候选表情符号插入到所述传送的消息中。

在某些示例中，所述多个特征包括所述传送的消息中的当前光标位置、来自所述传送的消息的一个或多个单词、来自先前传送的消息的一个或多个单词、用户偏好和/或人口统计信息。所述表情符号检测模块可以包括语法错误校正模块、统计机器翻译模块、基于词典的模块、信息提取模块、自然语言处理模块、关键词匹配模块和/或有限状态转换器模块。在一个示例中，所述基于词典的模块被配置为将所述传送的消息中的单词的至少一部分单词映射到至少一个对应的表情符号。

在某些实现方式中，所述至少一个分类器包括监督学习模型、部分监督学习模型、无监督学习模型和/或插值模型。在当前光标位置插入至少一个所述候选表情符号并且至少一个所述候选表情符号替换所述传送的消息中的至少一个单词。在一些情况下，插入至少一个所述候选表情符号包括：识别在提议的一组候选表情符号中具有最高第二置信度分数的最佳表情符号。所述操作还可以包括接收从提议的一组候选表情符号中对至少一个所述候选表情符号的用户选择；以及基于所述用户选择构建使用历史记录。在一些示例中，所述操作还可以包括基于所述用户偏好和/或所述人口统计信息来选择至少一个分类器。多个表情符号检测模块可以同时执行操作。

在另一方面，本说明书中描述的主题可以体现在制品中。所述制品包括具有可执行指令的非暂时性计算机可读介质。可执行指令可由一个或多个处理器执行以执行操作，所述操作包括：获得与从用户传送的消息相对应的多个特征；将所述特征提供给多个表情符号检测模块；从每个表情符号检测模块接收包括一组表情符号和第一置信度分数的相应输出，每个第一置信度分数与该组中的不同表情符号相关联并表示所述用户可能希望将相关的表情符号插入到传送的消息中的可能性；将所述表情符号检测模块的输出提供给至少一个分类器；从所述至少一个分类器接收提议的一组候选表情符号和第二置信度分数，每个第二置信度分数与提议的一组候选表情符号中的不同候选表情符号相关联并且表示所述用户可能希望将相关的候选表情符号插入到所述传送的消息中的可能性；以及将至少一个所述候选表情符号插入到所述传送的消息中。

在一些实现方式中，所述自然语言处理模块包括解析器、形态分析器和/或语义分析器，以扩展由基于词典的模块提供的单词和表情符号之间的映射。可选地或另外地，所述关键词匹配模块被配置为在所述传送的消息中搜索至少一个关键词，并将所述至少一个关键词和与表情符号相关联的至少一个标签进行匹配。在一些示例中，所述第一置信度分数和/或所述第二置信度分数可以基于用户偏好、语言域、人口统计信息、所述用户和社区用户中的至少一个对表情符号中的先前使用、和/或在先前传送的消息中对表情符号的先前使用，其中，所述先前传送的消息具有与所述传送的消息共有的单词、短语、上下文和/或情感。

在一些实现方式中，所述自然语言处理模块包括解析器、形态分析器和/或语义分析器，以扩展由基于词典的模块提供的单词和表情符号之间的映射。可选地或另外地，所述关键词匹配模块被配置为在所述传送的消息中搜索至少一个关键词，并将所述至少一个关键词和与表情符号相关联的至少一个标签进行匹配。在一些示例中，所述第一置信度分数和/或所述第二置信度分数可以基于用户偏好、语言域、人口统计信息、所述用户和/或社区用户对表情符号中的先前使用、和/或在先前传送的消息中对表情符号的先前使用，其中，所述先前传送的消息具有与所述传送的消息共有的单词、短语、上下文和/或情感。

描述的关于本发明的给定方面实施例的要素可用于本发明另一方面的各种实施例中。例如，可以预期，根据一个独立权利要求的从属权利要求的特征可以用在任何其他独立权利要求的装置、系统和/或方法中。

附图说明

图1是建议插入到用户传送的消息中的表情符号的示例性系统的示意图。

图2是建议插入到用户传送的消息中的表情符号的示例性方法的流程图。

图3是示例性的表情符号检测模块的示意图。

图4是示例性的表情符号分类器模块的示意图。

图5是表情符号建议系统架构的示意图。

具体实施方式

一般来说，本文描述的系统和方法可用于向用户建议插入到内容中或者替换内容的一个或多个部分的表情符号。给定的内容可以在电子文档、电子消息或其他电子传送的消息中。传送的消息可以包括文本内容，并且可选地包括其他内容类型，例如，图像、表情符号、音频记录、多媒体、GIF、视频和/或计算机指令。

图1示出了用于识别给定内容的表情符号的示例性系统100。服务器系统112提供消息分析和表情符号建议功能。例如，服务器系统112包括可以部署在一个或多个地理位置中的一个或多个数据中心114的软件组件和数据库。服务器系统112软件组件可以包括表情符号检测模块116、表情符号分类器模块118和管理器模块120。软件组件可以包括可以在相同或不同的单独数据处理设备上执行的子组件。服务器系统112数据库可以包括训练数据122、词典124、聊天历史126和用户信息128。数据库可以驻留在一个或多个物理存储系统中。下面将进一步描述软件组件和数据。

可以提供诸如基于网络的应用程序之类的应用程序作为允许用户与服务器系统112交互的终端用户应用程序。客户端设备(例如，个人计算机134、智能电话136、平板计算机138和膝上型计算机140)的用户可以通过网络132(例如，因特网)访问终端用户应用程序。其他客户端设备是可能的。在替代示例中，词典124、聊天历史126和/或用户信息128或其任何部分可以存储在一个或多个客户端设备上。附加地或替代地，系统100的软件组件(例如，表情符号检测模块116、表情符号分类器模块118和/或管理器模块120)或其任何部分可以驻留在一个或多个客户端设备或用于在一个或多个客户端设备上执行操作。

图1将表情符号分类器模块118和管理器模块120示出为能够与数据库通信(例如，训练数据122、词典124、聊天历史126和用户信息128)。训练数据122数据库通常包括可用于训练一个或多个表情符号检测方法和/或分类器的训练数据。例如，训练数据可以包括一组单词或短语(或其他内容)以及可用于替换单词或短语和/或插入到单词或短语中的优选表情符号。例如，训练数据还可以包括用户生成的表情符号以及用于该表情符号的描述性标签。此外，这些表情符号标签组合可以包括来自用户的自定义权重，用户可能将某些组合投票为比其他组合更相关或更受欢迎。词典124数据库可以包括将单词、短语或其一部分与一个或多个表情符号相关联的词典。词典可以适用多于一种语言和/或多个词典可以包括在词典124数据库中以适用多种语言(例如，每种语言都有单独的词典)。聊天历史126数据库可以存储在用户之间交换的先前传送的消息(例如，文本消息)。可选地或另外地，聊天历史126数据库可以包含关于用户过去使用的表情符号的信息，例如，包括用户是否选择了自动化系统112建议的一个或多个表情符号建议和/或结果表情符号。可以存储与基于表情符号建议的等级排序的选择相关的信息。用户信息128数据库可以包括用户(包括发送者和接收者)的人口统计信息(例如，年龄、种族、民族、性别、收入、住宅位置等)。用户信息128数据库可以包括某些用户表情符号偏好，例如，定义什么时候使用表情符号或什么时候不使用表情符号的情况的设置、自动插入表情符号的任何偏好、和/或用户可能有的任何优选的表情符号类型(例如，面部表情或动物)。通常，表情符号分类器模块118接收表情符号检测模块116的输入，和/或管理器模块120接收表情符号分类器模块118的输入。

图2示出了使用系统100来建议插入到传送的消息中的表情符号的示例性方法200。方法200开始于获得(步骤202)与用户传送的消息(例如，电子消息)相关联的特征。例如，这些特征可以包括内容中的光标位置、来自传送的消息的一个或多个单词、来自先前传送的消息的一个或多个单词、用户偏好(例如，什么时候使用表情符号的偏好实例、偏好的特定表情符号、偏好的表情符号类型、或偏好的表情符号类别)、和/或人口统计信息(例如，用户和/或接收者的年龄、性别、种族、收入或公民身份)。其他合适的特征是可能的。将特征提供(步骤204)给表情符号检测模块116，表情符号检测模块116优选地采用多个表情符号检测方法来识别可能适合于传送的消息的候选表情符号。将表情符号检测模块116的输出提供(步骤206)给表情符号分类器模块118，其中一个或多个分类器处理表情符号检测模块的输出并为传送的消息提供(步骤208)建议的表情符号。可以在管理器模块120的帮助下识别建议的表情符号，管理器模块120可以基于各种因素，包括例如语言域(例如，游戏、新闻、议会记录、政治、健康、旅行、网页、报纸文章和微博消息)、传送的消息中使用的语言、一个或多个用户偏好等，选择要使用的特定表情符号检测方法和/或分类器。语言域可以定义或包括例如对于特定类型的主题和/或特定通信系统的用户唯一或共同的单词、短语、句子结构或书写样式。例如，游戏玩家在游戏环境中彼此通信时可以使用的独特的术语、俚语或句子结构，而报纸文章或议会记录可能具有更正式的语气，其句子结构好和/或使用不同的术语。最后，将至少一个建议的表情符号插入(步骤210)到传送的消息中。表情符号可以自动插入到传送的消息中和/或由用户选择插入。插入的表情符号可以替换传送的消息中的一个或多个单词或短语。

在一些实现方式中，管理器模块120可以根据计算的置信度分数来选择一个或多个分类器建议的表情符号。例如，分类器可以计算每个建议的表情符号或表情符号集的置信度分数。置信度分数可以指示用户希望将至少一个建议插入到传送的消息中的预测的可能性。附加地或替代地，可以根据与用户或内容相关联的语言域来选择某些分类器输出。例如，当用户消息源自计算机游戏环境时，可以选择特定的分类器输出作为提供最准确的表情符号建议。同样地，如果消息源自体育的语境(例如，关于体育赛事)，则可以选择不同的分类器输出作为更适合于体育语言域。例如，其他可能的语言域可以包括新闻、议会记录、政治、健康、旅行、网页、报纸文章、微博消息和其他合适的语言域。通常，与其他语言域相比，某些表情符号检测方法或表情符号检测方法的组合(例如，来自分类器)对于某些语言域来说可能更准确。在一些实现方式中，可以基于消息中的域词汇表的单词的存在来确定语言域。例如，计算机游戏的域词汇表可以包括游戏者使用的常见俚语词汇。在一些情况下，对单词或字符的序列进行建模以创建语言域简档，这样如果给定的单词或字符序列在某个语言域中具有高发生概率，则可以选择该语言域。可替代地或另外地，可以根据正在使用的通信系统的环境(例如，游戏、体育、新闻等)来确定语言域。

参见图3，表情符号检测模块116可以包括或利用执行用于识别表情符号建议的各种方法的多个模块。例如，表情符号检测模块可以包括语法错误校正模块302、统计机器翻译模块304、基于词典的模块306、词性(POS)标记模块308、信息提取模块310、自然语言处理模块312、关键词匹配模块314和/或有限状态转换器(FST)模块316。

一般来说，语法错误校正模块302采用除了被定制用于识别表情符号而不是校正语法错误的技术之外的那些与用于自动语法错误校正的技术类似的技术。在某些示例中，语法错误校正方法解析输入的句子以确定单个单词的词性，然后基于管理给定语言的语言规则来确定系统的语法正确性。然后通过替换来纠正与语法正确性的偏差。可以通过手动输入或通过自动化手段创建已知的与语法正确性的偏差的记录。例如，，自动化方法可以包括训练针对给定语言的语言解析器，然后基于人定义的输入给出语法正确性的分数。例如，语法错误校正模块302可以实时或接近实时地为单词或短语建议表情符号，并且可以在用户键入或输入消息时建议表情符号。作为这种方法的一个例子，可以使用语法校正将不正确的句子“猫和狗的雨(It rains of cats and dogs)”自动校正为“正下着倾盆大雨(It’sraining cats and dogs)。”可以通过分析句子的语法结构并进行校正以使得句子与已知的英语语法结构相符来实现这种转换。向语法错误校正模块302传授类似的转换效果，以使用基础语言构造将文本转换为表情符号。例如，在不考虑语法结构的情况下，可以将短语“我爱你”转换为(例如，单词“I”后是心形表情符号和指向的手指表情符号)。然而，，考虑到语法结构(例如，两个主语和动词)，可以将该短语转换为表示两个主语和动词的更合适的表情符号表示，例如(例如，两个人之间有心形的表情符号)。通过这种方式，语法错误校正模块302不是如在前面的示例中那样将错误语法转换为正确语法，而是能够将文本或句子转换为一个或多个表情符号。

在一些实现方式中，语法错误校正模块302可以采用多个分类器。在一个示例中，语法错误校正模块302可以使用监督分类器，，其中，使用有注释的训练数据训练该监督分类器。从众包(crowdsourcing)获得的数据可用于进一步训练分类器。举例来说，可以激励用户(例如，使用用于在线游戏的虚拟商品或货币)参与众包并提供训练数据。能够转换为表情符号或“表情符号化(emojified)”的内容应被视为用于或优先于此训练过程。例如，“我很好(I am good)”可能对训练没有帮助，而“我很好，哈哈(I am good lol)”可能对训练有所帮助，应该优先考虑。

在一些情况下，用户可以注释聊天消息以指示哪些短语可以或应该用表情符号替换。例如，给定短语“我喜欢它，哈哈，你呢？”，用户可以指示“哈哈”应该用笑脸表情符号(例如)替换。这些带注释的消息也可以用作训练数据。

语法错误校正模块302和本文描述的其他模块可用于确定是否应以特定方式将短语表达为表情符号。为了做出该确定，可以识别可以被表达为一个或多个表情符号的短语。从训练数据收集的词典可用于将这些短语映射到一系列表情符号。例如，单词“星”可以映射到黄色星的图像或红色星的图像(例如，或)。在某些情况下，标识的短语可以重叠或映射到相同的表情符号。由训练数据训练的分类器可随后用于确定如何将从用户传送的消息中获得的短语表达为表情符号。例如，，在一个实例中，单词“星”可以映射到黄色星的图像，而在不同的实例中可以映射到红色星的图像。在一些实现方式中，分类器可以是二进制分类器，其为每个实例提供是或否。可以基于分类器的结果来输出表情符号化的消息或表情符号建议。

统计机器翻译(SMT)模块304可以采用SMT方法(例如，MOSES或其他合适的SMT方法)将聊天消息转换成它们各自的表情符号表示(即，它们的“表情符号化”形式)。可以使用包含聊天消息及其表情符号化形式的平行语料库。例如，平行语料库可以包含消息“我喜欢它，哈哈，你呢？”并且表情符号化形式可以是“我喜欢它，你呢？”，其中“lol”已被笑脸表情符号替换。训练数据可以基于用于语法错误校正模块302的数据。在一些示例中，将文本和表情符号的多个平行句子进行匹配以提取最常出现的短语和表情符号对。然后，基于出现的频率和它们出现的上下文，在这些短语对之上构建概率分布。然后可以利用这样的短语对来训练隐马尔可夫模型(HMM)或类似模型，以在生成句子的表情符号版本时学习最有效的状态转换。在一个示例中，HMM模型将每个单词包含为不同的状态，并且状态转换代表单词序列。例如，序列“暴风雪(snow storm)”在英语中出现的频率高于“积雪(snowcoals)”。像HMM这样的生成算法，当想要从给定输入产生输出句子时，其寻找从给定状态转换并生成下一个单词的特定概率。因此，在英语中，单词/状态“雪(snow)”后面更可能是“暴风(storm)”而不是“炭(coals)”，这是因为“暴风(storm)在“雪(snow)”后面的概率高于“炭(coals)”在“雪(snow)”后面的概率。可以将这种建模称为语言建模。在某些示例中，由表情符号文本训练的语言模型与HMM模型结合使用以生成从纯文本转换为表情符号的语言。

在一些实例中，SMT模块304可用于当用户正在向客户端设备输入文本或其他内容时建议表情符号。为了训练SMT模块进行这样的表情符号建议，可以为建议的每个阶段提供训练数据。作为一个例子，对于表情符号对可以生成以下训练样例并将其用于训练SMT模块304：等；这样的训练示例可以使SMT模块304能够基于用户输入的一部分识别或预测预期的文本消息和/或能够基于用户输入的一部分建议表情符号或表情符号化的文本。

在某些示例中，可以建立和配置同步管道，以例如当客户端设备的用户正键入单词时，从客户端设备向服务器提供单词序列或其他句子片段。管道可以为客户端设备和服务器之间的数据传输提供安全有效的机制。可以定义服务器ping的频率以提供最佳数据传输。在一个示例中，可以将短语表下载到客户端设备，并且可以使用点阵解码来进行表情符号化。在该实例中，客户端侧的存储器优化和/或解码优化可能是有帮助的。

可以使用一端具有纯文本而在另一端具有表情符号化的文本的平行语料库训练SMT模块304。通过这种方式产生的短语表可用于提取单词/短语-表情符号对和/或增强用于表情符号建议的一个或多个词典(例如，用于与基于词典的模块306一起使用)。在一个实例中，该方法将表情符号建议的分数F₁提高了13％。

基于词典的模块306优选地使用词典将单词或短语映射到对应的表情符号。例如，短语“哈哈(lol)”可以映射到词典可以通过使用众包来手动构建和/或开发，这可以是激励的。一些词典实现方式可以包括少于1,000个表情符号，并且并非所有表情符号都具有单个对应的单词或任何对应的单词。

在基于词典的模块306中使用的词典优选地将词或短语映射到表情符号，而很少或没有歧义。作为示例，词典不一定将单词“正确(right)”映射到表示“正确(correct)”的表情符号(例如，检查标记表情符号，例如)。尽管短语“你是正确的”准确地表达为但是将短语“我现在想要它(I want it right now)”这样的短语表达为“我现在想要它(I want itnow)”是不准确的。基于词典的模块306可能缺少消除短语的歧义所需的上下文信息。

在一些示例中，可以使用基于深度学习的算法(例如，WORD2VEC或其他合适的算法)来确定或识别单词、短语和表情符号之间的关系。基于深度学习的算法可以将单词映射到每个单词由向量表示的向量空间。例如，向量的长度可以是约40、约50或约60，但任何合适的长度都是可能的。为了确定单词之间的关系，可以计算表示单词的向量的点积。例如，当两个单词(例如，“快乐”和“高兴”)相似时，两个单词的向量将在向量空间中对齐，使得两个向量的点积将为正。在一些示例中，将向量归一化以具有接近1的大小，使得两个对齐的向量的点积也将具有接近+1的大小。基本上正交的归一化向量(例如，对于不相关的词)可以具有接近零的点积大小。同样，对于具有相反含义的单词，归一化向量的点积可能接近-1。

基于深度学习的算法可以用作单词/短语-表情符号对的一个或多个词典的增强和/或可以用于增强或改进一个或多个现有词典。例如，当用户输入词典中不存在的新单词时，该算法可用于在词典中找到与新单词类似的对应单词，并且可以基于相似性向用户推荐与对应单词相关联的任何表情符号。可选地或另外地，该算法可用于构建更完整和/或准确的词典以与基于词典的模块306一起使用。该算法可用于将新单词添加到词典中，并基于新单词与已存在于词典中并与表情符号相关联的现有单词之间的相似性或差异性将表情符号与新单词相关联。

类似的向量表示方法可以用于短语、句子或其他单词组，使得可以确定单词组之间的相似性或差异性(例如，使用点积计算)。向量可以是单词，短语，句子，文档或其他单词分组的数字表示。例如，可以将消息m1“一个人可以渴望太多好事情吗？(Can one desiretoo much a good thing？)”和消息m2“晚安，晚安！分离可以是如此甜蜜的事情(Goodnight,good night！Parting can be such a sweet thing)”安排在如表1所示的特征空间的矩阵中(可以、一个人、渴望、太、多、一、好、事情、夜晚、分离、是、如此、甜蜜)：

表1.示出单词在消息m1和m2中出现的次数的消息m1和m2的特征空间。

在该示例中，表1中的第二列和第三列可用于生成表示两个消息m1和m2和/或消息m1和m2中存在的单词的向量。例如，消息m1可以由向量[1111111100000]表示，其包括表1第二列中的值。消息m2可以由向量[1000012121111]表示，其包括表1第三列中的值。此外，消息m1中的单词“好(good)”可以用向量[0000001000000]表示，向量[0000001000000]的长度(即13)等于消息m1和m2中存在的单词数。该向量在元素7处的值为1，对应于m1的向量中的“好(good)”的位置，并且在所有其他位置中的值为零，对应于m1的向量中的其他单词的位置。同样，消息m2中的单词“好(good)”可以用向量[0000002000000]表示，其中值2表示单词“好(good)”在消息m2中出现两次。消息m1中的单词“夜晚(night)”可以用向量[0000000000000]表示，其中全部元素为0表示消息m1中不存在“夜晚(night)”。消息m2中的单词“夜晚(night)”可以用向量[0000000020000]表示，其中值2表示单词“夜晚(night)”在消息m2中出现两次。使用单词向量的单词或单词组的其他表示是可能的。例如，消息可以由消息中所有单词的平均向量(“平均表示向量”)表示，而不是由消息中所有单词的总和表示。

通常，两个向量A和B(例如，表示单词或单词组)之间的相似度可以例如由A●B/(∥A‖∥B‖)给出的余弦相似度确定，其中，A●B是向量A和B的点积，并且∥A‖和∥B‖分别是向量A和向量B的幅度。余弦相似度可以表示为A的单位向量(A/∥A‖)和B的单位向量(B/∥B‖)的点积。作为示例，向量A和B之间的正余弦相似度(例如，接近+1)可以表示向量A表示的单词或单词组在意义或属性(例如，情感)上与向量B表示的单词或单词组相似。向量A和B之间的负余弦相似度(例如，接近-1)可以表示向量A表示的单词或单词组在意义或属性上与向量B表示的单词或单词组相反。另外，零附近的余弦相似度可以表示向量A表示的单词或单词组在意义或属性上与向量B表示的单词或单词组无关。

词性(POS)标记模块308可用于提供消除歧义。例如，可以修改基于词典的模块306中的词典以包括POS标签，例如名词短语、动词短语、形容词等，和/或附加信息，例如POS标签的总数(例如，每个单词)和一组有效的POS标签(即，可以表达为表情符号的单词的一组标签)。这使得能够筛选出句子或短语中的可能表达为表情符号的单词。如果通过词性标记器成功识别名词短语，则可以在短语级别将这些名词短语拼凑在一起并由相关的表情符号替换。例如，对于“警车在公路上行驶”这句话来说，POS标记器将“警车”和“公路”识别为名词短语并将“行驶”识别为动词短语。然后，本系统和方法可以选择一个描述警车的表情符号，而不是为警察和汽车识别两个单独的表情符号。

作为消除歧义的下一级别，具有相同POS标签的单词可具有多个不相似的含义。例如，“我认为她是对(right)的”和“在你右(right)手边走”中的术语“right”是一个形容词，但具有不同的含义，并且可以在每个短语中表达为不同的表情符号。例如，可以通过从英语聊天历史中识别上下文单词来处理这种情况。可以将上下文信息添加到词典中(例如，通过手工收集)或者创建为单独的词典。上下文方法对包含和排除二者进行处理(即，单词的存在/不存在将决定表情符号)。可以收集并存储上下文信息以用于单词的最频繁的共同出现。

在某些应用中，可以将词干分析器或词干分析算法结合到基于词典的模块306或由基于词典的模块306使用，或结合到表情符号检测模块116使用的任何其他方法，以识别内容中的词的词根或基本形式。例如，词干分析器可用于区分单数和复数形式的名词。例如，可能需要将“星”映射到而将“多个星”映射到“多个”。

还可以使用信息提取模块310来执行表情符号化，信息提取模块310用作搜索和提取工具并且使用基于秩的信息提取和检索技术。该方法的一些示例可以类似于现有搜索引擎(例如，LUCENE/SOLR和SPHINX)使用的方法，其可以利用应用程序接口(API)来快速自动的完成。这些方法通常需要特定格式的数据。例如，SOLR更适合文档搜索，但可以很好地扩展，而SPHINX更适合自动完成但不能很好地扩展。典型的搜索引擎索引文档对应于搜索关键词，以便可以找到新搜索关键词的即时匹配文档。这些索引列出或包括各个关键词在文档中出现的频率，对于指示相关匹配的给定搜索关键词具有更高的频率。可以在单词和表情符号的上下文中使用类似的方法。例如，如果某个表情符号在给定单词的上下文中多次出现，则该单词和表情符号很可能可以互换使用。因此，当表情符号频繁地与特定单词或短语结合使用或替换特定单词或短语时，信息提取模块310可以为该特定单词或短语建议表情符号。在一个示例中，可以使用信息提取模块310来搜索在消息传递平台(例如，游戏平台)上传递的文本消息的集合，以识别各个单词或短语与某些表情符号在消息传递平台结合一起使用的频率。

自然语言处理(NLP)模块312也可以用于表情符号化。通常，NLP模块312采用NLP工具，举例来说，例如解析器、形态分析器、情感分析器、语义分析器等，以获得聊天消息的潜在含义和结构。然后该信息可用于将句子与用相应数据标记的表情符号匹配。例如，当呈现不同程度的情绪时，情绪分析器可以识别情绪的极端。然后可以识别诸如“我快乐”和“我很快乐”之类的情况，并且可以为它们分配不同的表情符号以更好地表示更高或更低程度的情绪表达。NLP模块312可以分析内容以搜索例如语法，命名实体，情绪，感情和/或俚语。识别与内容匹配或相对应的表情符号。

可选地或另外地，关键词匹配模块314可以用于表情符号化。关键词匹配模块314优选地执行简化版本的信息检索，其中某些关键词(例如，命名实体、动词或仅非停用词)与和表情符号相关联的标签匹配。关键词和标签之间的匹配越强，命中率就越高。例如，警卫车、警车和警察巡逻车都可以映射到描述警车的同一表情符号。这些命名实体变体中的每一个被记录为警车表情符号的标签。可选地或另外地，标签和表情符号的顺序可以翻转，使得警车表情符号(例如，)可以匹配多个假设，举例来说，例如“汽车”、“警车”和“警卫车”。这些假设可以按照与给定表情符号相关的顺序排列，并且可以识别提供最佳匹配的假设。在一些实现方式中，关键词匹配模块314的输出与表情符号检测模块116使用或包括的其他方法的输出相组合。可以从多个这些方法中获得N个最佳假设并进行组合。

一般来说，用于关键词匹配模块314的技术不同于用于基于词典的模块306的技术。词典匹配通常取决于构建单词和表情符号之间的一对一的对应关系的静态列表。关键词匹配是通过以下方式对词典的增强：诸如“警官”和“警察”的多个关键词可以彼此相关联，然后又与相应的表情符号相关联。在各种示例中，词典匹配可以具有警察的单个条目和警察的表情符号。相反，关键词匹配可以教导“警官”和“警察”是相同的，从而改善了字典覆盖。

有限状态换能器(FST)模块316也可以用于表情符号化，并且可以帮助克服其他方法(例如基于词典的方法)存在的缺少上下文信息的问题。FST在NLP中具有某些应用，例如，在自动速度识别(ASR)和机器翻译(MT)中。FST通常以高速工作，并且适合于实时或接近实时地提供表情符号推荐。FST通常基于状态转换而工作。生成过程是由到目前为止在句子中看到的单词或表情符号驱动的(例如，用户的部分输入)。然后将基于从训练语料库学习的转换概率生成句子中的下一步骤或状态。在某些示例中，FST使用的状态转换与SMT模块304中的隐马尔可夫模型所使用的状态转换类似。然而，区别因素是SMT模块304使用经双语数据训练的状态转换(语言-表情符号)而FST模块316使用单语数据来学习状态转换。单语数据包括作为训练数据的表情符号化的文本，并且状态转换有效地是或者基于在先前的单词/表情符号之后的单词/表情符号的概率。因此，生成模型建立在继承概率上。FST模块316可用于基于单词或短语之后的表情符号的先前使用来预测可能在单词或短语之后插入的表情符号。

表情符号检测模块116使用其表情符号检测模块中的一个或多个(例如，基于词典的模块306和POS标记模块308，尽管可以使用任何一个或多个表情符号检测模块)来识别可以适合插入到用户传送的消息中的表情符号。在一个示例中，每个表情符号检测模块提供概率或置信度分数的向量。每个概率或置信度分数可以与一个或多个候选表情符号相关联，并且可以表示用户可能希望将表情符号插入到传送的消息中的可能性。可选地或另外地，概率或置信度分数可以指示表情符号和传送的消息之间的相关性。由于采用的方法不同以及通信中可用的信息，来自每个表情符号检测模块的置信度分数可能不一致。

一般来说，表情符号检测模块116中的表情符号检测模块可以接收各种形式的输入。例如，取决于所使用的特定方法，表情符号检测模块可以接收(例如，从客户端设备)以下中的一个或多个作为输入：内容中的光标位置；在当前实例或会话中先前从用户的键盘输入的内容流(例如，来自客户端设备)；用户键入或输入的一个或多个字符、单词或短语(例如，使用客户端设备上的键盘)；在当前实例之前使用键盘的先前迭代或会话中输入的内容(例如，来自服务器日志)；用户偏好(例如，偏好的表情符号或表情符号类别)；以及人口统计信息(例如，从服务器日志获得的发送者或接收者的种族、性别等)。在一个示例中，人口统计信息可以用于推荐具有特定头发类型(例如，表示性别)或皮肤类型(例如，用于面部和皮肤表情符号)的表情符号。一些表情符号检测模块可能需要访问词典(例如，存储在服务器系统112中的词典)、NLP工具(例如，通过服务器系统112运行和访问的NLP工具)、和/或特定于表情符号检测模块的功能的内容规范化服务器(例如，在服务器系统112上运行的内容标准化服务器)。内容规范化服务器可用于最大化的实现单词和表情符号之间的匹配。例如，聊天消息系统的用户通常在文本消息中使用非正式语言、俚语和/或缩写。在典型的例子中，该服务器可以将单词“luv”规范化为“爱(love)”，然后单词“爱(love)”可以正确地匹配一个或多个合适的表情符号，例如心形表情符号(例如，)。

可以使用表情符号分类器模块118对表情符号检测模块116中的各个表情符号检测模块的输出进行组合或处理，以获得建议的表情符号。可以将多个表情符号检测模块的输出作为单独的输出、组合输出或多个输出(例如，来自使用的每个模块或方法的单独输出)提供给表情符号分类器模块118。通常，表情符号分类器模块118接收来自表情符号检测模块的输出并使用各种技术处理该输出以获得建议的表情符号。如本文所述，训练数据可用于训练表情符号分类器模块118中的一个或多个分类器。

参见图4，表情符号分类器模块118可以包括内插模块402、支持向量机(SVM)模块404和线性SVM模块406。也可以使用其他分类器或分类器模块。

内插模块402可用于执行两种或更多种表情符号检测方法的结果的内插(例如，线性或其他合适的内插)。例如，可以通过在关键词匹配模块314和SMT模块304的结果之间进行插值来确定一组表情符号建议。某个短语-表情符号映射可以具有来自关键词匹配模块314的基于关键词频率的分数k，以及来自SMT模块304的例如基于HMM输出概率的分数s。然后可以对这些分数进行归一化(例如，以使得每个模块的最大可能分数等于1)并进行内插以生成组合分数。

通常，可以通过反复试验和试错来在数字上确定在两个或更多个值之间进行内插的最佳权重。可以尝试不同的权重来识别给定的一组消息的最佳的一组权重。在某些情况下，权重可以是消息中的单词或字符的数量的函数。可选地或另外地，权重可以取决于消息的语言域。例如，游戏环境的最佳权重可以与体育环境的最佳权重不同。

SVM(支持向量机)模块404可以是或包括分析单词/短语和表情符号的组合并识别模式的监督学习模型。例如，SVM模块404可以是多类SVM分类器。优选地使用标记的训练数据训练SVM分类器。训练模型作为输入的预测器。例如，在表情符号检测的情况下选择的特征可以是单词或短语的序列。输入训练向量可以映射到多维空间。然后，SVM分类器可以使用内核来识别这些维度之间的最佳分离超平面，这将为分类器提供预测表情符号的区分能力。例如，内核可以是线性内核、多项式内核或径向基函数(RBF)内核。其他合适的内核也是可能的。SVM分类器的首选内核是RBF内核。在使用训练数据训练SVM分类器之后，分类器可用于输出所有可能的表情符号中的最佳的一组表情符号。

线性SVM模块406可以是或包括大规模线性分类器。具有线性内核的SVM分类器可以比其他线性分类器执行得更好，例如线性回归。线性SVM模块406与内核级别的SVM模块404不同。在某些情况下，多项式模型比线性模型更好，反之亦然。最佳内核可以取决于消息数据的语言域和/或数据的性质。

本文描述的系统和方法使用的其他可能的分类器包括例如决策树学习，关联规则学习，人工神经网络，归纳逻辑编程，随机森林，梯度增强方法，支持向量机，聚类，贝叶斯网络，强化学习，表征学习，相似性和度量学习，以及稀疏词典学习。这些分类器中的一个或多个或其他分类器可以合并到表情符号分类器模块118中和/或形成表情符号分类器模块118的一部分。

在各种实现方式中，分类器接收由一个或多个表情符号检测方法生成的概率或置信度分数作为输入。概率或置信度分数可以将用户消息中的单词或短语与用户可能希望插入的一个或多个可能的表情符号相关联。取决于使用中的分类器，分类器还可以接收当前光标位置、用户消息中的单词或短语、用户发送或接收的先前消息或先前内容、用户偏好和/或用户人口统计信息作为输入。通常，分类器使用输入来确定最可能的单词-表情符号映射以及置信度分数。

再次参见图1，对于给定传送的消息来说，管理器模块120可以选择来自特定表情符号检测方法、分类器和/或表情符号检测方法的组合的输出，以建议要插入到传送的消息中的表情符号。管理器模块120可以根据例如语言域、传送的消息的长度或用户的偏好来进行选择。管理器模块120可以根据例如由分类器确定的置信度分数来选择特定分类器。例如，管理器模块120可以选择预测最有信心的分类器的输出。在某些示例中，管理器模块120选择语法错误校正模块302、基于词典的模块306、词性标记模块308和/或自然语言处理模块312的输出的组合。可选地或另外地，管理器模块120可以选择统计机器翻译模块304和有限状态换能器模块316的输出的组合。管理器模块120可以使用表情符号分类器模块118的一个或多个分类器(例如，内插模块402)来组合来自这些模块的输出。支持向量机分类器(例如，在支持向量机模块404或线性支持向量机模块406中的支持向量机分类器)可用于将用户信息或偏好(例如，针对多玩家在线游戏的玩家)与来自表情符号检测模块116的一个或多个置信度分数联系在一起。

例如，用于分类器的训练数据可以是或包括来自不同表情符号检测方法的输出向量以及用于具有例如不同消息长度、语言域和/或语言的内容的正确或最佳表情符号的指示。训练数据可以包括其最准确或偏好的表情符号已知的大量消息。

某些表情符号检测方法，例如语法错误校正方法302和统计机器翻译方法304，可以是或利用用于将内容转换为表情符号的统计方法。可以收集和利用训练数据来实施这些统计方法。

在初始的测试数据收集阶段，可以收集至少2000个消息的测试集并用于评估不同的表情符号化方法，当然可以使用测试集中的任何合适数量的消息。在评估中，可以使用与语法错误校正相同的度量。在第二阶段，可以收集用于统计学的表情符号化方法的训练数据。在第三阶段，众包可用于收集不同语言的大量训练数据。

在一个实现方式中，可以创建用于收集训练数据的网页。可以使用数据库表来保存从聊天消息数据库中选择的某些原始聊天消息。当用户登录网页时，可以将内容显示给用户，并且可以请求用户将内容转换为其表情符号形式。网页优选地显示表情符号的虚拟键盘以帮助用户进行表情符号化处理。来自用户的表情符号化的消息存储在数据库中。通常，网页允许收集用于采用统计技术的表情符号检测方法的训练数据。

为了获得用户在网页上进行表情符号化的原始消息，可以在表情符号化词典中为每个英语-表情符号收集英语短语。然后可以对聊天日志数据库的英语聊天消息中的短语执行搜索。

通常，可以使用众包技术(例如，在聊天室或游戏环境中)来使用户将频繁使用的内容与表情符号模式匹配。众包也可以反过来使用。例如，可以向用户呈现一个或多个表情符号，然后用户提供对应于表情符号的建议内容。

可选地或另外地，众包可以用于创建可以与其他用户共享的新表情符号。例如，在游戏环境中，游戏运营商可以控制游戏经济并且可以访问庞大的玩家群，这允许游戏运营商利用众包来创建表情符号。玩家可以使用工具来设计、创建和与其他玩家共享插入到消息中的表情符号。工具可以允许玩家通过组合预定义的图形元素和/或通过以自由形式绘制表情符号来创建表情符号。可以允许玩家投票和/或批准玩家发现表情符号在游戏环境中使用时有用、有趣和/或相关。这可以改善表情符号的采用过程，玩家可以更容易地采用更高评价的表情符号。

也可以激励表情符号创建过程。例如，游戏玩家可以在创建和提交表情符号时和/或当他们的表情符号被其他玩家使用时获得奖励。奖励几乎可以是任何形式，例如，包括财务激励(例如优惠券和折扣)，以及与游戏相关的激励(例如用于游戏的虚拟商品或虚拟货币)。这些奖励激励玩家创建表情符号并与游戏社区共享他们的表情符号。例如，当季节性玩家与环境(PvE)事件需要表情符号时，激励使得可以更快地创建表情符号。

通常，用户创建表情符号不限于游戏环境。可以为聊天室或其他通信系统的用户提供表情符号创建工具，并允许他们与他人共享他们的表情符号。也可以激励这种众包努力，使用户获得某些奖励(例如，优惠券，折扣和其他财务激励)以换取他们的表情符号创作。

本文描述的表情符号化系统和方法的实现方式能够利用来自各种源的表情符号，包括IOS键盘、ANDROID键盘和/或UNICODE(例如，可在http://unicode.org/emoji获得)。

图5是表情符号建议系统500的示例性架构。系统500包括通过网络(例如，网络132)与服务器模块504交互的多个客户端设备502。服务器模块504包括分布式存储模块506，其用作系统500的基础。分布式存储模块506是服务器侧数据存储(例如，分布式数据库)，其存储与表情符号-关键词映射、玩家使用信息、玩家偏好以及对建议表情符号有用的其他信息相关的数据。分布式存储模块506可以是、包括或形成训练数据122、词典124、聊天历史126和/或用户信息128数据库的一部分。当存储的数据量接近存储容量时，分布式存储模块506可以向系统管理员提供缩放通知508或警报。服务器模块504可以与服务器系统112相同或类似，和/或可以包括服务器系统112的一些或全部组件。例如，客户端设备502可以包括个人计算机、智能电话或其他移动设备、平板电脑和笔记本电脑。客户端设备502可以与客户端设备134，136，138和140中的一个或多个相同或相似。

系统500还包括防止对分布式存储模块506的无限制访问的一个或多个认证和速率限制模块510。同时，通过认证和速率限制模块510访问仅与所讨论的用户相关的数据，向用户提供最相关的表情符号。认证和速率限制模块510维护日志512以记录交易并提供紧急通知514以通知系统管理员任何错误。

系统500还包括负载平衡器516，其用作客户端设备502和服务器模块504之间的接口。负载平衡器516处理来自多个客户端设备502的并发请求并确保对每个客户端设备502进行排队并将请求正确的路由到服务器模块504。

每个客户端设备502包括本地缓存模块518、类型猜测模块520和文本转换模块522。本地缓存模块518用于将最常用的表情符号或表情符号-关键词映射保存到每个客户端设备上的键盘。例如，本地缓存模块518可以是或可以利用hash map，ELASTICSEARCH和/或SQLite。类型猜测模块520和文本转换模块522可用于解码单词或短语以找到表情符号等价物。例如，类型猜测模块520可以基于用户消息的初始部分来预测用户接下来将输入的单词或短语。例如，类型猜测模块可以使用或包括本文描述的FST模块316和/或RNNLM语言模型。文本转换模块522可用于转换非正式内容。例如，在分析内容以找到表情符号建议之前，文本转换模块522可以将首字母缩略词、缩写词、聊天说话和/或亵渎语言转换为更正式的单词或短语。在一些实现方式中，类型猜测模块520和/或文本转换模块522在服务器模块504中实现。例如，这些模块可以位于分布式存储模块506与认证和速率限制模块510之间或附近。

客户端设备502和服务器模块504还包括允许玩家创建新表情符号并与社区的用户共享表情符号的众包元件。用户可以使用客户端设备502上的众包客户端模块524来绘制或创建新的表情符号。可以将用户创建的表情符号传送到服务器模块504，其中用户创建的表情符号存储在分布式存储模块506中。优选地，众包交易通过一个或多个众包认证模块526，因此给定用户创建的表情符号与用户的凭证一起存储。当验证玩家创建的表情符号并且用户因创建表情符号而获得奖励时，可以使用这些信息。众包负载平衡器模块528维护众包日志530并提供任何紧急通知532。

在某些实现方式中，本文描述的表情符号化系统和方法在用户键入或输入消息时实时提供表情符号建议。通过在用户客户端设备上缓存表情符号可以有助于实时建议。可选地或另外地，表情符号检测模块116、表情符号分类器模块118和/或管理器模块120可以存储在客户端设备上并且可以由这些设备执行。在一些示例中，可以使用表情符号键盘来代替本机客户端键盘。表情符号键盘允许玩家选择表情符号而不是单词和/或在内容键盘上显示表情符号替代物。

可以将表情符号化系统和方法配置为从ELASTICSEARCH或其他合适的服务器获取表情符号建议。这可能是有效的，但在响应时间方面通常效率不高，这是因为需要服务器请求来获得表情符号建议。例如，可以使用大约2500或更多的表情符号对齐内容来制作表情符号建议。

给定这么少量的数据，例如使用客户端侧的自动完成索引环境来模拟ELASTICSEARCH是优选的实现方式。这可以避免向ELASTICSEARCH服务器发出http请求，并且通常将会改进制作表情符号建议的响应时间。

提取的单词/短语和表情符号之间的映射可以被认为是或形成文档，并且可以输出为合适的格式，举例来说，例如JSON格式等。优选地，每次将映射推送到客户端或仅通过推送更新存储在客户端侧，使得建议模块(例如，在客户端设备上)可以使用它来提出建议。

在客户端侧，文档索引系统具有两个组件。一个组件涉及从部分输入获取输入建议关键词。另一个组件涉及将建议关键词映射到要建立的表情符号映射文档的内容。可以利用服务器端的加载的JSON文件中的表情符号映射文档的内容中的输入关键词将输入关键词建议系统建模为前缀树。第二索引优选地是文档的关键词的倒排索引。对于每组可能的唯一输入关键词来说，对对应于输入关键词的文档的进行映射。

同样在客户端侧，自动完成系统被配置为在用户输入文本或其他内容时利用上述索引并确定可能的建议。系统接收用户的部分输入，确定以部分输入结束的所有可能的可表情符号化的内容(即，可以转换为一个或多个表情符号的内容)，并获得对应于表情符号映射文档的内容。由于可以在短语级别上获得建议，因此在可表情符号化的内容实际开始的位置存储索引参考可能会很棘手。特别是，用户可以随时返回并更改输入，这也可以更改所有其他单词的索引参考。系统还可以在输入中的每个字符位置保持起始索引偏移。起始索引偏移可用于获得该特定点处最长的可能的可表情符号化的内容。系统还可以使用基于语言模型的过滤来过滤不相关的建议。可以将语言模型作为n-gram→(lm_value,back_off_weight)值的简单哈希映射存储在客户端。例如，可以将当前索引位置的单词和前面的单词与语言模型概率分布(lm_value)进行比较来衡量它们出现的概率。如果未找到直接匹配，则back_off_weight值用作回退机制。可以在选择过程中忽略具有低lm_value的匹配，从而过滤得到的匹配项。

通常，当与例如ELASTICSEARCH请求相比时，客户端索引系统应该具有更快的进行建议的响应时间。表2示出了评估客户端和服务器端系统的测试结果。ELASTICSEARCH服务器托管在本地主机(localhost machine)上。表中提供了评估2800个示例的响应时间。客户端实现的响应时间大约是服务器端实现的响应时间的一半。因此，客户端索引和自动完成似乎比服务器端实现更快。

表2响应时间比较

表情符号化的目标是将内容令牌转换为表达与原始输入内容相同含义的表情符号。在高级系统设计方面，通常有两种实现方法。一种方法是等待用户输入完整的内容输入并使用基于词典的方法和/或统计方法来将输入内容表情符号化。第二种方法是将表情符号化视为自动完成操作，其中当用户正在键入输入字符的过程中时建议表情符号。第一种方法的优点是，仅在结束时仅执行一次表情符号化操作。然而，第一种方法使用户很少或根本不能控制如何将输入内容表达为表情符号。第二种方法的优点是它使用户能够更好地控制表情符号化过程。第二种方法的主要挑战是在相对较短的时间内根据用户输入的不完整的内容建议表情符号。

为了在用户输入内容时建议表情符号，一种方法是执行按顺序查询自动完成方法，其中对搜索关键词进行评估并基于输入的搜索关键词产生建议列表。当用户键入搜索查询“j wein”时，结果可以包括诸如“j weiner”，“j weiner and associates”，“j weinerphotography”等建议列表。通过将完整的搜索关键词与索引结果匹配并提供高排名的结果来获得这样的建议。其中一些这样的网络搜索系统还包括自动拼写校正。

在用户输入内容时建议表情符号的另一种方法是执行无序部分自动完成。此方法不评估搜索关键词，而是仅评估每个关键词的前缀来生成表情符号建议列表。当用户输入“j wein”时，结果将是“Jeff Weiner”，“Jeff Weinberger”等的建议列表。为了获得这些结果，搜索关键词“j wein”与索引搜索日志中的每个搜索关键词前缀匹配，并且获得排名最高的搜索关键词。

本文描述的表情符号化系统和方法的用户通常在移动到下一个单词之前而不是输入恰好是搜索关键词的前缀的单个或两个字符之前，输入完整单词或单词的修改形式。因此，自动完成的问题与“按顺序查询自动完成”方法类似。

在上述系统中，可以将完整的用户输入视为搜索关键词，并且可以基于此将搜索结果列入候选名单。当用户输入搜索关键词时，可以关联当前词之前的词，并且当前词之前的词可以在索引的自动完成日志中获得一些命中。输入可以是完全自然的语言，其中连续的单词不像在典型的搜索查询中那样彼此不完全相关。当GOOGLE接收到自然语言查询时，其会根据用户输入的搜索查询的最常用前缀和后缀匹配提供建议列表，有时即使所有关键词都是GOOGLE搜索词汇中的有效的个别关键词，GOOGLE也不会提出任何建议。

然而，对于本文描述的表情符号系统来说，即使对完整的短语没有建议表情符号，也可以有短语中的数个单词的映射表情符号。系统可以定位可表情符号化的单词或短语，并在许多可用的建议中对建议进行排名。例如，当用户在搜索框中键入“警用装备(policegear)”时，表情符号建议可以分别用于“警察(police man)”和“运动装备(sports gear)”，但可能没有针对完整短语“警用装备(police gear)”的表情符号建议。如果用户知道没有针对“警用装备(police gear)”的特定表情符号，用户可以在键入“警察(police)”后选择警察表情符号。当用户键入“装备(gear)”时，较好的是考虑针对最近的可表情符号化的内容(例如，单词“警察(police)”)的建议和针对当前正键入的单词(例如，装备(gear))的建议。这个简单的例子基于二元语法，但同样的问题可以扩展到任何长度的短语。

可以使用ELASTICSEARCH自动完成工具来提供一些表情符号建议。该工具维护有限状态传感器(FST)，每次在重新索引期间而不是在搜索时间期间对其进行更新。该工具还在倒排索引表中存储每个单词的边缘n-grams。例如，该工具可以是基于JAVA的。

还可以使用被称为CLEO的另一种基于JAVA的工具来提供表情符号建议。此工具维护搜索查询的边缘n-grams索引以搜索结果，并使用布隆过滤器(bloom filter)过滤无效结果。在某些示例中，CLEO工具和/或ELASTICSEARCH自动完成工具是本文描述的其他方法(包括基于FST的方法和语法错误校正方法)和模块的实现方式或由其使用。

在某些实现方式中，索引用户查询日志是自动完成系统的重要部分。本表情符号化系统和方法优选地能够利用每个用户响应实时或接近实时地重新计算索引。索引包括用于完成搜索关键词映射的部分搜索关键词，部分搜索关键词之后是用于表情符号建议映射的完整搜索关键词。

本文描述的系统和方法的示例可以使用统计语言模型来基于在大语料库上收集的统计数据计算单词在特定序列中出现的概率。例如，可以使用语言模型确定“母牛跳到了月亮上(the cow jumped over the moon)”的概率大于“将月亮跳到母牛上(jumped themoon over the cow)”的概率。

在某些示例中，语言模型可以用于基于用户已经提供的部分输入(例如，单词或句子的开头)来预测用户将键入或输入的单词或其他内容。例如，当用户开始键入单词时，语言模型可以根据键入的部分单词预测或建议表情符号。优选地，语言模型可以对来自一组可能建议的任何表情符号建议进行排名，并且可以在光标位置处或附近呈现排名最高的建议，以供用户进行可能的选择。这种排名的准确性可以根据可用的训练数据和/或所使用的特定语言模型而变化。用于预测用户输入和/或建议表情符号的优选的语言模型是或包括基于递归神经网络的语言模型(RNNLM)。

RNNLM语言模型通常是或包括使用数据中的顺序信息的人工神经网络。输入的每个元素都可以通过相同的操作集，但输出可以取决于先前已执行的计算。优选地，该模型例如使用除了任何输入和输出状态之外的每个点处的隐藏状态，来记住直到某点的处理的信息。理论上，在递归神经网络中可以存在无限的隐藏状态层。

传统神经网络可以具有输入层(例如，输入的表示)、一个或多个隐藏层(例如，在层之间发生变换的黑盒子)、以及输出层(例如，基于模型输入的模型输出的表示)。RNNLM是一种可以使用单个(隐藏)层递归神经网络来训练统计语言模型的特定神经网络。RNNLM可以使用先前的单词和先前的隐藏状态来预测下一个单词的出现概率。对于每个输入元素，可以使用到目前为止处理的信息来更新当前隐藏状态。例如，可以使用随机梯度下降(SGD)算法(或其他合适的算法)来执行训练，并且可以使用例如通过时间的反向传播(BPTT)算法(或其他适当的算法)来训练先前隐藏状态的循环权重。通过预测用户将可能输入的下一个单词或短语，RNNLM能够建议与预测的下一个单词或短语相关的一个或多个表情符号。

进行一系列实验以评估表情符号化系统和方法。在一个实验中，在ELASTICSEARCH中对表情符号映射的搜索关键词进行索引。还实现了一种访问ELASTICSEARCH REST API以为用户正键入的任何部分输入建议表情符号的系统。ELASTICSEARCH可以使用内存中的FST和反向索引将搜索关键词映射到表情符号结果。

基于所使用的排名机制开发了三种不同版本的表情符号建议系统。在不使用排名的第一版本中，直接将用户的部分输入作为ELASTICSEARCH索引系统的输入。反过来，该系统将部分输入映射到可能的输入查询并返回建议列表。解决了重复建议的问题，并且没有对建议列表应用排名。因为该系统为所有的部分输入都提供了表情符号，所以该方法通常具有良好的召回率但精度较差。

尽管基于输入查询的频率对输出建议列表进行排名或评分，但是基于频率排名的第二版本与第一版本类似。通过移除较低频率(例如，较不常见的)输入查询来解决重复的表情符号建议的问题。在一个实现方式中，检索对ELASTICSEARCH索引系统的所有可能的输入查询，并计算聊天语料库中输入查询的频率。表情符号建议优选地基于计算的频率分数来排名。与第一版本相比，该方法通常实现了更高的排名和比较好的精确度和召回率。

在第三种基于语言模型的排名版本中，通过聊天语料库训练三元语言模型，并且训练的语言模型用于过滤来自ELASTICSEARCH的输出表情符号建议。考虑了包括用户键入的最新字符在内的完整的用户输入。计算最近部分输入的所有可能的ELASTICSEARCH输入查询。认为最近的三元组和输入查询是句子，并使用训练的三元语言模型对其进行评分。基于表情符号建议的可能性对其进行排名。设置适当的阈值水平，并且如果句子的可能性低于阈值，则忽略该建议。在某些示例中，表情符号建议系统的第一、第二和第三版本使用用上述表情符号检测方法和模块中的一个或多个，举例来说，例如，语法错误校正方法、NLP方法、POS方法、和/或词典方法。

评估建议的表情符号的正确性或准确性是非常主观的任务。评估表情符号建议的正确性的两个重要因素是精确度和召回率。精确度通常测量由于不相关的表情符号建议和/或建议中的表情符号的不正确排名而导致的用户体验到的困惑和/或烦恼。召回通常测量已经作出的表情符号建议的次数以及用户积极响应建议的次数。

有三个主要因素或问题可能导致用户对表情符号建议感到烦恼。一个因素是缺乏表情符号建议。例如，当没有接收到针对给定用户输入的表情符号建议或没有准确的表情符号建议时，用户可能会烦恼。导致用户烦恼的另一个因素是在一组表情符号建议中包含不适当或不准确的表情符号。例如，当建议的表情符号的全部或一部分与用户输入无关时，用户可能会烦恼。可能导致用户烦恼的另一个因素是一组表情符号建议中的表情符号不准确或排名不适当。目的是将排名高的表情符号置于该组表情符号建议的顶部，用户可以更轻松地访问或识别它们。然而，当排名最高的表情符号不准确或不合适时，用户可能会变得烦恼。用户通常更有可能在该组表情符号建议中选择排名最高的表情符号。

由于表情符号建议，某些度量标准可以用于测量用户所体验的烦恼。在一个示例中，针对上述烦恼因素给出不同的惩罚值，并且惩罚值用于计算单个建议的总惩罚。因为用户的烦恼程度可以是用户输入的长度的函数，所以可以根据用户输入的长度来计算或衡量惩罚值。例如，当在冗长的用户输入之后建议不正确的表情符号时，用户可能更烦恼，而当在用户输入较短或用户输入部分之后建议不正确的表情符号时，用户可能较不烦恼。

在一个示例中，根据所有测试示例中的无建议惩罚(即，与不提供表情符号建议相关联的惩罚)、错误建议惩罚(即，与提供不正确的表情符号建议相关联的惩罚)、以及基于排名的惩罚(即，与建议的表情符号的错误排名相关联的惩罚)的总和来确定总惩罚。没有建议惩罚可以是例如2.0*长度因子。对于排名高于正确建议的每个错误建议的错误建议惩罚可以是例如1.0*长度因子，并且对于排名低于正确建议的每个错误建议可以是例如0.0*长度因子。这些惩罚的其他合适的值是可能的。基于排名的惩罚可以是例如(正确_表情符号_建议_排名-1)/(建议的数量)*长度因子)。当正确的建议排名最高时和/或当没有正确的表情符号建议时，基于排名的惩罚优选地为零。在后一种情况下，“无建议惩罚”解决了烦恼问题。长度因子可以是当前用户输入的部分的长度(例如，以单词为单位)减去建议的最小阈值长度。

在某些实现方式中，不是从用户输入的单个字符建议表情符号，而是仅在接收到用户输入的最少几个字符之后才建议表情符号。建议表情符号的最小阈值优选的是两个字符，因此只有具有两个以上字符的输入查询才会收到表情符号建议，当然最小阈值的其他字符长度是可能的。

准备2800个示例的数据集以及标记信息，并将其用于评估本文所述的无排序方法、基于频率的方法和基于语言模型的排序方法。实验结果如表3所示，其表明因为无排序方法和基于频率的方法没有最小阈值测量或任何其他过滤标准而实现了较好的召回率。相比之下，基于语言模型的排名方法因为应用阈值修剪来过滤不太可能的建议而具有较低的召回率。结果还表明，与其他两种方法相比，基于语言模型的排序方法实现了更高的精度和更低的烦恼惩罚。因为很多烦恼是由于错误的建议而引起的，所以基于语言模型的排名方法的烦恼惩罚较低。

方法	精度	召回率	综合烦恼惩罚
				无排名方法	0.226	0.676	86563
基于频率的方法	0.226	0.676	86252
				基于语言模型的排名	0.328	0.356	40102

表3对表情符号建议的排名方法的评估

在某些实施方式中，本文描述的系统和方法适合于将表情符号建议作为对多个用户的服务而提供。通过系统和方法建议表情符号的速度，以及系统和方法基于来自不同客户的服务请求利用多个表情符号检测方法和分类器的能力，使得这种服务成为可能和/或得以增强。

直到几年前，才有了表情符号的标准表示。在IOS 5.0版本之前，通过使用利用SOFTBANK字符集映射的3字节的UTF-8，对IOS设备中的表情符号进行编码。在IOS 5.0版本中，IOS设备开始使用统一编码来表示表情符号字符，其中统一编码是大公司商定的标准。通过使用这种新格式，表情符号都使用4字节的UTF-8编码进行编码。

统一码(UNICODE)字形(即，所呈现的字符)到统一码代码点的映射通常不依赖于编程语言。代码点的长度可变，并且可以是2到4个字节的任何大小。编程语言可以对代码点进行不同处理。

例如，使用PYTHON 2.7，在统一码对象上循环一次获得一个统一码代码点。PYTHON2.7不支持4字节的统一码范围表达式，这是因为它支持ASCII字符。因此，编写统一码正则表达式以匹配UTF-8编码的统一码字符串中的4字节统一码代码点范围可能是不可能的。但是PYTHON 2.7确实支持UTF-8编码的统一码字符串的2字节统一码表达式。循环使用UTF-8编码的字符串在PYTHON 2.7中一次读取一个字节。

给定该信息，进行实验以评估在样本聊天数据集上的PYTHON 2.7统一码检测过程。实验表明，当UTF-8编码的统一码代码点具有高或低代理范围内的字节时，该字节本身不能单独表示统一码字符。当当前字节与具有备用代理对的字节组合时，可以形成有意义的统一码表示。统一码字符“\uFFFF”上方的大多数统一码代码点都是表情符号和图片字符。当使用中文、日文和韩文(CJK)以及其他语言脚本时，最好不要将所有代码点都近似为表情符号。

使用PYTHON 2.7作为编程语言，检测任何表情符号的准确方法应该分两步完成。首先，遍历UTF-8编码的统一码字符串的每个统一码字节。如果使用多于一个字节对统一码代码点进行编码，则每个字节中都有一个代理对。如果字节没有代理对，则它本身应该是统一码代码点。其次，对范围和当前统一码代码点进行编码，并检查当前统一码代码点是否落在该范围内(例如，使用简单的逻辑比较来检查)。

相比之下，统一码(ICU)API的C++国际组件对统一码范围表达式具有非常好的支持。可以使用连字符与ASCII范围表示类似地编写统一码范围表达式。

表情符号字符分布在2字节和4字节统一码范围内。表情符号包括下表4中列出的字符范围。

统一码范围	符号
		2190—21FF	箭头
2200—22FF	数学运算符
		2300—23FF	Miscellaneous技术
2400—243F	控制图片
		2440—245F	光学字符识别
2460—24FF	封闭式字母数字
		2500—257F	方框图
2580—259F	块元素
		25A0—25FF	几何形状
2600—26FF	Miscellaneous符号
		2700—27BF	装饰符
+1D100-+1D1FF	情绪表情符号
		+1F000-+1FFFF	图片表情符号

表4统一码范围和相应的符号

IOS和ANDROID键盘上可用的标志符号标准列表包括大约900个表情符号。本文描述的系统和方法的实现方式利用更多数量的表情符号，这使得游戏玩家和其他用户在游戏或聊天会话期间可以使用更广范围的表达、事项和语言来传送消息。在某些情况下，表情符号可以用描述每个表情符号代表什么的内容来标记。标记有助于形成可供用户使用的表情符号列表。例如，表情符号标签可用于基于与游戏的相关性来识别适合于游戏玩家之间的传送消息的表情符号。

在某些示例中，本文描述的系统和方法可用于建议插入到用户传送的消息中的除表情符号之外的非单词表达项。其他非单词表达项可以包括例如图形交换格式(GIF)文件和便签。这样的非单词表达项可以包括可以与一个或多个单词相关联的描述性标签。在优选实施方式中，除了表情符号之外，包括表情符号检测模块116和/或表情符号分类器模块118的系统和方法被配置为建议GIF、便签和/或其他非单词表达项。

在本说明书中描述的主题和操作的实现可以在数字电子电路中或者在计算机软件、固件或硬件中(包括在本说明书中公开的结构及其结构等同物，或者一个或多个它们的组合)实现。本说明书中描述的主题的实现可以实现为编码在计算机存储介质上由数据处理装置执行或者控制数据处理装置的操作的一个或多个计算机程序，即计算机程序指令的一个或多个模块。备选地或附加地，程序指令可以编码在人工生成的传播信号上，例如机器生成的电信号、光信号或电磁信号，生成该传播信号以对信息进行编码以便传输给合适的接收机设备以供数据处理装置执行。计算机存储介质可以是或者可以包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备、或者它们中的一个或多个的组合。而且，尽管计算机存储介质不是传播信号，但计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是或者可以包括在一个或多个单独的物理组件或介质(例如，多个CD、磁盘或其他存储设备)。

本说明书中描述的操作可以实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他源接收的数据执行的操作。

术语“数据处理装置”包括用于处理数据的所有类型的装置、设备和机器，例如，包括可编程处理器、计算机、片上系统、或其中的多个、或前述的组合。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或其中一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础设施，例如，网页服务、分布式计算和网格计算基础设施。

计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以用包括编译或解释语言、声明性或过程化语言的任何形式的编程语言编写，并且可以以包括作为独立程序或作为适合在计算环境中使用的模块、组件、子例程、对象或其他单元的任何形式部署。计算机程序可以(但不需要)对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言资源中的一个或多个脚本)的文件的一部分中、存储在专用于所讨论的程序的单个文件中、或者存储在多个协同文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在一台计算机上执行，或在位于一个站点或分布于多个站点并通过通信网络互连的多台计算机上执行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作的一个或多个可编程处理器执行。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行，并且装置也可以实现为专用逻辑电路。

举例来说，适于执行计算机程序的处理器包括通用和专用微处理器以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘、光盘或固态驱动器)或可操作地耦合到该一个或多个大容量存储设备，以从该一个或多个大容量存储设备接收数据或向其传送数据或上述两者。但是，计算机不需要这种设备。此外，可以将计算机嵌入到另一设备中，例如，智能电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，仅举几例。适用于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备，例如包括半导体存储设备(例如EPROM，EEPROM)和闪存设备；磁盘(例如内部硬盘或可移动磁盘)；磁光盘；和CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入到其中。

为了提供与用户的交互，本说明书中描述的主题的实现可以在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)和用户可以通过其向计算机提供输入的键盘以及指示设备(例如鼠标、跟踪球、触摸板或触针)的计算机上实现。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网页浏览器接收的请求而将网页发送到用户的客户端设备上的网页浏览器。

本说明书中描述的主题的实现可以在包括后端组件(例如作为数据服务器的后端组件)、或者包括中间件组件(例如应用服务器)、或者包括前端组件(例如具有图形用户界面或网页浏览器的客户端计算机，用户可以通过该图形用户界面或网页浏览器与本说明书中描述的主题的实现交互)，或者包括一个或多个该后端、中间件或前端组件的任意组合的计算系统中实现。该系统的组件可以通过数字数据通信的任何形式或介质(例如通信网络)互连。通信网络的例子包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如因特网)和对等网络(例如点对点模式的对等网络)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系凭借在各自的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中，服务器将数据(例如，HTML页面)传输到客户端设备(例如，为了向与客户端设备交互的用户显示数据和从所述用户接收用户输入)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

虽然本说明书包含许多具体的实现细节，但是不应将这些细节解释为对任何发明或可能要求保护的范围的限制，而是应将其解释为对特定发明的特定实现的特征描述。在本说明书中描述的单独实现的某些特征也可以组合实现。相反，描述的单独实现的各个特征也可以在多个实现中分别实现或者以任何合适的子组合实现。此外，尽管上文将特征可以描述为以某些组合起作用甚至最初如此要求保护，但是可以在一些情况下将来自所要求保护的组合的一个或多个特征从组合中删除，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，尽管在附图中以特定顺序描述了操作，但这不应理解为要求以所示的特定顺序或按顺序执行这样的操作，或者不应理解为要执行所有示出的操作以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实现中的各种系统组件的分离不应该被理解为在所有实现中都需要这种分离，并且应该理解，通常可以将描述的程序组件和系统一起集成到单个软件产品中或者封装到多个软件产品中。

因此，已经描述了主题的特定实现。其他实现在以下权利要求的范围内。在一些情况下，权利要求中列举的动作可以以不同的顺序执行并且仍然实现期望的结果。另外，附图中描述的过程不一定需要按照所示的特定顺序或次序执行来实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

Claims

1.一种计算机实现的建议表情符号的方法，所述方法包括：

获得与从用户传送的消息相对应的多个特征；

将所述特征提供给多个表情符号检测模块；

从每个表情符号检测模块接收包括一组表情符号和第一置信度分数的相应输出，每个第一置信度分数与该组中的不同表情符号相关联并表示所述用户可能希望将相关联的表情符号插入到所述传送的消息中的可能性；

将所述表情符号检测模块的输出提供给至少一个分类器；

从所述至少一个分类器接收提议的一组候选表情符号和第二置信度分数，每个第二置信度分数与提议的一组候选表情符号中的不同候选表情符号相关联并且表示所述用户可能希望将相关联的候选表情符号插入到所述传送的消息中的可能性；以及

将至少一个所述候选表情符号插入到所述传送的消息中。

2.根据权利要求1所述的方法，其中，所述多个特征包括所述传送的消息中的当前光标位置、来自所述传送的消息的一个或多个单词、来自先前传送的消息的一个或多个单词、用户偏好和人口统计信息中的至少一个。

3.根据权利要求1所述的方法，其中，所述表情符号检测模块包括语法错误校正模块、统计机器翻译模块、基于词典的模块、词性标记模块、信息提取模块、自然语言处理模块、关键词匹配模块和有限状态转换器模块中的至少一个。

4.根据权利要求3所述的方法，其中，所述基于词典的模块被配置为将所述传送的消息中的单词的至少一部分映射到至少一个对应的表情符号。

5.根据权利要求3所述的方法，其中，所述自然语言处理模块包括解析器、形态分析器和语义分析器中的至少一个，以扩展由基于词典的模块提供的单词和表情符号之间的映射。

6.根据权利要求3所述的方法，其中，所述关键词匹配模块被配置为在所述传送的消息中搜索至少一个关键词，并将所述至少一个关键词和与表情符号相关联的至少一个标签进行匹配。

7.根据权利要求1所述的方法，其中，所述第一置信度分数和所述第二置信度分数中的至少一个基于以下中的至少一个：(i)用户偏好，(ii)语言域，(iii)人口统计信息，(iv)所述用户和社区用户中的至少一个对表情符号中的先前使用，以及(v)在先前传送的消息中对表情符号的先前使用，其中，所述先前传送的消息具有与所述传送的消息共有的单词、短语、上下文和情感中的至少一个。

8.根据权利要求1所述的方法，其中，所述至少一个分类器包括监督学习模型、部分监督学习模型、无监督学习模型和插值模型中的至少一个。

9.根据权利要求1所述的方法，其中，在当前光标位置插入至少一个所述候选表情符号并且至少一个所述候选表情符号替换所述传送的消息中的至少一个单词。

10.根据权利要求1所述的方法，其中，插入至少一个所述候选表情符号包括：

识别在提议的一组候选表情符号中具有最高第二置信度分数的最佳表情符号。

11.根据权利要求1所述的方法，还包括：

接收对来自提议的一组候选表情符号中的至少一个所述候选表情符号的用户选择；以及

基于所述用户选择构建使用历史。

12.根据权利要求1所述的方法，还包括：

基于所述用户偏好和所述人口统计信息中的至少一个来选择至少一个分类器。

13.一种系统，包括：

编程为执行操作的一个或多个处理器，所述操作包括：

获得与从用户传送的消息相对应的多个特征；

将所述特征提供给多个表情符号检测模块；

将所述表情符号检测模块的输出提供给至少一个分类器；

将至少一个所述候选表情符号插入到所述传送的消息中。

14.根据权利要求13所述的系统，其中，所述多个特征包括所述传送的消息中的当前光标位置、来自所述传送的消息的一个或多个单词、来自先前传送的消息的一个或多个单词、用户偏好和人口统计信息中的至少一个。

15.根据权利要求13所述的系统，其中，所述表情符号检测模块包括语法错误校正模块、统计机器翻译模块、基于词典的模块、信息提取模块、自然语言处理模块、关键词匹配模块和有限状态转换器模块中的至少一个。

16.根据权利要求13所述的系统，其中，所述第一置信度分数和所述第二置信度分数中的至少一个基于以下中的至少一个：(i)用户偏好，(ii)语言域，(iii)人口统计信息，(iv)所述用户和社区用户中的至少一个对表情符号中的先前使用，以及(v)在先前传送的消息中对表情符号的先前使用，其中，所述先前传送的消息具有与所述传送的消息共用的单词、短语、上下文和情感中的至少一个。

17.根据权利要求13所述的系统，其中，所述至少一个分类器包括监督学习模型、部分监督学习模型、无监督学习模型和插值模型中的至少一个。

18.根据权利要求13所述的系统，其中，在当前光标位置插入至少一个所述候选表情符号并且至少一个所述候选表情符号替换所述传送的消息中的至少一个单词。

19.根据权利要求13所述的系统，其中，插入至少一个所述候选表情符号包括：

20.一种制品，包括：

包括可执行指令的非暂时性计算机可读介质，所述可执行指令能够由一个或多个处理器执行以执行操作，所述操作包括：

获得与从用户传送的消息相对应的多个特征；

将所述特征提供给多个表情符号检测模块；

将所述表情符号检测模块的输出提供给至少一个分类器；

将至少一个所述候选表情符号插入到所述传送的消息中。