魔术桌
  • 更新日志
  • 新闻资讯
  • 数据资产
  • 网站导航
  • 订阅推荐
  • 商品推广
  • 日记
  • 摘录
  • 论文
  • 方案
  • 技术
  • 风格
  • 视觉
  • 原材料
  • 加工工艺
  • 元器件
  • 产品设备
  • 设计模式
  • 数据结构
  • 算法设计
  • 软件架构
  • 程序语言
  • 代码类库
  • 操作系统
  • 软件包
  • 健康
  • 环境
  • 社会
  • 道德
  • 法律
  • 经济
  • 政策
  • 更新日志
  • 新闻资讯
  • 数据资产
  • 网站导航
  • 订阅推荐
  • 商品推广
  • 日记
  • 摘录
  • 论文
  • 方案
  • 技术
  • 风格
  • 视觉
  • 原材料
  • 加工工艺
  • 元器件
  • 产品设备
  • 设计模式
  • 数据结构
  • 算法设计
  • 软件架构
  • 程序语言
  • 代码类库
  • 操作系统
  • 软件包
  • 健康
  • 环境
  • 社会
  • 道德
  • 法律
  • 经济
  • 政策
  • Technology - 人工智能 - 技术 - 自然语言理解

文章摘要: 摘要内容。

简介

  • NLU

主要功能

注意事项

适用场景

  • 数据分析:从大量非结构化文本数据中提取有用信息。
  • 情感分析:分析社交媒体上的用户反馈,以了解品牌形象和产品评价。
  • 教育:智能教育助手,为学生提供学习支持和答疑。

应用层:聊天机器人、翻译

平台功能:标注工具、AI训练器

核心算法:分词、情感分析

其他算法:命名实体识别、关键词分析、词向量、文本相似度

资源层:基础架构支持、数据中心

分词

分词,我认为其实是在把字合在一起,而不是一个句子分开。

  • 开始,文本从开始就是单个字符(第一次分词等于没有分词),或者说是字符集(字符编码),
  • 然后,加入了我们的常用词汇(专有名词),进一步的为文本分词(第二次分词或者合字),
  • 后续,有加入了句法分析或者篇章分析,可以说是时间线(理解上下文),查看之前的结果来改变之后的分词(第三次分词或根据上下文来改变词库,见人说人话,见鬼说鬼话),
  • 最后,进行理解每个词的意思,也就是词法分析,或者根据上下文来改变词的意思(理解)。
  • 最最后,记得保存(存储记忆,供后续使用)。

中文命名实体识别、中文阅读理解、中文句子对分类、中文情绪分析、语言可接受性、多任务学习、命名实体识别、自然语言推论、开放领域问题回答、问答、语义文本相似性、情绪分析

意图识别

基于规则:关键字、词典

基于模型:文本分类、文本相似度

多酚类模型

多标签模型

分析对象粒度

词汇级

  • 词法分析:中文分词、词性标注、命名实体识别、新词识别
  • 语义表示:语义表示、语义消歧
  • 语义关系:语义关系建模、语义关系抽取、语义关系计算

句子级

  • 语句变换:同义词替换、语义归一化、省略/纠错
  • 语句解析:句法结构分析、依存关系分析
  • 语义表示:语义给i傲视、分本分类
  • 语句生成:规则模板、知识图例、机器学习

篇章级

  • 单文档分析:分章主题、文档分类、文档结构分析、文档语义分析、文档语义表示
  • 多文档分析:文档主题、文档分类、文档聚类

分析内容特征

词法分析

  • 中文分词、实体命名识别、词性标注、新词识别

语法分析

  • 句子级:句法结构分析、依存关系分析
  • 篇章级:文档结构分析

语义分析

  • 词汇级:语义表示、语义消歧
  • 句子及:语义表示、文本分类、意图识别、情感分析
  • 篇章级:语义表示、文档主题、文档分类、文档聚类、情感分析

语用分析

  • 内容分析:意义分析、语境分析
  • 内容生成:预制模板、知识推理、机器学习

难点

  • 语言是没有规律的,或者说规律是错综复杂的。
  • 语言是可以自由组合的,可以组合复杂的语言表达。
  • 语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。
  • 语言需要联系到实践知识,有一定的知识依赖。
  • 语言的使用要基于环境和上下文。
  • 分词标准:根据不同的需求定制不同的分词标准。

  • 切分歧义:对同一个带切分字符串存在多个分词结果。

    • 组合型歧义(细粒度):分词是有不同的粒度的,指某个词条中的一部分也可以切分为一个独立的词条。比如“中华人民共和国”,粗粒度的分词就是“中华人民共和国”,细粒度的分词可能是“中华/人民/共和国”
    • 交集型歧义:在“郑州天和服装厂”中,“天和”是厂名,是一个专有词,“和服”也是一个词,它们共用了“和”字。
    • 真歧义:本身的语法和语义都没有问题, 即便采用人工切分也会产生同样的歧义,只有通过上下文的语义环境才能给出正确的切分结果。例如:”乒乓球/拍买完了“和”乒乓球拍/买完了“。
    • 伪歧义:语义上只有一种切分结果,若切分错误会明显发现句子语义不对。
  • 新词:也称未被词典收录的词,该问题的解决依赖于人们对分词技术和汉语语言结构的进一步认识。

实现方法

  1. 基于词典分词算法
  • 又称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。
  • 常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法、双向匹配分词法、全切分路径选择。
  • 基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。
  1. 基于统计的分词算法

这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。

注释

Nianwen Xue在其论文《Combining Classifiers for Chinese Word Segmentation》中首次提出对每个字符进行标注,通过机器学习算法训练分类器进行分词,在论文《Chinese word segmentation as character tagging》中较为详细地阐述了基于字标注的分词法。

常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。

随着深度学习的兴起,也出现了基于神经网络的分词器,例如有人员尝试使用双向LSTM+CRF实现分词器,其本质上是序列标注,所以有通用性,命名实体识别等都可以使用该模型,据报道其分词器字符准确率可高达97.5%。算法框架的思路与论文《Neural Architectures for Named Entity Recognition》类似,利用该框架可以实现中文分词。

  1. 基于字符串匹配的分词方法

基于字符串匹配的分词是通过构建一个固定的词表,对照这个词表,对输入的问句进行字符串截取和字符串匹配。主要原理是将问句从头开始不断切割成若干个子字符串,当所有的子字符串都能够与词表中的某一个单词匹配时,分词即结束。这种分词方法不需要大规模的语料库进行训练,复杂性相对较小,分词速度较快,但该方法过于依赖性词表的质量,当词表足够大时,该方法的优势明显。相反,词表较小时,分词效果较差,且不能识别未登录词。目前,基于字符串匹配的分词法中有最大正向匹配法、最大逆向匹配法和最小切分法等。

  • 分词词典
  • 文本扫描顺序:正向扫描、逆向扫描、双向扫描
  • 匹配原则:最大匹配、逐词匹配、最佳匹配
  • 最大匹配:把句子从左向右(或从右向左)遍历一遍,遇到词典里面包含的最长的词就标识出来。
  1. 基于统计

基于统计的分词算法的基本原理是利用统计的方法计算字符串在语料库中的出现频率,通过概率计算,判断字符串是否可以单独成词。这种方法不需要固定的词表,核心思想是当相邻的字符出现的次数越多时,这些字符组成一个词的可信度就越大,对未登录词识别展现了很好的优越性。但需要进行大量的文本训练,算法计算周期长,复杂度较高。

  1. 基于理解

基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得词、句的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。对未登录词有较强的识别能力,不需要词表和大量语料的训练,但需要使用大量的语言知识和信息、完备的规则库。算法复杂,实现技术难度较大,处理速度较慢,目前还处于实验测试阶段。

中文分词工具

  • Hanlp
  • jieba
  • 清华THULAC

术语解释

  • 词性标注:(Part-of-Speech tagging 或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程。例如名词、动词、形容词等。
  • 命名实体识别:(Named Entity Recognition 简称NER),即"专名识别",是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期等。

情感计算

情感的组成部分

  1. 主感体验

个体对不同情感状态的自我感受。

  1. 外观表现(外显)

在情感状态发生状态时,身体各部分的动作量化形式

  • 面部表情:面部肌肉变化所组成的模式
  • 姿态表情:身体其他部分的表情动作
  • 语调表情:言语的声调、节奏、速度等方面的变化
  1. 生理唤醒(内隐)

情感参数的生理反应,是一种胜利的激活水平,不同的反应模式。

情感数据用主观判断分类(范畴观) 情感数据用多个维度形成更详细的情感种类(维度观) 表情与语言的表现的情感不统一,如何解决

情感计算框架

基于AU(人脸运动单元)的情绪识别方法

常见的表情分为7种:平静、惊讶、愤怒、悲伤、开心、恐惧、厌恶(恶心)

推荐系统

不知道大家现在上网有没有这样的体验,那就是网站会根据你之前浏览过的页面、搜索过的关键字推送给你一些相关的网站内容。这其实就是引擎推荐技术的一种表现。

Google为什么会做免费搜索引擎,目的就是为了搜集大量的自然搜索数据,丰富他的大数据数据库,为后面的人工智能数据库做准备。

引擎推荐技术原理: 推荐引擎是基于用户的行为、属性(用户浏览网站产生的数据),通过算法分析和处理,主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。快速推荐给用户信息,提高浏览效率和转化率。

更新时间: 2025/10/6 10:37