文章摘要: 摘要内容。
简介
- 人工智能研究是从“推理->知识->学习”这一个流程进行。
- 机器学习是实现人工智能的一个途径,即机器学习为手段解决人工智能中的问题。
- “机器学习算法”是一类从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测的算法。
- 机器通过分析大量数据来进行学习,不通过编程,而是通过大量数据进行训练,从而归纳和识别特定的目标。
- 机器学习是指帮助软件在没有明确的程序或规则的情况下执行任务。
- 对于传统计算机编程,程序员会指定计算机应该使用的规则。但是,机器学习需要另一种思维方式。现实中的机器学习对数据分析的注重程度远高于编码。程序员提供一组样本,然后计算机从数据中学习各种模式。您可以将机器学习视为“使用数据进行编程”。
主要功能
注意事项
适用场景
机器学习中的算法是什么?
- 机器学习中的“算法”是在数据上运行以创建机器学习“模型”的过程。
- 学术界可以设计出全息你的机器学习算法,而机器学习实践者可以在他们的项目中使用标准的机器学习算法。这就像计算机科学的其他领域一样,学者可以设计出全新的排序算法,程序员可以在应用程序中使用标准的排序算法。
- 算法本质上是一套规则。
机器学习中的模型到底是指什么?
- 模型就是通过数据在算法中得到的 “ 结果 ” ,并将这个结果通过更改其中个别的数据,在算法中再进行运算得到结果。
- 模型由数据和如何使用数据对新数据进行预测的过程组成。
- 机器学习模型 == 模型数据 + 预测算法
机器学习思路:
- 抽象现实问题,建立数学模型。
- 利用最优解方法,求解数学模型。
- 评估模型好坏,然后确定是否解决现实问题。
机器学习算法与模型的区别?
- 算法是源码文件。
- 模型是训练好的结果。
分类
监督学习(Supervised learning)
- 监督机器学习或监督学习是指学习
x到y或输入到输出映射的算法。- 监督学习的关键特征是开发者提供学习算法示例以供学习。
- 这包括给定输入
x的正确标签y,并且通过查看正确的输入x和所需输出标签y对,学习算法最终学会只接受输入而不需要输入标签并给出合理的输入预测或猜测。- 利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
无监督学习(Unsupervised learning)
- 在未加标签的数据中,试图找到隐藏的结构。常见的有聚类。
半监督学习
强化学习(Reinforcement learning)
- 智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。
迁移学习
样本迁移、特征迁移、模型迁移 预训练模型
算法
回归(Regression)
- 预测多个变量之间的变化关系。
- 回归算法必须从无限多可能的输入数字中预测数字。
- 回归反映的是数据属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的关系等。
分类(Classification)
- 判断输入是给定类别的哪一类,输入的结果会在一个区间之内。
- 分类算法必须对一个类别进行预测,所有这些都是一小组可能的输出。
- 分类是找出一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据项映射到某个给定的类别。
聚类(Clvstering)
- 将一些未标记的数据分类到相同集群或不同集群中。
- 聚类算法会获取没有标签的数据并尝试自动将他们分组到集群中。
- 聚类是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。
机器学习的步骤
- 收集数据
- 清洗数据
- 选择模型
- 评估结果
- 调整参数
- 预测
ML需要的知识分为:
编码技能:构建机器学习模型不仅要了解机器学习的概念,还需要编码,以便管理数据、调整参数以及解析测试和优化模型所需的结果。
数学和统计学:机器学习是一门数学密集型学科,因此,如果您打算修改机器学习模型或从头开始构建新模型,那么熟悉底层的数学概念对于该过程至关重要.
机器学习理论:了解机器学习理论的基础知识将为您打下基础,并且可在出现问题时帮助您排查问题。
构建您自己的项目:亲身体验机器学习是检验知识掌握情况的最佳方式,因此,不要害怕尽早开始通过简单的实验、图书、视频教程来获取一些经验。
常见的机器学习算法
- 线性回归
- 逻辑回归
- 决策树
- 随机森林
- K-means
- Adaboost
- 贝叶斯
数据准备和特征工程
人工智能实现途径
- 知识->专家系统特征->以统计为基础的机器学习数据->深度学习
机器学习上限
- 垃圾进,垃圾出
- 数据和特征决定机器学习的上限,模型和算法只是逼近这个上限而已。
项目流程
- 了解业务->收集数据(外界、数据集)->特征
- 理解商业问题->收集数据->提取特征->训练
感知数据
获取数据方法
- 从文件中读取数据:CSV文件、Excel文件、图像文件
- 从数据库中读取数据。
- 从网页中爬取数据
- 通过API获取数据
了解数据
- 记录和特征的数量、特征的名称、抽样了解记录中的数值特点、描述性统计结果、特征类型、
- 业务知识与数据结合。
数据清理(不是数据清洗)
- 转换数据类型、处理重复数据、处理缺失数据、处理离群数据
特征变换
- 特征数值化
- 特征二值化
- OneHot编码
- 特征离散化
- 特征规范化:区间变换、标准化、归一化
特征选择
- 封装器法:循序特征选择、穷举特征选择、递归特征选择
- 过滤器法
- 嵌入法
特征抽取
- 无监督特征抽取:主成分分析、因子分析
- 有监督特征抽取