2019-01-23 10:56:44 duozhishidai 阅读数 361
  • Python机器学习经典案例实战

    Python在机器学习领域应用是非常广泛的,比如,我们可以使用机器学习进行验证码识别,使用机器学习实现计算机视觉项目,或者,我们也可以使用机器学习技术实现网页分类、文本挖掘、情感分析等等各种各样的事情。机器学习的重点在于算法,而算法的学习相对来说是比较枯燥的,所以,只有在学习的时候让算法跟实例结合,才能够让算法的学习变得不枯燥,并且也才能够更好的将理论运用与实践。

    3960 人正在学习 去看看 韦玮

  什么是机器学习

  机器学习是人工智能的一个子集,即用机器去学习以前的经验。与传统的编程不同,开发人员需要预测每一个潜在的条件进行编程,一个机器学习的解决方案可以有效地基于数据来适应输出的结果。

  一个机器学习的算法并没有真正地编写代码,但它建立了一个关于真实世界的计算机模型,然后通过数据训练模型。

  机器学习如何工作?

  垃圾邮件过滤是一个很好的例子,它利用机器学习技术来学习如何从数百万封邮件中识别垃圾邮件,其中就用到了统计学技术。

  例如,如果每100个电子邮件中的85个,其中包括“便宜”和“伟哥”这两个词的邮件被认为是垃圾邮件,我们可以说有85%的概率,确定它是垃圾邮件。并通过其它几个指标(例如,从来没给你发送过邮件的人)结合起来,利用数十亿个电子邮件进行算法测试,随着训练次数不断增加来提升准确率。

  事实上,谷歌表示它现在已经可以拦截99.99%左右的垃圾邮件。

  机器学习实例

  一般包括以下几个方面:

  目标影响:主要针对Google和Facebook的目标广告,基于个人兴趣爱好,并通过Netflix推荐电影,还通过亚马逊推荐购物;

  信用评分:银行使用收入数据,从你的居住地、你的年龄和婚姻状况来预测你是否会拖欠贷款;

  信用卡欺诈检测:用于根据你之前一些可能的消费习惯,在线禁止具有欺诈行为的信用卡或借记卡的使用;

  购物篮分析:根据数以百万个类似顾客的消费习惯,用来预测你更可能使用哪些特殊优惠政策;

  机器学习的类型有:

  监督学习:当我们需要从过去的数据中知道正确答案的时候,但是还需要预测未来的结果。例如,利用过去的房价来预测当前和未来的价格。有效地使用基于试错的统计改进过程,机器依靠对监督者提供的一组值的测试结果来逐步提高准确性。

  无监督学习:这里没有明确的正确答案,但我们想从数据中有新的发现。最常用于对数据进行分类或分组,例如,在Spotify上对音乐分类,来帮助推荐你可能想听的歌曲或是专辑。然后,他们将听众分类,看他们是否更可能愿意听Radiohead或JustinBieber。

  强化学习:不需要一个领域专家,但需要不断地向预定目标前进。这是一种经常部署神经网络的技术,例如,AphaGo在DeepMind中跟自己打了一百万场比赛,最终成为了世界冠军。

  机器学习过程

  不同于未来通过机器学习下象棋的场景,目前大多数机器学习是相当麻烦的,在下面的图表中进行了说明:


  在未来很可能机器学习将会被应用到帮助加快过程,特别是在数据收集和清洗领域,但主要步骤仍然存在以下方面:

  定义问题:正如我在另一篇文章中所指出的那样,机器学习总是从一个明确的问题和目标开始;

  收集数据:适合的数据的数量和种类越多,机器学习模型就会变得越精确。这些数据可以来自电子表格、文本文件和数据库,除了商业上可用的数据源之外;

  准备数据:这包括数据的清理和解析。删除或纠正异常值(失控的错误值);这经常占用总的时间和工作量的60%以上,然后将数据分成两个不同的部分,即训练数据和测试数据;

  训练模型:针对一组训练数据—用于识别数据中的模式或相关性,或者用于做预测,同时使用重复的测试和误差改进方法来逐步地提高模型的精度;

  评估模型:通过比较结果与测试数据集的准确度来评估模型。重要的是不要对用于训练系统的数据进行模型评估,以确保无偏差的和独立的测试;

  部署和改进:这可以涉及到尝试完全不同的算法或者收集更多种类或更大数量的数据。例如,你可以通过使用房屋所有者提供的数据来预估今后的房屋升值空间,从而提高房价预测的准确度;

  综上所述,大多数机器学习过程实际上是循环的和连续的,因为更多的数据被添加或者情况会有所变化,因为世界从来不会静止不动,并且总是有改进和提高的空间。


1.四大机器学习编程语言对比:R、Python、MATLAB、Octave
http://www.duozhishidai.com/article-16728-1.html
2.机器学习已经被广泛应用,但是入行机器学习主要难在哪里
http://www.duozhishidai.com/article-15300-1.html
3.机器学习新手工程师常犯的6大错误
http://www.duozhishidai.com/article-12200-1.html

 

2016-11-27 12:54:28 u012017783 阅读数 695
  • Python机器学习经典案例实战

    Python在机器学习领域应用是非常广泛的,比如,我们可以使用机器学习进行验证码识别,使用机器学习实现计算机视觉项目,或者,我们也可以使用机器学习技术实现网页分类、文本挖掘、情感分析等等各种各样的事情。机器学习的重点在于算法,而算法的学习相对来说是比较枯燥的,所以,只有在学习的时候让算法跟实例结合,才能够让算法的学习变得不枯燥,并且也才能够更好的将理论运用与实践。

    3960 人正在学习 去看看 韦玮

 开篇引言:"基础决定高度,而不是高度决定基础!" 书中主要从 编码程序,数据结构,数学理论,数据处理和可视化等几个方面阐述机器学习的理论,然后扩展到概率论,数值分析,矩阵分析等知识引导我们进入机器学习的世界!

1.1编程语言和开发环境:选取python 开发环境(搭建过程省略)(当然也可以用R语言)

选取原因如下:

    1.免费、开源

    2. python编程更加简单

    3. 开发和执行的效率高

    4.丰富的程序库,支持矢量编程

    5.python支持网络编程

(1)python 仿照matlab开发了类似的数学分析库:Numpy 和scipy

(2)用Matplotlib 实现数据的可视化

(3)最最最重要的是Python 在此基础上开发了Scikit-Learn机器学习算法库

(4)提供了深度学习算法库Theano,并且支持GPU运算


Python 算法库的安装顺序:Numpy - Scipy -Matpltlib-Scikit-Learn


1.2 IDE选择和配置(UltraEdit):占资源小,功能强,支持远程开发



           

 

2017-11-12 16:36:28 sinox2010p1 阅读数 471
  • Python机器学习经典案例实战

    Python在机器学习领域应用是非常广泛的,比如,我们可以使用机器学习进行验证码识别,使用机器学习实现计算机视觉项目,或者,我们也可以使用机器学习技术实现网页分类、文本挖掘、情感分析等等各种各样的事情。机器学习的重点在于算法,而算法的学习相对来说是比较枯燥的,所以,只有在学习的时候让算法跟实例结合,才能够让算法的学习变得不枯燥,并且也才能够更好的将理论运用与实践。

    3960 人正在学习 去看看 韦玮


因为tensorflow开源后人工智能开始在中国崛起,我才关注机器学习,之前虽然看到大数据机器学习,但是不太关注,比如hadoop,spark。然后开始阅读和学习网上机器学习、深度学习技术资料,虽然看了不少资料,但是还是不太懂,于是开始看书,看p ython,看机器学习,看tensorflow书籍,看了7本,终于有了领悟,从量变到质变。看了七本书,大约370万字,所以现在对机器学习已经知道不少,刚开始看不怎么懂,看到后面越懂越多,开始可以提出一些实现算法,并训练一些数据,看到一些效果。

看懂了机器学习算法,我开始回过去看以前写的程序,无外乎前台界面和后台逻辑,界面差不多就是画图,也可以用代码实现界面,但是逻辑很少,只有后台处理,就是界面后面的逻辑计算,可能编程比较复杂,涉及到逻辑ifelse判断,然后就是加减乘除数学计算,这些都是可以用代码实现的。一个操作系统或者大型程序有几千万行代码,为了把这些代码管理好,采用模块化设计,分门别类,代码太复杂还要进行总体设计和详细设计,然后编译运行,我们说这种程序代码叫逻辑模型,我们是提前知道的,然后才能写成代码运行实现。比如内存管理,任务调度,我们是提前知道算法而且能够编程实现的。


大数据时代机器,人们也是知道模型的,比如线性分类和线性回归,我们通过提取特征,然后进行机器学习,归纳出模型,然后进行预测,比如销售数据,判断这个客户是不是在下次还会购买。这些学习算法通过对数据进行一定算法的处理后得到结论,这些算法包括最近邻knn,概率统计的贝叶斯,决策树,支持向量机svm,pca矩阵分解降维,adaboost集成学习算法,梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT,二级算法是CART回归树),随机森林(随机构造多棵树后再判断),多层感知机。哪种算法最适合呢?即使同一种算法通过调整不同的参数结果也会不同。所以要学习这些算法才能应用到特征学习。通过计算调整后获得最佳模型,就可以用来预测数据。


如果我们欲先知道这些特征,然后就就可以用机器学习算法训练出预测模型。但是如果不知道特征呢?比如图片和语言文字,谁知道他有什么特征呢?不过人脸识别定位还是需要特征的,否则找不到脸。没有特征的数据训练就需要大量数据,所以图像识别数据很重要。这样的模型需要深度学习,卷积神网络cnn和循环神经网络rnn或者两个都用r-cnn。rnn用lstm长短期记忆预测,跟时间有关。

这样好像开发机器学习模型编程还是比较容易,可是如果不了解机器学习的算法和概念,估计即使你看到代码也不知所以然,更不用说要开发机器学习程序了。所以我觉得拖拉式机器学习开发工具可能没什么用,对处理简单数据可能有效,但是复杂的机器学习就不行了。机器学习编程还要学习python语言,当然也可以用 C++。

我打算以后就从事机器学习研究,可能赚钱呢,而且我觉得机器学习编程能做很多以前逻辑编程不能做的事情,比如图像识别,语音识别,用旧的逻辑编程就不行了,因为你不知道特征,而且语言这东西,如果要整理出所有的语句,然后又能应变复杂改变,参数几十万,写逻辑代码肯定不行,要用多少ifelse判断,一句话,参数太多,而且你还不能知道这些参数怎么填,需要从大数据中训练获得这些参数,这就是机器学习要做的。训练得到的参数就存到模型里,在预测的时候用。


虽然看了几本书,但是还是觉得不够,我决定去人工智能公司上班研究人工智能算法,我决定还要读10机器学习书籍。


机器学习有挑战性,有吸引力,我才是我要去的地方。如果找到工作了,转型算是成功了。


知难而进,找最有挑战的工作,也许会推动人工智能发展也很难说,大家都会用上我的人工智能产品,就像人们以后会用我的操作系统和编译器一样。

2019-09-01 12:27:13 donaldsy 阅读数 220
  • Python机器学习经典案例实战

    Python在机器学习领域应用是非常广泛的,比如,我们可以使用机器学习进行验证码识别,使用机器学习实现计算机视觉项目,或者,我们也可以使用机器学习技术实现网页分类、文本挖掘、情感分析等等各种各样的事情。机器学习的重点在于算法,而算法的学习相对来说是比较枯燥的,所以,只有在学习的时候让算法跟实例结合,才能够让算法的学习变得不枯燥,并且也才能够更好的将理论运用与实践。

    3960 人正在学习 去看看 韦玮

该文章 对机器学习和传统编程方法进行了比较,一个结论值得重视:ML just like AI is not a substitution, but supplementation for traditional programming approaches.

即,ML如同AI一样,不是替代品,而是传统编程方法的补充。一个例子:ML可以为在线交易平台构建预测算法,但是平台的UI,数据可视化以及其他相关元素只能通过Ruby、Java这些语言进行构建。ML用于传统策略落后的情况下,不足以完全实现某项任务的情况下。

ml工程师,软件工程师和软件开发人员完全不可互换

传统编程是根据输入,编写程序,获得理想的输出。
在这里插入图片描述

ML是根据输入输出编写算法,获得程序。

在这里插入图片描述

另一个一张图片可以清楚的表明该关系。
在这里插入图片描述

2020-02-01 21:15:00 zw0Pi8G5C1x 阅读数 177
  • Python机器学习经典案例实战

    Python在机器学习领域应用是非常广泛的,比如,我们可以使用机器学习进行验证码识别,使用机器学习实现计算机视觉项目,或者,我们也可以使用机器学习技术实现网页分类、文本挖掘、情感分析等等各种各样的事情。机器学习的重点在于算法,而算法的学习相对来说是比较枯燥的,所以,只有在学习的时候让算法跟实例结合,才能够让算法的学习变得不枯燥,并且也才能够更好的将理论运用与实践。

    3960 人正在学习 去看看 韦玮


导读:工欲善其事,必先利其器,机器学习也不例外。算法原理理解得再清楚,最终也需要通过编写代码来真正实现功能和解决问题。

本文将介绍当前机器学习主流的编程语言环境,当前机器学习使用最多的编程语言是Python,在业界口碑一直不错的Python语言借着机器学习的东风一下跻身编程语言热门榜的首位。

本文还将介绍Python语言下机器学习相关的支持库,包括科学计算支持库Numpy、机器学习库Scikit-Learn和数据处理库 Pandas。想要在实际工作中使用机器学习解决具体问题时,使用这些支持库将大大提升效率。

作者:莫凡

来源:大数据DT(ID:hzdashuju)

01 常用环境

一般来说,算法理论的实践方式有两种,一种是自己动手将算法用代码都实现一遍,另一种则是充分利用工具的便利性,快速了解掌握现有资源后,随即开始着手解决现实问题。

对于要不要重复造轮子的争论,我想是很难有决断的,两种方法各有利弊,这里我们选用第二种,这也贯彻了本文的宗旨:不是为了学习知识而制造知识,而是为了解决问题去学习知识。

机器学习经过这几年的高速发展,已经积累了非常丰富的开放资源,通过充分利用这些资源,哪怕此前你对这个领域不了解,也能快速掌握并着手解决实际问题。

首先是编程语言,我们选择Python。在前些年,Python和R语言在机器学习领域保持着双雄并立的局面,大致可以认为工业界偏爱Python而学术界偏爱R,但随着技术发展,特别是这几年深度学习所需的支持库毫无例外地都选择了用Python实现之后,Python语言已经成为机器学习领域毫无疑问的“老大”。

由于机器学习的火热,Python甚至拥有了与传统编程语言C和Java一较高下的底气,在多种编程语言排行榜上都大有后来居上的趋势。那么Python,决定就是你了!

接下来是支持库Numpy。机器学习涉及矩阵运算等大量数学运算,好在Python有两大特点,一是灵活,二是库多,Numpy就是Python中专门设计用于科学计算的专业支持库,在业界有口皆碑。不只是机器学习,其他科学领域譬如天体物理涉及的数学运算,要么直接使用Numpy,要么基于Numpy构建更高层的功能库。

最后是算法库Scikit-Learn。基于Python的机器学习算法库实际上有很多,每过一段时间就会冒出个“前五”“前十”这样的排行,但稳坐榜首的一直是Scikit-Learn。

它不但种类齐备,市面上见得到的机器学习算法基本上都能在此找到对应的API,简直是一家“机器学习算法超市”,而且封装良好、结构清晰,你可以通过简单几行代码就能完成一个复杂算法的调用,是机器学习领域入门的福音,更是进阶的法宝。

另外再加上一个Pandas数据处理库。它内置许多排序、统计之类的实用功能,属于“没它也不是不行,但有它会方便很多”的角色。业界实现机器学习,基本上都会用到Numpy、Scikit-Learn和Pandas这三件套。

02 Python简介

Python是一种动态的高级编程语言,与C和Java需要编译执行不同,Python代码是通过解释器解释执行,一个明显的区别是,Python的数据类型不用事先声明,语法更为灵活多变,代码看起来也更加简洁,用C和Java需要十行代码才能写明白的意思,可能用Python写一行就可以了。

高效快速是Python引以为傲的特点,Python社区甚至流传一句口号:“Life is short, I use Python.

Python仍在不断迭代,而且并不向前兼容,这也导致当前Python分裂成两大版本分支,即Python 2.X和Python 3.X,虽然从语法上看还不至于成为两款语言,但二者代码是无法混用的,对于版本的选择也是开始学习使用Python时所要确定的第一件事。

之前一般认为,Python 2.X的发展时间更长,各方面的支持库更多且更成熟,不少人推荐从这个版本入手。但随着Python团队宣布将于2020年停止对Python 2.X的维护,各大社区都早已开始了从2.X向3.X迁移的工作,所以现在开始学Python的话更建议选择3.X。Python官网见图2-1。

▲图2-1 Python官网首页

1. Python的安装

Python具有很强的泛用性,支持Windows、Linux/UNIX、Mac OS X等主流操作系统平台,安装也很简单,可以通过

https://www.python.org/downloads

选择你使用的操作系统平台所对应的在线或离线安装包并进行安装。在安装包下载页面同时提供了多个版本的Python安装包,如果初次接触可能让你觉得难以选择。不过请放心,你也可以直接下载最新版本的Python安装包。

▲图2-2 Python下载页面

Python是一款开源编程语言,你也可以选择通过源代码进行编译安装。

2. Python的基本用法 

Python是一款通用编程语言,语法满足图灵完备性,这里无法完全展开说明。

不过,如果你熟悉C或者Java语言,那么可以认为Python的语法就是它们的高度精简版,除了上面提到的不用进行类型声明外,Python还少了用来表示作用域的大括号以及语句结尾的分号,但同时,在Python中缩进不仅仅是代码规范,而是语法层面的强制要求。

如果你有语言基础,记住这些区别,应该就能很快熟练地使用Python。

这里仅对两项常用的Python工具进行说明,即Python库安装工具Pip和Conda。丰富的第三方支持库是Python功能强大的原因之一。在使用Python实现功能时,往往需要依赖第三方支持库,这些第三方库需要先安装再使用。安装方法是通过Pip或Conda工具,在命令行输入命令:

pip install 库名

conda 库名

进行联网下载并自动安装。

一般当你成功安装Python后,就能在命令行中直接使用Pip命令了,而Conda则可能需要额外进行安装才能够使用。Conda的功能更为强大,但如果你并不了解Python及相关背景知识,推荐通过Pip工具来下载安装第三方库。

在库的使用方面,Python也与其他编程语言一样,需要先导入再使用,语法是:

import 库名

import之后就能正常使用库的资源了。如果库名较长,还可以使用:

import 库名 as 别名

设定别名之后,通过别名也能够使用库的资源。

要使用库里的某个类,可以通过“库名.类名”的方法调用。如果认为这样写麻烦,或者导致单行语句太长,可以在导入时使用:

from 库名 import 类名

这样就可以在代码中直接使用类名了。

03 Numpy简介

Numpy是Python语言的科学计算支持库,提供了线性代数、傅里叶变换等非常有用的数学工具。Numpy是Python圈子里非常知名的基础库,即使你并不直接进行科学计算,但如图像处理等相关功能库,其底层实现仍需要数学工具进行支持,则需要首先安装Numpy库。Numpy官网见图2-3。

▲图2-3 Numpy官网首页

1. Numpy的安装

Numpy的安装很简单,使用Pip直接安装即可。命令如下:

pip install -U numpy

2. Numpy的基本用法

Numpy拥有强大的科学计算功能,也许刚一接触容易眼花缭乱,不知从何入手。不过不必担心,Array数据类型是Numpy的核心数据结构,与Python的List类型相似,但功能要强大得多。Numpy相关功能都是围绕着Array类型建设的,可以作为你了解Numpy的一条中心线索。

使用Numpy包很简单,只要用import导入即可。业界习惯在导入时使用“np”作为它的别名:

import numpy as np

导入后就可以使用了,常用功能如下。

  • array

    数据创建

    创建Array类型数据

  • zeros

    数据创建

    创建值为0的Array类型数据

  • ones

    数据创建

    创建值为1的Array类型数据

  • eye

    数据创建

    创建单位矩阵

  • arange

    数据创建

    类似内置函数range,生成等差数值

  • linspace

    数据创建

    生成可指定是否包含终值的等差数值

  • random.rand

    数据创建

    随机生成数值

  • T

    数据操作

    转置操作

  • reshape

    数据操作

    不改变原数据的维度变换

  • resize

    数据操作

    修改原数据的维度变换

  • mean

    统计操作

    取均值

  • sum

    统计操作

    求和

  • max

    统计操作

    取最大值

  • min

    统计操作

    取最小值

  • var

    统计操作

    求方差

  • std

    统计操作

    求标准差

  • corrcoef

    统计操作

    计算相关系数

  • append

    数据操作

    新增

  • insert

    数据操作

    插入

  • delete

    数据操作

    删除

  • concatenate

    数据操作

    按行(列)连接数据表

  • add

    数学运算

    标(向)量加法

  • subtract

    数学运算

    标(向)量减法

  • multiply

    数学运算

    标(向)量乘法

  • divide

    数学运算

    标(向)量除法

  • exp

    数学运算

    以e为底的指数运算

  • log

    数学运算

    以e为底的对数运算

  • dot

    数学运算

    点乘

04 Scikit-Learn简介

正如机器学习中推荐使用Python语言,用Python语言使用机器学习算法时,推荐使用Scikit-Learn工具。

或者应该反过来,现在机器学习推荐使用Python,正是因为Python拥有Scikit-Learn这样功能强大的支持包,它已经把底层的脏活、累活都默默完成了,让使用者能够将宝贵的注意力和精力集中在解决问题上,极大地提高了产出效率。Scikit-Learn官网见图2-4。

▲图2-4 Scikit-Learn官网首页

1. Scikit-Learn的安装

安装Scikit-Learn可以有两种方法。通过Pip安装,命令如下:

pip install -U scikit-learn

或通过 Conda安装,命令如下:

conda install scikit-learn

2. Scikit-Learn的基本用法

Scikit-Learn库包含了常见的机器学习算法,而且还在不断更新,常见机器学习算法都可以在Scikit-Learn库中找到,不妨将它当作机器学习算法的百科全书来使用。这里简要介绍它的用法。

使用Scikit-Learn包很简单,使用import导入即可,但须注意Scikit-Learn包的包名为sklearn:

import sklearn

调用机器学习算法也非常简单,Scikit-Learn库已经将算法按模型分类,查找起来非常方便。如线性回归算法可以从线性模型中找到,用法如下:

from sklearn import linear_model
model = linear_model.LinearRegression()

Logistic回归算法也是依据线性模型,同样也在其下:

from sklearn.linear_model import LogisticRegression
model =linear_model.LogisticRegression()

类似的还有基于近邻模型的KNN算法:

from sklearn.neighbors import NearestNeighbors
model =NearestNeighbors()

生成模型后,一般使用fit方法给模型“喂”数据及进行训练。完成训练的模型可以使用predict方法进行预测。

Scikit-Learn库对机器学习算法进行了高度封装,使用过程非常简单,只要根据格式填入数据即可,不涉及额外的数学运算操作,甚至可以说只要知道机器学习算法的名字和优劣,就能直接使用,非常便利。

05 Pandas简介

Pandas是Python语言中知名的数据处理库。数据是模型算法的燃料,也决定了算法能够达到的上限。一般在学习中接触的数据都十分规整,可以直接供模型使用。

但实际上,从生产环境中采集得到的“野生”数据则需要首先进行数据清洗工作,最常见的如填充丢失字段值。数据清洗工作一般使用Pandas来完成,特征工程也可通过Pandas完成。Pandas官网见图2-5。

▲图2-5 Pandas官网首页

1. Pandas的安装

安装Pandas可以有两种方法。通过Pip安装,命令如下:

pip install -U pandas

或通过 Conda安装,命令如下:

conda install pandas

2. Pandas的基本用法

Pandas针对数据处理的常用功能而设计,具有从不同格式的文件中读写数据的功能,使用Pandas进行一些统计操作特别便利。与Numpy类似,Pandas也有两个核心的数据类型,即Series和DataFrame。

  • Series:一维数据,可以认为是一个统计功能增强版的List类型。

  • DataFrame:多维数据,由多个Series组成,不妨认为是电子表格里的Sheet。

使用Pandas 包很简单,只要import导入即可。业界习惯在导入时使用“pd”作为它的别名:

import pandas as pd

导入后就可以使用了,其常用功能如下。

  • read_csv

    读取数据

    从CSV格式文件中读取数据

  • read_excel

    读取数据

    从电子表格中读取数据

  • read_json

    读取数据

    从json格式的文件中读取数据

  • read_clipboard

    读取数据

    从剪切板读取数据

  • to_csv

    写入数据

    将数据写入CSV格式文件

  • to_excel

    写入数据

    将数据写入电子表格

  • to_json

    写入数据

    将数据写入json格式文件

  • to_clipboard

    写入数据

    将数据写入剪切板

  • Series

    写入数据

    创建Series类型数据

  • DataFrame

    写入数据

    创建DataFrame类型数据

  • head

    信息查看

    从头开始查看N位数据

  • tail

    信息查看

    从末尾开始查看N位数据

  • shape

    信息查看

    行列数信息

  • dropna

    数据操作

    删除空值

  • fillna

    数据操作

    填充空值

  • sort_values

    数据操作

    正(逆)序排序

  • append

    数据操作

    横向(按行)连接两个数据表

  • concat

    数据操作

    纵向(按列)连接两个数据表

  • value_counts

    统计操作

    值计数

  • describe

    统计操作

    总体概况信息

  • info

    统计操作

    数值类型统计

  • mean

    统计操作

    取均值

  • corr

    统计操作

    计算相关系数

  • count

    统计操作

    非空值计数

  • max

    统计操作

    取最大值

  • min

    统计操作

    取最小值

  • median

    统计操作

    计算中位数

  • std

    统计操作

    计算标准差

关于作者:莫凡,新技术深度爱好者,曾经从事信息安全前沿技术跟踪研究和数据分析工作,在各类信息安全类技术期刊发表文章五十余篇,现转为投身高端知识“白菜化”项目,希望能让将更多听起来高大上的名词沾一沾“人间烟火”,成为日常生活中真正用得上的知识。

本文摘编自机器学习算法的数学解析与Python实现,经出版方授权发布。

延伸阅读

机器学习算法的数学解析与Python实现

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:从生活案例中理解算法,发现算法的乐趣,再把算法应用到机器学习中。零基础掌握算法精髓,快速进入人工智能开发领域。

有话要说????

Q: 入门机器学习,你准备好了吗?

欢迎留言与大家分享

猜你想看????

据统计,99%的大咖都完成了这个神操作

????

原来你也在看

机器学习博客汇总

阅读数 438

没有更多推荐了,返回首页