精华内容
下载资源
问答
  • 机器学习实战:python算法代码汇总

    千次阅读 2017-08-02 10:02:25
    这是是在学习《机器学习实战》这本书时的代码记录情况,用python实现,当然也会包括一些其他的机器学习算法,使用Python实现。 1:【关联规则】Apriori算法分析与Python代码实现,具体分析请参考...

    这是是在学习《机器学习实战》这本书时的代码记录情况,用python实现,当然也会包括一些其他的机器学习算法,使用Python实现。



    1:【关联规则】Apriori算法分析与Python代码实现,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51113753

    2:【关联规则】FP-Tree算法分析与Python代码实现,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51113753

    3:【决策树算法】基于信息论的三种决策树算法之ID3算法分析与Python代码实现,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51242815

    4:【聚类算法】二分-kMeans算法(二分K均值聚类)分析与Python代码实现,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/48949227

    5:【回归算法】Logistic回归算法分析与Python代码实现,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51236978
    http://blog.csdn.net/gamer_gyt/article/details/51242150

    6:【分类算法】AdaBoost算法分析与Python代码实现,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51372309

    7:【分类算法】朴素贝叶斯算法分析与Python代码实现,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/47205371
    http://blog.csdn.net/gamer_gyt/article/details/47860945

    8:【回归算法】预测数值型数据-回归(Regression)分析与Python代码实现,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51405251

    9:【降维技术】PCA降维技术分析与Python代码实现,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51418069

    10:【推荐系统】基于标签的推荐系统,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51684716

    11:【推荐系统】基于图推荐系统,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51694250

    12:【推荐系统】基于用户和Item的协同过滤推荐算法,具体分析请参考博客:
    http://blog.csdn.net/gamer_gyt/article/details/51346159

    13:基于随机变量的熵来进行数据建模和分析
    http://blog.csdn.net/gamer_gyt/article/details/53729868

    14:推荐算法的回顾总结
    http://blog.csdn.net/gamer_gyt/article/details/74367714

    展开全文
  • Python数据分析与机器学习实战

    万人学习 2017-01-24 10:18:45
    Python数据分析与机器学习实战教程,该课程精心挑选真实的数据集为案例,通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。课程以实战为基础,所有课时都结合代码演示...
  • 机器学习 学习曲线 Python实现学习曲线及案例解析 学习曲线 如果数据集的大小为 mmm,则通过下面的流程即可画出学习曲线: 把数据集分成训练数据集和交叉验证数据集。 取训练数据集的 20%20\%20% 作为训练样本,训练...

    机器学习 学习曲线 Python实现学习曲线及案例解析

    学习曲线

    如果数据集的大小为 mm,则通过下面的流程即可画出学习曲线:

    • 把数据集分成训练数据集和交叉验证数据集。
    • 取训练数据集的 20%20\% 作为训练样本,训练出模型参数。
    • 使用交叉验证数据集来计算训练出来的模型的准确性。
    • 以训练数据集的准确性,交叉验证的准确性作为纵坐标,训练数据集个数作为横坐标,在坐标轴上画出上述步骤计算出来的模型准确性。
    • 训练数据集增加 10%10\%,跳到步骤3继续执行,直到训练数据集大小为 100%100\% 为止。

    学习曲线要表达的内容是,当训练数据集增加时,模型对训练数据集你和的准确性以及交叉验证数据集预测的准确性的变化规律

    实例:画出学习曲线

    生成一个在y=xy=\sqrt{x}附件波动的点来作为训练样本。

    import numpy as np
    n_dots = 200
    
    X = np.linspace(0, 1, n_dots)
    y = np.sqrt(X) + 0.2 * np.random.rand(n_dots) - 0.1
    
    # 因为 sklearn 的接口里,需要用到 n_sample x n_feature 的矩阵
    # 所以需要转化为 200 x 1 的矩阵
    
    X = X.reshape(-1, 1)
    y = y.reshape(-1, 1)
    

    需要构造一个多项式模型

    在scikit-learn里,需要用 Pipeline 来构造多项式模型,Pipeline 的意思是流水线,即这个流水线里可以包含多个数据处理模型,前一个模型处理完,转到下一个模型处理。

    from sklearn.pipeline import Pipeline
    from sklearn.preprocessing import PolynomialFeatures
    from sklearn.linear_model import LinearRegression
    
    def polynomial_model(degree=1):
        polynomial_features = PolynomialFeatures(degree=degree, include_bias=False)
        linear_regression = LinearRegression()
        # 这是一个流水线,先增加多项式阶数,然后再用先行回归算法来拟合数据
        pipeline = Pipeline([('polynomial_features', polynomial_features), ("linear_regression", linear_regression)])
        return pipeline
    

    polynomial_model()函数生成一个多项式模型,其中参数 degree 表示多项式的阶数
    ,比如polynomail_model(3)将生成一个三阶多项式的模型。

    在scikit-learn里面,我们不用自己去实现学习曲线算法,直接使用 sklearn.model_selection.learning_curve()函数来画出学习曲线,它会自动把训练样本的数量按照预定的规则逐渐增加,然后画出不同的训练样本数量时的模型准确性。
    其中 train_sizes 参数就是指定训练样本数量的变化规则,比如 train_sizes=np.linspace(.1, 1.0, 5)表示把训练样本数量从 0.110.1\sim1 分成五等分,生成 [0.1,0.352,0.55,0.775,1][ 0.1, 0.352, 0.55, 0.775, 1] 的序列,从序列中取出训练样本数量百分比,逐个计算在当前训练样本数量情况下训练出来的模型准确性。

    from sklearn.model_selection import learning_curve
    from sklearn.model_selection import ShuffleSplit
    import matplotlib.pyplot as plt
    
    def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None, n_jobs=1, train_sizes=np.linspace(.1, 1.0, 5)):
        plt.title(title)
        if ylim is not None:
            plt.ylim(*ylim)
        plt.xlabel("Training examples")
        plt.ylabel("Score")
        train_sizes, train_scores, test_scores = learning_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)
        train_scores_mean = np.mean(train_scores, axis=1)
        train_scores_std = np.std(train_scores, axis=1)
        test_scores_mean = np.mean(test_scores, axis=1)
        test_scores_std = np.std(test_scores, axis=1)
        plt.grid()
        
        plt.fill_between(train_sizes, train_scores_mean - train_scores_std, train_scores_mean + train_scores_std, alpha=0.1, color="r")
        plt.fill_between(train_sizes, test_scores_mean - test_scores_std, test_scores_mean + test_scores_std, alpha=0.1, color="g")
        plt.plot(train_sizes, train_scores_mean, 's--', color="r", label="Training score")
        plt.plot(train_sizes, test_scores_mean, 'o-', color="g", label="Cross-validation score")
        
        plt.legend(loc="best")
        return plt
    

    这个函数实现的功能就是画出模型的学习曲线。

    其中有个细节需要注意,当计算模型的准确性时,是随机从数据集中分配出训练样本和交叉验证样本,这样会导致数据分布不均匀。
    即同样训练样本数量的模型,由于随机分配,导致每次计算出来的准确性都不一样。
    为了解决这个问题,我们在计算模型的准确性时,多次计算,并求准确性的的平均值和方差。
    上述代码中 plt.fill_between() 函数会把模型准确性的平均值的上下方差的空间里用颜色填充。
    然后用plt.plot()函数画出模型准确性的平均值。上诉函数画出了训练样本的的准确性,也画出了交叉验证样本的准确性。

    使用ploynomial_model()函数构造出3个模型,分别是一阶多项式、三阶多项式、十阶多项式,分别画出这3个模型的学习曲线。
    # 为了让学习曲线更平滑,计算10次交叉验证数据集的分数
    cv = ShuffleSplit(n_splits=10, test_size=0.2, random_state=0)
    titles = ['Learning Curves (Under Fitting)', 'Learning Curves', 'Learning Curves (Over Fitting)']
    degrees = [1, 3, 10]
    
    plt.figure(figsize=(18, 4), dpi=200)
    for i in range(len(degrees)):
        plt.subplot(1, 3, i + 1)
        plot_learning_curve(polynomial_model(degrees[i]), titles[i], X, y, ylim=(0.75, 1.01), cv=cv)
    
    plt.show()
    

    在这里插入图片描述
    左图:一阶多项式,欠拟合;
    中图:三阶多项式,较好地拟合了数据集;
    右图:十阶多项式,过拟合。
    虚线:针对训练数据集计算出来的分数,即针对训练数据集拟合的准确性,
    实线:针对交叉验证数据集计算出来的分数,即针对交叉验证数据集预测的准确性。

    从左图我们可以观察到,当模型欠拟合(High Bias, Under Fitting)时,随着训练数据集的增加,交叉验证数据集的准确性(实线)逐渐增大,逐渐和训练数据集的准确性(虚线)靠近,但其总体水平比较低,收敛在 0.880.88 左右。其训练数据集的准确性也比较低,收敛在 0.900.90 左右。这就是过拟合的表现。从这个关系可以看出来,当发生高偏差时,增加训练样本数量不会对算法准确性有较大的改善

    从右图我们可以观察到,当模型过拟合(High Variance, Over Fitting)时,随着训练数据集的增加,交叉验证数据集的准确性(实线)也在增加,逐渐和训练数据集的准确性(虚线)靠近,但两者之间的间隙比较大。
    训练数据集的准确性很高,收敛在 0.950.95 左右,是三者中最高的,但其交叉验证数据集的准确性值却较低,最终收敛在 0.910.91 左右。

    中图,我们选择的三阶多阶式较好地拟合了数据,最终训练数据集的准确性(虚线)和交叉验证数据集的准确性(实线)靠得很近,最终交叉验证数据集收敛在 0.930.93 附近,训练数据集的准确性收敛在 0.940.94 附近。3个模型对比,这个模型的准确性最好。

    当需要改进学习算法时,可以画出学习曲线,以便判断算法时处在高偏差还是高分差问题。
    学习曲线是诊断模型算法准确性的一个非常重要的工具。

    过拟合和欠拟合的特征

    到此,我们可以总结出过拟合和欠拟合的特点如下。

    • 过拟合:模型对训练数据集的准确性比较高,其成本 Jtrain(θ)J_{train}(\theta)比较低,对交叉验证数据集的准确性比较低,其成本 Jcv(θ)J_{cv}(\theta) 比较高。
    • 欠拟合:模型对训练数据集的准确性比较低,其成本 Jtrain(θ)J_{train}(\theta)比较高,对交叉验证数据集的准确性夜比较低,其成本 Jcv(θ)J_{cv}(\theta) 也比较高。

    一个好的机器学习算法应该是对训练数据集准确性高、成本低,即较准确地拟合数据,同时对交叉验证数据集准确性高、成本低、误差小,即对未知数据有良好的预测性。

    展开全文
  • 1.1机器学习基础-python深度机器学习

    千次阅读 2016-08-12 08:23:16
    参考彭亮老师的视频教程:转载请注明出处及...2. 机器学习 (Machine Learning, ML)    2.1 概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟

    参考彭亮老师的视频教程:转载请注明出处及彭亮老师原创

    视频教程: http://pan.baidu.com/s/1kVNe5EJ

     

     

    1. 课程介绍

    2. 机器学习 (Machine Learning, ML)

        

         2.1 概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

         2.2 学科定位:人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

        

         2.3 定义:探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。

             

             Arthur Samuel (1959): 一门不需要通过外部程序指示而让计算机有能力自我学习的学科

             Langley(1996) : “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”

             Tom Michell (1997):  “机器学习是对能通过经验自动改进的计算机算法的研究”

         2.4: 学习:针对经验E (experience) 和一系列的任务 T (tasks) 和一定表现的衡量 P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力

                  例子: 下棋,语音识别,自动驾驶汽车等

    3. 机器学习的应用:

         语音识别

         自动驾驶

         语言翻译

         计算机视觉

         推荐系统

         无人机

         识别垃圾邮件

    4. Demo:

         人脸识别

         无人驾驶汽车

         电商推荐系统

        

    5. 置业市场需求:LinkedIn所有职业技能需求量第一:机器学习,数据挖掘和统计分析人才

    展开全文
  • Python常用的机器学习Python在科学计算中用途广泛:计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。 这篇文章就列举并描述Python的最有用的机器学习工具和库。这个列表中,我们不...

    #前言
    Python在科学计算中用途广泛:计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。
    这篇文章就列举并描述Python的最有用的机器学习工具和库。这个列表中,我们不要求这些库是用Python写的,只要有Python接口就够了。
    我们的目的不是列出Python中所有机器学习库(搜索“机器学习”时Python包索引(PyPI)返回了139个结果),而是列出我们所知的有用并且维护良好的那些。
    另外,尽管有些模块可以用于多种机器学习任务,我们只列出主要焦点在机器学习的库。比如,虽然Scipy1包含一些聚类算法,但是它的主焦点不是机器学习而是全面的科学计算工具集。因此我们排除了Scipy(尽管我们也使用它!)。
    另一个需要提到的是,我们同样会根据与其他科学计算库的集成效果来评估这些库,因为机器学习(有监督的或者无监督的)也是数据处理系统的一部分。如果你使用的库与数据处理系统其他的库不相配,你就要花大量时间创建不同库之间的中间层。在工具集中有个很棒的库很重要,但这个库能与其他库良好集成也同样重要。
    如果你擅长其他语言,但也想使用Python包,我们也简单地描述如何与Python进行集成来使用这篇文章列出的库。
    #Scikit-Learn
    这里写图片描述

    Scikit Learn7是我们在CB Insights选用的机器学习工具。我们用它进行分类、特征选择、特征提取和聚集。
    我们最爱的一点是它拥有易用的一致性API,并提供了很多开箱可用的求值、诊断和交叉验证方法(是不是听起来很熟悉?Python也提供了“电池已备(译注:指开箱可用)”的方法)。锦上添花的是它底层使用Scipy数据结构,与Python中其余使用Scipy、Numpy、Pandas和Matplotlib进行科学计算的部分适应地很好。
    因此,如果你想可视化分类器的性能(比如,使用精确率与反馈率(precision-recall)图表,或者接收者操作特征(Receiver Operating Characteristics,ROC)曲线),Matplotlib可以帮助进行快速可视化。
    考虑到花在清理和构造数据的时间,使用这个库会非常方便,因为它可以紧密集成到其他科学计算包上。
    另外,它还包含有限的自然语言处理特征提取能力,以及词袋(bag of words)、tfidf(Term Frequency Inverse Document Frequency算法)、预处理(停用词/stop-words,自定义预处理,分析器)。
    此外,如果你想快速对小数据集(toy dataset)进行不同基准测试的话,它自带的数据集模块提供了常见和有用的数据集。你还可以根据这些数据集创建自己的小数据集,这样在将模型应用到真实世界中之前,你可以按照自己的目的来检验模型是否符合期望。对参数最优化和参数调整,它也提供了网格搜索和随机搜索。
    如果没有强大的社区支持,或者维护得不好,这些特性都不可能实现。我们期盼它的第一个稳定发布版。
    #Statsmodels
    这里写图片描述

    Statsmodels是另一个聚焦在统计模型上的强大的库,主要用于预测性和探索性分析。如果你想拟合线性模型、进行统计分析,或者预测性建模,那么Statsmodels非常适合。它提供的统计测试相当全面,覆盖了大部分情况的验证任务。
    如果你是R或者S的用户,它也提供了某些统计模型的R语法。它的模型同时也接受Numpy数组和Pandas数据帧,让中间数据结构成为过去!
    #PyMC
    这里写图片描述
    PyMC是做贝叶斯曲线的工具。它包含贝叶斯模型、统计分布和模型收敛的诊断工具,也包含一些层次模型。如果想进行贝叶斯分析,你应该看看。
    #Shogun
    这里写图片描述
    Shogun1是个聚焦在支持向量机(Support Vector Machines, SVM)上的机器学习工具箱,用C++编写。它正处于积极开发和维护中,提供了Python接口,也是文档化最好的接口。但是,相对于Scikit-learn,我们发现它的API比较难用。而且,也没提供很多开箱可用的诊断和求值算法。但是,速度是个很大的优势。
    #Gensim

    Gensim被定义为“人们的主题建模工具(topic modeling for humans)”。它的主页上描述,其焦点是狄利克雷划分(Latent Dirichlet Allocation, LDA)及变体。不同于其他包,它支持自然语言处理,能将NLP和其他机器学习算法更容易组合在一起。
    如果你的领域在NLP,并想进行聚集和基本的分类,你可以看看。目前,它们引入了Google的基于递归神经网络(Recurrent Neural Network)的文本表示法word2vec。这个库只使用Python编写。
    Orange

    Orange是这篇文章列举的所有库中唯一带有图形用户界面(Graphical User Interface,GUI)的。对分类、聚集和特征选择方法而言,它是相当全面的,还有些交叉验证的方法。在某些方面比Scikit-learn还要好(分类方法、一些预处理能力),但与其他科学计算系统(Numpy, Scipy, Matplotlib, Pandas)的适配上比不上Scikit-learn。
    但是,包含GUI是个很重要的优势。你可以可视化交叉验证的结果、模型和特征选择方法(某些功能需要安装Graphviz)。对大多数算法,Orange都有自己的数据结构,所以你需要将数据包装成Orange兼容的数据结构,这使得其学习曲线更陡。
    #PyMVPA

    PyMVPA是另一个统计学习库,API上与Scikit-learn很像。包含交叉验证和诊断工具,但是没有Scikit-learn全面。
    深度学习
    尽管深度学习是机器学习的一个子节,我们在这里创建单独一节的原因是,它最新吸引了Google和Facebook人才招聘部门的很多注意。
    #Theano

    Theano是最成熟的深度学习库。它提供了不错的数据结构(张量,tensor)来表示神经网络的层,对线性代数来说很高效,与Numpy的数组类似。需要注意的是,它的API可能不是很直观,用户的学习曲线会很高。有很多基于Theano的库都在利用其数据结构。它同时支持开箱可用的GPU编程。
    #PyLearn

    还有另外一个基于Theano的库,PyLearn2,它给Theano引入了模块化和可配置性,你可以通过不同的配置文件来创建神经网络,这样尝试不同的参数会更容易。可以说,如果分离神经网络的参数和属性到配置文件,它的模块化能力更强大。
    #Decaf

    Decaf是最近由UC Berkeley发布的深度学习库,在Imagenet分类挑战中测试发现,其神经网络实现是很先进的(state of art)。
    #Nolearn

    如果你想在深度学习中也能使用优秀的Scikit-learn库API,封装了Decaf的Nolearn会让你能够更轻松地使用它。它是对Decaf的包装,与Scikit-learn兼容(大部分),使得Decaf更不可思议。
    #OverFeat

    OverFeat是最近猫vs.狗(kaggle挑战)4的胜利者,它使用C++编写,也包含一个Python包装器(还有Matlab和Lua)。通过Torch库使用GPU,所以速度很快。也赢得了ImageNet分类的检测和本地化挑战。如果你的领域是计算机视觉,你可能需要看看。
    #Hebel

    Hebel是另一个带有GPU支持的神经网络库,开箱可用。你可以通过YAML文件(与Pylearn2类似)决定神经网络的属性,提供了将神级网络和代码友好分离的方式,可以快速地运行模型。由于开发不久,就深度和广度上说,文档很匮乏。就神经网络模型来说,也是有局限的,因为只支持一种神经网络模型(正向反馈,feed-forward)。
    但是,它是用纯Python编写,将会是很友好的库,因为包含很多实用函数,比如调度器和监视器,其他库中我们并没有发现这些功能。
    #Neurolab

    NeuroLab是另一个API友好(与Matlabapi类似)的神经网络库。与其他库不同,它包含递归神经网络(Recurrent Neural Network,RNN)实现的不同变体。如果你想使用RNN,这个库是同类API中最好的选择之一。
    与其他语言集成

    你不了解Python但是很擅长其他语言?不要绝望!Python(还有其他)的一个强项就是它是一个完美的胶水语言,你可以使用自己常用的编程语言,通过Python来访问这些库。以下适合各种编程语言的包可以用于将其他语言与Python组合到一起:

    R -> RPython
    Matlab -> matpython
    Java -> Jython
    Lua -> Lunatic Python
    Julia -> PyCall.jl
    #不活跃的库

    这些库超过一年没有发布任何更新,我们列出是因为你有可能会有用,但是这些库不太可能会进行BUG修复,特别是未来进行增强。

    MDP2MlPy
    FFnet
    PyBrain

    展开全文
  • 机器学习实战(Python3版)

    千次阅读 2017-10-11 10:08:03
    最近在学机器学习,因为Python2跟Python3的差距,所以,我选择直接学习Python3来完成对机器学习实战的内容,此类博客会持续更新 (等我完成本书内容,代码会慢慢在github上更新) 接触到第一个算法为K-近邻算法,其...
  • 写这篇文章的目的,就是希望它可以让有志于从事数据科学和机器...我也会写下对于各种机器学习算法的一些个人理解,并且提供R和Python的执行代码。读完这篇文章,读者们至少可以行动起来亲手试试写一个机器学习的程序。
  • regression),首先介绍相关的基础概念和原理,然后通过Python代码实现线性回归模型。特别强调,其中大多理论知识来源于《统计学习方法_李航》和斯坦福课程翻译笔记以及Coursera机器学习课程。
  • 前言:本篇博文主要介绍逻辑回归(logistic regression),首先介绍相关的基础概念和原理,然后通过Python代码实现逻辑回归的二分类问题。特别强调,其中大多理论知识来源于《统计学习方法_李航》和斯坦福课程翻译...
  • 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)zouxy09@...因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样
  • 机器学习降维之PCA(python代码+数据)

    万次阅读 多人点赞 2019-06-27 21:27:42
    机器学习之PCA 首先分为四个部分来陈述: 产生应用背景 设计思路 案例实践 总结 附录 一.产生应用背景 主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据...
  • 机器学习】感知机Python代码实现

    千次阅读 2018-07-13 15:15:48
    回顾 感知机 前面我们介绍了感知机,它是...感知机算法简单易于实现,那么我们如何通过python代码来实现呢? 接下来我们通过对我们给定的数据进行训练,得到最终的w,bw,bw,b,并将其可视化。 Python实现 impo...
  • 10种机器学习算法(附Python代码

    万次阅读 多人点赞 2018-01-15 11:20:34
    sklearn python API LinearRegression from sklearn.linear_model import LinearRegression # 线性回归 # module = LinearRegression() module.fit(x, y) module.score(x, y) module.predict(test) Lo
  • pip install D:\软件下载\python的scikit-learn机器学习库文件\ scikit_learn -0.19.1-cp35-cp35m-win_amd64.whl (注:如果想直接使用pip命令,而不用在前面加 D:\python\Scripts 的话,需要将  D:\python\Scripts...
  • 本次上传的代码集是本人亲自试验过的,但是机器环境与python版本及其函数库版本的不同,代码可能有些在你的电脑上运行出错,这不要紧,这也是个寻求解决方法,锻炼自己的好机会。不仅如此,也可以让我们更加清楚的.....
  • 如何入门Python机器学习

    万次阅读 多人点赞 2017-09-04 15:24:37
    编者按:本书节选自图书《Python机器学习实战》,Python本身带有许多机器学习的第三方库,但本书在绝大多数情况下只会用到Numpy这个基础的科学计算库来进行算法代码的实现。这样做的目的是希望读者能够从实现的...
  • 机器学习算法代码汇总(Python&R)

    千次阅读 2015-11-21 19:23:59
    机器学习算法代码汇总-Python&R】- PDF文件下载.原文链接:点击这里.
  • 机器学习/人工智能 知识图谱可以为自己建立一个机器学习的知识图谱,并争取掌握每一个经典的机器学习理论和算法,简单地总结如下:1)回归算法: 最小二乘法(OrdinaryLeast Square) 逻辑回归(Logistic Regression...
  • python机器学习资料小合集

    千次下载 热门讨论 2017-04-19 13:10:30
    python机器学习资料小合集,包括机器学习十大算法以及python机器学习等资料指导,一些训练常用的代码和数据集
  • 机器学习算法的Python实现 (2):ID3决策树

    万次阅读 多人点赞 2016-04-01 22:42:39
    本文数据参照 机器学习...代码则参照《机器学习实战》一书的内容,并做了一些修改。 本文使用的Python库包括 numpypandasmathoperatormatplotlib 本文所用的数据如下:  Idx 色泽 根蒂 敲声 纹理 脐部 触感
  • 机器学习的首选语言是Python,最受欢迎的库是Google的TensorFlow。几乎所有的代码示例都是用Python编写的,并且依赖于TensorFlow和NumPy库。对C#和.NET开发人员来说,我们面临着一个严峻的选择 - 要么学习Pyth...
  • 常用的几种机器学习算法回归模型python代码实现

    千次阅读 多人点赞 2018-07-11 09:35:59
    由于在论文实验过程中一直使用的是python语言完成的论文实验,所以在论文需要使用机器学习方法时就考虑使用了scikit-learn。  scikit-learn是一款很好的Python机器学习库,它包含以下的特点:  (1)简单高效的...
  • 机器学习水果识别——python+opencv实现物体特征提取

    万次阅读 多人点赞 2018-12-02 21:30:56
    文章目录一、用python+opencv实现物体特征值提取1、读取图像、转为灰度图像并降噪2、获取水果轮廓将最大轮廓画入最开始的img...要用机器学习来实现水果识别,无论是训练还是识别阶段都需要提取图片中水果的特征值。...
  • 机器学习算法与Python实践之(一)k近邻(KNN)

    万次阅读 多人点赞 2013-11-26 00:38:48
    机器学习算法与Python实践之(一)k近邻...因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好这边同样定位的书籍,所以就参考这本书的过程来学
  • 机器学习实战-python3】k-近邻算法

    千次阅读 2017-02-13 19:37:32
    虽然现在深度学习大火,但是个人想利用最近的时间系统地学一下机器学习的基础方法,结合Machine Learning in action 一书,在此记录学习实践过程。 工具:PythonCharm 书中的代码python2的,而我用的python3,...
  • Python 机器学习经典实例

    万次阅读 多人点赞 2018-04-12 10:44:15
    内容介绍 在如今这个处处以数据驱动的世界中,机器学习正变得越来越大众化。它已经被广泛地应用于不同领域,如搜索...用最火的 Python 语言、通过各种各样的机器学习算法来解决实际问题! 书中介绍的主要问题如下。 ...
  • Python机器学习实践

    千次阅读 2019-10-15 21:14:08
    前面几篇博文已经整理了Python做数据分析和建模以及机器学习基础知识。 这篇博文主要分享Python... 每个案例单独用一篇博文来讲解逻辑和Python代码实现。点击对应的链接到相应的博文中去阅读。 (1)朴素贝叶斯、...
  • 测试代码 按照西瓜书设置的ε和MinPts参数 dataSet = loadDataSet( "dataSet.txt" ) C = DBSCAN(dataSet , 0.11 , 5 ) draw( C , dataSet) 聚类结果 由于是随机选取核心对象,所以每次运行...
  •  今后博主会每周定时更新机器学习算法及其python的简单实现。今天学习的算法是KNN近邻算法。KNN算法是一个监督学习分类器类别的算法。  什么是监督学习,什么又是无监督学习呢。监督学习就是我们知道目标向量的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 204,374
精华内容 81,749
关键字:

机器学习学习python代码

python 订阅