精华内容
下载资源
问答
  • 1、引言什么是聚类?我们通常说,机器学习任务可以分为两类,一类是...分类模型:目标变量是离散的分类型变量;回归模型:目标变量是连续性数值型变量。无监督学习:只有数据,无标签,即训练集没有标注目标变量。...
    b44be0acbd5588c1165333ab6f2592fd.png

    1、引言

    什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习。监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入、特征、自变量)与标签(又称输出、目标、因变量)之间关系的学习方式。监督学习模型又可以分为两类,分类和回归。分类模型:目标变量是离散的分类型变量;回归模型:目标变量是连续性数值型变量。无监督学习:只有数据,无标签,即训练集没有标注目标变量。常见的无监督学习算法有聚类,由计算机自己找出规律,把有相似属性的样本放在一组,每个小组也称为簇。简单来说,聚类是指根据相似数据点的属性或特征将它们分组在一起。例如,如果我们有一组人的收入和支出,我们可以将他们分为以下几类:
    • 高收入,高消费

    • 高收入,低消费

    • 低收入,低消费

    • 低收入,高消费

    2、K-means聚类

    聚类算法有很多,最流行的聚类算法之一是 k-means。让我们了解 k-means 算法是如何工作的,以及该算法可能达不到预期的情况。K-means有一个很著名很清晰的解析,就是牧师-村民模型。有四个牧师去郊区布道,一开始牧师们随意选了几个布道点,并且把这几个布道点的情况公告给了郊区所有的居民,于是每个居民到离自己家最近的布道点去听课。听课之后,大家觉得距离太远了,于是每个牧师统计了一下自己的课上所有的居民的地址,搬到了所有地址的中心地带,并且在海报上更新了自己的布道点的位置。牧师每一次移动不可能离所有人都更近,有的人发现A牧师移动以后自己还不如去B牧师处听课更近,于是每个居民又去了离自己最近的布道点……就这样,牧师每个礼拜更新自己的位置,居民根据自己的情况选择布道点,最终稳定了下来。根据上面这个故事,我们可以简单来概括一下K-means算法的一般步骤,K-Means聚类步骤是一个循环迭代的算法,非常简单易懂:Step1:确定类别数量K,K值人为设定,在训练数据分布范围内,随机选择K个点作为初始中心点;Step2:按照距离最小原则,把所有数据点分到距离最近的中心点所在的类中;step3:每类中有若干个观数据点,计算K个类中所有数据点的均值,作为下一次迭代的中心点;Step4:重复step2、step3步,直到收敛(每个数据点所属类别或中心点不再改变),聚类过程结束。下面我们通过一组图来直观了解一下K-means算法迭代过程:491b4254b06ffb27e4032238ae117e12.png初始状态随机生成了3个聚类中心点,然后分别计算每一个数据点对这些中心的距离,把距离最短的那个当成自己的类别。这样每个点都会对应一个中心点,可以看到聚类的并不准确,红色聚类中心太偏,没有数据点属于该类,在代码中,我们会再次随机更新这个聚类中心。0f1fe61200ad48ccdf31741e9834ddbd.png第一次迭代经过一次迭代之后,聚类中心向该类别的数据点的中心移动。 f9117c78f015e3fc2772b2fdeeec3db5.png收敛状态收敛状态,聚类中心移动到每个类别数据点中心,继续迭代中心点位置也不在变化。

    3、思考

    (1)初始中心点怎么确定?如果我们用欧式距离评估数据点与聚类中心的距离,那么在k-means算法步骤中,相当于我们一直在寻求一种最优的分割方式,使得总平方误差(SSE)最小,即数据点与其聚类中心的欧式距离最小。在迭代过程中,从两个方面来降低SSE:第一,把样本点分到最近邻的簇中,这样会降低SSE的值;第二,用均值更新聚类中心,进一步的减小了SSE(以MSE为目标函数,求导可知最优解即为平均数,以MAE为目标函数,求导可知最优解为中位数,因此如果采用曼哈顿距离进行聚类,更新聚类中心时,我们就需要采用中位数而不是平均数更新)。这样的重复迭代、不断优化,会找到局部最优解(局部最小的SSE),如果想要找到全局最优解需要找到合理的初始聚类中心。那合理的初始中心怎么选?方法有很多,譬如先随便选个点作为第1个初始中心C1,接下来计算所有样本点与C1的距离,距离最大的被选为下一个中心C2,直到选完K个中心。这个算法叫做K-Means++,可以理解为 K-Means的改进版,它可以能有效地解决初始中心的选取问题,但无法解决离群点问题。总的来说,最好解决办法还是多尝试几次,即多设置几个不同的初始点,从中选最优,也就是具有最小SSE值的那组作为最终聚类。(2)K值怎么确定?如果K过大,样本划分就越细,每个簇的聚合程度就越高,误差平方和SSE自然就越小。所以不能单纯像选择初始点那样,用不同的K来做尝试,选择SSE最小的聚类结果对应的K值,毫无疑问,SSE最小时必然对应K的最大值。假设在我们的原始数据中,其客观存在的类别数量为M,当K值小于M时,随着K值的增大,SSE会快速下降,而当K值大于M时,随着K值增大,SSE下降幅度会减小。如下图所示,M取值事先未知,K=2开始尝试,发现K=3时,SSE大幅下降,K=4时,SSE下降幅度稍微小了点,K=5时,下降幅度迅速降低,再后面就越来越平缓。所以我们认为M取值应该为4,因此可以将K设定为4。 e68a88d01dbc002c724276268bc21b7c.png这种方法叫做“手肘法”,因为SSE和K的关系图就像是手肘的形状,而肘部对应的K值就被认为是数据的真实聚类数。

    4、总结

    k-means 聚类概念听起来不错,它易于理解,相对容易实现,并且可以应用于很多用例中。最重要的一点是,算法复杂度不高,仅仅为O(s*n),s为迭代次数,而一般情况下,k-means算法收敛速度很快,迭代次数不超过10次,因此在数据集较大时,k-means应用起来非常方便。但也有一些缺点和局限性需要我们注意。从上文的算例来看,k-means 算法似乎运行得很好,但是,如果你仔细观察,你会发现所有创建的簇都是圆形的。这是因为聚类中心是使用平均值迭代更新的。现在,考虑下面的例子,其中点的分布不是圆形的。如果我们对这些数据使用 k-means 聚类,你认为会发生什么?它仍然试图以循环方式对数据点进行分组。那不太好!k-means 无法识别正确的分类:8c7f0f2235622596bad19e69060bd574.png因此,我们需要一种不同的方法来将数据点分配给聚类中心。因此,我们不应该再使用基于距离的模型,而是应该使用基于分布的模型。下一篇文章,我们再来看,高斯混合模型(GMM)是如何来克服K-means算法的缺点。 922c0dc4122cb168e13f4a3cbe5d4a98.png
    展开全文
  • B7. Concurrent 锁的分类

    2019-06-27 08:15:00
     锁的分类根据不同维度可以分为以下几种: 悲观锁和乐观锁 共享锁(S锁,读锁)和排他锁(X锁,写锁) 公平锁和非公平锁 重入锁 分段锁 【悲观锁和乐观锁】  悲观锁和乐观锁是两种处理并发冲突思路...

    概述

      锁的分类根据不同的维度可以分为以下几种:

    • 悲观锁和乐观锁
    • 共享锁(S锁,读锁)和排他锁(X锁,写锁)
    • 公平锁和非公平锁
    • 重入锁
    • 分段锁

    悲观锁和乐观锁

      悲观锁和乐观锁是两种处理并发冲突的思路,不是指锁的具体实现。

      悲观锁总是假设会发生最坏的情况,认为一个事务每次读取数据时,别的事务总会修改该数据,所以每次读取数据的时候总需要加上锁。传统的关系型数据库里有很多用到悲观锁的地方:比如行锁、表锁、读锁(共享锁)、写锁(排他锁),Java 中的 synchronized 关键字和基于AQS(java.util.concurrent.locks.AbstractQueuedSynchronizer)实现的各种锁(ReentrantLock、ReentrantReadWriteLock 等)也是使用悲观锁的思想。

      乐观锁总是假设会发生最好的情况,认为一个事务每次读取数据时,别的事务不会修改该数据,所以采取是一种“无锁”的策略,但需要在更新的时候会去判断该数据有没有被修改(自旋操作)。乐观锁可以使用版本号机制和 CAS 算法(Compare-and-Swap)来实现。乐观锁适合读大于写的应用场景,可以提高并发效率,从而提高吞吐量。Java 中 java.util.concurrent.atomic 包下的原子变量类就是使用 CAS 算法实现的乐观锁。

    共享锁和排他锁

      共享锁和排他锁都会对数据进行加锁,都属于悲观锁。

      共享锁(S锁)也叫读锁,如果一个事务 T 对一个数据 A 加了共享锁,则其他事务可以对数据 A 加共享锁进行读操作,但其他事务不可以对数据 A 加排他锁进行写操作;

      排他锁(X锁)也叫写锁,如果一个事务 T 对一个数据 A 加了排他锁,则其他事务不可以对数据 A 加共享锁进行或者排他锁。

      数据库的增删改操作默认会加排他锁,查询操作不会加锁。

      Java 中的 java.util.concurrent.locks.ReentrantReadWriteLock 提供了一种读写锁的实现。

      进行读操作的时候进行加锁,可以防止 “脏读” 的情况。通俗地讲,加了读锁,事务在读取数据的时候,不允许其他事务对该数据进行修改。

    公平锁和非公平锁

      所谓的 “公平” 在于是否按照线程申请锁的顺序分配锁,如果是,则为 “公平锁”,否则为 “非公平锁”。

      java.util.concurrent.locks.ReentrantLock 和 java.util.concurrent.locks.ReentrantReadWriteLock 都提供了 “公平锁” 和 “非公平锁” 的构造器实现。无参构造器默认为 “非公平锁”。

      synchronized 关键字提供的是一种 “非公平锁”。

      实现 “公平锁” 需要使用队列实现 “FIFO”,增加了队列数据处理的开销,当队列数据较大时对性能影响较大。相对而言,“非公平锁” 具有更高的并发效率,吞吐量更大,如非必要优先选择 “非公平锁”。  

    重入锁

      重入锁又叫递归锁,指的是一个获得锁后在同步块中可以进入同一把锁控制的另一代码块中,而不需要先释放锁,只需把该线程对锁的数量加1。试想一下,如果该线程尝试进入同一把锁控制的另一代码块时,需要等待锁释放,原来代码块又在等待,导致锁一直无法被释放,造成 “死锁”。java.util.concurrent.locks.ReentrantLock 、 java.util.concurrent.locks.ReentrantReadWriteLock、synchronized 关键字都是 重入锁。

    分段锁

      分段锁是一种通过细化锁粒度来获取更高并发效能的锁优化的设计思想。

      分段锁的一个实现可以参考 java.util.concurrent.ConcurrentHashMap。

    转载于:https://www.cnblogs.com/zlxyt/p/11094882.html

    展开全文
  • 什么是NoSQL数据库?

    2014-07-21 23:24:20
    普通的关系数据库都是以行为单位来存储数据的,擅长进行以行为单位的读入处理,比如特定条件数据的获取。因此,关系数据库也被称为面向行的数据库。相反,面向列的数据库是以列为单位来存储数据的,擅长以列为...
  • 因此,我们使用相同原理并制作了多模型分类器,但是通过替换了基于树的分类器而不是深度神经网络。 由于基于树的分类器无法生成特征向量作为输出,因此我们必须坚持使用其当前输出。 在本实验中,我们将数据集...
  • 这提供了一种很好的使用 SqlHelper 类来执行命令的模式,同时为开发人员选择访问数据的方式提供了必要的灵活性。每种方法的重载都支持不同的方法参数,因此开发人员可以确定传递连接、事务和参数信息的方式。类中...
  • 聚类分析的目的是把分类对象按一定的规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何的假定。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的...

    聚类分析的目的是把分类对象按一定的规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何的假定。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的对象倾向于彼此不相似。

    聚类分析根据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类是指对样品进行聚类,R型聚类分析是指对变量进行聚类。

    SAS中用于判别分析的过程主要有以下四个:

    PROC CLUSTER 谱系聚类(Q型聚类分析)

    PROC FASTCLUS K均值快速聚类,适用于大样本(Q型聚类分析)

    PROC MODECLUS 非参数聚类(Q型聚类分析)

    PROC VARCLUS 变量聚类(R型聚类分析)

    1. 用PROC CLUSTER进行样品聚类分析(Q型聚类分析)

    [例1]试根据1997年信息基础设施的发展情况,对世界20个国家和地区进行聚类分析。描述信息基础设施的变量主要有六个:

    Cal-每千人拥有电话线数;

    Cellphone-每千户居民移动电话数;

    Fee-高峰时期每三分钟国际电话成本;

    Computer-每千人拥有的计算机数;

    Mips-每千人中计算机功率(每秒百万指令);

    Net-每千人互联网络户主数。

    data cluster1;

    infile datalines;

    input Country $ Cal Cellphone Fee Computer Mips Net;

    datalines;

    美国 631.6 161.9 0.36 403 26073 35.34

    日本 498.4 143.2 3.57 176 10223 6.26

    德国 557.6 70.6 2.18 199 11571 9.48

    瑞典 684.1 281.8 1.4 286 16660 29.39

    瑞士 644 93.5 1.98 234 13621 22.68

    丹麦 620.3 248.6 2.56 296 17210 21.84

    新加坡 498.4 147.5 2.5 284 13578 13.49

    中国台湾 469.4 56.1 3.68 119 6911 1.72

    韩国 434.5 73 3.36 99 5795 1.66

    巴西 81.9 16.3 3.02 19 876 0.52

    智利 138.6 8.2 1.4 31 1411 1.28

    墨西哥 92.2 9.8 2.61 31 1751 0.35

    俄罗斯 174.9 5 5.12 24 1101 0.48

    波兰 169 6.5 3.68 40 1796 1.45

    匈牙利 262.2 49.4 2.66 68 3067 3.09

    马来西亚 195.5 88.4 4.19 53 2734 1.25

    泰国 78.6 27.8 4.95 22 1662 0.11

    印度 13.6 0.3 6.28 2 101 0.01

    法国 559.1 42.9 1.27 201 11702 4.76

    英国 521.1 122.5 0.98 248 14461 11.91

    ;

    run;

    PROC CLUSTER DATA=cluster1 STANDARD METHOD=CENTROID CCC PSEUDO UT=TREE;

    PROC TREE DATA=TREE HORIZONTAL SPACES=1;

    RUN;

    [说明]

    METHOD=的选项可以为:

    AVERAGE(平均法)

    CENTROID(重心法)

    COMPLETE(最长距离法)

    DENSITY(非参数概率密度估计法)

    EML(最大似然法)

    FLEXIBLE(flexible-beta法)

    MCQUITTY(Mcquitty的相似分析法)

    MEDIAN(中位数法)

    SINGLE(最短距离法)

    TWOSTAGE(两阶段密度法)

    WARD(Ward最小方差法)

    STANDARD 对变量实施标准化。

    CCC、PSEUDO 为了计算一些统计量用以判别全部样品究竟聚成几类较为合适。CCC要求打印聚类判别据的立方及在一致无效假设下近似期望值R2,PSEUDO要求打印伪F(标志PSF)和t2(标志PST2)统计量。当分类数目不同时,它们就有不同的取值,CCC和PSF出现峰值所对应的分类数较合适、PST2出现峰值的前一行所对应的分类数较合适。

    OUT=TREE 产生名为TREE的输出数据集,它可被TREE过程用来输出聚类结果的树状图。HORIZONTAL要求将树状图水平放置,SPACES=1要求各样品之间的间隔为1。

    [结果及其解释]

    如果聚为3类,其聚类结果为:一类是信息基础设施最为发达的美国,一类是一些发达国家,其他的国家和地区聚为另外一类。

    2. 用PROC FASTCLUS进行大样本的样品聚类分析(Q型聚类分析)

    处理大样本时一般采用非分层聚类法(快速聚类法)。聚类的个数k可以根据需要事先指定。与分层聚类方法相比,非分层聚类方法不必确定距离矩阵,不必存储基本数据,因此适用于处理很大的数据集。

    下面仍使用[例1]的数据,对PROC FASTCLUS加以说明:

    PROC FASTCLUS DATA=cluster1 UT=result MAXC=3 CLUSTER=c;

    RUN;

    [说明]

    MAXC=3 要求总共聚为3类

    OUT=result 结果输出到数据集result

    CLUSTER=c 分类标志的变量名c,其取值为1,2,3

    [结果及其解释]

    聚类结果为:一类是信息基础设施最为发达的美国,一类是一些发达国家,其他的国家和地区聚为另外一类。

    3. 用 PROC VARCLUS 进行变量聚类分析(R型聚类分析)

    [例 2] 对1996年全国30个省市自治区经济发展基本情况的八项指标作变量聚类分析:

    X1:GDP

    X2:居民消费水平

    X3:固定资产投资

    X4:职工平均工资

    X5:货物周转量

    X6:居民消费价格指数

    X7:商品零售价格指数

    X8:工业总产值

    data cluster2;

    infile datalines;

    input Province $ X1-X8;

    datalines;

    北京 1394.89 2505 519.01 8144 373.9 117.3 112.6 843.43

    天津 920.11 2720 345.46 6501 342.8 115.2 110.6 582.51

    河北 2849.52 1258 704.87 4839 2033.3 115.2 115.8 1234.85

    山西 1092.48 1250 290.9 4721 717.3 116.9 115.6 697.25

    内蒙 832.88 1387 250.23 4134 781.7 117.5 116.8 419.39

    辽宁 2793.37 2397 387.99 4911 1371.1 116.1 114 1840.55

    吉林 1129.2 1872 320.45 4430 497.4 115.2 114.2 762.47

    黑龙江 2014.53 2334 435.73 4145 824.8 116.1 114.3 1240.37

    上海 2462.57 5343 996.48 9279 207.1 118.7 113 1642.95

    江苏 5155.25 1926 1434.95 5943 1025.5 115.8 114.3 2026.64

    浙江 3524.79 2249 1006.39 6619 754.4 116.6 113.5 916.59

    安徽 2003.58 1254 474 4609 908.3 114.8 112.7 824.14

    福建 2160.52 2320 553.97 5857 609.3 115.2 114.4 433.67

    江西 1205.11 1182 282.84 4211 411.7 116.9 115.9 571.84

    山东 5002.34 1527 1229.55 5145 1196.6 117.6 114.2 2207.69

    河南 3002.74 1034 670.35 4344 1574.4 116.5 114.9 1367.92

    湖北 2391.42 1527 571.86 4685 849 120 116.6 1220.72

    湖南 2195.7 1408 422.61 4797 1011.8 119 115.5 843.83

    广东 5381.72 2699 1639.83 8250 656.5 114 111.6 1396.35

    广西 1606.15 1314 382.59 5105 556 118.4 116.4 554.97

    海南 364.17 1814 198.35 5340 232.1 113.5 111.3 64.33

    四川 3534 1261 822.54 4645 902.3 118.5 117 1431.81

    贵州 630.07 942 150.84 4475 301.1 121.4 117.2 324.72

    云南 1206.68 1261 334 5149 310.4 121.3 118.1 716.65

    西藏 55.98 1110 17.87 7382 4.2 117.3 114.9 5.57

    陕西 1000.03 1208 300.27 4396 500.9 119 117 600.98

    甘肃 553.35 1007 114.81 5493 507 119.8 116.5 468.79

    青海 165.31 1445 47.76 5753 61.6 118 116.3 105.8

    宁夏 169.75 1355 61.98 5079 121.8 117.1 115.3 114.4

    新疆 834.57 1469 376.95 5348 339 119.7 116.7 428.76

    ;

    run;

    PROC VARCLUS DATA=cluster2 CENTROID MAXC=3;

    VAR x1-x8;

    RUN;

    [说明]

    CENTROID 聚类方法为重心法,默认聚类方法为主成分法

    MAXC=3 要求总共聚为3类

    [结果及其解释]

    聚类结果为:第一类变量主要反映了生产状况;第二类变量主要反映了消费状况,第三类变量主要反映了价格状况。

    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31491/viewspace-598177/,如需转载,请注明出处,否则将追究法律责任。

    展开全文
  • 请注意,本讲座是一个非正式概述,而不是对该主题正式介绍。 演讲幻灯片 。 。 。 。 。 频繁模式。 分类。 聚类分析。 离群值检测。 参考 韩佳薇,坎伯·米歇琳,裴健:数据挖掘:概念和技术。 第三...
  • 什么是VLAN

    2013-10-23 09:59:12
     增强局域网的安全性,含有敏感数据的用户组可与网络的其余部分隔离,从而降低泄露机密信息的可能性。不同VLAN内的报文在传输时是相互隔离的,即一个VLAN内的用户不能和其它VLAN内的用户直接通信,如果不同VLAN要...
  • 2、数据的一致性与完整性。3、数据的共享与独立性。 2.2. 系统的可行性分析 2.2.1. 技术可行性 技术上的可行性分析要考虑将来要采用的硬件和软件技术能否满足用户(这里是服务器,网速)提出的要求(如计算机的...
  • 豆瓣从来不是一个单一网站,而对于豆瓣用法自然不尽相同。使用豆瓣是为了获取信息,但信息获取是基于条目和算法,还是基于友邻和人,这个问题在豆瓣多次改版中大概一直悬而未决。 这次,一个叫“豆瓣”...
  •  封装是把过程和数据包围起来,对数据的访问只能通过已定义的界面。面向对象计算始于这个基本概念,即现实世界可以被描绘成一系列完全自治、封装的对象,这些对象通过一个受保护的接口访问其他对象。 4. 多态性: ...
  • excel使用

    2012-11-25 17:06:01
    自定义格式只改变数据的显示外观,并不改变数据的值,也就是说不影响数据的计算。灵活运用好自定义格式功能,将会给实际工作带来很大的方便。5、绘制函数图象做教学工作的朋友们一定会遇到画函数曲线的问题吧!如果...
  • 6.2 数据模型演变和数据库技术当前发展趋势 109 6.3 Informix Universal Server 110 6.3.1 可扩展数据类型 111 6.3.2 支持用户定义例程 112 6.3.3 支持继承 113 6.3.4 支持索引扩展 115 ...
  • 1.3.3 支持数据的多视图 9 1.3.4 数据共享和多用户事务处理 9 1.4 幕前角色 10 1.4.1 数据库管理员 10 1.4.2 数据库设计者 10 1.4.3 最终用户 10 1.4.4 系统分析员和应用程序员(软件...
  • 很强ccna教程

    2013-12-02 15:02:54
    数据流层作用 数据流层作用 数据流层作用 数据流层作用 数据流层作用 PDU 封装与解封装 封装过程 解封装过程 数据传输过程 物理层功能 Ethernet/802.3物理层 物理层设备 集线器运行在物理层 冲突域 广播...
  • 需求概念模型的要求包括实现的独立性:不模拟数据的表示和内部组织等;需求模拟技术又分为企业模拟、功能需求模拟和非功能需求模拟等。 (3) 传递需求 传递需求的主要任务是书写软件需求规格说明。 (4) 认可需求 ...
  • 机器学习 入门

    千次阅读 2019-05-30 19:40:03
    机器学习最大的特点是利用数据而不是指令来进行各种工作,其学习过程主要包括:数据的特征提取、数据预处理、训练模型、测试模型、模型评估改进等几部分。 二、机器学习算法: 机器学习算法可以分为传统的机器学习...

    机器学习最大的特点是利用数据而不是指令来进行各种工作,其学习过程主要包括:数据的特征提取、数据预处理、训练模型、测试模型、模型评估改进等几部分。在这里插入图片描述

    二、机器学习算法:

    机器学习算法可以分为传统的机器学习算法和深度学习。

    传统机器学习算法主要包括以下五类:

    1. 回归:建立一个回归方程来预测目标值,用于连续型分布预测
    2. 分类:给定大量带标签的数据,计算出未知标签样本的标签取值
    3. 聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征
    4. 关联分析:计算出数据之间的频繁项集合
    5. 降维:原高维空间中的数据点映射到低维度的空间中
      在这里插入图片描述
      线性回归:找到一条直线来预测目标值
      逻辑回归:找到一条直线来分类数据
      K-近邻:用距离度量最相邻的分类标签
      朴素贝叶斯:选择后验概率最大的类为分类标签
      决策树:构造一棵熵值下降最快的分类树
      支持向量机(SVM):构造超平面,分类非线性数据
      PCA降维:减少数据维度,降低数据复杂度
      人工神经网络:逐层抽象,逼近任意函数
      在这里插入图片描述
    展开全文
  • 按分数或最低分数z分数过滤,以隐藏在平均或平均水平以下的故事 深色和浅色造型 数据 每五分钟从HackerNews官方API( )热门故事终结点请求数据,并将其合并到PostgreSQL数据库中。 因此,不能保证它是最新。 ...
  • 一、基础知识数据的重要性无需多说,需要强调的是备份不是目的,能恢复才是目的,以下就Mariadb的一些概念进行说明。1.存储引擎的分类Mariadb5.1以后的版本,默认使用支持事务的InnoDB存储引擎,之前的MyISAM存储...
  • c语言入门教程.txt

    2011-05-02 16:01:56
    一句话,变量是存储数据的值的空间。由于数值的类型有多种,有整数、小数(浮点数)、字符等等,那么对应的变量就有整型变量、浮点变量、字符变量。变量还有其他的具体分类。整型变量还可具体分为无符号、长...
  • 9、下面哪一项不是计算机网络按地理范围分类的类型。( ) A、局域网 B、无线网 C、广域网 D、城域网 10、目前IPV4地址已基本分配完毕,将来使用IPV6地址采用____表示。 A、 16位 B、32位 C、64位 D、128位

空空如也

空空如也

1 2 3 4 5
收藏数 95
精华内容 38
关键字:

以下不是分类型数据的是