精华内容
下载资源
问答
  • 机器学习开放数据集网站

    万次阅读 2016-10-24 16:23:30
    世界最大的社会科学文献网站 可以找到大量的数据集 :http://www.icpsr.umich.edu/icpsrweb/ICPSR/ UC Irvine Machine Learning ...数据堂由国家科技部大力支持,与国内外著名科研机构、高等院校、研发企业通

    世界最大的社会科学文献网站 可以找到大量的数据集 :

    http://www.icpsr.umich.edu/icpsrweb/ICPSR/
    这里写图片描述

    UC Irvine Machine Learning Repository

    http://archive.ics.uci.edu/ml/

    这里写图片描述

    数据堂

    http://www.datatang.com/
    数据堂由国家科技部大力支持,与国内外著名科研机构、高等院校、研发企业通力合作,积累了丰富的科研数据资源,通过统一的平台提供服务,使得科研机构、企业、高校和个人之间实现充分的数据共享。通过该平台,让更多的科研人员进一步发掘和利用这些科学数据的价值,促进我国科学研究水平的提高,使得政府财政投入科研活动的价值得到进一步提升,使得参与其中的各类科研组织、研发企业迅速提升学术影响力、社会影响力。(个人评价,晕,好久不更新)
    这里写图片描述

    myPersonality Project

    http://mypersonality.org/wiki/doku.php?id=start
    这里写图片描述

    Awesome Public Datasets

    https://github.com/caesar0301/awesome-public-datasets

    The Yahoo Webscope Program

    http://webscope.sandbox.yahoo.com/
    这里写图片描述

    欢迎大家补充!

    展开全文
  • 列举一下机器学习最经典的、最具代表性的一些算法或重要概念,了解一下机器学习领域的主要内容分类。 1.回归 线性回归(Linear回归) Logistic回归(逻辑回归)【二分类算法,但本质上是属于回归】 多项式回归 ...

    列举一下机器学习最经典的、最具代表性的一些算法或重要概念,了解一下机器学习领域的主要内容分类。


    1.回归

    线性回归(Linear回归)

    Logistic回归(逻辑回归)【二分类算法,但本质上是属于回归】

    多项式回归

    Ridge回归(岭回归)

    LASSO回归

    Elastic Net回归(弹性网络回归)

    最小角回归


    2.决策树 

    ID3算法

    C4.5算法

    CART算法


    3.支持向量机

    SVM

    SVR,SVC (支持向量回归、支持向量分类)

    SMO


    4.集成学习

    Bagging

    -》随机森林(Random Forest)

    Boosting

    -》AdaBoost(自适应增强)

    -》GBDT(梯度提升决策树)

    -》XgBoost(极限梯度提升)

    -》LightGBM

    -》CatBoost

    Stacking

    Blending


    5.神经网络

    ANN   人工神经网络

    -》基于BP算法的人工神经网络

    -》DNN 深度神经网络

    CNN   卷积神经网络

    -》ImageNet(2010-图像分类比赛项目)

    -》AlexNet(2012)

    -》LeNet(2013)

    -》VGG(2014)

    -》GoogLeNet(2014)

    -》InceptionNet(2014)

    -》ResNet(2015)

    -》FCN(2015)

    -》SSD(2015)

    -》Yolo(2015)

    -》DenseNet(2016)

    -》Faster R-CNN(2016)

    -》YOLOv2(2016)

    -》Inception-v4(2016)

    -》YOLOv3(2017)

    -》Mask RCNN(2018)

    -》Mask Scoring R-CNN(2019)

    RNN 递归/循环神经网络

    -》LSTM 长短期记忆网络

    -》GRU 门控循环单元

    -》BiLSTM 双向RNN

    GAN 对抗生成网络

    -》DCGAN

    -》WGAN

    -》WGAN-GP

    -》LSGAN-BEGAN

    DBN 深度信念网络

    -》RBM 受限玻尔兹曼机 

    -》DBM 深度受限玻尔兹曼机

    -》SAE 稀疏自动编码器

    -》DBN 深度信念网络 

    序列生成系列

    -》Seq2seq

    -》Transfromer

    -》Bert

    模型压缩系列

    压缩网络:MobileNet、SqueezeNet、ShuffleNet、Xception

    知识蒸馏:Teacher-Student Net、Knowledge Distillation

    神经网络剪枝:Fisher算法、Alpha-Beta 算法


    6.聚类

    K-Means K-均值

    DBscan 密度聚类

    EM算法(混合高斯模型 GMM)

    Hierarchical 层次聚类

    MeanShift 均值漂移

    FCM 模糊C均值聚类

    SOM 自组织神经网络


    7.关联分析

    Apriori算法

    FP-growth算法


    8.降维&稀疏

    kNN K-近邻算法

    LDA 线性判别分析

    PCA 主成分分析

    矩阵分解系列:

    SVD 奇异值分解,QR分解,LU分解,LDLT分解

    ICA 独立分量分析

    PLSR 偏最小二乘回归

    Sammon 映射

    ISOMAP 等距特征映射

    MDS 多维尺度变换

    Projection Pursuit 投影寻踪

    LLE 局部线性嵌入

    SNE、t-SNE

    *16.表示学习

    词嵌入、图嵌入(知识图谱):

    Trans系列:

    TransE、TransH、TransR、TransD、TransA、TransG

    Word Embedding系列:

    One-hot、Word2vec、glove、Elmo、GPT、Bert


    9.贝叶斯&概率模型

    NB 朴素贝叶斯

    GMM 混合高斯模型

    动态贝叶斯网络

    HMM 隐马尔可夫模型(链)

    MCMC 马尔科夫蒙特卡洛

    MH算法

    Gibbs采样

    Kalman Filter 卡拉曼滤波

    Particle Filter 粒子滤波

    MRF 马尔科夫随机场

    CRF 条件随机场

    MDP 马尔科夫决策(贝尔曼方程)

    LDA 主题模型(隐狄利克雷分布)


    11.相关补充:

    半/无监督学习、过/欠拟合(梯度下降、正则化、Dropout…)、假设空间-VC维、协同过滤-推荐算法;

    规则学习-AQ系列算法 & 归纳学习-Prism系列算法、生成模型 -> 判别模型;

    感知器、最大熵模型、RBF 径向基神经网络(伪逆法)、势函数、H-K算法;

    香农熵、KL散度(相对熵)、JS散度、交叉熵、条件熵、信息增益、互信息;

    近似推断、变分推断、变分贝叶斯推断;

    领域延伸--》【统计学、矩阵论、信息论、拓扑学、群论、图论、博弈论、逻辑学、运筹学…】


    *12.智能计算 & 优化算法:

    推理算法(确定性&不确定性)、

    搜索策略&路径规划(状态空间&启发式搜索、剪枝/回溯法、Dijkstra算法、A*算法)、

    进化算法(遗传算法)、

    群智算法(粒子群优化、蚁群算法)、

    模拟退火算法


    *13.强化学习

    基于奖励机制的 遗传算法/

    DQN算法-Deep Q-Learning/

    DDPG算法

    NAF算法


    *14.迁移学习

    TrSVM算法

    TrAdaBoost算法

    MTL多任务学习算法

    (其中,BERT模型、Mask RCNN等深度模型都有迁移学习中多任务学习的影子)

    *15.自主学习

    AutoML


    机器学习涉及的领域很广,其应用原理大多以以统计学为基石,数学为主要工具,算法为计算策略

    什么是人工智能 机器学习 数据挖掘 深度学习?它们之间的关系是什么?这里说一点自己的理解

    通俗来讲人工智能是 通过计算机程序与算法 来完成“在未知情况下难以分辨这个任务是机器完成的还是由真人完成的”任务

    实际上,人工智能这个概念是一个很广泛的概念,真正的人工智能从业者多年来都基本围绕机器学习的内容展开的

    而作为人工智能基石的机器学习仍然是一个很庞大的领域,它本质上是数据科学。例如,从数据中获取知识(数据挖掘),从知识中生成数据 分别对应机器学习中的 判别式  生成式

    在已有的数据中搜索 需要的/最想要的 数据 -》 启发式

    通过状态-决策-环境的奖励反馈机制 -》 强化学习

    根据已有 知识/数据 进行举一反三的推广和引申 -》 迁移学习

    大多数情况下,机器学习都是对数据的分析与特征提取 形成知识,然而知识与数据之间没有一个确定的分界线,两者之间也可以相互转化 ,如果通过对知识的建模,即将知识视为数据 又产生了如 知识图谱、动态网络、图模型 这种更复杂的体系

    深度学习 与 机器学习 的关系?

    深度学习 最初只是 机器学习中连接主义【感知机与人工神经网络】分支发展而来,近几年来大火的深度学习完全得益于 计算力的提升,计算资源越来越廉价,数据量的爆炸式增长,使得很多复杂的问题在神经网络这种黑盒模型上能够取得极佳的效果。由于神经网络是一种黑盒模型,其庞大的数据量以及复杂而多样的模型调优过程 又产生了一系列的算法。

    虽然深度学习一直被学术界工业界广泛推崇,但是从目前技术发展情况来看,绝对不能忽视传统机器学习、传统图像处理和信号处理方法的重要性,甚至应该要在传统方法的基础上再使用深度学习方法去研发更鲁棒,更精确和高效的模型。

           

     

     

     

    展开全文
  • 机器学习(ML)通过丰富且高质量的数据改进指定问题的发现和决策。机器学习在药物发现的所有阶段都有应用:靶标验证、生物标志物的鉴定和临床试验中数字病理学数据的分析。应用程序的范围和方法不同,有些方法可以...

    摘要

    药物研发管线漫长、复杂且取决于许多因素。机器学习(ML)通过丰富且高质量的数据改进指定问题的发现和决策。机器学习在药物发现的所有阶段都有应用:靶标验证、生物标志物的鉴定和临床试验中数字病理学数据的分析。应用程序的范围和方法不同,有些方法可以产生准确的预测和解释。应用机器学习的主要挑战在于ML产生的结果缺乏可解释性和可重复性,可能限制其应用。在所有领域,仍然需要生成系统和全面的高维数据。

     

    介绍

    生物系统是发育和疾病期间复杂的信息来源。 现在使用大量的“组学”和智能技术系统地测量和挖掘这些信息。针对生物学和疾病的高通量方法的出现为制药业带来了挑战和机遇,其目的是确定可用于开发药物的治疗假设。许多因素的最新进展导致对制药工业中机器学习方法的使用兴趣增加;再加上无限可扩展的存储ML提供基础的数据集类型,增加了制药公司能够访问和组织更多数据的机会。数据类型可以包括图像、文本信息、生物特征、来自可穿戴设备的其他信息和高维组学数据。

     

    人工智能(AI)领域已经从大量的理论研究转向现实世界的应用。这种爆炸性增长的大部分与图形处理单元(GPU)等新计算机硬件的广泛可用性有关。新的ML算法的从数据构建强大的模型以及这些技术在众多公共竞赛中的成功,有助于增加ML在制药公司中的应用。尽管许多消费者服务行业早已采用ML领域的新方法,但制药行业的采用率一直滞后。 众所周知,药物开发的成功率在所有治疗领域和整个制药行业都非常低。最近对21143种化合物的研究发现,总体成功率低至6.2%。 因此,制药行业中使用ML技术的许多理由是由业务需求驱动以降低总体损耗和成本。

     

    药物研

    展开全文
  • 2015年机器学习/数据挖掘面试总结

    千次阅读 2015-08-31 13:42:34
    2015年机器学习/数据挖掘面试总结  明年硕士毕业,今年开始找工作。在北方呆的太久,想回湿润的南方。  第一站(3月份),阿里数据挖掘实习生面试。个人觉得,阿里的面试是最人性化的,几乎不需要提前准备什么。不...

                                        2015年机器学习/数据挖掘面试总结

           明年硕士毕业,今年开始找工作。在北方呆的太久,想回湿润的南方。
           第一站(3月份),阿里数据挖掘实习生面试。个人觉得,阿里的面试是最人性化的,几乎不需要提前准备什么。不需要刷题,不需要死记硬背一些概念。他们看重的是你的项目经历和解决实际问题的能力。每一场面试都不难,但是面试的次数是我所知道的公司中最多的。面试的题目有:
    1)自我介绍。突出自己的特色就好,废话少说。
    2)项目经历。先简述,后详述。一般要描述这个项目的背景,需求,你是怎么做的,结果如何。然后,面试官就会问与其他人相比,你的创新在哪儿,你遇到过哪些坑,你觉得还可以往哪方面改进。如果你是和别人合作的项目,面试官还会问你们是怎样分工的。
    3)协同过滤主要有哪些?基于物品的和基于用户的。
    4)一道组合数学题。10盏灯,灭三盏,两头的必须亮着,不能灭掉相邻的两盏灯,问组合数?C(6,3) = 20 。
    5)PCA有什么用?降维。

           第二站(7月8日),百度商业搜索部门面试。这是我最不堪回首的面试经历。面试官和我的交流很少,沉默寡言,说话很直接。面试结束后,我自我感觉还算良好,问他觉得我怎么样,他很直接地说,很差。我心碎了一地,默默地告诉自己失败是成功之母,然后回去梳理知识。面试题目有:
    1)反转链表。一上来就要求在纸上写代码,要求是反转链表。好简单的一道题!我说有递归和非递归解法,先写了递归,然后写了非递归算法,检查三遍,没问题,很开心的交卷。结果因为第一次在纸上写代码,写的可谓是龙飞凤舞,被面试官狠狠的鄙视了,说我的代码写得太丑了。回去后,我在电脑上又写了一遍,感觉也不是很丑啊。http://blog.csdn.net/u011300443/article/details/46804339
    2)排列数的生成算法。http://blog.csdn.net/u011300443/article/details/46884681
    3)项目经历。他问我用过哪些模型,我说用过GBDT,RF,LR,SVM。然后他接着问SVM原理是什么,SVM核函数的作用。SVM是在给定的数据集上找一个超平面,使得支持向量(超平面两边距离超平面最近的点)到超平面的距离最大。SVM通过引入核函数,巧妙地解决了在高维空间中的内积运算,从而很好地解决了非线性分类问题。
            第三站(7月31日),百度大数据研发部门面试。第一面有两个面试官,第二面的面试官很拽的感觉。面试题目有:
    1)最长公共子序列。我一不留神写成求编辑距离的算法了。
    2)字符串转整数。
    3)哈夫曼编码。给出每个词的频率,为每个词的编码,使得平均编码长度最短。
    4)虚函数机制。
           第四站(8月19日),京东面试。面试题目有:
    1)设计O(n)空间复杂度的均值平滑算法。
    2)最大连续乘积子串。用动态规划求解。
           第五站(8月20日),百度网络搜索部门面试。面试官平易近人,交流起来很舒心。经常聊着聊着,就开始兴奋起来,感觉不像是一场面试,更像是一次朋友的交谈。末了,我还问面试官怎么看待公司喜欢招“熟练工”的问题?他说他们部门更看重项目经历和思维能力,他们部门的员工更像艺术家,而非工程师。面试题目有:
    1)给你54张扑克牌,判断是否是顺子。Hash算法。
           第六站(8月27日),阿里搜索部面试。阿里的面试官真的很nice,很有耐心。8月26号,我手机快没电了而且静音了。8月27号早上,面试官给我打电话,因为手机静音所以没听到,结果打了几次后,把我手机打没电了。粗心的我一直没意识到手机没电了,直到下午5点给手机充电时才发现面试官给我的短信。我赶紧回了过去,约在晚上7点半面试。面试官有了早上的经验,提前半小时(7点)开始打我电话,我又没收到,后来发现是忘记取消手机静音了。我还收到面试官发过来的一条略带调侃的短信“又打不通了哦”,一个“哦”字让我的心略略安稳了一些。后来,我打电话给他,他还说以为是我的手机出了问题,然后主动和我聊起了我名字的含义,缓解了我紧张的情绪,才开始进入正题。面试题目有:
    1)说一下随机森林的执行过程。
    2)基尼指数和信息增益的区别。
    3)GBDT和RF的优缺点。
    4)他:你有什么想问我的?
    我:你们是不是核心部门?
    他:当然是的。为什么想去核心部门?
    我:我喜欢做有挑战性的工作。
    他:如果你能把非核心部门变成核心部门,不是更有挑战性吗?
    我:有道理。
    ————————————————————————————————————
    以下,是小猴子遇到的腾讯面试题,非常感谢他的无私奉献。:)
    腾讯面试
    1)有25匹马 ,5个跑道,一次只能比5匹马,得到跑得最快的前3,至少需要比几次?
    答:7次。
    2)一个文件中包含超大的N个数,求最大的K个数?
    答:最小堆,时间复杂度为N log k 。
    3)一个数据流中,如何采样得到100个数,保证采样得到的100个数是随机的?
    答:蓄水池抽样算法。
    4)如何解决特征共线性的问题?
    答:可以利用PCA,特征降维,去除冗余特征和噪声特征。
    5)为什么RF和GBRT比LR效果好?
    答:混合模型的优势,分别是bagging和boosting的思想,LR毕竟是单模型,而且特征不保证与label是线性的,需要特征转换和拟合。
    6)LR正则化L1和L2的区别?
    答:L1正则化产生稀疏解,将不相关特征对应的权重设为0,去除不相关特征,进行特征选择,L2正则化进行特征权重衰减。L1正则是拉普拉斯先验,L2正则是高斯先验。两者都能达到防止过拟合,增加模型的泛化能力的目的。

    ————————————————————————————————————
          找工作和找对象差不多,都是双向选择。被拒不代表你不好,也许是因为你们彼此不适合。找一份最适合你的工作,找一个最适合你的伴侣,人生就很美满了。

    展开全文
  • 国内搞机器学习数据挖掘的大牛

    千次阅读 2013-10-27 22:44:30
    之前自己一直想总结一下国内搞机器学习数据挖掘的大牛,但是自己太懒了。所以没搞...最近看到了下面转载的这篇博文,感觉总结的比较全面了。  个人认为,但从整体研究实力来说,机器学习数据挖掘方向国内最强...
  • 导读:学习机器学习是一个不断探索和实验的过程,因此,本文将主要介绍常见的开源数据集,便于读者学习和实验各种机器学习算法。作者:张春强 张和平 唐振来源:大数据DT(ID:hzdashuj...
  • 机器学习/数据挖掘之中国大牛

    万次阅读 多人点赞 2012-05-21 20:29:11
    机器学习/数据挖掘之中国大牛 推荐几个机器学习数据挖掘领域相关的中国大牛: 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究...
  • 资源名称:数据挖掘:实用机器学习工具与技术 原书第3版内容简介:大数据时代应用机器学习方法解决数据挖掘问题的实用指南。洞察隐匿于大数据中的结构模式,有效指导数据挖掘实践和商业应用。weka系统的主要开发者将...
  • RAPIDS,为数据科学和机器学习而生

    千次阅读 2018-10-30 11:07:43
    数据分析和机器学习是高性能计算市场中最大的细分市场,不过目前尚未实现加速,全球最大的行业均在海量服务器上运行机器学习算法,目的在于了解所在市场和环境中的复杂模式,同时迅速、精准地做出将直接影响其基础...
  • 这里给大家介绍机器学习数据挖掘领域的相关人物,并附有博文地址,希望能在Machine Learning and Data Mining的道路上给大家带来帮助。
  • 国内机器学习/数据挖掘大牛

    千次阅读 2014-01-10 09:12:43
    推荐几个机器学习数据挖掘领域相关的中国大牛: 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言...
  • 人工智能、机器学习数据将推动未来生产力的发展http://note.youdao.com/share/index.html?id=9874d468e9dece80bcc23819232438fd&type=note&from=timeline&isappinstalled=0#/人工智能是信息时代的尖端技术。...
  • 前言刚过完年,就开始到处找实习了,可惜后来发生了一些事情,耽误了春招实习,也完全改变了...2017-我的秋招之路:机器学习/算法工程师(含大量面经)算法/研发岗位实习生面经高德地图 (数据挖掘实习生,电话一面,201
  • 随着人工智能技术的发展,机器学习越来越受到开发者们的关注,从而也导致了机器...虽然,大多数 JavaScript 机器学习库都是“新轮子”,有的甚至还在研发中,但并不会影响你的使用。在这篇文章中,我们将与你分享这些
  • A Deep Dive Into Benchmarks, Consensus and Review 训练数据的质量对于模型表现至关重要...作为AI数据科学家,工作中一个重要任务就是如何有效组合应用这些数据质量保证方法。 在这边文章中,你会学到: *数据...
  • 数据科学、人工智能与机器学习的区别 什么是数据科学? 什么是人工智能? 什么是机器学习数据科学、人工智能、机器学习的关系 数据科学、人工智能、机器学习的区别 数据科学、人工智能、机器学习工作 ...
  • 当我们浏览网站、发送邮件、上传视频灌水论坛时,这些数据都将流经占地面积超过足球场的数据中心。数据中心内成千上万台服务器每秒钟消耗的能源都非常惊人。全世界所有的数据中心消耗的能源总和约占全世界用电量的2%...
  • 推荐几个机器学习数据挖掘领域相关的中国大牛: 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计...
  • 人工智能、机器学习数据将推动未来生产力的发展 https://blog.csdn.net/wowotuo/article/details/54744833 人工智能是信息时代的尖端技术。在最新的“创新简介”系列文件中,我们研究机器学习和深度学习的进步如何...
  • 之前自己一直想总结一下国内搞机器学习数据挖掘的大牛,但是自己太懒了。所以没搞...最近看到了下面转载的这篇博文,感觉总结的比较全面了。  个人认为,但从整体研究实力来说,机器学习数据挖掘方向国内最强...
  • 人工智能研发的一个大方向是用AI系统来自动化开发AI系统。虽然这一目标尚未实现,但目前的进展让已足够令人人震惊。本文介绍了最新的一些进展,包括伯克利让算法自我优化、MIT自动生成神经网络架构,以及在这方面走...
  • 机器学习实践应用

    万次阅读 多人点赞 2018-04-12 10:04:41
    机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为。机器学习是人工智能的核心,是使计算机具有 智能的根本途径。 本书通过对...
  • 推荐几个机器学习数据挖掘领域相关的中国大牛: 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和...
  • 1 引言最近半年来一直在学习数据分析、机器学习等智能化相关的知识,过程中积累了不少技术和经验,收获很多,启发很大。2 统计工具的学习最初,以数据的关联性分析为切入点,展开分析工作,希望在大量、静态的数据中...
  • 机器学习三要素包括数据、模型、算法。简单来说,这三要素之间的关系,可以用下面这幅图来表示: 总结成一句话:算法通过在数据上进行运算产生模型。 下面我们先分别来看三个要素。   数据 关于数据,其实...
  • 课程背景基于数据分析与机器学习领域,使用python作为课程的实战语言,随着大数据与人工智能领域日益火爆,数据分析和机器学习建模成了当下最热门的技术,课程旨在帮助同学们快速掌握python数据分析包以及经典机器学习...
  • 前段时间,花了很多精力在了解、学习和思考有关——大数据/数据挖掘/知识发现/人工智能等等的知识/概念。思维上很受启发,对一些曾经很模糊的概念,也有了较为清晰的认识。 另一方面,作为一个程序员,我开始认真...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 70,649
精华内容 28,259
关键字:

机器学习研发数据