java 机器学习软件包_java 机器学习包 - CSDN
  • 25个JAVA机器学习工具包

    本列表总结了25个Java机器学习工具&库:

    1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。

    2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习算法(分类、回归、聚类、异常检测、概念漂移检测和推荐系统)和评估工具。关联了WEKA项目,MOA也是用Java编写的,其扩展性更强。

    3.MEKA项目提供了一个面向多标签学习和评价方法的开源实现。在多标签分类中,我们要预测每个输入实例的多个输出变量。这与“普通”情况下只涉及一个单一目标变量的情形不同。此外,MEKA基于WEKA的机器学习工具包。

    4. Advanced Data mining And Machine learning System(ADAMS)是一种新型的柔性工作流引擎,旨在迅速建立并保持真实世界的复杂知识流,它是基于GPLv3发行的。

    5. Environment for Developing KDD-Applications Supported by Index-Structure(ELKI)是一款基于Java的开源(AGPLv3)数据挖掘软件。ELKI主要集中于算法研究,重点研究聚类分析中的无监督方法和异常检测。

    6. Mallet是一个基于Java的面向文本文件的机器学习工具包。Mallet支持分类算法,如最大熵、朴素贝叶斯和决策树分类。

    7. Encog是一个先进的机器学习框架,集成了支持向量机(SVM)、人工神经网络、遗传算法、贝叶斯网络、隐马尔可夫模型(HMM)、遗传编程和遗传算法。

    8. Datumbox机器学习框架是一个用Java编写的开源框架,允许快速地开发机器学习和统计应用。该框架的核心重点包括大量的机器学习算法以及统计测试,能够处理中等规模的数据集。

    9. Deeplearning4j是使用Java和Scala编写的第一个商业级的、开源的、分布式深入学习库。其设计的目的是用于商业环境中,而不是作为一个研究工具。

    10. Mahout是一个内置算法的机器学习框架。Mahout-Samsara帮助人们创建他们自己的数学,并提供了一些现成的算法实现。

    11.Rapid Miner是德国多特蒙特技术大学开发的。它为开发者开发应用程序提供了一个GUI(图形用户界面)和Java API。它还提供了一些机器学习算法,用来做数据处理、可视化以及建模。

    12. Apache SAMOA是一个机器学习(ML)框架,内嵌面向分布式流ML算法的编程抽象,并且允许在没有直接处理底层分布式流处理引擎(DSPEe,如Apache Storm、Apache S4和Apache samza)复杂性的情况下,开发新的ML算法。用户可以开发分布式流ML算法,而且可以在多个DSPEs上执行。

    13. Neuroph通过提供支持创建、训练和保存神经网络的Java网络库和GUI工具,简化了神经网络开发。

    14. Oryx 2是一个建立在Apache Spark和Apache Kafka的Lambda架构实现,但随着实时大规模机器学习而逐渐开始专业化。这是一个用于构建应用程序的框架,但也包括打包,以及面向协同过滤、分类、回归和聚类的端到端的应用程序。

    15. Stanford Classifier是一个机器学习工具,它可以将数据项归置到一个类别。一个概率分类器,比如这个,它可以对一个数据项给出类分配的概率分布。该软件是最大熵分类器的一个Java实现。

    16.io是一个Retina API,有着快速精确的类似大脑的自然语言处理算法。

    17.JSAT是一个快速入门的机器学习库。该库是我在业余时间开发的,基于GPL3发行的。库中的一部分内容可自主学习,例如所有的代码都是独立的。JSAT没有外部依赖,而且是纯Java编写的。

    18. N-Dimensional Arrays for Java(ND4J)是一个用于JVM的科学计算库。它们是用来在生产环境中使用的,这表明例程的设计是以最小的内存需求来运行的。

    19. Java Machine Learning Library(Java机器学习库)是一系列机器学习算法的相关实现。这些算法,无论是源代码还是文档,都编写的很出色。其主要语言是Java。

    20. Java-ML是一个使用Java编写的一系列机器学习算法的Java API。它只提供了一个标准的算法接口。

    21. MLlib (Spark)是Apache Spark的可扩展机器学习库。虽然是Java,但该库与平台还支持Java,Scala和Python绑定。此库是最新的,并且算法很多。

    22. H2O是用于智能应用的机器学习API。它在大数据上对统计学、机器学习和数学进行了规模化。H2O可扩展,开发者可以在核心部分使用简单的数学知识。

    23. WalnutiQ是人脑部分面向对象模型,有着理论常用的学习算法(正在向简单强烈的情感人工智能模型方向研究)。

    24. RankLib是一个排名学习算法库。目前已经实现八种流行的算法。

    25. htm.java(基于Java的Hierarchical Temporal Memory算法实现)是一个面向智能计算的Numenta平台的Java接口。源码

    展开全文
  • 本文是机器学习系列的一部分。 我们的第四位专家是新西兰怀卡托大学(计算机科学)副教授Eibe Frank博士。 在本文中,他讨论了Weka并揭示了它的内幕。 什么是维卡? Weka背后的想法是为Java中的机器学习算法集合...

    weka机器学习实战

    本文是机器学习系列的一部分。 我们的第四位专家是新西兰怀卡托大学计算机科学副教授Eibe Frank博士。 在本文中,他讨论了Weka并揭示了它的内幕。

    什么是维卡?

    Weka背后的想法是为Java中的机器学习算法集合提供统一的接口。 这包括图形用户界面,命令行界面和API。

    Weka是用Java实现的,但是有一些用于Weka的软件包,它们允许使用Python编写的代码,R也可以从Weka中使用。 也可以使用Groovy或Jython编写Weka脚本。 Weka的开发始于1997年,那时Java还很年轻(而且很慢)。 最新版本的Weka 3.8需要Java 7或更高版本。 Weka的优势在于分类,因此需要对数据进行自动分类的应用程序可以从中受益,但它还支持聚类,关联规则挖掘,时间序列预测,特征选择和异常检测。

    如何在Java代码中使用Weka

    是一个如何在Java代码中使用Weka的示例。 可以在此处找到另一个示例-它在存储在ARFF文件中的数据集上训练朴素的贝叶斯分类器。 ARFF是Weka的默认数据格式,但也支持许多其他数据格式,包括CSV文件。 也可以从数据库中提取数据。

    一个更有趣的例子是这个 它通过使用所谓的词袋模型表示用户指定的文本来应用文本分类。 词袋表示法是通过应用Weka的StringToWordVector过滤器获得的。 然后,在词袋数据上运行决策树学习器J48。

    Weka的计划

    Weka 3.8具有软件包管理系统,我们希望Weka现在将主要通过提供新软件包,提供新的学习算法和可视化工具来扩展。 我们目前不打算对基本系统进行任何重大更改。

    机器学习:入门资源

    IH Witten等人的“数据挖掘:实用的机器学习工具和技术”是对实用机器学习的简要介绍。 该书的第四版将于今年晚些时候发行,其中包含有关深度学习和概率建模的材料。 免责声明:我是其中的合著者之一。

    机器会统治世界吗?

    据我所知,没有人甚至可以解决意识的奥秘。 只要机器仅按照所告知的去做,无论这是否基于使用机器学习来优化性能,只要我们能够防止统治精英滥用机器,我们就应该是安全的。

    我们要求Eibe Frank完成以下句子:

    在50年的时间里,机器学习将无处不在。
    如果机器变得比人类更智能,则后者将需要寻找新的自我占据方式,因为许多工作将消失。
    与人类相比,机器永远不会 ……人类是生物机器,因此我无法完成这句话。
    没有机器学习的帮助,人类将永远无法 (能够)利用当今收集的大量数据中的所有有用信息。


    翻译自: https://jaxenter.com/weka-collection-of-ml-algorithms-java-128964.html

    weka机器学习实战

    展开全文
  • 人工智能机器学习Java也可以 用于Java的5大机器学习...Weka是我们最好的Java机器学习库的首选。Weka 3是一个完全基于Java开发,最适合用于机器学习算法。Weka主要用于数据挖掘,数据分析和预测建模。它完全免费,...

    人工智能机器学习Java也可以

     

    用于Java的5大机器学习库盘点

    机器学习是目前最热门的技能之一,许多公司都在争先恐后的寻找能够编写ML和深度学习代码的程序员,本文将为大家盘点5个针对Java的首选ML库

    #WEKA

    Weka是我们最好的Java机器学习库的首选。Weka 3是一个完全基于Java开发,最适合用于机器学习算法。Weka主要用于数据挖掘,数据分析和预测建模。它完全免费,便携,易于使用,以及在新的交互式界面上的可视化。

    “Weka的优势在于分类,但它也支持聚类,关联规则挖掘,时间序列预测,特征选择和异常检测,”新西兰怀卡托大学计算机科学教授Eibe Frank说。

    Weka的机器学习算法集合可以直接应用于数据集或从你自己的Java代码调用。它还支持多种标准数据挖掘任务,包括数据预处理,分类,聚类,可视化,回归和特征选择。

    (项目地址:http://www.cs.waikato.ac.nz/ml/weka/index.html

    #MOA

    MOA是一种开源软件,专门用于实时数据流的机器学习和数据挖掘。它采用Java开发,可以轻松地与Weka一起使用,同时支持扩展。MOA的机器学习算法和评估工具集合可用于回归,分类,异常值检测,聚类,推荐系统和概念漂移检测。MOA可用于大型演进数据集和数据流以及物联网(IoT)设备生成的数据。

    MOA专门用于实时数据流的机器学习。它旨在实现时间和内存效率的处理。MOA通过提供若干有用的功能(包括用于新算法,流和评估方法的易于扩展的框架),可重复实验的数据流的可存储设置;以及对现有算法和措施进行比较,为在数据挖掘领域中运行实验提供了基准框架。

    (项目地址:http://moa.cms.waikato.ac.nz/

    #Deeplearning4j

    去年,Deeplearning4j是JAXenter社区Java生态系统中最具创新性的贡献者之一,Deeplearning4j是一个商业级的开源分布式深度学习库,用Java和Scala编写,旨在将深度神经网络和深度学习结合在一起,用于商业环境。

     

    Deeplearning4j旨在作为Java,Scala和Clojure程序员的DIY工具,Hadoop是一个庞大的分布式数据存储系统,具有巨大的处理能力,能够处理强大的并发任务或作业。深度神经网络和深度强化学习能够进行模式识别和面向目标的机器学习。所有这一切都意味着Deeplearning4j对于语音识别,声音和文本中的模式和情感非常有用。此外,它还可用于检测金融交易等时间序列数据中的异常。

    (项目地址:https://deeplearning4j.org/

    #MALLET

    MALLET主要由Andrew McCallum和来自UMASS和UPenn的学生开发,是专门用于机器学习方面的软件包,。这个基于Java的包支持统计自然语言处理,文本聚类,文本分类,信息提取等。

    MALLET的专长包括用于文档分类,例如用于转换文本的高效例程。它支持各种算法(包括NaïveBayes,Decision Trees和Maximum Entropy)和用于评估classfier性能的代码。此外,MALLET还包括用于序列标记和主题建模的工具。

    (项目地址:http://mallet.cs.umass.edu/

    #ELKI

    ELKI是一个用于Java的开源数据挖掘平台。ELKI的重点是算法研究,强调聚类分析,数据库索引和异常值检测中的无监督方法。ELKI允许通过分离两者来独立评估数据挖掘算法和数据管理任务。此功能在Weta或Rapidminer等其他数据挖掘框架中是独一无二的。ELKI还允许任意数据类型,文件格式或距离或相似性度量。

    ELKI专为研究人员和学生设计,提供大量高度可配置的算法参数。这样可以对算法进行公平,简便的评估和基准测试。这意味着ELKI对数据科学特别有用。

    小编是一个有着5年工作经验的java'开发工程师,关于java'编程,自己有做材料的整合,一个完整的java编程学习路线,学习材料和工具,能够进我的群收取,免费送给**830783865**大家,希望你也能凭着自己的努力,成为下一个优秀的程序员。

    展开全文
  • [Machine Learning] 国外程序员整理的机器学习资源大全 阅读目录 本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。 1. C++ 1.1 计算机视觉 CCV —基于C语言/提供缓存/核心...

    [Machine Learning] 国外程序员整理的机器学习资源大全

      本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。

    1. C++

    1.1 计算机视觉

    • CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库
    • OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。

    1.2 机器学习

    2. Closure

    3.Go

    3.1 自然语言处理

    • go-porterstemmer—一个Porter词干提取算法的原生Go语言净室实现
    • paicehusk—Paice/Husk词干提取算法的Go语言实现
    • snowball—Go语言版的Snowball词干提取器

    3.2 机器学习

    • Go Learn— Go语言机器学习库
    • go-pr —Go语言机器学习包.
    • bayesian—Go语言朴素贝叶斯分类库。
    • go-galib—Go语言遗传算法库。

    3.3 数据分析/数据可视化

    • go-graph—Go语言图形库。
    • SVGo—Go语言的SVG生成库。

    4. Java

    4.1 自然语言处理

    • CoreNLP—斯坦福大学的CoreNLP提供一系列的自然语言处理工具,输入原始英语文本,可以给出单词的基本形式(下面Stanford开头的几个工具都包含其中)。
    • Stanford Parser—一个自然语言解析器。
    • Stanford POS Tagger —一个词性分类器。
    • Stanford Name Entity Recognizer—Java实现的名称识别器
    • Stanford Word Segmenter—分词器,很多NLP工作中都要用到的标准预处理步骤。
    • Tregex, Tsurgeon and Semgrex —用来在树状数据结构中进行模式匹配,基于树关系以及节点匹配的正则表达式(名字是“tree regular expressions”的缩写)。
    • Stanford Phrasal:最新的基于统计短语的机器翻译系统,java编写
    • Stanford Tokens Regex—用以定义文本模式的框架。
    • Stanford Temporal Tagger—SUTime是一个识别并标准化时间表达式的库。
    • Stanford SPIED—在种子集上使用模式,以迭代方式从无标签文本中学习字符实体
    • Stanford Topic Modeling Toolbox —为社会科学家及其他希望分析数据集的人员提供的主题建模工具。
    • Twitter Text Java—Java实现的推特文本处理库
    • MALLET -—基于Java的统计自然语言处理、文档分类、聚类、主题建模、信息提取以及其他机器学习文本应用包。
    • OpenNLP—处理自然语言文本的机器学习工具包。
    • LingPipe —使用计算机语言学处理文本的工具包。

    4.2 机器学习

    • MLlib in Apache Spark—Spark中的分布式机器学习程序库
    • Mahout —分布式的机器学习库
    • Stanford Classifier —斯坦福大学的分类器
    • Weka—Weka是数据挖掘方面的机器学习算法集。
    • ORYX—提供一个简单的大规模实时机器学习/预测分析基础架构。

    4.3 数据分析/数据可视化

    • Hadoop—大数据分析平台
    • Spark—快速通用的大规模数据处理引擎。
    • Impala —为Hadoop实现实时查询

    5. Javascript

    5.1 自然语言处理

    • Twitter-text-js —JavaScript实现的推特文本处理库
    • NLP.js —javascript及coffeescript编写的NLP工具
    • natural—Node下的通用NLP工具
    • Knwl.js—JS编写的自然语言处理器

    5.2 数据分析/数据可视化

    5.3 机器学习

    • Convnet.js—训练深度学习模型的JavaScript库。
    • Clustering.js—用JavaScript实现的聚类算法,供Node.js及浏览器使用。
    • Decision Trees—Node.js实现的决策树,使用ID3算法。
    • Node-fann —Node.js下的快速人工神经网络库。
    • Kmeans.js—k-means算法的简单Javascript实现,供Node.js及浏览器使用。
    • LDA.js —供Node.js用的LDA主题建模工具。
    • Learning.js—逻辑回归/c4.5决策树的JavaScript实现
    • Machine Learning—Node.js的机器学习库。
    • Node-SVM—Node.js的支持向量机
    • Brain —JavaScript实现的神经网络
    • Bayesian-Bandit —贝叶斯强盗算法的实现,供Node.js及浏览器使用。

    6. Julia

    6.1 机器学习

    • PGM—Julia实现的概率图模型框架。
    • DA—Julia实现的正则化判别分析包。
    • Regression—回归分析算法包(如线性回归和逻辑回归)。
    • Local Regression —局部回归,非常平滑!
    • Naive Bayes —朴素贝叶斯的简单Julia实现
    • Mixed Models —(统计)混合效应模型的Julia包
    • Simple MCMC —Julia实现的基本mcmc采样器
    • Distance—Julia实现的距离评估模块
    • Decision Tree —决策树分类器及回归分析器
    • Neural —Julia实现的神经网络
    • MCMC —Julia下的MCMC工具
    • GLM —Julia写的广义线性模型包
    • Online Learning
    • GLMNet —GMLNet的Julia包装版,适合套索/弹性网模型。
    • Clustering—数据聚类的基本函数:k-means, dp-means等。
    • SVM—Julia下的支持向量机。
    • Kernal Density—Julia下的核密度估计器
    • Dimensionality Reduction—降维算法
    • NMF —Julia下的非负矩阵分解包
    • ANN—Julia实现的神经网络

    6.2 自然语言处理

    6.3 数据分析/数据可视化

    6.4 杂项/演示文稿

    7. Lua

    7.1 机器学习

    • Torch7
      • cephes —Cephes数学函数库,包装成Torch可用形式。提供并包装了超过180个特殊的数学函数,由Stephen L. Moshier开发,是SciPy的核心,应用于很多场合。
      • graph —供Torch使用的图形包。
      • randomkit—从Numpy提取的随机数生成包,包装成Torch可用形式。
      • signal —Torch-7可用的信号处理工具包,可进行FFT, DCT, Hilbert, cepstrums, stft等变换。
      • nn —Torch可用的神经网络包。
      • nngraph —为nn库提供图形计算能力。
      • nnx—一个不稳定实验性的包,扩展Torch内置的nn库。
      • optim—Torch可用的优化算法库,包括 SGD, Adagrad, 共轭梯度算法, LBFGS, RProp等算法。
      • unsup—Torch下的非监督学习包。提供的模块与nn(LinearPsd, ConvPsd, AutoEncoder, …)及独立算法 (k-means, PCA)等兼容。
      • manifold—操作流形的包。
      • svm—Torch的支持向量机库。
      • lbfgs—将liblbfgs包装为FFI接口。
      • vowpalwabbit —老版的vowpalwabbit对torch的接口。
      • OpenGM—OpenGM是C++编写的图形建模及推断库,该binding可以用Lua以简单的方式描述图形,然后用OpenGM优化。
      • sphagetti —MichaelMathieu为torch7编写的稀疏线性模块。
      • LuaSHKit —将局部敏感哈希库SHKit包装成lua可用形式。
      • kernel smoothing —KNN、核权平均以及局部线性回归平滑器
      • cutorch—torch的CUDA后端实现
      • cunn —torch的CUDA神经网络实现。
      • imgraph—torch的图像/图形库,提供从图像创建图形、分割、建立树、又转化回图像的例程
      • videograph—torch的视频/图形库,提供从视频创建图形、分割、建立树、又转化回视频的例程
      • saliency —积分图像的代码和工具,用来从快速积分直方图中寻找兴趣点。
      • stitch —使用hugin拼合图像并将其生成视频序列。
      • sfm—运动场景束调整/结构包
      • fex —torch的特征提取包,提供SIFT和dSIFT模块。
      • OverFeat—当前最高水准的通用密度特征提取器。
    • Numeric Lua
    • Lunatic Python
    • SciLua
    • Lua – Numerical Algorithms
    • Lunum

    7.2 演示及脚本

    • Core torch7 demos repository.核心torch7演示程序库
      • 线性回归、逻辑回归
      • 人脸检测(训练和检测是独立的演示)
      • 基于mst的断词器
      • train-a-digit-classifier
      • train-autoencoder
      • optical flow demo
      • train-on-housenumbers
      • train-on-cifar
      • tracking with deep nets
      • kinect demo
      • 滤波可视化
      • saliency-networks
    • Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)
    • Music Tagging—torch7下的音乐标签脚本
    • torch-datasets 读取几个流行的数据集的脚本,包括:
      • BSR 500
      • CIFAR-10
      • COIL
      • Street View House Numbers
      • MNIST
      • NORB
    • Atari2600 —在Arcade Learning Environment模拟器中用静态帧生成数据集的脚本。

    8. Matlab

    8.1 计算机视觉

    • Contourlets —实现轮廓波变换及其使用函数的MATLAB源代码
    • Shearlets—剪切波变换的MATLAB源码
    • Curvelets—Curvelet变换的MATLAB源码(Curvelet变换是对小波变换向更高维的推广,用来在不同尺度角度表示图像。)
    • Bandlets—Bandlets变换的MATLAB源码

    8.2 自然语言处理

    • NLP —一个Matlab的NLP库

    8.3 机器学习

    8.4 数据分析/数据可视化

    • matlab_gbl—处理图像的Matlab包
    • gamic—图像算法纯Matlab高效实现,对MatlabBGL的mex函数是个补充。

    9. .NET

    9.1 计算机视觉

    • OpenCVDotNet —包装器,使.NET程序能使用OpenCV代码
    • Emgu CV—跨平台的包装器,能在Windows, Linus, Mac OS X, iOS, 和Android上编译。

    9.2 自然语言处理

    • Stanford.NLP for .NET —斯坦福大学NLP包在.NET上的完全移植,还可作为NuGet包进行预编译。

    9.3 通用机器学习

    • Accord.MachineLearning —支持向量机、决策树、朴素贝叶斯模型、K-means、高斯混合模型和机器学习应用的通用算法,例如:随机抽样一致性算法、交叉验证、网格搜索。这个包是Accord.NET框架的一部分。
    • Vulpes—F#语言实现的Deep belief和深度学习包,它在Alea.cuBase下利用CUDA GPU来执行。
    • Encog —先进的神经网络和机器学习框架,包括用来创建多种网络的类,也支持神经网络需要的数据规则化及处理的类。它的训练采用多线程弹性传播。它也能使用GPU加快处理时间。提供了图形化界面来帮助建模和训练神经网络。
    • Neural Network Designer —这是一个数据库管理系统和神经网络设计器。设计器用WPF开发,也是一个UI,你可以设计你的神经网络、查询网络、创建并配置聊天机器人,它能问问题,并从你的反馈中学习。这些机器人甚至可以从网络搜集信息用来输出,或是用来学习。

    9.4 数据分析/数据可视化

    • numl —numl这个机器学习库,目标就是简化预测和聚类的标准建模技术。
    • Math.NET Numerics—Math.NET项目的数值计算基础,着眼提供科学、工程以及日常数值计算的方法和算法。支持 Windows, Linux 和 Mac上的 .Net 4.0, .Net 3.5 和 Mono ,Silverlight 5, WindowsPhone/SL 8, WindowsPhone 8.1 以及装有 PCL Portable Profiles 47 及 344的Windows 8, 装有 Xamarin的Android/iOS 。
    • Sho —Sho是数据分析和科学计算的交互式环境,可以让你将脚本(IronPython语言)和编译的代码(.NET)无缝连接,以快速灵活的建立原型。这个环境包括强大高效的库,如线性代数、数据可视化,可供任何.NET语言使用,还为快速开发提供了功能丰富的交互式shell。

    10. Python

    10.1 计算机视觉

    • SimpleCV—开源的计算机视觉框架,可以访问如OpenCV等高性能计算机视觉库。使用Python编写,可以在Mac、Windows以及Ubuntu上运行。

    10.2 自然语言处理

    • NLTK —一个领先的平台,用来编写处理人类语言数据的Python程序
    • Pattern—Python可用的web挖掘模块,包括自然语言处理、机器学习等工具。
    • TextBlob—为普通自然语言处理任务提供一致的API,以NLTK和Pattern为基础,并和两者都能很好兼容。
    • jieba—中文断词工具。
    • SnowNLP —中文文本处理库。
    • loso—另一个中文断词库。
    • genius —基于条件随机域的中文断词库。
    • nut —自然语言理解工具包。

    10.3 机器学习

    • Bayesian Methods for Hackers —Python语言概率规划的电子书
    • MLlib in Apache Spark—Spark下的分布式机器学习库。
    • scikit-learn—基于SciPy的机器学习模块
    • graphlab-create —包含多种机器学习模块的库(回归,聚类,推荐系统,图分析等),基于可以磁盘存储的DataFrame。
    • BigML—连接外部服务器的库。
    • pattern—Python的web挖掘模块
    • NuPIC—Numenta公司的智能计算平台。
    • Pylearn2—基于Theano的机器学习库。
    • hebel —Python编写的使用GPU加速的深度学习库。
    • gensim—主题建模工具。
    • PyBrain—另一个机器学习库。
    • Crab —可扩展的、快速推荐引擎。
    • python-recsys —Python实现的推荐系统。
    • thinking bayes—关于贝叶斯分析的书籍
    • Restricted Boltzmann Machines —Python实现的受限波尔兹曼机。[深度学习]。
    • Bolt —在线学习工具箱。
    • CoverTree —cover tree的Python实现,scipy.spatial.kdtree便捷的替代。
    • nilearn—Python实现的神经影像学机器学习库。
    • Shogun—机器学习工具箱。
    • Pyevolve —遗传算法框架。
    • Caffe —考虑了代码清洁、可读性及速度的深度学习框架
    • breze—深度及递归神经网络的程序库,基于Theano。

    10.4 数据分析/数据可视化

    • SciPy —基于Python的数学、科学、工程开源软件生态系统。
    • NumPy—Python科学计算基础包。
    • Numba —Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用
    • NetworkX —为复杂网络使用的高效软件。
    • Pandas—这个库提供了高性能、易用的数据结构及数据分析工具。
    • Open Mining—Python中的商业智能工具(Pandas web接口)。
    • PyMC —MCMC采样工具包。
    • zipline—Python的算法交易库。
    • PyDy—全名Python Dynamics,协助基于NumPy, SciPy, IPython以及 matplotlib的动态建模工作流。
    • SymPy —符号数学Python库。
    • statsmodels—Python的统计建模及计量经济学库。
    • astropy —Python天文学程序库,社区协作编写
    • matplotlib —Python的2D绘图库。
    • bokeh—Python的交互式Web绘图库。
    • plotly —Python and matplotlib的协作web绘图库。
    • vincent—将Python数据结构转换为Vega可视化语法。
    • d3py—Python的绘图库,基于D3.js。
    • ggplot —和R语言里的ggplot2提供同样的API。
    • Kartograph.py—Python中渲染SVG图的库,效果漂亮。
    • pygal—Python下的SVG图表生成器。
    • pycascading

    10.5 杂项脚本/iPython笔记/代码库

    10.6 Kaggle竞赛源代码

    11. Ruby

    11.1 自然语言处理

    • Treat—文本检索与注释工具包,Ruby上我见过的最全面的工具包。
    • Ruby Linguistics—这个框架可以用任何语言为Ruby对象构建语言学工具。包括一个语言无关的通用前端,一个将语言代码映射到语言名的模块,和一个含有很有英文语言工具的模块。
    • Stemmer—使得Ruby可用 libstemmer_c中的接口。
    • Ruby Wordnet —WordNet的Ruby接口库。
    • Raspel —aspell绑定到Ruby的接口
    • UEA Stemmer—UEALite Stemmer的Ruby移植版,供搜索和检索用的保守的词干分析器
    • Twitter-text-rb—该程序库可以将推特中的用户名、列表和话题标签自动连接并提取出来。

    11.2 机器学习

    11.3 数据分析/数据可视化

    12. R

    12.1 通用机器学习

    12.2 数据分析/数据可视化

    13. Scala

    13.1 自然语言处理

    • ScalaNLP—机器学习和数值计算库的套装
    • Breeze —Scala用的数值处理库
    • Chalk—自然语言处理库。
    • FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。

    13.2 数据分析/数据可视化

    • MLlib in Apache Spark—Spark下的分布式机器学习库
    • Scalding —CAscading的Scala接口
    • Summing Bird—用Scalding 和 Storm进行Streaming MapReduce
    • Algebird —Scala的抽象代数工具
    • xerial —Scala的数据管理工具
    • simmer —化简你的数据,进行代数聚合的unix过滤器
    • PredictionIO —供软件开发者和数据工程师用的机器学习服务器。
    • BIDMat—支持大规模探索性数据分析的CPU和GPU加速矩阵库。

    13.3 机器学习

    • Conjecture—Scalding下可扩展的机器学习框架

  • brushfire—scalding下的决策树工具

  • ganitha —基于scalding的机器学习程序库

  • adam—使用Apache Avro, Apache Spark 和 Parquet的基因组处理引擎,有专用的文件格式,Apache 2软件许可。

  • bioscala —Scala语言可用的生物信息学程序库

  • BIDMach—机器学习CPU和GPU加速库。

  •  

    作者:Poll的笔记
    博客出处:http://www.cnblogs.com/maybe2030/
    本文版权归作者和博客园所有,欢迎转载,转载请标明出处。

    展开全文
  • 漫长的AI冬天结束了。 机器学习已不是一时冲锋,而是目前技术... 毫不奇怪,Weka是我们最佳Java机器学习库的第一选择。 Weka 3是完全基于Java的工作台,最适合用于机器学习算法。 Weka主要用于数据挖掘,数据分析和...
  • 5种方式将机器学习带到Java、Python以及Go等编程语言 机器学习目前炙手可热,本文搜集了Java、Python以及go等编程语言中常见且实用的开源机器学习工具,对机器学习感兴趣的开发者或者准备和机器学习打交道的数据...
  • 本文介绍了用于Java开发机器学习和深度学习的Vector API 英语原文链接 https://software.intel.com/en-us/articles/vector-api-developer-program-for-java Vector API教程介绍什么是SIMD?什么是Vector API?Vector...
  • 相信看到这篇文章的朋友,几乎都想成为机器学习科学家。事实上,绝大多数的付费课程,基本上都有完全免费的课程放在另一个地方。我们只是把这些信息整理好,告诉你在哪儿可以找到他们,以及通过什么样的顺序进行学习...
  • 王益博士,称得上机器学习领域的资深从业者,本人之前有幸拜读过王益博士的一些paper和slides,对其从事的“分布式机器学习”方向尤感兴趣。王益博士之前写过一篇《分布式机器学习的故事》,总结了自己从业多年的...
  • Mahout实现k-means算法

    2015-04-05 10:11:43
     Mahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包,用于处理大数据机器学习的问题,当你正在...
  • 第二天,博主关于环境变量,程序、软件包结构含义,常用Java工具命令的学习和自我理解。
  • 2018年将会是人工智能和机器学习快速发展的一年,有专家表示:相较之下Python比Java更加接地气,也自然而然地成为机器学习的首选语言在数据科学方面,Python的语法与数学语法最为接近,因此是数学家或经济学家等专业...
  • 机器学习算法:常见的机器学习算法,例如分类,回归,聚类和协同过滤。 特征化:特征提取,变换,降维和选择。 管道:用于构建,评估和调整ML管道的工具。 持久性:保存和加载算法、模型和管道。 实用程序:线性代数...
  • 1. 对于本文中数据集,训练集,特征点,空间等基础概念,请参考周志华老师的《机器学习》第一章的内容 2. Python的语法并不难理解,有编码基础的可以直接看懂,如果不懂,请参考廖雪峰老师的个人博客中Python的教学...
  • 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说,它提供了以下工具: ML算法:常见的学习算法,如分类,回归,聚类和协同过滤 特征化:特征...
  • 利用以下最好的开源AI技术,可将你的机器学习项目提升到一个新的水平。 1.TensorFlow TensorFlow最初于2015年发布,是一款开源机器学习框架,易于在各种平台上使用和部署。它是机器学习中维护得最好和广泛...
  • 机器学习 缩放scale “ 1997年,IBM要求James Barry了解该公司艰难的Web服务器业务。 Barry发现IBM在公司的不同部门中有很多难题,但没有针对Web服务的集成产品。 他的想法是将一个协调的程序包组合在一起,成为...
  • 机器学习与Docker容器

    2018-02-01 14:12:39
    云栖君导读:互操作就是在Kotlin... 现在,机器学习(ML)和人工智能(AI)是IT行业中的热门话题,同样,容器也成为其中的热门话题之一。我们将机器学习和容器都引入到图像中,用实验验证是否会相互协同出色的完成分类
  • 这本书主要的作用是引起了我对机器学习和自然语言处理的兴趣。里面以极为通俗的语言讲述了数学在这两个领域的应用。 《Programming Collective Intelligence》(中译本《集体智慧编程》);作者Toby Segaran也是...
  • 关于使用机器学习的开发人员的大多数讨论都围绕创建基于AI的应用程序以及用于创建它们的工具: TensorFlow , PyTorch , Scikit-learn 等 。 但是,机器学习对软件开发产生了另一种影响:通过使用机器学习技术的...
1 2 3 4 5 ... 20
收藏数 8,675
精华内容 3,470
关键字:

java 机器学习软件包