2010-10-06 13:36:00 chjshan55 阅读数 10278
  • 大数据机器学习实战

    本课程从数据挖掘介绍及工具安装开始,逐步讲解数据挖掘建模及多种常用算法编程实践。通过详尽的理论讲解及细致入微的操作演示,让学员充分理解与掌握数据分析挖掘的每一个操作细节,以便快速掌握数据分析挖掘的工作技能。

    685 人正在学习 去看看 任大勇

刚刚安装在Linux下安装配置成功了Apache Mahout,决定和大家分享下,因为我花了六七个小时才完成这样一个工作,我希望你——这篇文章的阅读者能在一个小时内愉快的安装成功。我觉得分享才是王道,也希望你解决了什么问题之后能够分享给大家,谢谢!

 

首先,请到百度文库中下载这篇文章:(Mahout安装图文版)

http://wenku.baidu.com/view/dbd15bd276a20029bd642d55.html

 

按照上面的步骤一步一步的做下去。如果你在使用命令bin/mahout –help时系统并没有列出算法,那是因为其在你的配置的环境变量HADOOP_HOME和HADOOP_CONF_DIR上面运行的,如果删除这两个环境变量的话再运行这个命令式可以得到想要的结果的。

然后你需要做的是测试下你安装的怎么样,下面将告诉你怎么样使用一个聚集算法:

https://cwiki.apache.org/confluence/display/MAHOUT/Clustering+of+synthetic+control+data中,你可以看到详细的步骤,但是有些步骤我测试的时候并没有很好的运行。

下面将告诉你我成功运行的方法:

1:你到上面这个网页上,你将看到下面的部分:

Pre-Prep

Make sure you have the following covered before you work out the example.

  1. Input data set. Download it here .

在此处点击here下载数据集synthetic_control.data。将数据集synthetic_control.data放到MAHOUT_HOME目录下面,(注意:这里一定要放到此目录下,否则会异常报错)

2:启动Hadoop:$HADOOP_HOME/bin/start-all.sh

3:创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata
4:使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/mahout-examples-0.3.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

这里会运行几分钟,耐心等待。

5.:查看运行结果。依次运行下列命令:

$HADOOP_HOME/bin/hadoop fs -lsr output

$HADOOP_HOME/bin/hadoop fs -get output $MAHOUT_HOME/examples

转入output目录下,

$cd MAHOUT_HOME/examples/output

$ls   

如果看到以下结果,那么算法运行成功,你的安装也就成功了:

canopies    clusters-1  clusters-3  clusters-5  clusters-7  points
clusters-0  clusters-2  clusters-4  clusters-6  data

希望这个对大家有用。

参考文档:

https://cwiki.apache.org/confluence/display/MAHOUT/Clustering+of+synthetic+control+data

http://bbs.hadoopor.com/thread-983-1-1.html

2013-11-21 21:17:03 lizhikelizhike 阅读数 1053
  • 大数据机器学习实战

    本课程从数据挖掘介绍及工具安装开始,逐步讲解数据挖掘建模及多种常用算法编程实践。通过详尽的理论讲解及细致入微的操作演示,让学员充分理解与掌握数据分析挖掘的每一个操作细节,以便快速掌握数据分析挖掘的工作技能。

    685 人正在学习 去看看 任大勇

文章转自:荔枝壳:Mahout 的安装于配置 

Mahout 的安装

Mahout是 Hadoop 的一种高级应用。运行 Mahout 需要提前安装好 Hadoop,Linux 上 Hadoop 的安装配置可以参考文章:

1.下载二进制安装包解压安装
  到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。

hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.7.tar.gz

 

2. 配置环境变量:在/etc/profile,/home/hadoop/.bashrc中添加 MAHOUT_HOME、MAHOUT_HOME/lib、MAHOUT_HOME/bin信息


3:启动hadoop,也可以用伪分布式来测试

4:mahout –help    #检查Mahout是否安装完好,看是否列出了一些算法

5:mahout使用准备
a.下载一个文件synthetic_control.data,下载地址 http://archive.ics.uci.edu/ml/databases/synthetic_control /synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。

b.启动Hadoop:$HADOOP_HOME/bin/start-all.sh


c.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)


d.使用kmeans算法测试(需要运行几分钟左右)

hadoop@ubuntu:~/$ hadoop jar /home/hadoop/mahout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

e.查看结果

hadoop@ubuntu:~/$ hadoop fs -lsr output

如果看到以下结果那么算法运行成功,安装也就成功了。

clusteredPoints  clusters-0  clusters-1  clusters-10  clusters-2  clusters-3  clusters-4 clusters-5  clusters-6  clusters-7  clusters-8  clusters-9  data


详细参考文章:http://leezk.com/mahout-install.html

2014-06-21 18:46:46 wbj0110 阅读数 22
  • 大数据机器学习实战

    本课程从数据挖掘介绍及工具安装开始,逐步讲解数据挖掘建模及多种常用算法编程实践。通过详尽的理论讲解及细致入微的操作演示,让学员充分理解与掌握数据分析挖掘的每一个操作细节,以便快速掌握数据分析挖掘的工作技能。

    685 人正在学习 去看看 任大勇

Mahout是 Hadoop 的一种高级应用。运行 Mahout 需要提前安装好 Hadoop,Linux 上 Hadoop 的安装配置可以参考文章:

1.下载二进制安装包解压安装
  到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。

hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.7.tar.gz

 

2. 配置环境变量:在/etc/profile,/home/hadoop/.bashrc中添加 MAHOUT_HOME、MAHOUT_HOME/lib、MAHOUT_HOME/bin信息

MAHOUT_HOME=/home/hadoop/mahout-distribution-0.7 PIG_HOME=/home/hadoop/pig-0.9.2 HBASE_HOME=/home/hadoop/hbase-0.94.3 HIVE_HOME=/home/hadoop/hive-0.9.0 HADOOP_HOME=/home/hadoop/hadoop-1.1.1 JAVA_HOME=/home/hadoop/jdk1.7.0 PATH=$JAVA_HOME/bin:$PIG_HOME/bin:$MAHOUT_HOME/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/conf:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$HBASE_HOME/lib:$MAHOUT_HOME/lib:$PIG_HOME/lib:$HIVE_HOME/lib:$JAVA_HOME/lib/tools.jar export MAHOUT_HOME export PIG_HOME export HBASE_HOME export HADOOP_HOME export JAVA_HOME export HIVE_HOME export PATH export CLASSPATH

3:启动hadoop,也可以用伪分布式来测试

4:mahout –help    #检查Mahout是否安装完好,看是否列出了一些算法

5:mahout使用准备
a.下载一个文件synthetic_control.data,下载地址 http://archive.ics.uci.edu/ml /databases/synthetic_control /synthetic_control.data,并把这个文件放 在$MAHOUT_HOME目录下。

b.启动Hadoop:$HADOOP_HOME/bin/start-all.sh

c.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)

hadoop@ubuntu:~/$ hadoop fs -mkdir testdata #
hadoop@ubuntu:~/$ hadoop fs -put /home/hadoop/mahout-distribution-0.7/synthetic_control.data testdata

d.使用kmeans算法测试(需要运行几分钟左右)

hadoop@ubuntu:~/$ hadoop jar /home/hadoop/mahout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

e.查看结果

hadoop@ubuntu:~/$ hadoop fs -lsr output

如果看到以下结果那么算法运行成功,安装也就成功了。

clusteredPoints  clusters-0  clusters-1  clusters-10  clusters-2  clusters-3  clusters-4 cluste

http://www.oschina.net/question/1262919_134278

2013-10-13 23:49:00 bingdongguke1 阅读数 27
  • 大数据机器学习实战

    本课程从数据挖掘介绍及工具安装开始,逐步讲解数据挖掘建模及多种常用算法编程实践。通过详尽的理论讲解及细致入微的操作演示,让学员充分理解与掌握数据分析挖掘的每一个操作细节,以便快速掌握数据分析挖掘的工作技能。

    685 人正在学习 去看看 任大勇

Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。
1:下载二进制解压安装。
到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。

hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.7.tar.gz 


2:配置环境变量:在/etc/profile,/home/hadoop/.bashrc中添加如下红色信息
#set java environment
MAHOUT_HOME=/home/hadoop/mahout-distribution-0.7
PIG_HOME=/home/hadoop/pig-0.9.2
HBASE_HOME=/home/hadoop/hbase-0.94.3
HIVE_HOME=/home/hadoop/hive-0.9.0
HADOOP_HOME=/home/hadoop/hadoop-1.1.1
JAVA_HOME=/home/hadoop/jdk1.7.0
PATH=$JAVA_HOME/bin:$PIG_HOME/bin:$MAHOUT_HOME/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/conf:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$HBASE_HOME/lib:$MAHOUT_HOME/lib:$PIG_HOME/lib:$HIVE_HOME/lib:$JAVA_HOME/lib/tools.jar
export MAHOUT_HOME
export PIG_HOME
export HBASE_HOME
export HADOOP_HOME
export JAVA_HOME
export HIVE_HOME
export PATH
export CLASSPATH

3:启动hadoop,也可以用伪分布式来测试

4:mahout --help #检查Mahout是否安装完好,看是否列出了一些算法

5:mahout使用准备
a.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。

b.启动Hadoop:$HADOOP_HOME/bin/start-all.sh

c.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)

hadoop@ubuntu:~/$ hadoop fs -mkdir testdata #
hadoop@ubuntu:~/$ hadoop fs -put /home/hadoop/mahout-distribution-0.7/synthetic_control.data testdata


d.使用kmeans算法(这会运行几分钟左右)

hadoop@ubuntu:~/$ hadoop jar /home/hadoop/mahout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


e.查看结果

hadoop@ubuntu:~/$ hadoop fs -lsr output

如果看到以下结果那么算法运行成功,你的安装也就成功了。
clusteredPoints clusters-0 clusters-1 clusters-10 clusters-2 clusters-3 clusters-4 clusters-5 clusters-6 clusters-7 clusters-8 clusters-9 data

2018-01-17 11:05:17 qq_15618773 阅读数 645
  • 大数据机器学习实战

    本课程从数据挖掘介绍及工具安装开始,逐步讲解数据挖掘建模及多种常用算法编程实践。通过详尽的理论讲解及细致入微的操作演示,让学员充分理解与掌握数据分析挖掘的每一个操作细节,以便快速掌握数据分析挖掘的工作技能。

    685 人正在学习 去看看 任大勇

在网上找了很多关于IDEA上利用maven配置mahout开发环境的,但都是使用pom.xml进行配置,其实不需要这么麻烦,如果在linux上已经安装配置好了本地的mahout,直接导入jar包即可。

前置条件:
1. 安装好JDK+IDEA集成开发环境
2. 安装配置maven
3. 安装配置mahout
4. 安装Hadoop伪分布式

开发mahout程序:

  1. 使用IDEA新建maven标准Java程序
  2. 进入File - Project Structure-Project Settings-Libraries,点击加号-Java
  3. 选中自己安装的mahout文件夹,全部导入即可
  4. 导入后如图
  5. 这里写图片描述这里写图片描述这里写图片描述
    然后就可以在java代码中使用mahout类库中的类了。
没有更多推荐了,返回首页