• 问题: 解决方法是选择系统偏好设置->共享->远程登录

    问题一:启动HDFS报Connection refused

    在这里插入图片描述
    解决:选择系统偏好设置->共享->远程登录
    在这里插入图片描述

    问题二:IDEA读写HDFS报Connection refused

    在Mac部署本地Hadoop模式,IDEA读写HDFS时,出现:
    java.net.ConnectException: Connection refused

    解决:将$HADOOP_HOME/etc/hadoop/core-site.xml里不能用localhost,修改,然后重启HDFS即可
    在这里插入图片描述

    问题三:连接Wifi,Mac的IP地址会自动变化

    用Mac搭建了本地Hadoop后,如果是连着WIFI或者工作地点变化的话,IP地址是会变化的,那么我们之前做的免密码登录什么的都失效了,这肯定不是我们想要的结果。

    解决:配置静态IP地址。
    在这里插入图片描述

    问题四:切换另外一个Wifi,Mac的IP地址会自动变化

    创建一个新的wifi,选择DHCP,ip还是跟原本DHCP(手动设定地址)时设置的一样。
    在这里插入图片描述
    在这里插入图片描述

    问题五:屏幕录制没有声音

    录制视频没有声音,原本没升级的时候是有声音的,但是系统升级之后就不行了。同类问题截图:


    在这里插入图片描述


    解决:
    安装插件soundflower,地址:https://github.com/mattingalls/Soundflower/releases/tag/2.0b2
    在这里插入图片描述
    安装,第一次去安全设置打开它,显示安装失败,再重装一次就可以了。

    参考文章:QuickTime + Soundflower 完美解决录屏声音


    其实并搞定,又搞了一整天,最后终于能够录制了!原本是这样子的:
    在这里插入图片描述
    可是,当你选了“聚集设备”,右边还是会出现黄色叹号,这个Mac OS新版本的问题,指没有权限,那就没办法了,我是10.14.3的版本:
    在这里插入图片描述
    解决:
    shift + command + 5,这是快捷键弹出系统内置录制工具,设置聚集设备,就可以了,好激动啊!!!
    在这里插入图片描述

    问题六:VMWare里面的win虚拟机分辨率会随窗口大小变化

    C:\Program Files\VMware\VMware Tools\VMwareResolutionSet.exe
    重命名此文件或者删掉即可。

    展开全文
  • 研究学习大数据,自然要从Hadoop开始。 Hadoop不是一个简单的软件,而是有一些列软件形成的生态,其核心思想来自Google当初发布的三篇论文,后来做了开源的实现, 谷歌的实现和Hadoop的实现大致可以做这样的对应: ...

     

    1. 大数据和Hadoop

    研究学习大数据,自然要从Hadoop开始。 Hadoop不是一个简单的软件,而是有一些列软件形成的生态,其核心思想来自Google当初发布的三篇论文,后来做了开源的实现, 谷歌的实现和Hadoop的实现大致可以做这样的对应:

    Google Map/Reduce <---> Hadoop MapReduce
    Google GFS <---> Hadoop HDFS
    Google BigTable <---> Hadoop HBase

    Hadoop生态的所有组成部分,都是跑在linux环境下的,自然我们首先需要搭建linux环境。另外Hadoop之所以能处理“大”数据,是因为其分布式的特性,可以利用分布式计算构建服务器集群,并可根据需要扩展。为了学习,我们先在本地计算机上利用虚拟机搭建linux环境,要模型集群环境,就多创建几个虚拟机就可以了。

    为了玩儿这套东西,因为要创建几个虚拟机,所以的你的电脑内存最好不小于8G,因为跑Hadoop一般一个虚拟机需要2G,随便开3台虚拟机就占不少内存了。 不过前期为了学习,我先只给每台虚拟机分配1G内存,后面不够了在调整就行了。

    2. 为什么选VirtualBox?

    提起虚拟机,自然首先想到的就是大名鼎鼎的VMware。 VMware是老牌虚拟机软件,网上教程也很多。我之所以选用VirtualBox,主要是因为license的问题。 我手头只有一台MacBook pro, 不想话太多时间在软件license上折腾,所以选择了免费的VirtualBox. VirtualBox的安装过程乏善可陈,就是常规操作,不说了。

     

    image.png
    image.png

    3. 虚拟机中安装CentOS

    前面提到,我的主力计算机是一台MacBook Pro. 之前为方面,利用Parallel Desktop虚拟了一台Windows 出来,这里不提。

    linux系统我选择了CentOS,首先从CentOS官网下载系统的ISO文件。在VirtualBox里新建一个虚拟机,类型选Linux,版本随便选一个就行了,因为里面没有看到有CentOS,不过随便选一个也没问题。 注意最好选一下文件夹,也就是虚拟机文件存放的位置,因为随着装的东西越来越多,虚拟机文件可能会越来越大。我的电脑硬盘都快撑满了,所以挂了个外接硬盘,把虚拟机文件放在了外接硬盘上,需要时插上用,虽然不方便,但也只好将就了。

     

     其他参数可以都按默认,虚拟机创建成功后,点设置,切换到存储,在光驱那里选择下载的CentOS系统的ISO文件,这样虚拟机启动后就可以进入CentOS的安装了。

     

     

    安装CentOS7 操作系统也不说了,都是图形化界面,没什么难度。

     

    4. 网络环境配置遇到的坑

    Linux安装成功后的网络设置这里需要说一下,我在这上面踩了不少坑。我希望我的网络环境是这样的。首先我们希望Linux虚拟机能够连接互联网,这样以后需要下载什么组件时能方便些。其次希望能用Host机器也就是MacBook中访问到Linux虚拟机,以便ssh登录上去。VirtualBox默认的小窗口实在很小,看着眼花,虽然也可以调大,但毕竟在宿主下操作更方便些,所以还是需要从MacBook上ssh过去。但是请注意,CentOS刚刚安装完成后是不能联网的,还需要做相关的设置才行。

     

    4.1 Linux虚拟机连接互联网

    虚拟机的网络设置默认可选用“网络地址转换NAT” ,虚拟机会创建一个NAT网络。

     

     虚拟机安装后默认没有开启网络,所以不能联网,需要启动虚拟机,登录后更改网络配置。

     

    vi /etc/sysconfig/network-scripts/ifcfg-enp0s3

     把ONBOOT修改为yes,以便让linux 启动后即启动网络。 更改后按ESC,然后 :wq 退出保存。可以不用重启,通过下面的命令重启网络服务,以便使更改生效。

    systemctl restart network

     

     

    这时候可以通过命令 ``` ip addr``` 查看,你会看到网络已经有了一个IP地址,比如我的是 10.0.2.15。如图:

     

     现在你如果 ping www.baidu.com ,应该发现已经能够联网了。

     

     

    4.2 从宿主机Macbook访问Linux虚拟机

     另外,但从主机Macbook还是不能ping通这个地址,就是说主机还不能访问虚拟机。要让主机MacBook和虚拟机linux互通,就需要让这两个机器在同一个网段里。 VirtualBox里的“管理”菜单下,打开“主机网络管理器”,创建一个,如图,可以看到创建了一个192.168.56.1的虚拟网卡。

     

     

     

     

    这时候如果你在MacBook的终端中使用ifconfig命令查看,你会发现,多出来一个vboxnet0的网卡,ip地址就是192.168.56.1

    danieldu@daniels-MacBook-Pro-857  ~  ifconfig
    lo0: flags=8049<UP,LOOPBACK,RUNNING,MULTICAST> mtu 16384
    options=1203<RXCSUM,TXCSUM,TXSTATUS,SW_TIMESTAMP>
    inet 127.0.0.1 netmask 0xff000000
    inet6 ::1 prefixlen 128
    inet6 fe80::1%lo0 prefixlen 64 scopeid 0x1
    nd6 options=201<PERFORMNUD,DAD>
    gif0: flags=8010<POINTOPOINT,MULTICAST> mtu 1280
    stf0: flags=0<> mtu 1280
    en0: flags=8863<UP,BROADCAST,SMART,RUNNING,SIMPLEX,MULTICAST> mtu 1500
    ether ac:bc:32:c1:ed:dd
    inet6 fe80::1c82:47a:64f:460f%en0 prefixlen 64 secured scopeid 0x4
    inet 192.168.31.46 netmask 0xffffff00 broadcast 192.168.31.255
    nd6 options=201<PERFORMNUD,DAD>
    media: autoselect
    status: active
    ....


    vboxnet0: flags=8943<UP,BROADCAST,RUNNING,PROMISC,SIMPLEX,MULTICAST> mtu 1500
    ether 0a:00:27:00:00:00
    inet 192.168.56.1 netmask 0xffffff00 broadcast 192.168.56.255
    utun1: flags=8051<UP,POINTOPOINT,RUNNING,MULTICAST> mtu 1380
    inet6 fe80::f655:9c6f:ca10:240e%utun1 prefixlen 64 scopeid 0xc
    nd6 options=201<PERFORMNUD,DAD>

    ...

     

     然后需要VirtualBox中对应的虚拟机设置中,增加一个网卡2.  选择“仅主机(Host-Only)网络”,界面名称就是之前看到的vboxnet0.

     

     

    然后登录到虚拟机, 利用“ip addr” 命令查看,你会发现多出来一个网卡enp0s8。 从enp0s3 复制一个,然后编辑这个文件,这次更改为固定IP地址。

    cp /etc/sysconfig/network-scripts/ifcfg-enp0s3 /etc/sysconfig/network-scripts/ifconfig-enp0s8

     

     然后 重启网络 "systemctl restart network". 这时候就可以从主机Macbook 访问虚拟机了。

     

    4.3关闭Linux防火墙

    从上面的设置看到, 主机MacBook 的IP是 192.168.56.1, 虚拟机Linux设置了静态地址为 192.168.56.100. 现在已经在一个网段内了,应该内ping通。如果你ping不通,那很可能是防火墙的问题。 首先MacBook要关闭防火墙。

     

    然后确保虚拟机Linux的也关闭防火墙,默认防火墙是开着的。

     systemctl disable firewalld
    systemctl status firewalld
    

      

     

     

    检查一下ssh服务,默认应该是开着的

     

     

    你现在应该能从mac的终端通过ssh登录到linux了。

     

    转载于:https://www.cnblogs.com/junqilian/p/11515594.html

    展开全文
  • 一、centos装java 首先yum -y list java*查看有哪些java版本,然后可以看到有这些个版本: java-1.5.0-gcj.x86_64 1.5.0.0-29.1.el6 base  java-1.5.0-gcj-devel.x86_64 1.5.0.0-29.1.el...

    一、centos装java

    首先yum -y list java*查看有哪些java版本,然后可以看到有这些个版本:

    java-1.5.0-gcj.x86_64                      1.5.0.0-29.1.el6              base   
    java-1.5.0-gcj-devel.x86_64                1.5.0.0-29.1.el6              base   
    java-1.5.0-gcj-javadoc.x86_64              1.5.0.0-29.1.el6              base   
    java-1.5.0-gcj-src.x86_64                  1.5.0.0-29.1.el6              base   
    java-1.6.0-openjdk.x86_64                  1:1.6.0.41-1.13.13.1.el6_8    base   
    java-1.6.0-openjdk-demo.x86_64             1:1.6.0.41-1.13.13.1.el6_8    base   
    java-1.6.0-openjdk-devel.x86_64            1:1.6.0.41-1.13.13.1.el6_8    base   
    java-1.6.0-openjdk-javadoc.x86_64          1:1.6.0.41-1.13.13.1.el6_8    base   
    java-1.6.0-openjdk-src.x86_64              1:1.6.0.41-1.13.13.1.el6_8    base   
    java-1.7.0-openjdk.x86_64                  1:1.7.0.191-2.6.15.4.el6_10   updates
    java-1.7.0-openjdk-demo.x86_64             1:1.7.0.191-2.6.15.4.el6_10   updates
    java-1.7.0-openjdk-devel.x86_64            1:1.7.0.191-2.6.15.4.el6_10   updates
    java-1.7.0-openjdk-javadoc.noarch          1:1.7.0.191-2.6.15.4.el6_10   updates
    java-1.7.0-openjdk-src.x86_64              1:1.7.0.191-2.6.15.4.el6_10   updates
    java-1.8.0-openjdk.x86_64                  1:1.8.0.181-3.b13.el6_10      updates
    java-1.8.0-openjdk-debug.x86_64            1:1.8.0.181-3.b13.el6_10      updates
    java-1.8.0-openjdk-demo.x86_64             1:1.8.0.181-3.b13.el6_10      updates

    选择一个版本装,我们这里选择1.8,命令如下

    yum -y install java-1.8.0-openjdk*

    执行该命令后就开始装我们的jdk了,装好之后了java -version 验证一下

    penjdk version "1.8.0_181"
    OpenJDK Runtime Environment (build 1.8.0_181-b13)
    OpenJDK 64-Bit Server VM (build 25.181-b13, mixed mode)

    输出上面这个就说明你装好了

    二、装headoop:

    1.下载hadoop:

    wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.10.0.tar.gz

    2.解压到home/hadoop下

    tar zxvf hadoop-2.6.0-cdh5.10.0.tar.gz

    3.配置slave1和slave2地址

    编辑etc/hosts 文件

    vi hosts:

    添加内容如下:

    master IP地址  master

    slave1 IP地址  slave1

    slave2 IP地址  slave2

    这样便能通过名字slave1或者slave2名字来访问slave1或slave2了,而不是ip地址

    3.ssh免密登录(root下)

    a.在master机器下执行ssh-keygen生成公钥和秘钥

    b.创建authorized_keys文件 将生成的公钥内容拷贝到authorized_keys中,命令如下:

    cat id_rsa.pub >> authorized_keys

    d.同样在slave1和slave2上执行ssh-keygen生成对应的公钥秘钥

    e.将slave1和slave2上执行ssh-keygen生成对应的公钥拷贝到master的authorized_keys中

    f.将master的authorized_keys分别拷贝到slave1和slave2中 命令如下:

    scp -rp authorized_keys slave1:~/.ssh/

    scp -rp authorized_keys slave2:~/.ssh/

    命令:sudo vi /etc/ssh/sshd_config (修改SSH配置文件"/etc/ssh/sshd_config"),修改如下内容:

    RSAAuthentication yes # 启用 RSA 认证
    PubkeyAuthentication yes # 启用公钥私钥配对认证方式
    AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径(和上面生成的文件同)

    然后重启ssh测试一下,重启命令:service sshd restart

    测试 ssh slave1 效果如下:

    Last login: Fri Aug 17 21:05:54 2018 from 192.168.195.128 至此,免密登录创建成功。

    4.配置hadoop 环境变量:vi  /etc/proflie

    export HADOOP_HOME=/home/xyp/hadoop/hadoop-2.6.0-cdh5.10.0/
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

    5.修改hadoop配置文件

    在 hadoop 解压路径下面,/etc/hadoop/hadoop-env.sh 增加下面两行:

    export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.181-3.b13.el6_10.x86_64
    export HADOOP_HOME=/home/xyp/hadoop/hadoop-2.6.0-cdh5.10.0

    在 hadoop 解压路径下面,/etc/hadoop/core-site.xml增加下面内容:

    <configuration>
      <property>
         <name>fs.defaultFS</name>
         <value>hdfs://master:9000/<value>
      </property>
      <property>
         <name>hadoop.tmp.dir</name>
         <value>/home/xyp/hadoop/hadoop-2.6.0-cdh5.10.0/tmp<value>
      </property>
    </configuration>

    在 hadoop 解压路径下面,/etc/hadoop/hdfs-site.xml 增加下面内容,这里设置成3,表示数据有2个副本(数值不大于DataNode数):

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>3</value>
        </property>
    </configuration>

    在 hadoop 解压路径下面,/etc/hadoop/mapred-site.xml 增加下面内容:

    <configuration>
       <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>

     

    在 hadoop 解压路径下面,/etc/hadoop/yarn-env.sh 增加下面,增加JAVA_HOME 配置:

    export JAVA_HOME=/usr/bin/java/jdk1.8.0_181

    在 hadoop 解压路径下面,/etc/hadoop/yarn-site.xml 增加下面内容:
     

    <configuration>
    
    <!-- Site specific YARN configuration properties -->
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>master</value>
        </property>
      <property>
      <description>The address of the applications manager interface in the RM.</description>
      <name>Yarn.resourcemanager.address</name>
      <value>master:18040</value>
      </property>
    
      <property>
      <description>The address of the scheduler interface.</description>
      <name>Yarn.resourcemanager.scheduler.address</name>
      <value>master:18030</value>
      </property>
    
      <property>
      <description>The address of the RM web application.</description>
      <name>Yarn.resourcemanager.webapp.address</name>
      <value>master:18088</value>
      </property>
    
      <property>
      <description>The address of the resource tracker interface.</description>
      <name>Yarn.resourcemanager.resource-tracker.address</name>
      <value>master:8025</value>
      </property>
    </configuration>

    在 hadoop 解压路径下面,/etc/hadoop/slaves 增加下面内容:

    master
    slave1
    slave2

    将hadoop-2.6.0-cdh5.10.0 复制到slave1和slave2上

    scp -r hadoop-2.6.0-cdh5.10.0 slave1:/home/xyp/hadoop/

    scp -r hadoop-2.6.0-cdh5.10.0 slave2:/home/xyp/hadoop/

    进入/home/xyp/hadoop/hadoop-2.6.0-cdh5.10.0/sbin下执行  ./start-dfs.sh

    jps查看进程,效果如下:

    至此,我们的hadoop集群搭建完成~

     

     

     

     

    展开全文
  • 我为什么要学习大数据:因为我不喜欢现在国企的工作氛围,不看好这个行业,另外我通过多方渠道了解到,其中包括李笑来、凯文凯利、和各种新闻及文章,现在我们正处于大数据时代,我是一个不安于现状、喜欢探索顺应...

    我为什么要学习大数据:因为我不喜欢现在国企的工作氛围,不看好这个行业,另外我通过多方渠道了解到,其中包括李笑来、凯文凯利、和各种新闻及文章,现在我们正处于大数据时代,我是一个不安于现状、喜欢探索顺应时代发展趋势学习新东西的人,希望通过努力来改变自己生活状态渴望成功的人,我喜欢与朝气蓬勃奋发向上的人一起活在未来。

     

    很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

     

    入门之前先来看看大数据涉及到的内容

    要学习并实践 Java、Scala、Hadoop、HBase、Mahout、Sqoop及Spark等大数据技术。新手学习大数据设计非常系统的路径,加入大量的动手实验,帮助大家在实验数据集上实践各种大数据工具。

    学习路径:入门知识 - Java基础 - Scala基础 - Hadoop技术模块 - Hadoop项目实战 - Spark技术模块 -大数据项目实战。从基础到实战,逐层深入。

    大数据方向的工作目前分为三个主要方向:

    01.大数据工程师
    02.数据分析师
    03.大数据科学家
    04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)

    一、大数据工程师的技能要求

    附上二份比较权威的大数据工程师技能图


     

    学习方法如下:

    1、Linux命令基础实战

    大数据架构体系结构及开源组件介绍 (要掌握)

    Linux基本操作 (常见的Linux命令需要会)

     

    2:Hadoop基础

    Hadoop基础,对Hadoop架构、核心组件HDFS/YARN做了深入浅出的介绍,让你快速把握Hadoop的核心技术和工作原理,逐渐形成分布式思维;

    Hadoop介绍

    Hadoop运行模式

     

    3:Hadoop集群搭建

    Hadoop集群搭建——安装Linux虚拟机

    Hadoop集群搭建——远程连接

    Hadoop集群搭建(on Linux)——Hadoop(上)

    Hadoop集群搭建(on Linux)——Hadoop(下)

    Hadoop集群搭建(on Mac)——Hadoop

     

    4:HDFS原理

    番外篇-课程体系

    HDFS架构原理

    FS Shell命令介绍及实践

     

    5:YARN工作原理

    YARN的产生背景

    YARN的设计思想

    YARN的基本架构

    YARN的工作流程(小结)

     

    6:Sqoop

    Sqoop,作为关系型数据库与Hadoop之间的桥梁,批量传输数据,让你自然的从关系型数据库过度到Hadoop平台,在关系型数据库与Hadoop之间游刃有余的进行数据导入导出;

    Sqoop & Hive课程内容介绍

    Sqoop介绍与安装

    Sqoop的基本使用

    Sqoop 导入参数详解

    Sqoop导入实战

    Sqoop增量导入(上)

    Sqoop增量导入(下)

    Sqoop导出实战(上)

    Sqoop导出实战(下)

    Sqoop Job

     

    7:Hive

    Hive,基于Hadoop大数据平台的数据仓库,可以让你实现传统数据仓库中的绝大部分数据处理、统计分析,让你在Hadoop大数据平台上感受到Hive QL带来的便利的交互式查询体验;Mars将以日志分析或其他示例带大家熟练掌握Hive的应用;

    Hive架构介绍(一)

    Hive架构介绍(二)

    Hive环境搭建(一)

    Hive环境搭建(二)

    Hive CLI初探

    Beeline介绍

    Hive数据类型

    Hive表一——标准建表语句解析&内、外表

    Hive表二——文件及数据格式

    Hive分区&桶&倾斜概念

    Hive表——Alter

    Hive视图&索引简介

    Hive表——show & Desc命令

    Hive数据导入--load

    Hive数据导入--insert

    Hive分区表实战

    Hive复杂数据类型的嵌套实例

    Hive源码阅读环境

    Hive执行原理

    Hive查询优化

    UDF函数实例

    Hive终极实例——日志分析

    (1)网站日志分析的术语、架构介绍

    (2)建表及数据准备

    (3)数据处理及统计分析

    (4)数据采集到统计分析结果的crontab定时调度

     

    8:HBase

    HBase,列式存储数据库,提供了快速的查询方式,是Apache Kylin的默认数据存储结果;

    HBase介绍及架构

    HBase安装

    HBase操作实战

    Hive与HBase集成实战

     

    9:Kylin

    Kylin,基于Hadoop的OLAP分析引擎,在Kylin中可以实现传统OLAP的各种操作,直接读取Hive的数据或流式数据作为数据源,把这些数据根据业务模型构建成Cube,Kylin提供了基于Hadoop(MapReduce)的Cube构建,Build完成的Cube数据直接存储于HBase中。Kylin提供了Web UI供查询,包括一些图表展现,是基于大数据的完美OLAP工具;

    维度建模

    Kylin背景及原理架构

    Kylin环境搭建

    维度建模知识

    Kylin Cube Build步骤解析

    Kylin Cube实战

    Kylin 增量Cube

    Kylin 优化

     

    10:Spark

    Spark,基于内存计算的大数据计算引擎,提供了Spark SQL、Spark MLlib(基于Spark的机器学习)、SparkR等框架适应不同的应用需求,Spark专题将和大家一起实践操作各种应用和算法;

    Spark集群搭建

    Spark Core

    Spark WordCount(Spark-shell/pyspark..)

    IDEA IntelliJ搭建Spark开发环境

    Spark编程实例

    Spark SQL及DataFrame

    Spark SQL实例

    Spark Streaming

    Spark Streaming实例

    Spark MLlib

    Spark MLlib应用实例

    Spark R介绍

    可以基于每个模版去查一些相应的资料 及教程,然后按照操作即可。。。

     

    对于小白学习大数据需要注意的点有很多,但无论如何,既然你选择了进入大数据行业,那么便只顾风雨兼程。正所谓不忘初心、方得始终,学习大数据你最需要的还是一颗持之以恒的心。

    我想告诉你,每一份坚持都是成功的累积,只要相信自己,总会遇到惊喜;我想告诉你,每一种活都有各自的轨迹,记得肯定自己,不要轻言放弃;我想告诉你,每一个清晨都是希望的伊始,记得鼓励自己,展现自信的魅力。


    大数据的前景和意义也就不言而喻了,未来,大数据能够对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。源于互联网的发展,收集数据的门槛越来越低,收集数据变成一件简单的事情,这些海量的数据中是含有无穷的信息和价值的,如何更好的提炼出有价值的信息,这就体现大数据的用途了。

     

     

    展开全文
  • MAC系统中搭建Spark大数据平台(包括Scala) 总体介绍: 大家Spark大数据平台,包括三部分内容:JDK,Scala,Spark 这三者是依次依赖的关系,Spark依赖于Scala环境(Spark是使用Scala语言开发),Scala语言必须运行...

    MAC系统中搭建Spark大数据平台(包括Scala)

    总体介绍:
    大家Spark大数据平台,包括三部分内容:JDK,Scala,Spark
    这三者是依次依赖的关系,Spark依赖于Scala环境(Spark是使用Scala语言开发),Scala语言必须运行与JVM上,所以,Scala依赖于Java环境。
    1、JDK安装
    确保你本地以及安装了 JDK 1.5 以上版本,并且设置了 JAVA_HOME 环境变量及 JDK 的bin目录。
    大家可以自行搜索相关安装,最后需要验证一下是否安装成功:
    1.1 java安装是否成功:
    localhost:~ didi$ java -version
    java version "1.8.0_102"
    Java(TM) SE Runtime Environment (build 1.8.0_102-b14)
    Java HotSpot(TM) 64-Bit Server VM (build 25.102-b14, mixed mode)
    1.2 java编译器安装是否成功:
    localhost:~ didi$ javac -version
    javac 1.8.0_102

    如果大家Java环境没有安装成功,可以参考:java环境安装和配置

    2、Scala环境配置
    Spark运行的基础是Scala。Scala安装非常简单,两步1、下载scala压缩包;2、配置Scala的bin目录的环境变量
    2.1 下载Scala压缩包
    Scala官网下载地址:下载地址
    2.2 解压缩
    将Scala压缩包scala-2.11.8.tgz解压缩到/usr/local/Cellar文件夹下面,生成scala-2.11.8文件夹
    2.3 配置环境变量
    使用sudo su进入管理员权限,配置/etc/profile文件,添加如下内容:
    export PATH="$PATH:/usr/local/Cellar/scala-2.11.8/bin"

    2.4 测试安装是否成功:
    localhost:~ didi$ scala
    Welcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_102).
    Type in expressions for evaluation. Or try :help.
    
    scala> 

    OK!Scala安装成功。

    3、Spark环境安装和配置
    3.1 下载Spark压缩包spark-2.0.1-bin-hadoop2.7.tgz
    官网下载地址:点击这里,我选择下载的版本如下:


    3.2 解压缩压缩文件到指定文件夹/usr/local/Cellar,生成spark-2.0.1-bin-hadoop2.7文件夹
    tar -zxvf spark-1.2.0-bin-hadoop1.tgz
    3.3 配置环境变量
    使用sudo su进入管理员权限,配置/etc/profile文件,添加如下内容:
    export PATH="$PATH:/usr/local/Cellar/spark-2.0.1-bin-hadoop2.7/bin"
    3.4 修改Spark的配置文件conf目录
    cp spark-env.sh.template spark-env.sh
    修改spark-env.sh中的内容,加入如下配置:
    </pre><pre code_snippet_id="1961561" snippet_file_name="blog_20161101_7_9283581" name="code" class="html">export SCALA_HOME=/usr/local/Cellar/scala-2.11.8/bin
    export SPARK_MASTER_IP=localhost
    export SPARK_WORKER_MEMORY=4g
    3.5 运行Spark
    ./start-all.sh

    3.6 使用spark shell进行测试
    localhost:bin didi$ spark-shell 
    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
    Setting default log level to "WARN".
    To adjust logging level use sc.setLogLevel(newLevel).
    16/11/01 21:09:47 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    16/11/01 21:09:47 WARN Utils: Your hostname, localhost resolves to a loopback address: 127.0.0.1; using 10.97.182.157 instead (on interface en0)
    16/11/01 21:09:47 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
    16/11/01 21:09:48 WARN SparkContext: Use an existing SparkContext, some configuration may not take effect.
    Spark context Web UI available at http://10.97.182.157:4040
    Spark context available as 'sc' (master = local[*], app id = local-1478005788625).
    Spark session available as 'spark'.
    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  '_/
       /___/ .__/\_,_/_/ /_/\_\   version 2.0.1
          /_/
             
    Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_102)
    Type in expressions to have them evaluated.
    Type :help for more information.
    
    scala> 

    OK!Spark环境搭建成功!

    总结,在安装环境的时候,我们需要首先弄清楚各个环境和依赖之间的关系,这样安装和配置环境的时候,会更加的自信和有条理。
    祝大家学习和工作顺利。共同研究大数据。


    展开全文
  • 大数据方向,这个方向... 其实也算不上个方向... 哎... 先说吧 ... 如果你毕业了, 去个什么公司,应聘个“大数据开发工程师”什么的,我们来看看职位要求是什么: 岗位职责: 1、负责数据分析、监控、安全、风控...
  • 想学大数据,先搭个环境再说,要准备多少台服务器,每台服务器的基础环境设置,各个服务器的网络互联,真是很麻烦的一件事 第一座山先把想入门的学习者挡在门外,别放弃,这里又一个即全面又快捷的搭建大数据环境的...
  • 一## 大数据学习一之虚拟机环境配置 ## 在VMWare12.0上安装好centOS 6.x或导入安装好的虚拟机,这里使用导入。 一、导入虚拟机 将要导入的虚拟机文件夹移到默认路径下: 打开VMWare,点击左上角菜单栏“文件”...
  • 小白如何学习大数据

    2017-05-05 13:01:43
    java se ...就可以学习大数据了 49分钟: jave ee 更注重技术的本身,业务不需要知道 1: ssm的开发流程,要知道,不要开发具体的业务,例如增删改查的业务,只需要知道流程,代码实现不要知道
  • 我在学习大数据相关技术的时候,想到了一个点子: 用docker搭建一个大数据开发环境! 这么做有什么好处呢 ? 我只要有了这个docker-compose.yml 容器编排描述文件,我就可以在任何一个安装docker 软件的机器里,...
  • 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的...
  • 大数据学习之Linux基础 自定义Linux虚拟机安装网络配置1.node1网络配置2.通过快照克隆虚拟机3.配置其他三个节点虚拟机Linux简单命令shell命令运行原理图1.关机与重启2.判断命令的命令3.常用功能命令4.文件系统命令...
  • Mac安装Scala

    2018-09-13 20:54:11
    随着spark越来越火,scala也是水涨船高,越来越多的人开始学习scala。 官网下载Scala:http://www.scala-lang.org/download/ 解压 tar -xzf scala-2.12.6.tgz 配置变量 Mac的环境变量是:vi .bash_profile...
  • 来自尚学堂 ... ...Linux基础→shell编程→高并发架构→lucene,solr搜索→hadoop体系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→项目实战一 ...第二阶段机器学习 R语言→mahout→项目实...
  • 学习大数据的话,可以给你一个大纲,入门可以参考。 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入...
  • 文章目录安装目录准备工作JDK下载Hadoop安装与配置Hadoop修改JDK配置验证Hadoop单机模式执行配置core-site.xml配置hdfs-site.xml启动与停止Hadoop配置.bash_profile第一次启动hdfs需要格式化启动HDFS停止HDFSHDFS...
  • 大数据发展愈演愈烈,为了快速跟上技术发展的步伐,最近在学习大数据的相关技术,当然第一步,还是要学习大数据集群的搭建,将自己的一些小经验分享给大家,希望对你们有帮助,当然也感谢在我学习的过程,提供资料和...
  • 克隆虚拟机 关闭要被克隆的虚拟机 找到克隆选项 欢迎页面 克隆虚拟机 设置创建完整克隆 ...设置克隆的虚拟机名称和存储位置 ...等待完成后关闭窗口,完成克隆 ...将eth1修改为eth0,同时复制物理ip地址...
  • # 1、为什么要学习Scala语言? 1. 结合Spark处理大数据 这是Scala的一个主要应用,而且Spark也是那Scala写的。 2. Java的脚本语言版 可以直接写Scala的脚本,也可以在.sh直接使用Scala。 3. 代替Java Scala的编程...
  • 学习大数据的话,可以给你一个大纲,入门可以参考。 推荐一个大数据学习群 119599574每天晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据...
1 2 3 4 5 ... 20
收藏数 8,070
精华内容 3,228