• 想学大数据,先搭个环境再说,要准备多少台服务器,每台服务器的基础环境设置,各个服务器的网络互联,真是很麻烦的一件事 第一座山先把想入门的学习者挡在门外,别放弃,这里又一个即全面又快捷的搭建大数据环境的...
     
     

     

        想学大数据,先搭个环境再说,要准备多少台服务器,每台服务器的基础环境设置,各个服务器的网络互联,真是很麻烦的一件事

        第一座山先把想入门的学习者挡在门外,别放弃,这里又一个即全面又快捷的搭建大数据环境的方法,排除下载软件的时间,只需要5分钟,就可以拥有一个自己的大数据环境,包括绝大部分大数据生态环境的各个组建,完美得不能再完美。

        只需按照以下步骤进行:

        一、下载并安装oracle的虚拟机软件VirtualBox

            下载地址为 https://www.virtualbox.org/,有windows版和mac版

            下载后直接安装软件即可

        二、下载CDH的quick starts的VirtualBox虚拟机文件

            CDH是Cloudera的软件发行版,包含Apache Hadoop及相关项目。所有组件都是100%开源。

            我们要下载的虚拟机文件,是运行在VirtualBox里的linux虚拟机,这个linux虚拟机里,已经完整安装了大数据绝大部分必须的组建,包括Hadoop、Hive、Hbase、Spark、Hue以及Mysql等等,这些组件之间的关系,大家在学习大数据的过程中,会一步步的理解。

            下载地址是:https://www.cloudera.com/downloads/quickstart_vms/5-13.html

    1-1

            页面上的下拉框请选择Virtual Box,当然也可选择其他的方案,比如Docker iamge或者VMWare,本人在安装过程中,用Docker启动一些组件报错,而Virtual Box的虚拟机环境则很健壮,没有任何问题,因此,推荐使用Virtual Box。

            下载的文件大小为5.8G左右的zip文件,下载成功后,还需要解压这个文件,这是一个比较漫长的过程,当然不能算进5分钟之内了。

        三、 解压后的文件如图1-2,在已经安装好Virtual Box的前提下,直接双击.ovf文件,即可打开Virtual Box的导入虚拟机对话框如图1-3。

                在导入虚拟机对话框上,可以双击各个项目进行调整,如果你的机器是酷睿i9,18个物理内核,36个超线程,那么处理器那一项设置成24或者32都没问题,内存也是一样,根据自己电脑的实际内存大小进行设置,如果此电脑除了运行这个虚拟机意外,不作他用,那么设置称电脑实际内存的三分之二是没有问题的。

                网络控制器和硬盘控制器使用给定的设置即可,导入虚拟机成功后,还可以修改。

                点击“导入”按钮,则显示图1-4,进行虚拟机的导入。

                导入虚拟机成功后,选择导入的虚拟机,点击上面工具栏的设置按钮,可以继续设置虚拟机环境,如图1-5所示

                在点击设置按钮后,会弹出设置的对话框,我们主要对网络进行一下设置,因为这涉及到我们能不能连接到虚拟机的问题。如题1-6,选择桥接网卡,下面“界面名称”那一项,如果是wifi上网的话,选择本机使用的无线网卡,如果使用的是网线,则选择在用的物理网卡。

                虚拟机基本设置完毕,点击Virtual Box的启动按钮(绿色大箭头),则开始启动虚拟机。

    1-2
    1-3

     

    1-4

     

    1-5

     

    1-6

     

                启动后的虚拟机如图1-7,记住桌面背景的 cloudera ,虚拟机中各个大数据组件的用户名和密码都是cloudera,包括虚拟机linux系统的用户名和密码

    1-7

            在桌面左上角选择“Applications” -> “System Tools” -> “Terminal”,进入控制台,输入ifconfig命令,显示虚拟机的IP地址,如图1-8,我们之前已经设置好了虚拟机使用桥接网络,所以在宿主机,或者与宿主机在同一网络的其他电脑,都可以连接到虚拟机

    1-8

            如图1-9至1-11,可以直接访问虚拟机内各个组件的web控制台:

    80 cloudera端口:

    1-9

    8088 hadoop端口:

    1-10

    8888 hue端口:

    1-11

        现在,我们就可以根据官方教程,一步一步学习大数据了,官方教程如下:

        https://www.cloudera.com/developers/get-started-with-hadoop-tutorial.html

        官方教程的“Exercise 1: Ingest and query relational data”这部分内容,是让我们把mysql中的关系型数据导入到hive仓库中,使用的命令是:

    sqoop import-all-tables \

        -m {{cluster_data.worker_node_hostname.length}} \

        --connect jdbc:mysql://{{cluster_data.manager_node_hostname}}:3306/retail_db \

        --username=retail_dba \

        --password=cloudera \

        --compression-codec=snappy \

        --as-parquetfile \

        --warehouse-dir=/user/hive/warehouse \

        --hive-import

        执行这行命令会报错:Error: expected numeric argument.

        我们只需将这行命令的 -m {{cluster_data.worker_node_hostname.length}} \删除,并且把命令行中的 

    --connect jdbc:mysql://{{cluster_data.manager_node_hostname}}:3306/retail_db \

    改成

    --connect jdbc:mysql://127.0.0.1:3306/retail_db \ 

    使其连接到虚拟机本机的mysql数据库,就可以成功运行了

    最终的命令行如下:

    sqoop import-all-tables \

        --connect jdbc:mysql://127.0.0.1:3306/retail_db \

        --username=retail_dba \

        --password=cloudera \

        --compression-codec=snappy \

        --as-parquetfile \

        --warehouse-dir=/user/hive/warehouse \

        --hive-import

            命令运行成功,这样我们的大数据环境中,就有原始数据了,接下来,无论你学习使用hive、pig、spark......,在这个大数据环境中都可以顺利进行。

            虚拟机环境确认正常后,Virtual Box提供快照功能,给虚拟机拍个快照,这样以后在学习过程中,发生环境崩溃时,直接使用快照恢复,一切OK!

    敬请扫码关注盲点技术号,我们将持续努力与您一起学习探讨开发技术

     

     

    展开全文
  • 大数据环境安装,有很多种,例如CDH,Ambari,这两种都可以快速的安装大数据环境,并且搭配了精美的bashboard,笔者也曾在学习过程中安装以上2种组件,安装完成后,并没有深度使用,总感觉缺少了自己一个个修改...
  • 安装eclipse 官网: www.eclipse.org 你会发现有很多版本 版本的介绍和选择 请参考: https://www.cnblogs.com/chenmingjun/p/8404628.html 我选择的是Eclipse jee版本 开始安装 下载完解压即可 jdk下载 Java...
  • 腾讯总部目前,大数据产业...理解大数据理论要学习大数据,您至少应该知道大数据是什么,以及通常使用哪些大数据区域。对大数据有一个大致的了解,你就可以知道数据是否对它感兴趣了。如果大数据是绝对无知的,并...
  • 现在学习大数据的越来越多了,可是你知道学习大数据需要什么条件吗?我来说说四个必备条件。 大数据现已成为年代开展的趋势,很多人纷纷挑选学习大数据,想要进入大数据职业。大数据技术体系巨大,包含的常识较多,...
  • 大数据学习之Linux系统的安装配置
  • 前段时间有个小伙伴和我说在学习大数据的路上他认为最大的绊脚石是安装和配置各种大数据框架,很容易出错,这让我想起了自己刚学大数据那会也遇到了相同的情况,经常被各种大数据框架的安装和配置搞得焦头烂额的,...
  • 大数据是当时时代下一门炙热的IT学科,行情十分火爆,不论是阿里巴巴、百度这样的大公司,...那么,大数据应该如何学习呢?一起来了解一下吧。 推荐下小编的大数据学习群;251956502,不管你是小白还是大牛,小编我...
  • 一## 大数据学习一之虚拟机环境配置 ## 在VMWare12.0上安装好centOS 6.x或导入安装好的虚拟机,这里使用导入。 一、导入虚拟机 将要导入的虚拟机文件夹移到默认路径下: 打开VMWare,点击左上角菜单栏“文件”...
  • 很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该学习哪些技术?学习路线又是什么? 所有萌生入行的想法与想要学习Java的同学的初衷是一样的。岗位非常火,就业薪资比较高,,前景...
  • 大数据本质是:数据挖掘深度和...但是一直没有一个很好的思路和方向,本文将详细的讲解零基础如何学习大数据。   大数据三大学习方向:大数据开发师、大数据架构师、大数据运维师   互联网科技发展蓬勃兴起,...
  • VirtualBox下安装CentOS7 Minimal版本 Minimal版本Centos7静态IP网络设置 ssh免密登录设置  我们现在身处数据时代,大数据和人工智能已经逐渐渗透到我们的生活中了。这么好的一个时代岂能错过,所以希望大家能在...
  • 那么要学习大数据,第一步就是要搭建分布式集群环境。虽说dreamtecher也是个刚学习大数据没多久的小白,但是也愿意为刚刚开始学习大数据的小小白们做一些贡献。接下来,本小白带大家一步步搭建一个大数据的分布式...
  • 首先我们要学习Python语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。Python:Python 的排名从去年开始就借助人工智能持续上升,现在它已经成为了语言排行第一名。分享之前推荐一个大数据学习...
  • 如果是有基础就根据个人情况来定,如果是零基础想学习大数据,大数据要学的东西有很多,下面列举了一些学习大数据就该学习的技术,许多想学习大数据不知道大数据应该学什么的,可以参考一下。 首先学习大数据,先...
  • 大数据学习--平台环境部署(详细) 本文利用云服务器对大数据平台进行环境部署,包含:服务器使用、环境准备、Hadoop集群完全分布式安装、Zookeeper集群完全分布式安装、HBase完全分布式安装、Hive、Scala、Spark、...
  • 大数据又称黑暗数据,是指人脑无法处理的海量数据聚合成的信息资产,在民生、IT、金融、农业、通信等方面都有广泛应用。未来5年大数据行业呈井喷趋势,人才需求火爆,2018年...在学习大数据之前,你还需要有一定的...
  • 一文读懂大数据平台——写给大数据开发初学者的话! 文|miao君导读:第一章:初识Hadoop...我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习经常有初学者会问,自己想往大数据方向发展,该学哪些...
1 2 3 4 5 ... 20
收藏数 83,367
精华内容 33,346