精华内容
下载资源
问答
  • 智慧警务实战应用平台开发公安大数据平台搭建[本文由源中瑞涂先生编辑/智慧公安系统开发搜索微信:ruiec999]“大数据分析技术”随着时代的发展和进步,以前所未有的速度在前进。警务实战平台是公安机关智慧警务工作...

    智慧警务实战应用平台开发公安大数据平台搭建

    [本文由源中瑞涂先生编辑/智慧公安系统开发搜索微信:ruiec999]

    “大数据分析技术”随着时代的发展和进步,以前所未有的速度在前进。警务实战平台是公安机关智慧警务工作的重要组成部分,但大数据的快速发展也带来了一个值得深思的问题:如何理解大数据?在公安机关办理案件时,如何使用大数据?

    e8df45349d6349663d14e82a9d60b3ff.png

    治安形势下新时期“大数据”的重要性

    当前,公安机关要适应新的治安形势,创新社会治理模式,提升动态环境下的治安防控能力,就必须积极解决“基础设施薄弱,基础数据采集负担重,民警应用手段少,基础数据资源整合不足,应用工具智能化程度低,资源应用服务不足”等问题。

    伴随着经济的快速发展,社会治安“人、房、车、路、网、场、组织”等要素不断膨胀,伴随而来的犯罪活动也不断向“流窜、专业化、集团化、高智化、虚拟化”方向发展,动态特征越来越明显,传统的时空、地域、块性等概念不断被突破,公安工作面临着日益严峻的挑战。我们迫切需要在更多更高的平台上寻求新的突破。

    当前,全国各地的经济文化交流日益频繁,警人员、后勤、信息流动日益频繁,我们能够获得的数据量正以惊人的速度增长,尽管我们的计算能力呈惊人的指数级增长,但我们对大数据的需求要远远超过今天我们对数据的需求。

    例如,某市公安局早在2017年底就开始全面应用互联网+智慧警务实战平台技术。以大数据、云计算、人工智能等技术为基础,整合优势资源,共同推进某市公安局警务工作与互联网技术融合发展,为“共享警局”“民生警务”“平安警务”建设提供支持,打造全国领先的智慧警务新模式。

    可视化让“大数据”成为当前决策的利器,仅仅拥有大数据还不够。警察需要对数据进行挖掘、分析等一系列深加工处理,智慧警务平台结合社会现状和实战业务急需,可以有效解决制约信息共享的系统分割、信息孤岛等突出问题。

    可视化是在实际应用中,决策者需要根据数据做出决策时,能够使决策者对大量数据做出快速判断的最好方法,而可视化又是智慧警务中不可或缺的重要环节。

    在此基础上,以目前所使用的警务实战平台为例,警务实战平台主要围绕“人、案、物、地”四大警务要素,充分利用和整合公安内部资源数据和社会资源数据,集成一体化采集、警综、图侦系统等各种业务系统,实现无缝对接,数据资源共享,通过讲述“数字故事”来表达数据所反映的潜在内容。

    警察实战平台不仅在于对“数值”和“变量”的分析,更体现在对有用数据信息的综合利用,以满足实战应用的需要,实现系统互联、信息共享、服务资源的统一管理,切实提高监控与预警能力,将反直觉的内容转化为直观的内容。

    [如需了解更多智慧公安系统开发资讯请关注公众号:源中瑞淡墨]

    展开全文
  • 大数据平台搭建

    2019-09-22 07:59:21
    大数据集群搭建之Centos6.5 参考 ... 大数据平台搭建(1)虚拟机+Centos-7安装 参考 https://blog.csdn.net/qq_16546829/article/details/79701407 =====================...

    大数据集群搭建之Centos6.5

    参考 https://blog.csdn.net/qq_16633405/article/details/78010061

     

    大数据平台搭建(1)虚拟机+Centos-7安装

    参考 https://blog.csdn.net/qq_16546829/article/details/79701407

    ================================================================

    目前学习Centos7搭建大数据平台

     

    //mysql5.7参考

    https://www.cnblogs.com/diantong/p/10962705.html

     

    转载于:https://www.cnblogs.com/zk1023/p/10616190.html

    展开全文
  • hadoop大数据平台搭建

    千次阅读 2019-08-11 17:59:37
    大数据平台搭建大数据平台搭建虚拟机环境准备修改ip,映射IP地址ssh无密码通信同步时间关闭防火墙安装jdkhadoop平台正式搭建安装hadoop安装 kafka安装spark 大数据平台搭建 zookeeper+kafka+spark + Hadoop+ yarn ...

    大数据平台搭建

    zookeeper+kafka+spark + Hadoop+ yarn

    虚拟机环境准备

    我们在搭建大数据分布式系统之前需要对软件和虚拟机的环境机型准备:

    修改ip,映射IP地址

    1.修改主机名
    vim /etc/sysconfig/network
    修改完主机名之后,别忘了用:wq命令保存退出

    然后我们来设置虚拟机的IP地址

    首先输入命令 cd /etc/sysconfig/network-scripts

    然后用ls命令查看一下目录

    修改第一块网卡 ifcfg-eth0

    首先要把ONBOOT改为yes,BOOTPROTO改为静态static

    然后设置IP地址 IPADDR 这里要注意的是虚拟机的IP地址

    的网段必须主机的网段一样,

    查看方法是点击虚拟机上的 编辑-虚拟网络编辑器-NAT模式

    在里面可以查看IP网段,只要是一个网段都可以

    设置子网掩码 NETMASK

    设置网关 GATEWAY 不知道的查看方法和上面一样

    最后:wq保存退出
    或者你可以通过命令行直接修改,但是如果你的电脑或者虚拟机有保护机制,在下一次可能ip地址会发生变化。
    #ifconfig eth0 192.168.1.155 netmask 255.255.255.0
    ifconfig ##查看一下
    然后要配置IP与主机名之间的映射
    命令为 vi /etc/hosts=
    IP就是你刚刚设置的IP 主机名也是你刚刚设置的主机名
    在这里插入图片描述

    做到这里基本上就OK了,最后检测配置好了没有就用命令

    ping www.baidu.com##可以查看一下配置的是否可以上网

    ssh无密码通信

    首先,展示配置完ssh无密码通信时什么状态的
    来自于小飞
    可以对其他节点的机器进行操作。接下来开始配置
    1.输入命令ssh-keygen生成密钥对,按照提示空格三下(其实就是设置密钥对存储位置)

    3.测试本机实现SSH登录.

    本机输入命令:ssh-copy-id IP(目标节点)

    按照提示输入yes,提示输入密码时是输入目标主机,即使是本机也算作SSH登录目标主机

    4.测试命令:ssh ip(目标节点) {可以直接加命令进行操作,例如上述图片}

    5.命令:exit 退出远程连接

    同步时间

    搭建集群环境时,需要各个节点主机的时间是一致的,否则由于心跳什么什么的 会出问题的。
    1、查看当前主机的时间 date
    2、yum -y install ntp #下载ntp
    3、service ntpd start #启动
    service ntpd status#查看ntpd当前状态
    chkconfig ntpd start#设置开机启动

    #ps:如果过了一段时间之后,你发现时间和当前本地的时间还是不一致的话,可能是你的配置文件的本地地址不是本地。
    ntpdate -u ntp.api.bz
    clock -w
    如果你的时间还是不能同步则对文件进行修改:
    vim /etc/sysconfig/clock
    本文是将时间设置为上海
    专属于小飞

    ntp常用服务器:
    中国国家授时中心:210.72.145.44
    NTP服务器(上海) :ntp.api.bz
    美国:time.nist.gov
    复旦:ntp.fudan.edu.cn
    微软公司授时主机(美国) :time.windows.com
    台警大授时中心(台湾):asia.pool.ntp.org

    关闭防火墙

    最后一步把虚拟机的防火墙关闭
    service iptables status#查看防火墙是否在运行
    service iptables stop #停止
    chkconfig iptables off #设置开机关闭

    安装jdk

    我这提供的是官方的地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html。如果你已经下载好了之后就可以跳过这步。如果你需要全套下载的东西,可以给我留言,发百度网盘链接。最好下载jdk1.8版本的。因为在spark2.0之后不再支持1.7版本。
    下载完之后,进行解压 tar -zxvf jdk(自己的版本)

    vim /etc/profile
    加export的就看可以了
    在这里插入图片描述
    source /etc/profile

    hadoop平台正式搭建

    安装hadoop

    Hadoop生态系统:2.7.7 cdh5.7.0(ps:尾号必须相同)
    所有的hadoop生态的软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/
    这是我安装的配置
    centos6.5
    jdk:1.8
    spark:2.2(要求jdk必须是1.8)
    kafka:由scala构建选择与scala对应的版本
    scala:2.11.8
    app 存放我们所有的软件的安装目录
    data 存放我们的测试数据
    lib 存放我们开发的jar
    software 存放软件安装的目录
    source 存放我们的框架源码
    tmp 存在log日志文件
    vim /etc/core-site.xml
    修改以下部分,保存
    在这里插入图片描述

    vim /etc/mapred-site.xml
    在这里插入图片描述

    Vim /etc/yarn-site.xml
    在这里插入图片描述
    Vim /etc/hdfs-site
    在这里插入图片描述
    Vim /etc/Hadoop-env.sh
    在这里插入图片描述
    Vim /etc/slaves
    在这里插入图片描述
    配置完成之后进行一次格式化
    Bin/hdfs namenode -format
    显示successfully formatted
    将hadoop目录加到~/.bash_profile
    Vim ~/.bash_profle 或者vim /etc/profile 都是一样的(大神感觉有问题的希望指出)
    在这里插入图片描述

    配置完成 监控页面: ip:50070
    测试
    ./start-dfs.sh
    Jps #查看一下启动的进程
    bin/hdfs dfs -mkdir -p /user/hdp2/data/
    /bin/hdfs dfs -put /root/hadoop/hadoop/etc/hadoop/core /user/hdp2/data

    启动yarn 监控页面 ip:8088
    sbin/yarn-daemon.sh start resourcemanager
    sbin/yarn-daemon.sh start nodemanager
    sbin/mr-history-daemon.sh start historyserver

    安装 kafka

    ### 安装kafka之前那一定要先安装zookeeper。、
    1、安装zookeeper
    Conf
    

    Zoo.cfg
    在这里插入图片描述
    2)kafka配置
    Server.properties
    Host.name= localhost
    kafka启动
    Bin/kafka-server-start.sh config/server.propertoes

    安装spark

    1.下载spark-2.1.0-bin-hadoop2.7.tgz#这个根据自己的hadoop版本进项下载

    2.解压
    tar -zxvf spark-(压缩文件)

    3.环境变量
    [/etc/profile]
    SPARK_HOME=/soft/spark
    PATH=PATH:PATH:SPARK_HOME/bin:$SPARK_HOME/sbin

    [source]
    $>source /etc/profile

    4.验证spark

    $>cd /soft/spark
    $>./spark-shell

    我的自己搭建完成之后写的。如果有什么问题,希望多多指教!!!!

    展开全文
  • 大数据平台搭建详解

    2018-05-12 19:58:59
    大数据平台搭建详解是本人博客的word版本,若有疑问请联系小编,大家共同学习,微信 dym0123456789 小编的博客https://blog.csdn.net/dingyanming/article/details/80290049#commentBox
  • 「分享数据大咖实践经验 网罗职场大佬成长秘籍」大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了大数据平台搭建。随着移动互联网和物联网的爆发,大数据价值在越来越多的场景中被挖掘,随着大家都...
    分享数据大咖实践经验 网罗职场大佬成长秘籍

    大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了大数据平台的搭建。随着移动互联网和物联网的爆发,大数据价值在越来越多的场景中被挖掘,随着大家都在使用欧冠大数据,大数据平台的搭建门槛也越来越低。借助开源的力量,任何有基础研发能力的组织完全可以搭建自己的大数据平台。但是对于没有了解过大数据平台、数据仓库、数据挖掘概念的同学可能还是无法顺利完成搭建,因为你去百度查的时候会发现太多的东西,和架构,你不知道如何去选择。今天给大家分享下大数据平台是怎么玩的。

    架构总览

    c1005dddff8840d288db529df49182c5.png

    通常大数据平台的架构如上,从外部采集数据到数据处理,数据显现,应用等模块。

    数据采集

    2039835c8c5b594466ef30a5a6b948af.png

    用户访问我们的产品会产生大量的行为日志,因此我们需要特定的日志采集系统来采集并输送这些日志。Flume是目前常用的开源选择,Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。

    0d25782e5032357b732c41d35728ddbd.png

    对于非实时使用的数据,可以通过Flume直接落文件到集群的HDFS上。而对于要实时使用的数据来说,则可以采用Flume+Kafka,数据直接进入消息队列,经过Kafka将数据传递给实时计算引擎进行处理。

    fd39e8a951bccbe8879026dd78c9ed81.png

    业务数据库的数据量相比访问日志来说小很多。对于非实时的数据,一般定时导入到HDFS/Hive中。一个常用的工具是Sqoop,Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。而对于实时的数据库同步,可以采用Canal作为中间件,处理数据库日志(如binlog),将其计算后实时同步到大数据平台的数据存储中。

    数据存储

    无论上层采用何种的大规模数据计算引擎,底层的数据存储系统基本还是以HDFS为主。HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。具备高容错性、高可靠、高吞吐等特点。45e087f398f317d6d83245a8a5184038.png

    HDFS存储的是一个个的文本,而我们在做分析统计时,结构化会方便需要。因此,在HDFS的基础上,会使用Hive来将数据文件映射为结构化的表结构,以便后续对数据进行类SQL的查询和管理。

    数据处理

    数据处理就是我们常说的ETL。在这部分,我们需要三样东西:计算引擎、调度系统、元数据管理。

    对于大规模的非实时数据计算来讲,目前一样采用Hive和spark引擎。Hive是基于MapReduce的架构,稳定可靠,但是计算速度较慢;Spark则是基于内存型的计算,一般认为比MapReduce的速度快很多,但是其对内存性能的要求较高,且存在内存溢出的风险。Spark同时兼容hive数据源。
    从稳定的角度考虑,一般建议以Hive作为日常ETL的主要计算引擎,特别是对于一些实时要求不高的数据。Spark等其他引擎根据场景搭配使用。

    实时计算引擎方面,目前大体经过了三代,依次是:storm、spark streaming、Flink。Flink已被阿里收购,大厂一直在推,社区活跃度很好,国内也有很多资源。

    调度系统上,建议采用轻量级的Azkaban,Azkaban是由Linkedin开源的一个批量工作流任务调度器。https://azkaban.github.io/

    一般需要自己开发一套元数据管理系统,用来规划数据仓库和ETL流程中的元数据。元数据分为业务元数据和技术元数据。

    • 业务元数据,主要用于支撑数据服务平台Web UI上面的各种业务条件选项,比如,常用的有如下一些:移动设备机型、品牌、运营商、网络、价格范围、设备物理特性、应用名称等。这些元数据,有些来自于基础数据部门提供的标准库,比如品牌、价格范围等,可以从对应的数据表中同步或直接读取;而有些具有时间含义的元数据,需要每天通过ETL处理生成,比如应用信息。为支撑应用计算使用,被存储在MySQL数据库中;而对于填充页面上对应的条件选择的数据,则使用Redis存储,每天/月会根据MySQL中的数据进行加工处理,生成易于快速查询的键值对类数据,存储到Redis中。

    • 技术元数据,主要包括数据仓库中的模型说明、血缘关系、变更记录、需求来源、模型字段信息等,详细的可以查看数据分析师应该了解的数据仓库(3)

    7636e36b079f873697de0febbc570676.png

    数据流转

    f02a01c9ad8325a0183e093a7842f32f.png

    通过上面一张图了解数据采集,数据处理,到数据展现的数据流转。通常我们在实际工作中,从数据源到分析报告或系统应用的过程中,主要包括数据采集同步、数据仓库存储、ETL、统计分析、写入上层应用数据库进行指标展示。这是最基础的一条线,现在还有基于数据仓库进行的数据分析挖掘工作,会基于机器学习和深度学习对已有模型数据进一步挖掘分析,形成更深层的数据应用产品。

    数据应用

    0e75ab1d835c6f011539009b4000377e.png

    俗话说的好,“酒香也怕巷子深”。数据应用前面我们做了那么多工作为了什么,对于企业来说,我们做的每一件事情都需要体现出价值,而此时的数据应用就是大数据的价值体现。数据应用包括辅助经营分析的一些报表指标,商城上基于用户画像的个性化推送,还有各种数据分析报告等等。

    5a8031ecfa9efc2ce3f02e53802ba826.png

    好的数据应用一定要借助可视化显现,比如很多传统企业买的帆软。开源界推荐一款可视化工具Superset,可视化种类很多,支持数据源也不少,使用方便。最近数砖收购的redash,也为了自己能一统大数据处理平台。可以看出可视化对于企业数据价值体现是很重要的。

    结尾

    通过本文,可以对大数据平台处理做初步了解,知道包含哪些技术栈,数据怎么流转,想要真正从0到1搭建起自己的大数据平台,还是不够的。了解了流程,你还需要真正的上手搭建Hadoop集群,Spark集群,数据仓库建设,数据分析流程规范化等等都需要很多工作,想了解更多的读者欢迎留言,或者关注公众号后添加我微信一起探讨。

    来源:数据社

        精  彩  推  荐  
    7bdbe6155f9499330be4fb142b41e9a2.pngACP认证优惠券

    0c68e0e66a574dd192f5aecc89527280.png

    星球优惠券

    58317f6eb4b96a8103eb0436f6e15b89.png

    阿里云产品优惠码

    数牛会即数据从业者社群,链接大咖,分享实践。特设数字企业家(DT创始人/传统企业家)首席数据官(CDO/CIO/CGO/COO)、数据精英综合群数据中台与数据治理(DW与BI)数据产品经理数据科学家(数据分析师/数据工程师/机器学习)阿里云ACP认证万年薪职场进阶群文末扫码入群,请备注姓名/公司/职位。 

    168大数据国内领先的数据智能技术社群媒体

    数百万首席数据官、数据科学家的梦想栖息地!

    最具价值的数据知识 研究报告 架构实践 职场秘籍

    打造权威的数据知识体系与职场成长平台!

    我是首席数据官,我在这,你呢?2e25f80e5a9da4f64aca8c5be4e01631.png在看评论转发,利他就是利己497c397530be15c307a83335b3883099.gif
    展开全文
  • Spark、Hadoop大数据平台搭建,推荐使用VMWare虚拟机安装。首先,需要依次安装以下应用:Spark,Scala,Hadoop,Java,Zookeeper。
  • 大数据平台搭建,正常情况下集群机器是不能上网的,需要搭建本地yum源
  • 关于从0到1搭建大数据平台,之前的一篇博文《如何从0到1搭建大数据平台》已经给大家介绍过了,接下来我们会分步讲解搭建大数据平台的具体注意事项。一、“大”数据​海量的数据当你需要搭建大数据平台的时候一定是...
  • Ambari大数据平台搭建利器【大讲台】 10年一线开发及项目管理经验,6年...
  • 大数据平台搭建之zookeeper一:说明1、环境:hadoop 2.6.0 、zookeeper 3.4.62、完全分布式,共有3个节点:master、slave1、slave23、采用的方式是先配置master,然后再将zookeeper文件拷贝到其他slave中的方式。...
  • CDH 7.1.4 大数据平台搭建-新手指南环境介绍笔记本硬件软件及版本环境准备虚拟系统安装挂载离线安装ISO文件安装httpd搭建http服务器下载CM和CDH安装包安装createrepo软件打包CM文件配置hostname和hostshostnamehosts...
  • 此时,大数据平台搭建就是企业面临的问题,搭建大数据平台有哪些思路?怎么样的搭建路径可以让企业少走弯路?什么样的架构是业内标准?通过什么手段来分析和展示已有的数据?或许这些问题会萦绕在您的心头,那么...
  • 【2019】CDH6.x企业级大数据平台搭建 10年一线开发及项目管理经验,...
  • 智慧警务实战应用平台开发公安大数据平台搭建 “大数据分析技术”随着时代的发展和进步,以前所未有的速度在前进。警务实战平台是公安机关智慧警务工作的重要组成部分,但大数据的快速发展也带来了一个值得深思的...
  • 大数据平台搭建手册

    2017-12-12 14:16:20
    JDK、Hadoop、Hive、Spark、Hbase等系统集群安装环境配置、详细安装步骤、及配置文件修改。
  • 基于ambari安装大数据平台,已通过测试,按照文档步骤可以完成安装。
  • 大数据平台搭建(hadoop+spark) 一.基本信息 1. 服务器基本信息 主机名ip地址安装服务 spark-master 172.16.200.81 jdk、hadoop、spark、scala spark-slave01 172.16.200.82 jdk、hadoop、...
  • 【2019】CDH6.x企业级大数据平台搭建

    千人学习 2019-01-30 15:47:47
    本课程主要讲解在实际项目开发中,企业构建大数据平台的方案及实战。详细阐述企业级大数据平台的架构设计、机器选型、集群规划、技术选型、资源规划等技术方案。实战演练基于Cloudera Manager(CDH6)安装部署、监控...
  • CDH 大数据平台搭建

    2019-09-21 05:57:27
    Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、...
  • HDP 大数据平台搭建

    2019-09-21 05:57:22
    一、概述 Apache Ambari是一个基于Web的支持Apache Hadoop集群的供应、管理和监控的开源工具,Ambari已支持大多数Hadoop组件,...提供Web UI进行可视化的集群管理,简化了大数据平台的安装、使用难度。 二、安...
  • 为什么搭建大数据架构要配置一些linux的环境,比如说:防火墙,时钟同步,免密登录等等(没有列举完)这是都是为了什么? 如果不搭建大数据架构,这些用不用配置呢?
  • 基于ambari的大数据平台搭建-01环境初始化 0. 服务器准备 个人搭建学习用,所以用VMware建5台虚拟机作为服务器集群 安装VMware(略)。 新建5台虚拟机(略),建议先装一台,配置后克隆节省时间。 1.主机名及ip规划...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,149
精华内容 1,259
关键字:

大数据平台搭建