精华内容
下载资源
问答
  • python在财务中的应用实训报告-数据科学与大数据技术专业实训解决方案
    千次阅读
    2020-11-01 12:07:38

    第一章 大数据发展背景

    1.1 国家政策

     2017年1月

    工业和信息化部正式发布了《大数据产业发展规划(2016-2020年)》,明确了“十三五”时期大数据产业的发展思路、原则和目标,将引导大数据产业持续健康发展,有力支撑制造强国和网络强国建设。

     2018年9月

    工信部公示“2018年大数据产业发展试点示范项目名单”,公布了包括大数据存储管理、大数据分析挖掘、大数据安全保障、产业创新大数据应用、跨行业大数据融合应用、民生服务大数据应用、大数据测试评估、大数据重点标准研制及应用、政务数据共享开放平台及公共数据共享开放平台等10个方向200个项目。

     2019年11月

    为进一步落实《国务院关于印发促进大数据发展行动纲要的通知》和《大数据产业发展规划(2016~2020年)》,推进实施国家大数据战略,务实推动大数据技术、产业创新发展,我国工业和信息化部将组织开展2020年大数据产业发展试点示范项目申报工作。

    1.2 行业现状

    据相关资料显示,随着互联网、移动互联网、物联网等信息通信技术及产业的不断发展,全球数据量呈爆发式增长态势。至此,IDC研究报告指出,根据ZDNET的统计预计到2020年,中国产生的数据总量将超过8.5ZB,是2013年的10倍。

    此外,值得一提的是,大数据市场空间巨大的同时,其产业规模也有望迎来快速增长。据前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》统计数据显示,2015年我国大数据产业规模已达2800亿元,截止至2017年我国大数据产业规模增长至4700亿元,规模增速进一步提高至30.6%,初步测算2018年我国大数据产业规模将达6200亿元左右,同比增长31.9%。并预测在2020年我国大数据产业规模增长突破万亿元,达到了10100亿元,同比增长26.3%。

    2015-2020年我国大数据产业规模统计及增长情况预测

    数据来源:前瞻产业研究院整理

    由此可知,随着来自政策、技术以及市场等各方面的力量推进之下,大数据产业的发展潜力绝不能小觑。对此,业内人士还预期称,我国大数据产业正在从起步阶段步入黄金期,2020年中国有望成世界第一数据资源大国。

    1.3 专业背景

    大数据及相关专业是以计算机为基础,以挖掘、分析为主,以搭建、工具使用为辅,紧密面向行业应用的一门综合性学科。其方向有数据科学与大数据技术、概率论与数理统计、数据挖掘与数据分析、数据运维与开发、算法与数据结构、计算机网络、并行计算等多个专业方向。目前全国各类院校已陆续开始围绕大数据专业建设展开研究并申报大数据专业。

    2016年,教育部批准北京大学、对外经贸大学、中南大学率先开设“数据科学与大数据技术”专业;2017年,教育部批准包括中国人民大学、北京邮电大学、复旦大学在内的共计32所高校获批“数据科学与大数据技术专业”;2018年3月,教育部发布《2017年度普通高等学校本科专业备案和审批结果》,共计255所高校获批开设“数据科学与大数据技术专业”及“大数据管理与应用专业”;2019年3月,教育部发布《2018年度普通高等学校本科专业备案和审批结果》,共计228所高校获批开设“数据科学与大数据技术专业” 及“大数据管理与应用专业”。

    “大数据技术与应用”专业是2016年教育部公布的新增专业。2017年共有62所职业院校获批“大数据技术与应用”专业,2018年共有148所职业院校获批“大数据技术与应用”专业,2019年度新增195所高职院校获批“大数据技术与应用”专业。截止目前,总计405所高职院校成功申请该专业。

    第二章 教学平台

    红亚大数据教学平台基于高校的教学场景,运用云计算技术,集课程实验、算法实战、数据科研、考试于一体的实训平台,平台课程共计800多个任务。学生可通过浏览器访问使用,可在学校任何一个网络可达的场所进行学习。

    系统课程学习模式包括实验平台、项目路径和职业路径,满足不同场景的教学需求。在教学管理方面,平台自带人工智能课程推荐功能,可为学生提供个性化课程推荐及AI课程助手,助力学生定向就业。还可以通过大数据分析,自动生成学业报告,为学生就业提供桥梁,并作为教师教学的得力助手,为高校的学生能力培养及教师的工作提供强有力的支持。

    2.1 学习模式

    2.1.1 实验平台

    该模式以知识体系为核心,将大数据内容按照不同类型的知识模块进行分类。如大数据基础体系下包含了:Linux基础、编程基础、数学基础、数据库基础等课程;大数据进阶体系包含了:Hadoop、Spark数据处理、R语言、Python数据处理、SAS数据分析等课程;该模式围绕一个内容展开了多方面知识的学习,与现在教育方式一致,保留了师生们传统的学习授课方法。不仅如此,为满足学校的已有的课程教学资源,老师可以自定义实验内容及实验镜像,将文本类、实操类、视频类课件上传到教学平台上满足教学需求。

    2.1.2 职业路径

    该模式以职业岗位需求为核心,综合分析国内众多企业的大数据相关人才岗位需求,如大数据运维工程师、大数据研发工程师、大数据架构工程师,经过采集、筛选、对比、定模等一系列的流程,将岗位技能需求落实到具体的知识点,围绕一个岗位展开多方面相关技术的学习。

    教师在后台可以将实验按照所需知识点的难易程度设计成一套流程体系。学生按照流程开始实验,将每一模块的技能牢牢掌握后,到最后具备胜任该职业的能力,可为自身职业发展提供有效帮助。

    2.1.3 项目路径

    项目路径学习模式是以还原企业的真实项目完成过程为设计思路,将大数据技能知识点与实际项目案例相结合,让学生能够真实的体会到每个知识点在实际项目中的具体作用。

    将一个项目拆分成多个实验,多个实验间共同使用同一实验环境,以实现项目的连贯性和真实性。项目提供整套的实验环境及配套工具,用户在切换实验时对应的实验环境不会改变,在下一个实验会继续使用上一实验的实验环境,并最终完成该项目。具体项目案例包括大数据集群运维项目、图书馆管理系统的设计与实现、IBM离职率分析等。

    2.2 练习算法

    2.2.1 算法集

    算法集提供了一个环境,用户可以在里面写代码、运行代码、查看结果,并在其中可视化数据,并与平台中的数据集功能进行交互式使用,可直接调用平台当中的数据集用于算法在实际数据中的实践测试。鉴于这些优点,它能帮助他们便捷地执行各种端到端任务,如数据清洗、统计建模、构建/训练机器学习模型等。

    算法集的一个特色是允许把代码写入独立的cell中,然后单独执行。这样做意味着用户可以在测试项目时单独测试特定代码块,无需从头开始执行代码。虽然其他的IDE环境(如RStudio)也提供了这种功能,但就个人使用情况来看,算法集的单元结构是设计的最好的。

    算法集的优势还体现在灵活性和交互性上,除了最基础的Python,它还允许用户在上面运行R语言。由于它比IDE平台更具交互性,教师也更乐于在各种教程中用它来展示代码。

    2.2.2 数据集

    数据集功能提供数量众多的大数据数据集,包括互联网、零售、电商、医疗等相关数据集,数据集中的数据可直接与算法集中的算法进行交互使用,为算法提供所需数据的调用支撑。

    教师可根据数据集的内容、格式、数量等为学生设定开放式课题,使用真实的数据集进行大数据项目案例处理分析,深度理解掌握大数据技术是如何处理这些数据的,例如,教师给定一份数据让学生进行预测实验,学生需设计算法进行清洗与预测等。

    平台提供开放式上传功能,支持用户将自己的数据上传至平台当中,并可设定是否与他人共用,可帮助用户解决数据存放管理问题,实现用户数据的开放式共享。

    2.3 在线考试

    2.3.1 理论考核

    理论考核采用在线考核模式,将单选题、多选题、判断题、填空题、简答题添加在试卷上,每一道题的题目、正选、分值等内容可由管理员自行设置,简答题题采用关键词进行自动判分,同时也可以由教师手动判分。

    2.3.2 实践测评

    实践测评考核模式是以实验操作过程为考核点,也称之为实操题考核模式,由教师在管理端设置考核步骤、分值权重,平台提供配套的实验考试环境。学生在实际操作过程中遇到的考核点,需要根据实际结果去填写,到最后统一汇总分数。该模式突破了传统的考核模式,通过实操的方式来加深印象,巩固大数据知识。

    2.4 智能教务

    2.4.1 教学进度分析

    课程实验具有核全局开关功能,打开全局考核后,进行所有实验时都必须完成实验当中设定的每一步考核才能查看下一步。接着,系统不仅自动检测到正在进行实验,也可以手动设定实验状态分析(也可以手动设置分析目标)。查看分析结果时可查看每个班级的学生在进行每个实验时完成度,查看每个实验的每个步骤的通过率、完成率、完成进度、实验总结信息等。

    教学进度分析功能可通过智能化的手段,有效帮助教师分析并掌握整个班级的学习情况,根据学生完成实验的进度过程进行授课,选择重点难点部分进行针对性讲解,有效降低教师授课压力,高效完成授课任务。

    2.4.2 教学计划管理

    管理员在后台可以一次性布置全部的教学计划,规定上课时间与学习课程,随后学生通过在前端查看,即可了解到每一天的课程安排。

    2.4.3 实验报告管理

    教师通过此功能查看学生的实验报告,支持预览和批阅等功能,后台自动统计学生学习数据,展示出每个步骤的学习通过时间、成绩正确率、班级排名等信息,并将实验数据与学生的实验报告有机结合,形成完成的实验报告。此功能相较于传统的实验报告,增加了学生的学习数据统计功能,可大大的减轻教师的负担,同时为教师了解班级整体的学习状况提供的有力的支持。

    2.5 平台管理

    2.5.1 用户管理

    为满足教师方便的管理班级学院,平台提供用户组织管理功能。其中用户管理显示平台用户的信息列表,管理端可对平台用户信息进行编辑与删除,根据信息进行用户模糊筛选,便于管理平台用户;角色管理显示平台现有角色,用户可编辑新的角色并赋予角色权限;组织结构管理显示平台现有的组织机构,管理端可以也可根据层级分步添加组织、学院、系别、专业、班级,对同级别下的机构进行排序。

    2.5.2 资源管理

    用户可以在此查看版本信息、用户数量、实验数量,资源监控及用户虚拟机监控。同时后台资源监控中心可查看平台的用户数量、实验数量、职业路径数量、项目路径数量、算法集数量、数据集数量、用户分布、活跃用户等数据;实时的CPU、内存、硬盘、实例的使用情况和该时刻学生实验进行的状态;可对虚拟机进行监控所处状态。该功能的实现可便捷精准的反应出学生的问题所在,可对实验平台进行实时状态的查看,又同时提高了老师的教学质量和效率。

    第三章 教学课程库

    3.1 实验体系

    大数据实验体系按照大数据基础、大数据采集、大数据存储、数据处理、数据分析、数据挖掘、数据可视化、深度学习、机器学习和大数据案例组成。

    3.1.1 大数据基础

    3.1.1.1 Linux基础

    Linux系统是开源软件,其可靠性得到肯定,是当今举世瞩目、发展最快、应用最广的主流软件之一。在服务器平台、嵌入式系统和云计算系统所运行的操作系统中,Linux占很大比重。大数据主流框架Hadoop、Spark都架设在Linux系统上,所以现在学习和应用Linux成为众多用户和学生的首选。

    Linux基础32 Linux基础32 Linux系统概述3 Linux简介

    Linux应用领域

    Linux优势

    字符操作环境2 使用Shell

    字符编辑器VI

    Linux文件系统3 Linux文件

    ext3文件系统

    安装和卸载文件系统

    进程管理2 Linux进程概述

    进程控制命令

    常用命令介绍5 目录操作

    文件操作

    磁盘操作

    文本编辑

    帮助命令

    用户管理4 Linux用户账户概述

    管理用户和群组

    命令行配置

    用户管理器配置

    系统监控与备份4 显示系统进程

    查看硬件信息

    查看日志文件

    数据备份与恢复

    软件包管理4 RPM概述

    RPM包的命令介绍

    查看软件包(检查软件包签名)

    软件包管理工具

    管理网络服务4 守护进程服务

    配置FTP服务

    配置邮件服务器

    Apache服务器

    3.1.1.2 编程基础

    编程基础包含Python基础、R语言基础、Scala基础和Java基础四大模块共计81个实验项目。针对每一个所讲解的知识点都进行了深入分析,并使用生动形象的情境化举例,将原本复杂的、难于理解的知识点和问题进行简化,针对每个知识点,精心设计了相应的问题,让学习者不但能掌握和理解这些知识点,并且还可以清楚地知道在实际工作中如何去运用。

    编程基础81 Python基础38 Python基础38 Python介绍

    Python开发环境搭建

    Python基本数据类型

    Python变量

    Python基本输入输出

    Python模块

    Python运算符与表达式

    Python选择与循环结构

    Python序列操作

    Python列表常用方法

    Python元组

    Python列表解析式与生成器表达式

    Python字符编码

    Python字符串基本操作

    Python字符串格式化

    Python字符串方法

    Python正则表达式与re模块

    Python字典创建与使用

    Python字典方法

    Python集合创建与使用

    Python集合常用运算

    Python文件基本概念

    Python打开与关闭文件

    Python文件对象基本方法

    Python数据序列化与反序列化

    Python文件与文件夹基本操作

    Python函数的定义和调用

    Python函数参数

    Python变量作用域

    Python函数返回值

    Python函数嵌套定义、闭包、装饰器

    Python类的定义和使用

    Python构造方法与析构方法

    Python成员访问权限

    Python继承

    Python异常概念与常见表现形式

    Python常见异常处理结构

    Python的raise语句

    R语言基础14 R语言基础14 R语言开发环境搭建

    R语言对象与属性

    R语言向量

    R语言矩阵和数组

    R语言列表

    R语言数据框

    R语言构建子集

    lapply函数

    apply函数

    mapply函数

    split函数

    tapply函数

    R语言重复值处理

    R语言排序

    Scala基础16 Scala基础16 Scala开发环境搭建

    Scala控制结构和函数

    Scala数组相关操作

    Scala映射与元组

    Scala类与对象

    Scala包管理

    Scala继承

    Scala文件和正则表达式

    Scala特质

    Scala运算符(原本为scala操作符)

    Scala高阶函数

    Scala集合

    Scala模式匹配和样例类

    Scala类型参数

    Scala高级类型

    Scala隐式转换和隐式参数

    Java基础15 Java基础15 Java开发环境搭建

    Java的类和对象

    Java标识符、关键字与运算符

    Java基本数据类型

    Java流程控制

    Java继承与多态

    Java抽象类与接口

    Java内部类

    Java异常处理

    Java集合类

    Java基础类库

    Java泛型

    Java的输入与输出

    Java数据库操作

    3.1.1.3 数学基础

    数字在数学体系中稳固的位置,而大数据技术也和数学紧紧地结合在一起。数学基础共计信息论、线性代数、概率论与数理统计、数值计算和最优化方法五大模块30个实验项目。大数据技术本身是一门交叉性学科,统计方法为核心,所以学习数学基础就显得尤为重要。

    数学基础30 信息论6 信息论6 熵

    联合熵

    条件熵

    相对熵

    互信息

    最大熵模型

    线性代数7 线性代数7 标量

    向量

    张量

    范数

    矩阵

    特征分解

    几种常用距离计算

    概率论与数理统计8 概率论与数理统计8 随机变量

    概率分布

    贝叶斯公式

    期望

    方差

    协方差

    常见分布函数

    最大似然估计

    数值计算3 数值计算3 数值计算概述

    上溢和下溢

    计算复杂性与NP问题

    最优化方法6 最优化方法6 最优化理论概述

    最优化问题的数学描述

    凸集与凸集分离方法

    梯度下降算法

    启发式优化方法

    牛顿法和拟牛顿法

    3.1.1.4 数据库基础

    数据库已是当今信息社会须臾不可脱离的重要工具,数据库的教学也就成为计算机科学与技术专业的一门必修课程。在大数据技术中,数据库种类繁多,包括了Exce、MySql、Oracle等等,学习数据库基础是为大数据的存储做准备。

    数据库基础54 excel6 Excle6 Excel函数与公式

    Excel数据统计与汇总

    VBA程序基础

    VBA数据类型

    VBA流程控制

    VBA综合应用

    mysql11 Mysql11 MySQL简介与安装

    MySQL创建连接

    MySQL操作数据库

    MySQL操作数据表

    MySQL操作数据

    MySQL条件限定与正则表达式

    MySQL表的连接

    MySQL排序、分组与过滤

    MySQL结果合并

    MySQL函数

    MySQL导入与导出

    oracle8 Oracle8 Oracle安装与卸载

    Oracle数据类型(文本)

    表的创建与管理

    简单查询

    单行函数

    分组统计查询

    多表查询

    Sybase PowerDesigner设计工具

    mongodb8 MongoDB8 MongoDB简介与安装

    MongoDB创建连接

    MongoDB操作数据库

    MongoDB操作集合

    MongoDB操作文档

    MongoDB条件操作符与正则表达式

    MongoDB之Limit与Skip方法

    MongoDB排序与聚合

    redis+memcache11 Redis10 Redis简介、安装与配置

    Redis命令(包括Redis键)

    Redis数据类型

    Redis基数统计

    Redis服务器与连接

    memcached简介与安装

    memcached连接

    memcached存储

    memcached查找

    memcached统计

    SQLite(10) SQLite10 SQLite简介与安装

    SQLite操作数据库

    SQLite操作数据表

    SQLite操作数据

    SQLite条件限定与通配符

    SQLite表的连接

    SQLite排序、分组与过滤

    SQLite结果合并

    SQLite之Explain细节描述

    SQLite函数

    3.1.2 大数据采集

    3.1.2.1 Python爬虫

    Python爬虫是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,可使用Python爬虫对数据进行采集。

    Python基础知识41 Python基础简介4 Python语言概述

    为何学习Python语言

    Python主要应用领域

    Python开发环境搭建

    初识Python7 Python基本数据类型

    Python变量

    Python基本输入输出

    Python模块

    Python运算符与表达式

    Python选择与循环结构

    Python猜数字游戏

    列表与元组4 Python序列操作

    Python列表常用方法

    Python元组

    Python列表解析式与生成器表达式

    字符串与正则表达式5 Python字符编码

    Python字符串基本操作

    Python字符串格式化

    Python字符串方法

    Python正则表达式与re模块

    字典2 Python字典创建与使用

    Python字典方法

    集合2 Python集合创建与使用

    Python集合常用运算

    文件操作5 Python文件基本概念

    Python打开与关闭文件

    Python文件对象基本方法

    Python数据序列化与反序列化

    Python文件与文件夹基本操作

    函数5 Python函数的定义和调用

    Python函数参数

    Python变量作用域

    Python函数返回值

    Python函数嵌套定义、闭包、装饰器

    面向对象4 Python类的定义和使用

    Python构造方法与析构方法

    Python成员访问权限

    Python继承

    异常处理结构3 Python异常概念与常见表现形式

    Python常见异常处理结构

    Python的raise语句

    Python 爬虫19 爬虫初识3 爬虫简介

    爬虫应用场景

    爬虫基本工作原理

    网络请求基础6 TCP/IP协议

    HTTP请求格式

    HTTP常用请求头

    响应状态码

    浏览器发送HTTP请求的过程

    cookie和session

    使用Python发送网络请求5 Requests模块介绍

    使用Requests发送post请求

    使用Requests发送get请求

    使用Requests发送带Header请求

    使用Requests发送带参数请求

    Python爬虫实战5 XPATH介绍及节点选择

    LXML介绍及使用

    对抗反爬虫措施

    网站数据爬取实验

    IP代理数据爬取

    3.1.2.2 Flume数据抽取

    Flume 是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集、聚合和移动大量日志数据到一个集中式的数据存储区。Flume是在数据采集中有比不可少的一个环节。

    Flume7 Flume简介

    Flume架构与工作原理

    Flume安装与配置

    案例:Avro

    案例:Spool

    案例:Exec

    案例:Syslogtcp

    3.1.2.3 Kafka+zookeeper

    Kafka它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。Kakfa也是数据采集的中一个重要环节。

    ZooKeeper7 ZooKeeper7 Zookeeper简介

    Zookeeper工作原理

    Zookeeper安装与配置

    Zookeeper基本操作实例

    集群管理

    共享锁

    队列管理

    Kafka4 Kafka简介

    Kafka工作原理

    Kafka安装与配置

    生产者消费者实例

    Kafka案例

    3.1.2.4 ELK

    ELK为数据的收集、传输、存储、分析和警告提供了一整套解决方案,并且都是开源软件,之间互相配合使用,完美衔接,高效的满足了很多场合的应用。目前主流的一种日志系统。

    ELK10 ELK10 ELK简介

    安装与配置Elasticsearch

    安装与配置Logstash

    安装与配置Kibana

    处理JSON格式Nginx日志

    处理Nginx日志

    处理Apache日志

    处理Twitterdingyue

    纽约交通事故数据分析

    美国联邦选举委员竞选捐款数据分析

    3.1.3 大数据存储

    3.1.3.1 HDFS存储

    HDFS 主要是为了应对海量数据的存储,由于数据量非常大,因此一台服务器是解决不能够应付的,需要一个集群来存储这些数据。在这个集群中,存在一个 NameNode 节点,该节点用于管理元数据,即用户上传的文件位于哪个服务器上,都多少个副本等信息。此外,还有多个 DataNode 节点,这些节点就是文件存储位置。

    Hadoop基础4 Hadoop初识简介4 Hadoop介绍

    Hadoop体系架构

    Hadoop软件安装及配置

    单节点伪分布式安装

    分布式存储HDFS5 分布式存储HDFS5 HDFS安装

    HDFS的相关概念

    HDFS的文件存储机制

    HDFS的数据存储管理

    HDFS的数据的读写过程

    3.1.3.2 HBase存储

    HBase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。HBase是一种分布式存储的数据库,技术上来讲,它更像是分布式存储而不是分布式数据库,它缺少很多RDBMS系统的特性,比如列类型,辅助索引,触发器,和高级查询语言等待。

    HBase6 HBase6 HBase简介

    HBase的shell应用v2.0

    使用Hive操作HBase

    HBase的JavaAPI应用

    HBase学生选课案例

    HBase微博案例

    3.1.4 数据处理

    3.1.4.1 Pandas数据处理

    Pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

    使用pandas进行数据处理13 基础概念4 Series和DataFrame简介

    DataFrame常用属性方法

    数据访问

    文件读取(原读写文件)

    数据清洗3 pandas缺失值处理

    pandas重复值处理

    pandas异常值处理

    数据集成2 使用键参数的DataFrame合并

    轴向连接

    数据变换4 利用函数或映射进行数据转换

    替换值

    重命名轴索引

    离散化和面元

    3.1.4.2 R语言数据处理

    R语言在处理数据的过程中,经常需要根据需求从完整的实验设计和数据中筛选、整理出可以直接使用的部分,这就涉及到数据整理和变换工作。常用的数据整理和变换主要包括以下几类:选取特定分析变量、筛选满足条件的数据、按照某个变量排序、对数据进行分组和汇总。

    R语言数据处理17 R语言数据处理12 R语言数据导入

    R语言数据导出

    R语言重复值处理

    R语言缺失值处理

    R语言空格值处理和字段抽取

    R语言记录抽取和随机抽样

    R语言记录合并

    R语言字段匹配

    R语言数据标准化

    数据分组

    日期格式处理与日期抽取

    虚拟变量

    3.1.4.3 SAS数据处理

    SAS数据处理系统主要完成以数据为中心的四大任务:数据访问、数据管理、数据呈现、数据分析四个步骤,一下实验可以满足这个四个大任务的使用。

    SAS数据分析(34) SAS基础简介4 SAS基础简介4 SAS概述

    SAS的特点及模块组成

    SAS软件基本介绍-SAS_Studio安装过程

    SAS数据导入导出4 SAS数据导入导出4 读数据和生成数据集

    写数据

    导入数据

    导出数据

    条件判断和循环语句3 条件判断和循环语句3 SAS语句的基本组成

    条件判断语句

    循环语句

    SAS数据分析综合应用5 SAS数据分析综合应用5 建立营销响应模型

    预测股票价格

    建立信用评分模型

    预测门店销售额

    人口教育情况分析

    3.1.4.4 Spark数据处理

    Spark是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。所以使用Spark进行数据分析比Hadoop的MR快很多。

    Spark数据处理(82) Spark基础19 Spark简介5 Spark介绍

    Spark体系架构

    Spark安装与配置

    Spark运行模式

    Spark生态系统BDAS

    Spark核心概念4 RDD弹性分布式数据集

    RDD的依赖关系

    RDD共享变量

    Spark优化

    RDD编程10 创建RDD

    转化操作

    行动操作

    惰性求值

    传递参数

    持久化

    Pair_RDD的创建

    Pair_RDD的转化操作

    Pair_RDD的行动操作

    数据分区

    数据读取与存储13 文件系统2 Amazon_S3的读取与存储

    HDFS中的读取与存储

    数据库4 Cassandra

    Elasticsearch

    HBase

    Java_JDBC连接

    文件格式7 文本文件的读取与存储

    JSON文件的读取与存储

    CSV与TSV文件的读取与存储

    序列文件的读取与存储

    对象文件的读取与存储

    Hadoop的输入输出读写

    压缩文件的读取与存储

    Spark程序结构4 Spark程序结构4 Spark架构设计

    Spark算子分类

    Spark核心组件

    Spark程序执行基本流程

    Spark流式计算6 Spark流式计算6 Spark_Streaming介绍

    Spark_Streaming架构

    Spark_Streaming部署

    Spark_Streaming编程

    Spark_Streaming性能调优

    Flume、Kafka与Spark Streamng结合使用

    Spark SQL9 Spark SQL9 Spark_SQL介绍

    Spark_SQL架构

    DataFrame

    Spark_SQL的Shell

    Spark_SQL的UDF使用

    JDBC操作MySQL

    Spark_SQL性能调优

    网站日志分析实例

    Spark与机器学习13 Spark Mllib13 特征提取和转化

    降维操作

    协同过滤算法原理及使用

    FP-growth算法及使用

    Spark机器学习的优势和潜力

    Spark_MLlib的数据类型

    线性回归算法原理与使用

    逻辑回归算法的原理及使用

    支持向量机算法原理与使用

    朴素贝叶斯算法原理与使用

    决策树算法原理与使用

    随机森林算法原理与使用

    K-Means算法原理与使用

    GraphX7 GraphX7 GraphX简介

    Graphx常用数据结构

    GraphX图算法

    GraphX属性图

    GraphX图操作符

    GraphX-Pregel-API

    PageRank算法实战

    案例分析11 案例分析11 网络日志分析

    电商广告案例

    实时路况案例

    黑名单案例

    性别预测案例

    年龄预测案例

    垃圾邮件案例

    图片分类案例

    电影推荐案例

    推荐系统案例

    金融数据分析案例

    3.1.4.5 Impala与Storm

    Impala它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

    Impala3 Impala3 impala简介

    数据库语句

    impala table操作

    Storm5 Storm5 Storm简介

    Storm架构与运行原理

    Storm安装与配置

    Storm入门实例

    Storm日志分析实战

    3.1.4.6 MapReduce

    MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

    MapReduce编程模型7 MapReduce编程模型7 MapReduce简介

    MapReduce架构

    MapReduce接口类

    MapReduce代码编程

    MapReduce经典案例—WordCount

    分布式资源调度系统YARN的安装

    MapReduce和YARN命令

    3.1.5 数据分析

    3.1.5.1 Hive数据分析

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

    数据仓库Hive6 Hadoop数据仓库Hive6 Hive简介

    Hive-DDL

    Hive-DML

    Hive UDFV

    Hive数据清洗项目

    Hive统计UV项目

    3.1.5.2 Python数据分析

    Python数据处理需要完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据等技能。

    Python相关算法23 分类与预测6 决策树

    K近邻分类算法

    支持向量机

    Python随机森林

    Logistic回归分析

    人工智能网络

    常用聚类分析算法3 K-Means聚类算法

    系统聚类算法

    DBSCAN聚类算法

    关联规则算法2 Apriori算法简介

    Apriori算法应用

    协同过滤算法2 基于用户的协同过滤算法

    基于物品的协同过滤算法

    时间序列数据分析4 时间序列预处理

    平稳时间序列分析

    非平稳时间序列分析

    Python主要时序模式算法

    离群点检测方法4 离群点检测概述

    基于密度的离群点检测方法

    基于聚类的离群点检测方法

    基于距离的离群点检测方法

    数据降维2 数据降维概述

    常用降维方法-1.机器学习简介

    常用降维方法-2.机器学习数学预备知识

    常用降维方法-3.常用降维方法的目的

    常用降维方法-4.常用降维方法解读

    模型调优与实战8 模型评估与调优3 模型评估和调优的意义

    评估指标

    模型调优建议与注意事项

    数据分析与挖掘实战5 电子商务的智能推荐

    财政收入分析

    电商产品评价分析

    电力窃漏识别分析

    电器使用情况分析

    3.1.5.3 Pig数据分析

    Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。

    Pig语言7 Pig简介

    Pig的安装与运行

    命令行交互工具Grunt

    Pig数据模型

    Pig Latin基础知识

    Pig Latin关系操作

    Pig Latin高级应用

    3.1.5.4 R语言数据分析

    R语言提供数据分析功能,主要课程包括了R语言的基础进阶部分、R语言数据分析部分以及R语言案例。

    R语言基础18 R语言简介3 R语言概述与应用领域

    为何学习R语言

    R语言开发环境搭建

    R语言数据结构6 R语言数据类型

    Array数组和factor因子

    List列表和DataFrame数据框

    R语言程序结构

    R语言向量化计算

    对象改值3 就地改值

    逻辑值取子集

    缺失信息

    R的记号体系2 值的选取

    发牌实例和洗牌实例

    S类系统4 S类系统简介与属性

    泛型函数

    S类系统方法

    类、S3与调试

    R语言数据分析11 R语言数据分析11 基本统计

    对比分析

    分组分析

    分布分析

    交叉分析

    结构分析

    相关分析

    简单线性回归分析

    多重线性回归分析

    RFM分析

    矩阵分析

    R语言数据分析综合应用10 R语言数据分析综合应用10 建立销售响应模型

    预测销售额

    水质评估

    财政收入分析预测模型

    骑车数据可视化分析

    房价指数的分析与预测

    电商评论情感分析

    航空公司价值分析

    游戏玩家付费行为预测

    用户留存分析实战

    3.1.6 数据挖掘

    3.1.6.1 SAS和R数据挖掘

    SAS和R语言可以在基础的教学和分析上进行数据的挖掘,主要课程如下。

    SAS数据挖掘6 SAS数据挖掘6 主成分分析

    因子分析

    聚类分析

    判别分析

    相关分析

    生存分析

    R语言数据挖掘11 R语言数据挖掘11 数据挖掘简介

    数据挖掘常见问题

    数据挖掘流程

    分类预测基本流程

    R语言数据预处理(一)

    R语言数据预处理(二)-转换

    R语言决策树分类方法

    R语言高级分类方法

    R语言聚类分析与关联分析

    智能推荐

    时间序列

    离群点检测

    R语言网页数据抓取3 R语言网页数据抓取3 HTML数据抓取

    JSON数据抓取

    使用Google分析网页结构

    3.1.6.2 Mahout

    Mahout是Apache Software Foundation(ASF)旗下的一个开源项目。提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用Apache Hadoop库。 Mahout可以有效地扩展到云中。

    Mahout5 Mahout5 Mahout简介

    推荐算法

    聚类算法

    分类算法

    使用Mahout构建职位推荐案例

    3.1.7 数据可视化

    3.1.7.1 Matplotlib可视化

    Matplotlib可能是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。下面的课程将会探索 matplotlib 的常见用法。

    可视化技术与matplotlib6 可视化与Matplotlib6 绘制折线图

    绘制散点图

    绘制饼状图

    绘制柱状图

    绘图区域分割

    结合pandas进行数据可视化

    3.1.7.2 SAS和R可视化

    R语言使用dplyr、tidyr、reshape2 等包的数据操作方法; base、lattice 和ggplot2包的图形语法进行可视化展示。SAS可视化文本分析综合运用自然语言处理、机器学习和语言规则,从非结构化数据中获取价值。该课程可解决各行业面临的业务难题,包括:管理和解释记录、评估风险和欺诈、以及通过客户反馈及早发现问题。

    SAS数据可视化7 SAS数据可视化7 图形绘制

    条形图

    饼图

    散点图

    箱型图

    R语言数可视化8 R语言数据可视化8 R语言饼图

    R语言散点图

    R语言折线图

    R语言柱形图

    R语言直方图

    R语言箱线图

    R语言树形图

    R语言地图和热力图

    3.1.7.3 可视化工具

    可视化除了编程语言之外还可已使用Echart、NodeBox、Inkscape等这样的工具进行可视化处理。

    可视化工具6 可视化工具:python

    可视化工具:Echart

    可视化工具:NodeBox

    可视化工具:Inkscape

    可视化工具:Open Layers

    可视化工具:Leaflet

    3.1.8 大数据案例

    大数据正在改变我们的世界。互联网发展以及移动通信市场和相关技术的迅速扩张也已创建大量的数据包括结构化数据和非结构化数据。数据可用性和数据应用对商业和更广泛的社会领域带来了巨大影响。有效使用大数据有助于公司更精准地对重要信息进行分析很终提高运营效率、减少成本、降低风险、加快创新、增加收入。本平台详细介绍了大数据策略的规划和执行配以不同行业里不计其数的现实案例加以阐述。

    Hadoop项目案例8 Hadoop项目案例8 QQ好友推荐算法

    PageRank算法

    Tf-Idf算法

    数据关联案例

    ETL案例

    PV UV统计案例

    用户流失和新增案例

    Hadoop总结

    大数据案例(34) 大数据案例34 数据分析生命周期概述6 数据分析概述

    发现

    数据准备

    模型规划

    模型建立

    沟通与实施

    数据采集2 数据采集的原理

    数据采集的实验步骤

    数据清洗2 数据清洗的原理

    数据清洗的实验步骤

    可视化工具6 可视化工具:python

    可视化工具:Echart

    可视化工具:NodeBox

    可视化工具:Inkscape

    可视化工具:Open Layers

    可视化工具:Leaflet

    数据建模2 数据建模的原理

    数据分析方法与过程

    模型评估与优化2 模型-数据与实验环境介绍

    模型-数据分析方法与过程

    出租车数据分析2 出租车-数据与实验环境介绍

    出租车-数据分析方法与过程

    音乐分类2 音乐-数据与实验环境介绍

    音乐-数据分析方法与过程

    知识图谱制作2 知识图谱-数据与实验环境介绍

    知识图谱-数据分析方法与过程

    电影评论情感分析2 电影-数据与实验环境介绍

    电影-数据分析方法与过程

    金融数据分析2 金融-数据与实验环境介绍

    金融-数据分析方法与过程

    大型商场销售额预测2 销售-数据与实验环境介绍

    销售-数据分析方法与过程

    NBA篮球比赛结果分析预测2 篮球-数据与实验环境介绍

    篮球-数据分析方法与过程

    3.2 教学资源

    为满足教学需求,针对红亚大数据教学平台重点实验提供配套的PPT讲义及视频讲解,从实验知识介绍、实验目的、实验原理、实验拓展、实验过程等内容展开详细的介绍。教材建设

    红亚科技与全国高校大数据专家、出版社共同出版了一套国家“高等教育十三五规划”大数据教材,包括Hadoop、Spark、R语言、SAS、大数据综合案例技术应用实践教材。本套教材与大数据实训教学平台相辅相成,形成完整的教学资源,覆盖理论、实训、实践、实战类型,可有效的解决大数据教学资源不够完善的问题。

    第四章 数据安全科研保障箱

    数据安全科研实验箱是在建立在学生具备完善的数据安全基础知识的层面上的,在学生掌握了一定的数据安全攻击防御学科知识的同时,亦可进行学科性的知识拓展研究;在一定程度上可延伸学生的学习和知识掌握能力;同时更加全面的提高了学生的综合知识能力。

    数据安全科研实验实验箱集成了四种处理器,包括A8处理器、M4处理器、Z32处理器、FPGA编程板,可通过编程实现如下科研项目:SM2密码算法与实现、12684液晶屏串行显示实验、SLE4428逻辑加密卡实验、SM3密码杂凑算法程序设计。

    更多相关内容
  • 来源:联界6月15-18日,世界交通运输工程技术论坛(WTC 2021)在西安举办。本次论坛以“新技术·新模式·新交通”为主题,旨在提供酝酿创新、主导创新、展示创新和实施创新的交流平台,...

    来源:车联界

    6月15-18日,世界交通运输工程技术论坛(WTC 2021)在西安举办。本次论坛以“新技术·新模式·新交通”为主题,旨在提供酝酿创新、主导创新、展示创新和实施创新的交流平台,内容涵盖学术交流、成果推广、产品展示、学科报告与标准发布等内容。

    27fba0c5915c4d2318308bce4e5c659d.png

    大唐高鸿数据网络技术股份有限公司副总经理毕海洲在“可感知可计算的智慧高速公路建设与运营”论坛发表了主题为“车路协同高速建设的思考与实践”的演讲,以下为不改变原意的演讲总结。

    01

    中国信科和大唐高鸿

    中国信息通信科技集团有限公司(以下简称中国信科集团),成立于2018年,由武汉邮电科学研究院(烽火科技集团)和电信科学技术研究院(大唐电信集团)合并成立。中国信科集团是全球5G技术的重要贡献者,也是LTE-V2X技术提出者,其4G/5G专利、车联网专利全球排名均处于第一梯队。

    大唐高鸿是中国信科集团旗下上市公司,也是集团车联网业务的骨干载体。其车联网团队从2012年即开展我国核心知识产权的C-V2X(LTE-V2X和NR-V2X)技术标准研究、产品开发和市场推广工作,是C-V2X标准的核心贡献者、技术引领者以及产业化的推动者。在智慧高速领域,大唐高鸿致力于成为集通信、融合感知、数据汇集为一体的智慧高速神经网络提供商。

    02

    车路协同智慧高速

    毕海洲认为,2021年是十四五规划的开端之年,也是建设交通强国的关键节点。2021年2月,中共中央、国务院印发了《十四五国家综合立体交通网规划纲要》,明确提出三大要点,即优化交通布局、融合发展、智慧发展来进一步推进交通强国建设。其中融合发展指交通要和服务网络、信息网络融合发展,提升交通业的服务水平;智慧发展指要提升交通运输治理水平,这两点都离不开C-V2X车路协同的有效支撑。

    有了C-V2X车路协同,才能更好的获取车辆及周边道路信息,提供基于场景的伴随式信息服务,基于数字化和网联化,实现科学管理、闭环决策。

    智慧高速公路需要建什么?

    车路协同智慧高速,是在新一代通信网络支撑下的端边云协同架构,同时面向客户需求,提供灵活的应用支撑能力。智慧高速建设的最终目标是整合车-路信息资源,通过C-V2X等新一代信息技术的运用,实现信息闭环,提高管理决策和交通服务能力。

    毕海洲提出,建设智慧高速公路,第一、要有丰富的异构网络支撑能力,包括基于光纤的有线专网、基于C-V2X的无线专网、基于5G的信息娱乐公网、多种接入方式的物联网网络等;第二、要有可以接受智慧化服务的智能网联汽车,其中最关键的就是要有C-V2X 车载终端OBU和人机交互界面HMI;第三,在智慧化道路建设上,传统的摄像头、交通雷达要向更精准感知的路侧传感器演进,信息发布手段要从传统的情报板向C-V2X 智能路侧设备RSU演进,同时要增加分布式的边缘计算;第四、要基于大数据和云计算技术,实现云汇聚、云决策、云存储;最后,智慧高速公路建成后,必须要能够支撑丰富的业务应用。

    智慧高速公路该如何建?

    毕海洲认为,车路协同技术是实现高速公路数字化、网联化的必要手段。智慧高速建设需遵循“全面感知、深度结合、主动服务、科学决策”的主线,充分利用车路协同技术,实现道路的可视可测可控。通过建设智慧交通的大脑(智慧云控)和神经网络(智能路侧系统),将“聪明的车、智慧的路、灵活的网、统筹的云、强大的服务”进行泛在互联,通过边云结合、AI智能计算等,结合多渠道服务传递,以科学量化的方式为交通管理与决策提供依据。

    同时,毕海洲还提到,在智慧高速建设中,需要重视三个体系的建设:一、重视信息安全体系建设,保证信息不被劫持、不发布虚假信息;二、重视接口体系建设,保证实现多厂家、多地区的互联互通;三、重视应用开发体系建设,从而更好的支撑丰富的第三方应用开发。

    毕海洲介绍,目前,大唐高鸿在路侧智能系统建设和C-V2X数据汇聚、分析方面具有领先的技术研发优势和成熟的落地经验,可为高速公路业主方提供有针对性的智慧高速解决方案。

    03

    大唐高鸿智慧高速解决方案

    针对智慧高速,大唐高鸿可提供“云边端”协同建设方案。在车端,通过集成C-V2X通信功能、高精度定位功能,为车辆提供车路协同感知融合、决策建议以及人机交互界面;在路侧,可以集成感知、计算、通信功能,打造新型基础设施数字化底座;在云端,可以实现数据汇聚、存储,边云协同,为上层应用提供丰富的数据支撑。另外,在项目建设过程中,根据积累的经验也形成了一些内部的建设规范和标准,包括云边端协同信息交互的标准、智慧高速的建设方案等。

    5d94a8895036b9e43dd361b340f5bc8b.png

    毕海洲认为,车路协同建设涉及云边端的改造,需要有一个建设过程,很难一蹴而就,可以结合道路信息化基础、预算情况,分步进行建设。

    他建议,智慧高速的建设可以根据服务目标不同采取分级服务策略。为了更好的服务终端用户,可以采用C端分级触达方式:对于装有C-V2X OBU的车辆,可以提供毫秒级服务,例如前向碰撞预警、紧急制动预警、合流区碰撞预警等等;对于没有C-V2X OBU的车辆,可以通过在路侧部署可变情报板的方式提供秒级服务,例如隧道内异常情况通知;此外,还可以跟传统的导航服务相结合,在导航APP上增加分钟级动态信息服务。道路基础设施的选型上也要充分考虑道路的主要服务对象,提供不同能力等级的建设方案:对于辅助驾驶场景来说,只需要提供中低精度的信息服务;对于自动驾驶场景来说,则需要提供高精度的信息服务,不管是位置精度还是准召率,都要有更高的要求。因此,不同服务等级的建设方案在设备选型上会有很大差异,需要针对目标合理配置。

    04

    智慧高速车路协同案例分享

    G5021石渝高速(原G50S沪渝南线高速)是重庆重要的骨架公路网之一,也是全球地质、气象条件最复杂的典型公路。涪陵至丰都段(涪丰路段)所处区域地质、气象条件复杂,包含隧道群、特大桥、急弯、急下坡、多雾、积水、上下行车道分离等多种影响交通安全的不利因素,桥隧比高达47%以上,能充分代表高速公路需要应对的多种复杂交通场景。

    大唐高鸿与合作伙伴一起在该路段部署了350余台RSU,400余套路侧感知、计算、显示设备,覆盖了12处隧道、8处交通互通、5处事故多发区域,打造出目前国内系统最完整、场景最齐全、C-V2X覆盖里程最长、规模最大、商用化程度最高的首条实际运行的高速公路。该项目通过软硬件利旧,与既有业务系统充分对接,极大优化了整条路段的改造成本,是“老路”智慧改造升级的典型。

    051bcdc23784346605331a3e1817ce46.png

    毕海洲介绍了大唐高鸿为石渝高速涪丰段打造的“车—路—网—云—图—位”一体化解决方案,实现了高速可视、可测、可控的目标。目前第一阶段,大唐高鸿已经完成了道路基础设施建设的智慧化改造,其打造的操作维护平台,具备车路协同设备的远程监控、状态诊断、数据分析、错误修复、系统优化、升级维护等功能,实时汇聚交通大数据的同时,也具备了高可靠、易使用、易操控、便于维护等特点。

    接下来,大唐高鸿将与合作伙伴一起围绕“大数据+AI”共同进行深度挖掘,将数据分析和用户体验融合,进一步提升道路资源远程控制能力,让交通大数据管理更加精准可靠,从而为业主提供更多有效的车路协同服务,让业主手里的数据资产发挥更大价值。

    ada1133144369dd8f11fcd75dff477f7.png

    展开全文
  • V2X车路协同云控数据平台业务整理

    千次阅读 2021-05-08 13:13:45
    清楚【V2X车路协同云控数据平台】是做什么的?为什么需要?如何去做?(wwh的问题what\why\how)肯定是必选项; 其次我们还要清楚需要解决的核心问题有哪些: 端和侧与云端监控平台数据的上下行整体通路是怎样的...

    目录

    v2x车路协同云控平台的WWH问题

    1、关于v2x的简单理解&思考

    2、关于车路协同理解&思考

    3、关于云控理解&思考

    4、v2x车路协同云控平台的整体实现架构

    5、中心云平台技术挑战-车路协同流计算引擎

    6、博文参考


    V2X即Vehicle-to-Everything,是智能汽车和智能交通的支撑技术之一;首先我们要明确梳理该篇文章能够达到哪些目标?清楚【V2X车路协同云控数据平台】是做什么的?为什么需要?如何去做?(wwh的问题what\why\how)肯定是必选项;

    其次我们还要清楚需要解决的核心问题有哪些:

    • 车端和路侧与云端控制平台数据的上下行整体通路是怎样的?(智能路侧&自动驾驶车感知设备<—>v2x边缘云计算<—>v2x中心云数据平台—>高精地图&百度地图&车载设备)
    • 车路协同相关的数据对象有哪些?(静态数据:sensor|rscu等设备信息;动态准实时数据:融合感知交通参与对象&交通事件&设备在线数据)
    • 如何支撑车端和路侧各类sensor感知检测数据的高频率、准实时接入到云端平台,并进一步进行融合服务各类业务?(上行通路)
    • 云端平台如何稳定输出数据到可视化的高精地图、智能网联(车载设备)、公众出行(百度地图)等服务?(数据输出通路)
    • mqtt\flink\tsdb\bos\kafka等技术组件再中间承担的重要作用以及核心技术方案有什么?(通信|业务计算|数据存储&转发)

    v2x车路协同云控平台的WWH问题

    1、关于v2x的简单理解&思考

    v2x主要包含vehicle-to-vehicle (V2V), vehicle-to-infrastructure (V2I), vehicle-to-network (V2N)以及vehicle-to-pedestrian (V2P)。其希望实现车辆与一切可能影响车辆的实体实现信息交互,所以包含了车辆与车辆、与路侧设备、与网络、与人的交互感知;我们可以理解为一种规定的车与车、车与人、车与路之间要实现通信的标准;如果我们实现了这种标准的话,L5级的自动驾驶实现起来会很容易,现有自动驾驶车辆的传感器就可以大大减少(目前只能达到L2~L4级别自动驾驶)

    • 车车通信能够计算车辆之间的距离,不需要使用雷达等;
    • 车路通信能够实现车辆在交叉路口与路侧设备以及信号灯的感知,那么车辆的摄像头可以减少一些;
    • 车人通信能够让车辆知道行人在哪里,是否有可能产生碰撞等,同样可以减少雷达和摄像头的使用;

    要全面实现V2X是及其困难的一件事

    • 首先拿车车通信来说吧。V2X是基于5G标准的一个车联网标准,这就要求市面所有车辆全部具备5G通信能力,这意味着目前中国道路上跑的汽车全部不符合要求,那么把现有汽车全部换为具备5G通信能力的汽车,你可以想想需要多久?
    • 再拿车路通信,那这要求所有的道路两旁以及交叉路口的信号灯也要具备5G通信能力,这就是国家一直所说的新基建,你可以评估这需要多久?(项目重点推进)

    V2X的实现能够大大降低自动驾驶的难度,但V2X实现本身就是一件非常困难的事情。所以现有的自动驾驶方案都是通过大量的传感器来实现。我认为V2X是实现自动驾驶的必由之路,但需要等上几年。(理想与现实之间有一条很漫长的路在等待着!)

    2、关于车路协同理解&思考

    自动驾驶界已经逐渐达成的共识:

    • 单从车端来看,车身搭载的传感器存在巨大短板,其视距较短,往往只有150-200米,FOV角也很有限,无法大范围感知道路环境,也难以识别重要路标,尤其是文字。如果要对于整个画面做计算的话,对于算力的要求会很高。另外,遮挡、恶劣天气等对于单车传感器的感知能力影响明显。鲁棒性、场景适应性、数据的准确性都会受到影响。(总结单车感知高成本、高技术壁垒)

    • 如果路侧的同构感知设备等基础设施完成布局时,车端则可以摆脱部分昂贵的传感器,用后视镜、摄像头等相对简单的传感器保障基本安全,配合交叉路口的信号灯和路侧通信计算设备(RSCU|RSU)边缘计算分担计算压力,共同实现高级别的自动驾驶(总结车路协同)
    • 车路协同主要涉及车端、路端和云端三个端口。路端会部署摄像头、毫米波雷达、激光雷达等多种传感器设备,这些设备与车端传感器是同构的,因此可以更方便地实现数据的传输与交互;

    3、关于云控理解&思考

    云端借助感应设备采集来的大数据进行数据处理分析、构建业务场景;万辆出租车一天就会上传数亿条 GPS 数据,加上车牌、监控等数据,交通有关的数据量级已经从 TB 等级跃升到了 PB 等级。

    云端也可以分为中心云和边缘云,边缘云的作用是在数据最初级、最密集的边缘端提供具有云端计算能力的服务器(例如百度自研RSCU),是在最接近源头的地方将数据初步处理,同时也可以减轻中心云端的接入和运算压力,中心云与边缘云计算的结合可以将云计算的效率和成本发挥到最佳水平

    除了计算能力强,云端还可以对交通流做集中控制,构建起云控平台。同样在分析完所需要的数据后,根据云计算的结果,云平台也可以通过车路协同系统网络自动下发实施控制信号,实现全自动、全工况的动态交通系统控制。例如实时交通管理服务功能域中的交通控制子功能,当各个车辆上传的位置、速度以及方向等大数据通过云控平台的云计算系统,计算出一周中不同时段不同路段不同方向的车速及流量情况后,动态的计算出各个路口各个方向红绿灯的相位和时间,达到最优的通行速度,并将这些结果数据通过云控平台发送到各个路口的信号灯控制器,实施动态控制信号灯的绿信比,达到交通效率最优控制(其实是一种交通研判)。

    4、v2x车路协同云控平台的整体实现架构

            总结前面所说传统的单车自动驾驶需要单车搭载大量的成本高昂感应器(毫米波|激光雷达、摄像头),即使这样单车感应也存在视距只有150~200m、FOV视角有限,无法大范围感知道路环境,也难识别路标、文字,恶略天气影响,如果需要对整个画面做感知计算的话,对于算力的要求也很高,所以利用V2I车路协同的理念(也是政府现在大力推动的新基建),在路侧150m间隔布置与车端同构的感知设备(毫米波|激光雷达、摄像头),车端则可以摆脱部分昂贵传感器,用后视镜、摄像头等相对简单的传感设备可保障基本安全;再配合部署路侧的RSCU|RSU具备通信、计算能力的(边缘云服务器)设备,实现传感器数据的采集和边缘云计算的能力;路侧RSCU最终将感知算法识别的数据输出到中心云(机房服务器)的各系统中做进一步的计算业务处理,边缘云和中心云结合将计算效率和成本发挥到最佳;同样中心云也会接收来自车端通信计算设备OBU一部分感知业务数据;【v2x车路协同云控数据平台】主要承担的就是中心云的能力,最终赋能到智能网联场景(例如百度的度小镜)、公众出行场景(百度地图app)以及交通监管业务(目前主要业务,结合高精地图实现的大屏前端+B端管理后台)

    • 【V2X】依赖统一的路侧基础感应设施、车辆感应设备|定位通信设施、以及统一的网络模式;
    • 【车路协同云控】通过部署于 路侧的RSCU|车端的OBU 提供边缘云的能力实现边缘感知计算、决策控制的能力;
    • 【车路协同云控】中心云的负责将车端、路侧的融合感知数据、sensor设备数据进行采集、分析,最终应用到智能网联场景(例如百度的度小镜)、公众出行场景(百度地图app)以及交通监管业务(目前主要业务,结合高精地图实现的大屏前端+B端管理后台)
    • 路漫漫其修远兮~~~~

    车路协同云控数据平台相关数据对象

    • 车路融合感知数据:障碍物(行人|机动车|非机动车|特殊物品)&交通事件数据(危险行为|道路状态)
    • 车端车辆相关数据&路侧sensor设备相关数据:基础数据&车端GPS|CAN|里程统计数据&路侧各类sensor设备|RSU|RSCU通信计算设备在线状态|数据流量数据

    5、中心云平台技术挑战-车路协同流计算引擎

    • 各类路侧、车端感应器设备的在线情况、故障的准实时监控;(利用mqtt遗嘱消息|心跳包+层级主题+qos实现物联网数据的接入,结合kafka实现海量消息的集成 的功能)
    • 各类实时高频(10hz+)车端、路侧感知障碍物数据、交通事件数据的融合、抽帧降频;(flink流处理引擎的窗口计算)
    • 路侧设备的数据量实时统计、交通路口车流数据实时统计;
    • 结合高精地图实现交通监管的大屏可视化需求,实现智能网联(度小镜)&公众出行场景(百度地图app)的数据输出对接需求;

    5.1、基础技术选型

    a、物联网设备数据的接入离不开 Mqtt/MqttBroker

     最开始就是为物联网设备的网络接入而设计的,物联网设备大多都是性能低下,功耗较低的计算机设备,而且网络连接的质量也是不可靠的,所以在设计协议的时候最需要考虑的几个重点是:

    • 协议要足够轻量,方便嵌入式设备去快速地解析和响应。
    • 具备足够的灵活性,使其足以为 IoT 设备和服务的多样化提供支持。
    • 应该设计为异步消息协议而非同步协议,这么做是因为大多数 IoT 设备的网络延迟很可能非常不稳定,若使用同步消息协议,IoT 设备需要等待服务器的响应,对于为大量的 IoT 设备提供服务这一情景,显然是非常不现实的。
    • 必须是双向通信,服务器和客户端应该可以互相发送消息。
    • mqtt broker主要设计的侧重点就是实现即时通信。
    • 公司自研物联网核心套件Iot Core,支持原生Mqtt即时消息传输协议,实现在智能设备与云端之间建立安全的双向连接( TLS/SSL 双向认证);

    b、结合Kafka实现大量设备消息采集-存储-处理

            mqtt broker仅仅起到消息转发的作用,即物联网设备的消息转发(主动推送)到数据处理程序。当物联网设备数量巨大,某个瞬间推来大量数据,会导致处理程序应接不暇,特别是数据库达到瓶颈。此问题最普遍的解决模式——采用消息队列,把消息可靠的保存下来,再慢慢的处理(被动拉取),而这正是kafka的功能

            Kafka 虽然也是基于发布/订阅范式的消息系统,但它同时也被称为“分布式提交日志”或者“分布式流平台”,它的最主要的作用还是实现分布式持久化保存数据的目的。Kafka 的数据单元就是消息,可以把它当作数据库里的一行“数据”或者一条“记录”来理解,Kafka 通过主题来进行分类,Kafka 的生产者发布消息到某一特定主题上,由消费者去消费特定主题的消息,其实生产者和消费者就可以理解成发布者和订阅者,主题就好比数据库中的表,每个主题包含多个分区,分区可以分布在不同的服务器上,也就是说通过这种方式来实现分布式数据的存储和读取, Kafka 分布式的架构利于读写系统的扩展和维护(比如说通过备份服务器来实现冗灾备份,通过架构多个服务器节点来实现性能的提升),在很多有大数据分析需求的大型企业,都会用到 Kafka 去做数据流处理的平台。

    c、结合Flink提供设备数据流的有状态实时计算处理

            海量的设备消息数据需要进行一些高性能、高可靠、分布式的Flink流计算引擎的流计算处理,例如 车流量数据、设别数据量的实时统计,感知交通参与对象、交通事件数据的抽帧降频场景;我们需要对上述四类业务数据场景做窗口准实时计算,窗口计算需要使用到状态,同时flink提供了完备的状态管理机制;

    什么场景会用到状态呢?下面列举了常见的 4 种:

    • 去重:比如上游的系统数据可能会有重复,落到下游系统时希望把重复的数据都去掉。去重需要先了解哪些数据来过,哪些数据还没有来,也就是把所有的主键都记录下来,当一条数据到来后,能够看到在主键当中是否存在。
    • 窗口计算:比如统计每分钟 Nginx 日志 API 被访问了多少次。窗口是一分钟计算一次,在窗口触发前,如 08:00 ~ 08:01 这个窗口,前59秒的数据来了需要先放入内存,即需要把这个窗口之内的数据先保留下来,等到 8:01 时一分钟后,再将整个窗口内触发的数据输出。未触发的窗口数据也是一种状态。
    • 机器学习/深度学习:如训练的模型以及当前模型的参数也是一种状态,机器学习可能每次都用有一个数据集,需要在数据集上进行学习,对模型进行一个反馈。
    • 访问历史数据:比如与昨天的数据进行对比,需要访问一些历史数据。如果每次从外部去读,对资源的消耗可能比较大,所以也希望把这些历史数据也放入状态中做对比。

    参考:1、业务团队使用Flink简要梳理_a1290123825的博客-CSDN博客

    d、时序数据存储&持久化消息队列&缓存

    • 对于设备数据量、车流量两类数据,我们需要展示其历史趋势、周期规律,所以该类数据我们要存储到TSDB时序数据库中;
    • 对于感知交通参与对象数据、交通事件数据我们需要利用持久化消息队列将其进行存储、转发;
    • 对于硬件设备状态心跳检测数据我们通过缓存进行并发存储;

    e、that's not all

            上述技术更多是中心云端的技术能力,相对于整个自动驾驶相关技术栈只是冰山一小角,需要关注了解的技术栈还有许多,许多,许多。。。。

    来自知乎:自动驾驶学习资料 
    其他自动驾驶相关学习资料:

    6、博文参考

    展开全文
  • 重庆大学大数据与软件学院阿里云大数据实训总结报告 阿里云大学&慧科集团 实训背景 1)符合重庆市8+3计划:“八项行动计划”着眼长远、突出三年,“三大攻坚战”锁定三年、志在必胜; 2)符合国家教育部...

    重庆大学大数据与软件学院阿里云大数据实训总结报告

    阿里云大学&慧科集团

    1. 实训背景
      1)符合重庆市8+3计划:“八项行动计划”着眼长远、突出三年,“三大攻坚战”锁定三年、志在必胜;
      2)符合国家教育部产教融合大背景;
      3)阿里云+慧科+重庆市政府战略合作在人才培养方面落地探索的第一步;
      4)重庆大学作为领头羊,在新专业建设上给兄弟学院的示范和引领效应。
    2. 实训创新和特色
      在互联网技术不断普及、云计算技术高速发展的背景下,大数据(云计算)+移动互联网技术成为推动企业走向成功的重要因素,然而熟练掌握这两个技术领域的高端人才极为稀缺,因此移动互联网时代的大数据专业人才在未来相当长的时间内,将深受各行各业青睐。
      本实训项目致力于系统的融合大数据学科的前沿技术、阿里云最先进的云上计算实验资源、海量行业实战经验和权威的课程体系,与学校理论知识融合,采用以学生自主学习为核心教学方式,基于“三实”理念设计实训内容,通过短期集中强化训练,帮助学生深入理解所学专业知识的应用场景及应用技巧,同时有力地掌握相关行业的必备技能。
      (1)独创的三实教学模式,通过实际场景、实践项目、实战检验,将企业真实操作环境搬入课堂,通过真实实践项目来对知识点进行巩固和加强,将零碎的知识揉合在一起,让学生对知识有一个整体性的认识,最后在有足够技能储备的基础上进行实战检验,通过实战学生不仅对项目中用到技术理解进一步加深,在项目中获得的成长和自我探索的过程也是很宝贵的财富。

    在这里插入图片描述
    (2)将知识点融进场景中,体现从易到难,循序渐进的方式推进课程的演进,帮助学习者从无意识无能力的学习状态,逐步提升到无意识有能力的无缝学习状态,培养学生发现问题,提出解决方案的假设,并验证可行性的创新思维模式,再通过交互式的教学指导学生的学习方向,通过线上线下相结合的方式将教学目标和思维提升到更高的层次,为教师提供创新路径,完成人才和教师的双重赋能。

    在这里插入图片描述
    (3)依据慧科研究院独创的fast能力矩阵,融入工程教育认证标准毕业要求12条,基于iCome教学设计法以及prefect翻转课堂教学设计理念,并结合重庆大学的学生特点,实现实训效果最大化。

    1. 实训群体
      重庆大学大数据与软件学院大三学生。
    2. 实训收益
      本次实训充分体现了教育部“产教融合,协同育人”的思想,为学校、企业、政府以及学生带来不同程度的收获。
      (1)通过实训,帮助学校推进协同实践育人新机制,推进科研人员和企业之间双向流动,释放创新活力,通过多措并举,加强师资队伍建设,最终达到强化多方联动,深化校地企合作实现资源共享的目的。
      (2)通过实训,可加快企业人才储备,将人才培养前置到课堂,让学生在校期间就能感受真实企业生产环境中,毕业入职后,可快速上手,缩短学生和企业间的磨合期,减少企业人力资源成本,达到双赢的局面。
      (3)通过实训,深化政府、企业、和科研院所合作,发挥人才赋能基地的桥梁和纽带作用,加强政产学研用的深度融合,助力政府战略性新兴产业引智引资。
      (4)通过实训,增强学生在大数据方向上的动手及分析能力,同时结合传统软件工程专业的知识体系,使学生在掌握传统信息技术的同时,又掌握大数据等相关技术针对不同场景的应用方法。具体包括但不限于:
      λ 掌握针对不同场景任务的分析方法与开发逻辑;
      λ 掌握不同场景下,大数据技术的应用方法及技巧;
      λ 熟悉掌握大数据开发与分析工具的使用方法,并有效地完成相应实训任务;
      λ 系统的锻炼学生针对不同项目的团队协作能力、沟通能力、逻辑思维、组织能力及实际动手能力等;
      λ 能够根据企业的业务需求,制定出基于阿里云的数据类产品设计方案及解决方案;
      λ 能够开通并使用数据类的产品,包括云数据库 RDS、QuickBI、云服务器ECS、大数据计算服务 MaxCompute、大数据开发套件 DataIDE 等。
      在这里插入图片描述
      能力模型图
    3. 实训内容
      实训内容设计采用全新的人才培养模式,致力于培养云计算大数据技术相关应用领域的“高层次、实用型、国际化”的跨界复合型人才。以互联网大产业背景为基础,采用校企联合的模式,部分应用阿里云全新实验室平台,依托雄厚师资,产学研相结合,力求打造适应新形势,具有最前沿思维和技能的云与大数据人才。
      实训内容

    课程名称
    项目概述
    授课时长
    使用Quick BI 制作企业数据分析报表
    内容
    本课程可以帮助学员掌握图形化报表设计、开发的方法,同时还将掌握搭建企业级报表门户。
    6学时
    目标
    本例中使用阿里云的Quick BI,需事先开通阿里云官网账号,使用该账号登陆管理控制台后开通Quick BI ;
    然后,数据上传。将这些文件上传到Quick BI中,作为后续报表设计用的数据集,使用Quick BI的数据集编辑功能,对某些数据集的属性进行调整;
    通过Quick BI的丰富的图表功能设计可视化报表,将数据通过合理的方式展现;
    创建一个报表门户,将这些报表组织起来,形成一个企业级的统一报表系统。
    基于阿里云数加构建企业级数据分析平台
    内容
    本课程可以帮助学员掌握如何根据业务需求快速搭建企业级的数据分析平台,对收集的数据进行数据分析,并通过图形化报表将分析结果展现出来。
    6学时
    目标
    学习者应该能够掌握以下知识点:
    了解数据分析的步骤和目的;
    熟悉数据分析平台搭建的组成部分;
    掌握阿里云数加不同产品及其使用场景;
    灵活使用数加的不同产品搭建数据分析平台。
    基于LBS的热点店铺搜索
    内容
    该项课程可以帮助学员掌握如何在分布式计算框架下开发一个类似于手机地图查找周边热点(POI)的功能,掌握GeoHash编码原理,以及在地理位置中的应用,并能将其应用在其他基于LBS的定位场景中,例如:共享单车的定位。
    6学时
    目标
    掌握 GeoHash 编码原理;
    掌握在分布式计算框架的使用,MaxCompute的MR的编程技巧和提交 MR 任务;
    掌握 LBS 应用的开发方法;
    MOOC网站日志分析
    内容
    MOOC网站日志分析课程可以帮助学员掌握如何收集用户访问日志,如何对访问日志进行分析,如何利用大数据计算服务对数据进行处理,如何以图表化的形式展示分析后的数据。
    6学时
    目标
    学习统计网站日志分析的一些常见指标
    掌握MaxCompute对数据进行分析处理
    掌握使用QuickBI以图表方式展示分析结果
    基于机器学习PAI实现精细化营销
    内容
    精细化营销是企业常用的的一类数据服务,本课程帮助学员了解企业进行精细化营销过程中的数据处理,掌握客户分群的基本应用方法,教会学员如何进行数据整体分析、模型构建以及后期的模型评估和生成评估报告,清楚大数据在企业营销中的作用。
    6学时
    目标
    了解精细化营销的概念和适用场景
    了解机器学习如何实现精细化营销
    掌握利用PAI实现精细化营销
    提升利用机器学习解决问题的能力
    使用MaxCompute进行数据质量核查
    内容
    数据质量问题一直是大数据分析系统关注的重点,如何发现数据质量问题,提升数据质量,一直是各生产及业务系统的追求点。通过此课程,可迅速掌握发现数据质量问题的方法,解决数据质量问题。
    6学时
    目标
    根据具体的场景需要,实现如下的数据监控场景,并最终输出数据质量监控报告。
    错误值:某些时间格式存在问题,导致数据库人员将部分时间字段设置成了字符串型。
    监控场景:订单表内订单时间格式出错。
    重复值:订单系统中部分记录关键信息重复(同样的人在同样的时间下了不同的订单),导致客户投诉。
    监控场景:订单表同一客户同一时间下了多次订单。
    数据不一致:地市信息名称未标准化,导致在数据分析时,未能把相同地域的数值汇总在一起。
    监控场景:客户信息表省份信息异常。
    数据完整性:配送的订单在订单表中不存在,导致物流人员空跑,效率下降。
    监控场景:配送的订单在订单表中不存在。
    缺失值:部分客户性别信息缺失,影响后续使用。
    监控场景:客户信息表性别信息缺失。
    异常值:单月购买次数异常(当月购买次数大于10次)。
    监控场景:同客户单月购买次数异常(当月购买次数大于10次)。
    利用MaxCompute部署股票交易策略
    内容
    技术已经成为金融业的资产并在交易中体现了主导能力。通过本课程用户将学会股票的一些基本概念、常见的交易策略以及现实中的股票交易场景,并且还能学会运用阿里云MaxCompute构建股票交易策略模型。
    6学时
    目标
    了解常见的股票交易策略,掌握一个简单的动量交易策略的开发,并能根据目的选择合适的股票交易策略;
    能够使用MaxCompute建立简单的股票交易模型;
    熟悉使用阿里云MaxCompute的大数据开发套件DataIDE快速、便捷的分析阿里云公用股票数据集;
    了解时间序列数据和一些最为常见的金融分析的知识,例如滑动时间窗口、波动率计算等等;
    使用MaxCompute搭建社交好友推荐系统
    内容
    本课程可以帮助学员了解如何使用阿里云大数据计算服务快速搭建企业级的社交好友推荐系统,掌握使用云端相关大数据服务进行开发和测试的能力。
    6学时
    目标
    了解社交好友推荐系统工作的原理;
    熟悉好友推荐系统的开发流程,使用 MaxCompute 插件进行本地数据开发;
    掌握阿里云数据分析产品的操作方式,使用 DataIDE 开发数据分析任务;
    电影评价数据的采集
    内容
    电影评价网站记录着观影者对电影的喜好程度和评价信息,通过对相关网站用户评价信息的收集,可以为电影相关的数据的分析和挖掘做支撑,常见的后期应用包括:对电影针对的用户群体做分析、获得大众娱乐/舆情热点、电影推荐(广告推送)等。该场景也可推广至其他行业评价数据的应用。
    6学时
    目标
    了解网络内容爬取的基本流程、解析方法和工具使用;
    掌握数据采集和数据存储的过程;
    使用时间序列分解模型预测商品销量
    内容
    本实验在阿里云PAI机器学习平台上,对某零售商的一款产品的销量进行了预测及分析。模型分为两个部分,一个部分是线性回归模型,选取了该产品的促销幅度、促销手段对实际销量进行回归;另一部分为时间序列分解建模,对线性回归模型的误差进行时间序列分解,从而可以在一定程度上解释线性模型的误差并提高整体预测的准确率。
    6学时
    目标
    熟练运用阿里云相关产品来构建和部署价格弹性时间序列分解模型。
    学会根据模型的结果进行商品定价与促销决策。掌握商品销量预测的基本概念。
    学会根据模型的结果进行商品定价与促销决策。掌握商品销量预测的基本概念。
    了解常见的预测方法和价格弹性时间序列分解模型的优缺点和所适用的场景。
    使用阿里云的相关产品来构建和部署销量预测的模型。
    学会根据模型的结果进行商品定价与促销决策。

    1. 实训过程和成果
      本次实训根据prefect 翻转课堂画布精细化设计每一堂课程的教学过程,在此过程中以学生学习行为全过程作为主要教学路径,弱化教师在过程中的主导作用,以问题引导的方式激发学生自主设计解决方案。整个过程有别于传统知识点教学模式的低效模式,通过激发学员的兴趣、主动学习和探究,以到达学以致用,边学边用的高效模式。
      在这里插入图片描述
      实训将企业实战场景贯穿实训全过程,授课师资拥有丰富的实践经验和教学经验,结合企业化的思维方式,带领学生以流程化的方式完成一个完整的项目。实训分为两个阶段,第一阶段,学生主要通过对10个综合行业案例进行数据分析及数据挖掘后,可以较好地掌握大数据相关技术及工具的使用方法;第二阶段,35个学生自主分为7个项目团队,以小组工作的模式通过数据处理、构建模型等方式针对真实场景中的实际项目进行实战锻炼,不仅将大数据技术应用于实际问题解决,亦有助于培养其基于“问题-假设-证伪”的科学创新思维。

    在这里插入图片描述
    如下图所示,小组同学以重庆旅游景点为分析主体,通过爬取美团网、马蜂窝平台上的真实数据,进行数据预处理和机器学习等操作,最终根据好评率、变异系数、往年客流量,将重庆景点划分为优质景点、较好发展潜力景点、具有一定发展潜力景点和没有发展潜力景点,不仅能够通过数据为政府提供政策扶持参考和客流量预测,还可以为游客提供包含景区特点、游览攻略、性价比等在内的完整的景区游览攻略。
    在这里插入图片描述
    经过为期三周的学习,参加实训的35名学生不仅全部通过阿里云大数据助理工程师认证(简称ACA),也在结题报告会中用一个个精彩、新颖的项目打动了评委,最终选题为“基于链家网的北京二手房大数据分析”的团队以课题设计意义、后续规划及技术难度等优势获得最高分,并获得了参加企业暑期夏令营的机会。
    在这里插入图片描述
    7. 实训总结
    本次实训基于软件工程学生已有知识与技能,聚焦大数据专业知识,结合真实行业案例,采用阿里云先进的云上计算实验资源、智慧学习平台高校邦创新性进行混合式教学方式以及线下资深行业导师辅导,从理论到应用,使学生深入地理解所学专业知识的应用场景及应用技巧,同时增强软件工程专业学生在大数据方向上的技术与工具应用能力、问题求解能力、数据思维决策及评估能力、自主创新和团队协作等多方面能力。

    附:学生作品

    1、FCLOUD组
    在这里插入图片描述在这里插入图片描述

    该组同学把重庆租房数据作为爬取主体,旨在通过大数据分析,为人们尤其是刚参加工作的、经济能力不高的应届毕业生提供合理的租房信息,解决租房市场发展不完善导致的信息不对称等问题。本项目数据来源于我爱我家、贝壳、安居客等平台,通过对房屋多属性分析,最后对结果进行可视化呈现,客户可以根据租赁方式、地区、楼层、房源价位、租赁热度等特征进行多维度的选择。
    2、法国不赢不改名组
    在这里插入图片描述

    该组的项目是从相关的外卖平台(如:饿了么,美团外卖等)入手,通过爬虫技术获取不同的外卖平台的众多不同的店铺信息和数据,使用MaxCompute对不同店铺的质量程度进行评估以及综合分析,最后在百度地图和QUICK BI中进行可视化呈现,可为顾客推荐性价比最高的店铺和食品,为商家在哪些地段开店更为合适,哪些食品具有更好的销量等方面提出建设性的意见。

    3、冠军法国队

    在这里插入图片描述
    该组同学通过在boss直聘上爬取9万余条数据,得到对重庆地区的各个公司招聘信息数据,并对数据进行预处理后,在DatalIDE中进行分析整理和挖掘,最终将结数据结果进行可视化展示,帮助大家迅速了解各个职位的薪资、要求以及公司的潜力等等信息,方便相互比较做出合理选择,同时政府也可以通过招聘信息判断当前重庆的人才需求。
    4、郭总组

    在这里插入图片描述
    该组同学借助链家网二手房源数据,爬取到北京市房源数据,依托阿里云平台进行模型设计,根据楼宇等多方面信息对北京地区的二手房源进行分析,最后对分析结果进行可视化展示,模型预测准确率高,正负误差小,为买房者和卖房者提供参考。

    5、Qzlhl组

    在这里插入图片描述
    在这里插入图片描述
    该组成员对重庆IT行业职业分布进行爬取和分析,从而帮助个人科学合理地进行择业、降低择业风险,同时为企业和地方政府提供定制化咨询服务。在分析数据的过程中,通过编写爬虫程序来爬取招聘网站的信息,然后选取恰当的数据模型,利用阿里云平台工具对原始数据进行的清理,集成以及变换,为求职者和政府双方提供定制化的咨询服务。

    6、选择题全队组

    在这里插入图片描述该组同学选重庆火锅作为数据采集主体,通过爬取大众点评、美团、口碑网的重庆火锅相关数据,对数据进行预处理,然后通过阿里云数加平台对数据进行分析,将重庆火锅店按照不同区域,不同口味,店家特色等特征为用户进行推荐,并进行热度和性价比排序,帮助用户找到心仪的火锅店铺。
    7、可爱如猪组
    在这里插入图片描述
    该组同学以重庆旅游景点为分析主体,通过爬取美团网、马蜂窝平台上的真实数据,进行数据预处理和机器学习等操作,最终根据好评率、变异系数、往年客流量,将重庆景点划分为优质景点、较好发展潜力景点、具有一定发展潜力景点和没有发展潜力景点,不仅能够通过数据为政府提供政策扶持参考和客流量预测,还可以为游客提供包含景区特点、游览攻略、性价比等在内的完整的景区游览攻略。

    展开全文
  • 文章目录实习总结或体会(通用10篇)实习总结或体会(一)实习总结或体会(二)实习总结或体会(三)实习总结或体会(四)实习总结或体会(五)实习总结或体会(六)实习总结或体会(七)实习总结或体会(八)实习总结...
  • 美团实习总结

    2021-07-18 11:25:46
    2、项目中的收获 通过两个月的实习经历,有以下收获的感想: 1、学会了美团一些内部工具的使用,比如git,rds,ones。 2、熟悉了整套开发流程。从自己设计接口文档和数据库表,到实现,到开发完成之后,用junit进行...
  • 京东实习总结

    万次阅读 2017-08-20 21:20:37
    这学期索性就在京东找了个实习。到周五离职的时候,算了算,自己在京东呆了也有半年了。现在想想,这半年真是一晃就过了。半年前自己不知道该干什么、学什么的小白,现在总算是找到了感兴趣的方向。
  • 来源:中国工程院院刊作者:施文、王楷文、俞成浦、孙健、陈杰,控制理论与控制工程专家、中国工程院院士。多无人系统协同作为一项人工智能的颠覆性技术,将在空间上分布的无人系统有机连接起来,在给社...
  • 软件工程实训总结

    千次阅读 2013-12-13 19:51:37
    在校外实习已经接近尾声,现在把我在校外实习实训做一个总结。总的来说,在这段时间里学到了很多,不单理论知识得到扩充,个人专业技术水平上也有了较大的提高,对行业的认知更加清楚,这次实训对我今后的发展有重大...
  • 人工智能实训室建设方案专业背景介绍人工智能核心技术人工智能七大主要技术人工智能四大要素人工智能技术应用领域人工智能人才培养目标人工智能技术服务专业岗位与职业能力唯众人工智能技术服务专业课程设置专业学习...
  • 导读:随着云边协同平台的不断发展,数据处理领域也在悄然发生着变化:一方面,数据的主要来源仍以不断增长的“人”(即用户)为基础,但逐渐向“物”发生转变;另一方面,在数据来源更加丰富的前提下,...
  • 边缘计算与云计算协同

    千次阅读 2019-11-07 07:32:25
    1 边云协同放大边缘计算与云计算价值1.1 边缘计算概念 边缘计算是在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的分布式开放平台,就近提供边缘智能服务,满足行业数字化在敏捷联接、实时...
  • 程序员毕业实习报告,5000字

    千次阅读 多人点赞 2020-10-09 11:27:13
      我所在的实习岗位是一个所属Java部的程序开发岗位,主要工作是配合团队开发编写后台语言。由于是初次出来实习,所以我会在开发的初始阶段找一些相关的网站和对应的资料进行参考性学习,通过这些资料或许可以提升...
  • 人工智能课程实训方案

    千次阅读 2020-03-18 12:44:02
    实训系统平台方案融合操作系统、数据库、编程语言、Python数据处理、人工智能等课程,人工智能领域涉及深度学习、机器学习、深度学习、自然语言处理、计算机视觉等诸多方面,课程类型包括基础实训、关键技术掌握...
  • 本科实习报告

    千次阅读 2022-02-06 21:57:03
    1,2020.10.26-2020.11.01 了解自己实习的主要内容,工作环境,任务以及注意事项并对我们进行培训为接下来工作做准备。 2,2020.11.02-2020.11.08 对车辆水温传感器检测并分析故障原因与排查 3,2020.11.09-2020.11.15 ...
  • 来源:物联网报告中心前言 2019 年边缘计算备受产业关注,一度引起了资本市场的投资热潮,很多人把2019 年称作边缘计算的元年。理性来看,造成如此火爆局势难免有...
  • 协同异构多机器人系统:综述

    千次阅读 2021-07-12 20:16:55
    展开思路 定义了MAS中的关键术语,并介绍MRS的工作流 实施的调查 介绍MRS工作流每个部分的现有工作 剩余挑战 总结展望 多智能体系统(MAS) 智能体(Intelligent Agents) 智能体是一种物理(机器人)或虚拟(软件...
  • 前不久,Waymo(前Google自动驾驶项目)向美国交通部提交了一份42页的安全报告,这份报告详细说明了Waymo如何装备和训练自动驾驶车辆,从而避免驾驶中的一般和意外情况发生。这份报告是Waymo以第一视角,对自己自动...
  • AI教学实训整体解决方案

    千次阅读 2020-03-18 12:44:34
    实训系统平台方案融合操作系统、数据库、编程语言、Python数据处理、人工智能等课程,人工智能领域涉及深度学习、机器学习、深度学习、自然语言处理、计算机视觉等诸多方面,课程类型包括基础实训、关键技术掌握...
  • 大数据实训整体解决方案

    千次阅读 2020-03-18 10:16:10
      第二章 教学平台 红亚大数据教学平台基于高校的教学场景,运用云计算技术,集课程实验、算法实战、数据科研、考试于一体的实训平台,平台课程共计800多个任务。学生可通过浏览器访问使用,可在学校任何一个网络...
  • 企在智能网联汽车时代将由制造转向创造,静待智能网联与电动化融合带来的巨变,未来已来,把握浪潮。作者:华西汽车崔琰团队下载完整PDF版本报告,请关注本公众号后台回复“201009”下载...
  • 云计算的可信新边界:边缘计算与协同未来

    万次阅读 多人点赞 2020-08-18 10:54:35
    “云边协同”成为边缘计算的核心能力与发展方向——边缘向云反馈信息,云向边缘发布指令等,完成上传下达,实现共存协同式的调度、命令、搜集、处理、计算、更新等工作。 以物联网场景为例,物联网设备产生大量数据...
  • (注:本来以为我们能够做出两辆,还用雕刻机,用亚克力板做了两个的地板,但是最后也没有用上。) 下午便开始想办法解决数字识别的问题,一个队友开始搞openmv数字识别,另一个队友开始做逻辑这方面的编程,我...
  • Waymo无人车报告:通往自动驾驶之

    千次阅读 2017-10-18 10:52:22
    Waymo的这份报告不仅是对自己八年开发的总结,也彰显了它对自己及新技术的信心。或许我们将迎来一个自动驾驶的新世界,这份报告则是一个起点。
  • 对于客户来说,购买新能源汽车考虑的重要...各个方面协同努力才能达成。企业为了确保自己的产品能够做到安全可靠,都 会根据新国标做一系列的测试,在产品送到客户手中之前,测试成为企业检验 自己产品的最后一道关口
  • 格物斯坦认为其培养的方式决定着我国人工智能产业发展的未来,人工智能实训室的建设方案构思要巧妙精湛、落实行动要迅捷完工才行。 人工智能的迅猛发展将使得人类的社会生活发生了改变,也改变了世界。人工智能深受...
  • 2020年汽车芯片行业深度报告-1

    千次阅读 2020-10-26 18:43:21
    1、芯片是软件定义汽车生态发展的基石 在智能网联汽车产业大变革背景下,软件定义汽车理念已成为共识。传统汽车采用 的分布式 E/E ...数据统一交互, 实现整车功能协同;缩短线束,降低故障率,减轻质量。2)软件架...
  • 自动驾驶汽车涉及哪些技术?

    千次阅读 2020-09-03 10:41:52
    简单来说,这是单车无人驾驶和车路协同无人驾驶的区别。 如果汽车的人工智能还不够智能,那么我们可不可以建设一种“智慧路面”,与汽车共享实时驾驶状态,从而辅助无人驾驶。 使用V2X技术,可以突破视觉死角,跨越...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,179
精华内容 871
关键字:

车路协同实训总结