精华内容
下载资源
问答
  • 基于大数据平台的异常检测场景分析方案
    千次阅读
    2022-04-16 00:41:04

    瞎写的方案,因为脚趾头想都知道投入产出比应该会很惨淡,而且异常行为检测分析也不是优先级高的功能。但是就发展趋势而言,数据安全防护会往行为分析与内部威胁防护的方向着重发展,而不是单纯止步于满足合规性要求。后续市场会在基于内容感知的行为分析与行为分析模型建立上做更多要求,而不是单纯需要一个记录会话和日志、展现合规报表的产品(当然也不怕排除部分对简易版审计产品的需求)。

    数据库审计异常场景

    平台

    数据源

    大数据安全平台

    • 数据流转

      • Sqoop
      • Flume
      • Kafka
    • 数据存储

      • Redis
      • Mysql
      • Hbase
    • 数据计算

      • Flink
      • Spark
      • Yarn
    • 数据分析

      • R
      • SparkMlib
      • Python
    • 数据服务

      • Restful API
      • Hue
      • Zookeeper

    业务应用

    简介

    背景

    • 传统数据库审计手段大多基于语句规则实现,并不适合检测数据库异常访问,缺乏有效应对内部威胁、高级威胁的手段。
    • 当前审计产品的分析模块只基于用户行为做异常行为分析,功能效果有限

    目标

    • 实现对中心各类数据库访问行为的实时异常检测,确保数据访问安全。

    数据源

    • 网上国网内网数据库原始操作日志,日增约1.7亿条。

    实现(跟老张一起写的,谢谢老张,对,就是我逼他写的)

    • 从库、表、用户三个维度开展异常行为检测,目前规划了7个子场景,主要通过模式匹配、统计分析等方法实现,核心设计思想是经常产生的访问为正常访问,不经常产生的为异常访问。

    • 根据指标数据类型共3种方式(单指标)

      • 字符数据

        • 一是利用关键词对字符型数据进行正则匹配,识别高危操作。
      • 数值数据

        • 利用3sigma检测数值型指标的上下界,判断异常访问。
      • 分类数据

        • 利用统计分位点判断访问频繁度,识别分类数据中的常用类。
    • 任务流

      • 检测告警

        • 原始数据产生后进入kafka数据流,平台获取数据进行格式化。

        • db

          • hbase
          • mysql
        • file

          • mdl
        • workflow

          • 读取模型

          • 检测计算

            • 根据具体情况使用流处理或批处理利用模型进行计算,并添加告警字段
          • 发送数据

            • metric、event数据流分别发送至hbase与mysql
      • 数据抽取

        • db

          • mysql

            • 从hbase抽取训练数据存入mysql
        • workflow

          • 数据抽取

            • 根据需要从hbase抽取特定数据加载至mysql对应的表中
          • 数据处理

      • 模型训练

        • 为数据流添加告警代码存入hbase供数据可视化,同时对异常数据产生告警事件发送至mysql或告警平台。

        • db

          • mysql

            • 读取训练数据
        • file

          • mdl

            • 写入模型文件
        • workflow

          • 训练

            • 读取训练数据进行训练
          • 存储

            • 存储参数至模型文件

    设计方案

    异常检测

    • 总体

      • 用户数异常变化

        • 数据

          • 每分钟独立用户数
        • 模型

          • 3sigma
      • 命令数异常变化

    • 用户

      • 访问不经常访问的库

        • 数据

          • 一周内库访问统计
        • 模型

      • 访问不经常访问的表

      • 执行不经常执行的命令

      • 活跃时间异常

      • 执行高危命令

        • 数据

          • 原始数据
        • 模型

          • 关键字规则
      • 组合异常

        • 数据

          • 原始数据
        • 模型

          • isoforest

    流转监控

    • 数据流

      • 增加时间字段

        • 发现

          • 原始数据自带
        • 分析

          • spark、flink计算完成后添加
        • 处置

    展示告警

    • 监控看板

      • 指标-分维度

      • 事件

    • 异常告警

      • 生成告警事件-告警平滑

    存在问题(脱敏,不做分享)

    项目计划(其实不关我的事)

    平台侧(资产的 不关我的事)

    场景侧

    • 安全审计

    • 负载预测

    更多相关内容
  • 大数据平台测试

    2021-02-24 08:53:18
    大数据平台测试包括2部分:基础能力测试和性能测试Ⅰ).基础能力测试大数据平台的基本功能和数据的导入导出对SQL任务、NoSQL任务、机器学习、批处理任务的支持大数据平台是否能够通过界面的形式方便用户进行非运行...
  • 华为FusionInsight大数据平台测试报告.pdf
  • 本文档为xxx大数据平台测试方案模板,包含测试方案、测试范围,测试的软件硬件环境、测试进度、测试人员的分工和职责以及测试流程进行详细的定义和整体的描述。
  • 大数据测试用例模板下载
  • TPC-H(商业智能计算测试)是TPC的重要测试标准之一,主要用来模拟真实商业的应用环境。 TPC-H 用 3NF 实现了一个数据仓库,共包含 8 个基本关系/表,其中表REGION和表NATION的记录数是固定的(分别为5和25),其它6个表...
  • 大数据平台测试目标与测试指标

    千次阅读 2019-06-10 10:48:00
    测试的目标 1、找到硬件设备的性能拐点,为设备规划合理的工作负载;(硬件的利用率和负荷处于较高水平,可能宕机或拖慢服务的响应速度) 2、找到系统的性能瓶颈,优化服务的实现方式;(硬件的利用率和负荷处在...

    测试的目标

    1、找到硬件设备的性能拐点,为设备规划合理的工作负载;(硬件的利用率和负荷处于较高水平,可能宕机或拖慢服务的响应速度)

    2、找到系统的性能瓶颈,优化服务的实现方式;(硬件的利用率和负荷处在正常水平,但是服务响应的延迟时间比较长)

    3、回答当前的系统能承载多少访问量

     

    性能拐点

    系统的性能主要由 支持多少并发访问 和 访问延迟时间 体现。自己的测试工作有 确定当前硬件条件下某个大数据组件在规定的延迟时间限制下所能支持的最大并发访问量 这个中心,也就是回答 当前的配置能够支持多大的场景 和 某个场景需要什么样的配置 这两个问题。

    根据下图的淘宝性能测试曲线,将单个服务器的TPS设置为 $ A_y $ ,可以兼顾利用率和运维的可靠性。

     

     

    性能瓶颈

     场景:针对场景进行优化,减小响应时间,提高吞吐量

    1、登录:限制响应时间

    2、查询:限制响应时间

     

    容量

    单节点性能 * 节点数 / 加速比(节点与加速比对应表) >= 容量 

    系统支持全所6W职工同时访问系统

    PV计算带宽
    假设网站的平均日PV:10w 的访问量,页面平均大小0.4 M
    网站带宽 = 10w / (24 *60 * 60)* 0.4M * 8 =3.7 Mbps

    PV与并发
    假设网站的日平均PV:10w 的访问量,页面平均大小0.4 M,50个派生连接数
    并发连接数 = (100000PV / 86400秒 * 50个派生连接数 * 1秒内响应 * 5倍峰值) / 1台Web服务器 = 289 并发连接数

    PV计算QPS
    系统1天内的总访问量是10w pv,该落地页的衍生连接数为50,那么系统的平均QPS
    平均QPS = 100000 * 50 / ( 8 * 60 * 60 ) = 171
    峰值QPS大概是均值QPS的3-5倍
    峰值QPS = 171 * 5 = 855

    需要测试得到的数据:
    网络带宽、单机极限并发连接数、单机极限QPS

    附指标:
    网站带宽= PV / 统计时间(换算到S)*平均页面大小(单位KB)* 8
    并发连接数 = PV / 统计时间 * 页面衍生连接次数 * http响应时间 * 因数 / web服务器数量
    QPS = req/sec = 请求数/秒 = 并发量/平均响应时间 = 总请求数 / ( 进程总数 * 请求时间 ) , 服务器数量 = 峰值时间每秒QPS / 单台机器的QPS

     

    参考:

    https://www.cnblogs.com/ratels/p/10995587.html

    https://www.cnblogs.com/LBSer/p/4605345.html

    转载于:https://www.cnblogs.com/ratels/p/10996480.html

    展开全文
  • 大数据测试方案,介绍了测试方法、测试类型、测试要求及部分测试用例,包含:大数据数据集成工具测试方法、大数据存储与处理系统功能测试要求,大数据分析系统测试要求等。
  • 随着大数据平台型产品方向的深入应用实践和Docker开源社区的逐渐成熟,业界有不少的大数据研发团队开始拥抱Docker。简单来说,Docker会让Hadoop平台部署更加简单快捷、让研发和测试团队集成交付更加敏捷高效、让产线...
  • Redis大数据平台测试方案.docx
  • Hadoop企业级大数据平台-测试报告
  • 相对于传统的软件测试大数据平台测试有新的特征体现,也需要测试人员做好相关的准备。以大部分企业都选择的Hadoop大数据平台为例,今天我们来聊聊Hadoop大数据测试的一些流程和注意事项。 虽然说针对于大数据...

    相对于传统的软件测试,大数据平台的测试有新的特征体现,也需要测试人员做好相关的准备。以大部分企业都选择的Hadoop大数据平台为例,今天我们来聊聊Hadoop大数据测试的一些流程和注意事项。

    虽然说针对于大数据平台的测试有自己的新的特征,但是总体来说,测试这份工作,万变不离其宗,Hadoop大数据测试与传统的软件测试,主要的流程还是基本一致的——

    需求分析→测试计划→线上验收测试→测试总结。
     

    Hadoop大数据测试


    在需求分析阶段,需要了解清楚开发想要实现的预期需求,在下一步的测试计划中才能针对性去测试。测试阶段,对频繁迭代更新的,以手工测试为主;对较为稳定的,可采取UI、接口、SQL等方法进行验证。

    具体到Hadoop大数据测试,其中的关键步骤,就是在于对HDFS和MapReduce的测试。

    首先是pre-Hadoop阶段验证,对输入的数据进行处理并存储到HDFS上,测试需要做到输入文件与源文件对比,保证正确性;根据需求确认获得数据的正确性;验证正确的文件被存入HDFS且被分割、复制到不同的节点。

    其次,是MapReduce阶段验证,存入HDFS的数据,要通过MapReduce进行处理。测试需要验证MapReduce进程是否正常工作;数据处理完成,输出文件是否正确;验证map时生成的key-value是否正确;验证reduce结束后聚合是否正确;输出格式是否符合要求等。

    最后是数据阶段验证,主要对生成处理过的最终数据文件以及存放到数据仓库的动作进行测试。测试需要验证检查转换规则是否被正确应用;检查数据是否加载到目标系统中且完整;通过将目标数据与HDFS文件系统数据进行比较来检查没有数据损坏。

    完成这三个阶段的测试,Hadoop大数据测试就算是基本完成了,对于存在的bug提交给相关技术人员就行了。

    关于Hadoop大数据测试,以上就是为大家分享的一些测试流程以及测试过程中的注意事项,在大数据测试当中,基于Hadoop平台去做测试是比较常见的,作为测试人员,也需要根据大数据平台特征进行相应的调整。

     

    展开全文
  • SQLFire企业级大数据平台测试报告.docx
  • Redis企业级大数据平台测试报告.docx
  • SQLFire 企业级大数据平台 测试报告 第 1 页 目 录 1. 测试目的 4 2. 测试环境 4 2.1. 硬件环境 4 2.2. 软件环境 5 3. 测试内容 5 3.1. 基本功能 5 3.1.1. 标准 SQL 能力测试 5 3.1.2. 集群分组管理 13 3.1.3 标准...
  • 环境保护智慧环保生态环保方案
  • 智慧化工厂安全监管监测大数据平台建设方案 智慧化工园区安监大数据平台建设方案
  • 智慧环保大数据管控平台建设方案 环境保护监管检测大数据平台建设方案
  • 2021年XXX大数据平台系统测试报告(完整版).pdf
  • 介绍Tesla如何支撑阿里离线计算和实时计算两大海量大数据平台的标准化日常运维运营,以及探索如何构筑运维领域的知识图谱,打造针对大数据平台和大数据业务的数据化全息投影,实现多维的立体化监控、智能决策分析、...
  • 智慧方案
  • 1、实施例提供一种基于大数据的自动化测试方法及系统,所述方法包括:根据大数据的待测试业务逻辑特征,生成测试数据集;根据所述测试数据集进行计算,得到期望结果;将所述测试数据集采用多个测试用例类表示,所述多个...
  • 4.电商用户行为分析大数据平台(项目名称) 5.访问行为,购物行为,广告点击行为,对这些行为进行分析,使用大数据技术来帮助公司提升业绩。 6.主要的功能模块有用户session分析,页面单跳转化率统计,热门商品...
  • 企业大数据分析平台规划方案,绝对干货,下载了不后悔!包含数据加工清洗、系统架构整体设计、技术实现方案、系统测试方案、项目实施方案等
  • 开源技术催生了大量的商业发行版大数据平台软件,大数据企业级市场竞争加剧,如何测试和评估这些大数据平台软件成为新的研究主题。简要地介绍了大数据技术发展的背景以及大数据技术标准的需求,综述了国际大数据平台...
  • 4、项目中采用完全还原企业大数据项目开发场景的方式来讲解,每一个业务模块的讲解都包括了需求分析、方案设计、数据设计、编码实现、功能测试、性能调优等环节,真实还原企业级大数据项目开发场景。 模块简介: 1、...
  • (实测)针对初学者的大数据hadoop伪分布式平台搭建(包括测试环境),平台各框架组成部分均为反复核对保证兼容性。 注:本平台针以jdk8和mysql8作为基础,内含安装包的下载地址,如遇问题,可@我

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 126,981
精华内容 50,792
关键字:

大数据平台测试

友情链接: GCC.zip