精华内容
下载资源
问答
  • 故写出了一个小的爬虫...下载为5分钟时间间隔的流量数据,为了防止IP被封,每下载一周 Sleep 15秒,也可自己更改 具体使用只需要更改: 文件保存地址:save_path 需要下载的VDS列表:vds_list 下载数据的开始与结...

    由于PeMS(PeMS)下载交通数据集一次只能下载一周数据,并且要一次一次的点击,比较麻烦。
    故写出了一个小的爬虫程序,自动下载PeMS路网上VDS的数据集(前提需要FQ,需要挂全局代理)
    下载为5分钟时间间隔的流量数据,为了防止IP被封,每下载一周 Sleep 15秒,也可自己更改
    具体使用只需要更改
    文件保存地址:save_path
    需要下载的VDS列表:vds_list
    下载数据的开始与结束时间: start_time, end_time
    以及down_load_data函数中data中登陆PeMS系统的账号与密码

    PEMS官网自动下载数据集代码(需FQ

    #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    # @Time    : 2019/11/14 21:23
    # @Author  : Chenchen Wei
    # @Description: 下载PeMS流量数据,一次下载一周数据,并将下载的周数据进行合并
    
    import time
    import os
    import numpy as np
    import pandas as pd
    import requests
    
    
    def time_2_timestamp(input, lags=True):
        """默认True: 时间转化为时间戳, 包含时差计算"""
        if lags:
            timeArray = time.strptime(input, "%Y-%m-%d %H:%M")
            # 转换成时间戳
            return int(time.mktime(timeArray) + 8 * 60 * 60)  # 时差计算
        else:
            time_local = time.localtime(input - 8 * 60 * 60)
            return time.strftime("%Y-%m-%d %H:%M", time_local)
    
    
    def download(save_path, vds, start_time, end_time):
        """时间转化为时间戳"""
        start_stamp, end_stamp = time_2_timestamp(start_time), time_2_timestamp(end_time)
        i = 1
        for begin in range(start_stamp, end_stamp, 60 * 60 * 24 * 7):
            url = get_url(vds, begin)
            down_load_data(save_path, url, i)
            i += 1
            print('Sleeping...')
            time.sleep(15)  # 下载完成休息五秒
    
    
    def down_load_data(save_path, url, i):
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                                 "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
        data = {"redirect": "", "username": "账号",
                "password": "密码", "login": "Login"}
        session = requests.session()
        response = session.post(url, headers=headers, data=data)
        response = session.get(url)
        with open(save_path + '\\' + str(i) + '.xlsx', 'wb') as f:
            f.write(response.content)
            print('下载成功')
    
    
    def get_url(vds, begin):
        str_begin = time_2_timestamp(begin, False)
        s_begin = str_begin[5:7] + '%2F' + str_begin[8:10] + '%2F' + str_begin[:4] + '+00%3A00',
        end = begin + 60 * 60 * 24 * 7 - 60
        str_end = time_2_timestamp(end, False)
        s_end = str_end[5:7] + '%2F' + str_end[8:10] + '%2F' + str_end[:4] + '+23%3A59',
        url = 'http://pems.dot.ca.gov/?report_form=1&dnode=VDS&content=loops&export=xls&station_id=' \
              + str(vds) + '&s_time_id=' + str(begin) + '&s_time_id_f=' + str(s_begin) + '&e_time_id=' + str(
                end) + '&e_time_id_f=' + str(s_end) + '&tod=all&tod_from=0&tod_to=0&dow_0=on&dow_1=on&dow_2=on&dow_3=on&dow_4=on&dow_5=on&dow_6' \
                '=on&holidays=on&q=flow&q2=&gn=5min&agg=on&lane1=on&lane2=on&lane3=on&lane4=on'
        # print(url)
        print('获取url: vds[%s] %s --- %s' % (str(vds), str_begin, str_end))
        return url
    
    
    def combine_download_data(vds, path):
        num = len(os.listdir(path))
        dfs = pd.read_excel(path + '\\1.xlsx', index_col=None).values
        for i in range(2, num + 1):
            df = pd.read_excel(path + '\\' + str(i) + '.xlsx', index_col=None).values
            dfs = np.row_stack((dfs, df))
        pd.DataFrame(dfs).to_csv(path + '\\' + str(vds) + '_combine.csv', index=None, header=None)
        print('合并文件保存成功')
    
    
    if __name__ == '__main__':
        save_path = r'G:\文档\交通数据集\加州数据集\自动下载数据'  # 文件保存路径
        vds_list = [602467, 602468]  # 需要下载的VDS列表
        start_time, end_time = '2019-01-01 00:00', '2019-01-14 23:59'  # 数据下载开始于结束时间,每次下载一周,无数据则下载为空文件
    
        for vds in vds_list:
            name = start_time[2:10] + '_' + end_time[2:10]
            save_paths = save_path + '\\' + name + '\\' + str(vds)  # 创建文件保存路径
            if not os.path.exists(save_paths):
                os.makedirs(save_paths)
            print('开始下载:%s   %s---%s' % (str(vds), start_time, end_time))
            download(save_paths, vds, start_time, end_time)  # 下载文件
            combine_download_data(vds, save_paths)  # 将单个VDS下载文件进行合并
    
    

    2020年6月16日 更新(部分路网数据集)

    由于许多同学联系私信寻求数据集,因此在此将本人做研究下载的部分数据集分享出来,希望对大家有帮助:提取密码:lwil

    另提供一个自己Fork的Github,里面有部分交通数据集,可自行下载。在这里插入图片描述
    由于Github中西雅图数据也存储在谷歌网盘里面,需要FQ,因此在百度网盘中有原始数据集以及按照工作日与休息日划分后的西雅图数据集。
    此外,截止目前评论区留邮箱的同学,本人已将数据链接及数据作为附件发送至邮箱,注意查收。

    2020年7月18日 更新(论文以及部分数据集)

    由于之前百度云失效,抽空更新了下最新的百度云链接:提取码:g8ce
    另附上本人最新发表的一篇论文GE-GAN: A novel deep learning framework for road traffic state estimation(TRC),希望对大家有帮助,欢迎引用。

    还有本人了解的其他论文中公开的交通数据集及代码此部分数据集均可直接下载:
    Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting(DCRNN)
    该数据集包含Los Angeles (METR-LA) :207个检测器2012年四个月的数据
    the Bay Area (PEMS-BAY):325个检测器2017年6个月的数据

    另一个公布数据集与代码的文章为:
    Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting (ASTGCN)
    该数据集包含:
    在这里插入图片描述
    同样,已将数据集发送至所有留邮箱的同学。如未收到,可自行下载。
    点波关注不迷路,后续如发现新的交通数据集,会不定期更新。。。

    2020年11月02日 更新(data中22个检测器的数据补充说明)

    很多同学私信询问pems 22条路段的空间关系,在此说明一下,22个检测器是一条道路上的检测器,检测器顺序为文件第一行的检测器编号,即1与2相连,2与1,3相连,3与2,4相连。。。。具体空间关系可以进PEMS官网,搜VDS,会显示具体的经纬度以及检测器之间的空间关系。

    关于代码,写的太乱,就不好意思放出来了。。。后续有时间整理在更新吧。

    ,博客中提到的所有数据集都已经在上面的百度网盘还有github上面分享出来了,大家可以按照需要自行下载的哈。

    2020年11月13日 更新(代码公开)

    今天抽空重新整理了下代码,目前代码与数据集已公开,详见Github: GE-GAN: A novel deep learning framework for road traffic state estimation(TRC)
    同样,已将代码发送至要代码并留邮箱的同学。如未收到,可自行下载。

    2020年11月26日 更新(PEMS四部分数据集)

    更新高速路网数据集:出处:Spatial-Temporal Synchronous Graph Convolutional Networks: A New Framework for Spatial-Temporal Network Data Forecasting(STSGCN)
    百度网盘下载地址:提取码:p40oSTSGCN

    展开全文
  • 最近学习机器学习,网上可以找到制作好的网络流量数据集,但是我想知道这些数据集是如何收集到的,里面根据流量特征分为了不同的应用层协议,最主要想知道这些流量特征是如何提取的?用wireshark 具体怎么做呢?看...
  • 1、Activity可见的时候利用Timer开始刷新流量数据protected void onStart() { timer = new Timer(); task = new TimerTask() { public void run() { // 发送一个消息给主线程 Messa

    1、Activity可见的时候利用Timer开始刷新流量数据

    protected void onStart() {
            timer = new Timer();
            task = new TimerTask() {
    
                public void run() {
                    // 发送一个消息给主线程
                    Message msg = Message.obtain();// 消息池里面获取旧消息,避免内存溢出
    
                    handler.sendMessage(msg);
                };
            };
            timer.schedule(task, 1000, 2000);// 延时1s,每隔2s更新
            super.onStart();
    
        }
    
        @Override
        protected void onStop() {
            timer.cancel();
            timer = null;
            task = null;
            super.onStop();
        }

    2、通知Adapter刷新数据

        private static Handler handler = new Handler() {
            @Override
            public void handleMessage(Message msg) {
                super.handleMessage(msg);
                adapter.notifyDataSetChanged();
            }
        };
    展开全文
  • 流量数据化运营 流量值从数字设备上访问企业的网站、app应用、智能设备的用户行为,它主要包括用户从哪里来,在企业相关载体上有哪些行为、产生了哪些转化等。 媒体信息时代,用户行为移动化、需求个性化的复杂背景...

    流量数据化运营

    流量值从数字设备上访问企业的网站、app应用、智能设备的用户行为,它主要包括用户从哪里来,在企业相关载体上有哪些行为、产生了哪些转化等。
    媒体信息时代,用户行为移动化、需求个性化的复杂背景下,企业想要获得用户关注愈发困难。并且随着营销成本的增加,企业流量能够更高的转化为客户,精准营销需求日益突出。
    流量数据化运营需要解决的本质问题提高转化率的问题。

    流量采集分析系统工作机制

    在这里插入图片描述

    流量数据采集

    线上采集

    • 传统采集:客户端>>网站服务器>>客户端加载页面>>数据传输到采集服务器
    • Server to Server:客户端>>网站服务器>>采集服务器

    外接采集

    在这里插入图片描述
    ps:理想情况下通过API接口导入外部数据是最优选择,但综合IT人力、物力和时间投入因素,通过FTP导入数据的方式却更易于实现。前期可以考虑使用FTP自动上传的机制,待数据需求稳定且业务实现思路无误后再通过技术开发API。

    流量数据处理

    数据规则层

    1. 代码部署规则:数据采集阶段的语法规则,不同字段通过不同的语法实现。
    2. 数据采集规则:指数据发送到收集服务器时只收集符合条件的数据
      • 特定网站内容的流量:如主机名、目录、请求URL、网页标题、着陆页地址信息;
      • 特定外部来源的流量:如推荐链接、社会化媒体来源、自定义来源跟踪标记(来源、媒介、位置、广告活动、内容、关键字等);
      • 特定用户属性的流量:如浏览器、操作系统、设备信息、网络服务信息、操作设备(PC、WAP、APP应用)、国家、城市、地区、IP地址等;
      • 特定用户行为的流量:如搜索、购买、特殊事件标记、自定义用户维度等;
    3. 数据处理规则:对原始数据进行处理的规则要求

    数据处理层

    1. 通用信息处理:有些数据维度是所有网站分析都具备的:全部来源渠道、引荐来源、搜索引擎和关键字、全部页面、进入网页、退出网页、访客地域、新老访客、时间等。涉及的指标包括UV、访问量、浏览量、停留时间、IP数、跳出数、跳出率等。
    2. 特殊数据处理:特殊数据可能包括维度有:电子商务跟踪信息、产品信息、自定义渠道信息、站内搜索信息、用户路径信息、访问设备信息、目标转化信息、事件信息、漏斗信息、关联信息、用户细分和区段、归因模型信息、多渠道转化、异常检测信息、分组信息、媒体跟踪信息、A/B测试信息以及自定义维度信息等。可提供的指标可能包括:支持度、频次、首次转化价值、辅助转化价值、各级转化率、到达数、放弃率、完成率、交互度、访问价值、价格、数量、实例、位置值、登录注册数、排名、登入率、CTR、费用、周转率以及自定义指标等。

    流量数据应用

    • Web Service: SAAS模式的网站分析系统都是通过在线访问进入系统,所有在线访问产生的数据请求都可以归为Web Service,包括数据报告的下载、下钻、筛选、展现、上卷、更新、删除、新增等功能操作和分析操作。
    • Report API:部分网站分析系统支持通过API调用数据报告,并集成到其他系统。
    • Excel API:部分网站分析工具提供Excel插件,通过Excel实现数据查询、导出等操作。
    • Feed API:Data Feed只在高端网站分析工具中才提供,DataFeed是结构化的原始网站数据的集合,也可以看成是结构化后的网站行为日志,Data Feed常用来与企业数据仓库(EDW)做数据整合使用。
    • DataWarehouse:部分高端网站分析工具提供数据仓库导出接口,可直接通过数据仓库构成完整的点击流数据,这种方式更利于企业数据仓库的实现。

    流量数据运营指标

    站外营销推广指标

    1. 曝光度:指广告在站外对用户展示的次数,从技术上来讲,广告曝光指的是特定广告跟踪代码被加载的次数
    2. 点击量: 站外广告被点击的次数
    3. 点击率:常用CTR表示。点击率的计算公式为:点击率=点击量/曝光量,反映用户喜好程度,但是过高点击率可能意味着点击作弊。
    4. CPM:Cost Per Mille,每千人成本。CPM是广告典型的付费方式之一,按照每千次展现付费。如一个广告展现了10000次,约定CPM为30元,那么对于该广告应该付费300元。
    5. CPD:Cost Per Day,按天展示成本。传统广告媒介尤其是门户广告普遍采用的费用结算方式,只根据展示的时间付费
    6. CPC:Cost Per Click,每次点击成本。CPC广告是部分展示类广告、SEM广告的主流投放形式,企业只需要按照点击的次数付费
    7. CPA:Cost Per Action,每次行动付费,通常会将行动定义为网站特定的转化目标,如下载、试用、填写表单、观看视频等
    8. 每UV成本:点击站外广告到达网站后,每个UV的成本,计算公式为:每UV成本=广告费用/ UV
    9. 每访问成本:指点击站外广告到达网站后,每个访问的成本。计算公式为:每访问成本=广告费用/访问量
    10. ROI:投资回报率,指投入费用所能带来的收益比例,计算公式有两种:ROI =利润/费用或ROI =成交金额/费用
    11. 每点击/UV/访问/目标转化收益
      • 每次点击收益。每次点击收益指每次站外广告点击能获得的转化收益,通常将转化定义为电子商务交易收入,即订单金额。该指标与CPC相对应。
      • 每UV收益指点击站外广告到达网站后,每个UV产生的转化收益。UV收益反映了每个“人”能带来多少订单收益,计算公式为:每UV收益=广告总收益/ UV量。该指标与每UV成本相对应。
      • 每访问收益。每访问收益指点击站外广告到达网站后,每个访问产生的转化收益。相对于每UV收益,每访问收益中增加了“频次”的考核,反应的是每人次收益结果。计算公式为:每访问收益= 广告总收益 / 访问量。该指标与每访问成本相对应。
      • 每次目标转化收益。对网站内的每个目标,通常会定义一个目标转化值。如根据业务经验,每一次下载会产生50元最终转化收入,那么可以将目标转化收益设定为50元。该指标与CPA相对应。

    网站流量质量指标

    1. 访问深度:访问深度= PV /访问量,在某些场景下,也会使用PV / UV来计算访问深度。
    2. 停留时间:停留时间指用户在网站或页面的停留时间的长短。计算公式为:
      • 网站停留时间:最后一次请求时间戳-第一次请求时间戳。
      • 页面停留时间:下一个页面请求时间戳-当前页面时间戳。
    3. 跳出/跳出率:跳出指用户在到达落地页之后没有点击第二个页面即离开网站的情况,跳出率指将落地页作为第一个进入页面的访问中直接跳出的访问比例。计算公式为:跳出率=跳出的访问 / 落地页访问。
    4. 退出/退出率:用户从网站上离开而没有进一步动作的行为。退出率指在某个页面退出的访问占该页面总访问的比例,计算公式为:退出率= 页面退出的访问 / 退出页面访问
    5. 产品页转化率:产品页转化率=产品页访问量/总访问量或产品页转化率=产品页UV/总UV
    6. 加入购物车转化率:加入购物车转化率= 加入购物车访问量 / 总访问量或加入购物车UV / 总UV
    7. 结算转化率:结算转化率= 结算访问量 / 总访问量或结算转化率= 结算UV / 总UV
    8. 下载转化率:下载转化率= 下载访问量 / 总访问量或下载转化率=下载UV / 总UV
    9. 注册转化率:注册转化率=注册会员量/总UV数
    10. 购物车内转化率:购物车内转化率=提交订单的访问量/加入购物车的访问量或购物车内转化率=提交订单的UV / 加入购物车的UV

    分析模型

    流量波动检测

    在广告流量结构中,有几类流量是相对稳定并且效果较好的,例如导航类流量(例如360导航)、品牌专区流量(例如百度品牌区)、品牌关键字(例如百度品牌关键字)、SEO流量(例如百度SEO流量)。
    对这几类广告渠道可以通过广告流量波动模型进行监测,该模型可以对具有相对稳定或具有一定时间规律特征的数据做检测分析。
    预测的结果数据中我们可以定义上下限的置信区间,如果真实值超出置信区间那么就意味着数据波动异常。
    步骤如下:

    1. 数据读取和预处理,主要是将字符串转换为时间格式。
    2. 数据稳定性、白噪声检验和预处理。
    3. 时间ARIMA或ARMA对时间序列数据拟合,找到最佳PDQ或QP参数值以及对应fit(训练时)的最佳模型结果对象。
    4. 基于最佳模型结果对象选择应用forecast方法做预测(而不是predict方法),并设置如下关键参数:
      • steps:整数型,要预测的时间序列点之外的数据数,例如设置step=6的效果与predict方法中设置predict(start=‘1991-07-28’, end=‘1991-08-02’)的周期是相同的。
      • alpha:浮点型,设置具体置信区间范围,置信区间值设置为(1-alpha)%,例如设置alpha=0.05会计算在95%置信区间下的范围值。

    除了可以应用到广告流量的异常波动检测外,该模型还可以应用到流量运营中的网站重点内容的检测,例如首页、帮助中心、购物车流程页等,这些页面通常相对来讲从流量来源结构、用户访问特征等方面的特征相对稳定,也可以做流量波动性检测。

    渠道特征聚类

    当企业投放众多广告媒体时,第一次对如此众多的媒体多特征分析可能无从下手。此时可以考虑对广告渠道特征进行聚类,然后从几类具有比较显著的群体上再深入挖掘。
    以几乎所有企业都会投放的SEM渠道为例,账户内的关键字拥有上千个长尾词是常态,大型企业过百万的关键字更是“家常便饭”,如何针对海量关键字效果做分析是一个难点。以聚类方法为例,首先可以使用聚类方法将所有的关键字的属性、操作和效果划分为多个群组。其中:

    • 属性:账户结构、质量度等。
    • 操作:预算、价格、黑名单、地域、匹配方式、时段、展示方式、匹配的创意、平台等。
    • 效果:SEM排名、点击价格等SEM指标,站外广告曝光、点击以及站内流量数量和转化类指标。

    然后,基于划分的群组分析不同群组间的显著性特征,从中找到可以进一步分析和优化的方向。例如:

    • 某一类关键字的排名较差、质量度低、流量低、转化差,这些可能需要重新规划关键字投放策略;
    • 某一类关键字的排名好、质量度高,但是流量低,这些可能需要重点优化展示和创意的吸引度,以获得用户的关注和点击;
    • 某一类关键字的排名好、质量度高、流量高,但是转化差,这些关键字需要重点从着陆页开始做分析,将转化流程和步骤层层拆分,找到流失和转化的关键节点。

    广告整合传播模型

    • 用户广告来源路径可以帮助我们了解带有转化的用户访问来源的所有先后序列以及转化步长和时间,这对于转化过程、时间和模式的理解非常重要。虽然每个转化的路径是一个全路径,但读者其实可以将其路径作为已经预处理好的关联分析的源数据,直接对其做关联分析可以从中找到有转化的用户的广告来源模式。
    • 目标转化归因可以帮助我们根据企业自身特点定义的归因模型,有效的对参与转化的广告渠道做贡献分配,从而辅助于价值评估和付费投入,尤其对于处于转化“前期”处于引流和辅助功能的渠道特别重要。
    • 广告渠道的关联访问可以帮助我们了解所有用户频繁的访问模式,尤其对于小范围的媒介组合尤其有效,它可以解决全过程(包含转化和非转化)的用户关联访问模式的问题。

    虽然上述三种方法已经相对于以前的调研问卷方式有了进一步的量化提升,但仍然有以下几方面问题需要注意:

    • 上述方法的实现目前都是基于cookie的,而我们知道cookie的稳定性会随着时间、用户操作等因素改变,这会导致数据直接发生变化。
    • 用户应用平台的多样化以及多设备、多浏览器和多应用导致的同一个用户识别难度增加,如果用户没有有效的识别方式,那么数据会产生极大的分散性,也就无法产生关联效应。
    • 流量作弊的问题在广告领域比较频繁,在做整合分析之前的异常检测和数据排除工作也必不可少。
    • 受限于数据采集的限制,当用户仅仅浏览但是没有点击企业投放的广告并到达企业网站或应用时,由于企业无法获得广告曝光信息,因此无法对非点击或者点击非到达类的渠道做评估。常见的此类渠道以展示类广告为主,例如CPM类。

    流量预测模型

    流量预测根据不同的场景有不同的方法:

    • 如果是没有可控的自变量或无法找到自变量的,例如直接流量、引荐流量、自然社交媒体流量等,可以考虑使用时间序列分析方法。。
    • 如果是费用控制类媒体,例如SEM、硬广、导航类广告等,可以使用回归类模型做流量预测。

    流量预测应用跟其他数值型预测(例如销售预测)的方法类似,但存在一定的特殊性:

    • 广告费用的持续性。一般情况下,广告费用支出是持续的,但在某些情况下,可能由于费用到账不及时等因素导致广告无法投放,此时会出现有费用无流量的情况。这些通常是由于沟通机制和媒介自身因素导致。
    • 服务器并发的响应性。当企业做大型促销活动时,流量往往呈几倍甚至几十倍的增长,如果企业服务器无法支撑瞬时的高流量并发,那么会影响整个公司的数据工作,包括流量、销售、会员等。在数据方面的影响主要是没有流量数据、销售数据下跌等。
    • 广告媒体的相互影响。广告媒体的投放往往会产生交叉影响效应,这意味着即使某些媒体没有投放广告,也会受到其他媒体或活动的影响而产生数据变化。例如投放广告通常会增加SEM品牌关键字、品牌区、导航网站、直接输入渠道的流量。
    • 作弊流量。这里又一次提到作弊流量,原因是作弊这一因素很多情况下不可控并且不一定能被检测出来。另外,不同类型的广告的作弊流量规模也不同。通常点击类(流量数量为主的广告渠道,例如硬广)作弊较为严重,SEM、导航、社交媒体等相对较好。
    • 广告效果的持续性。当广告停止投放之后,广告效果仍然会持续一段时间。这种现象比较常见,尤其是时效性较长的广告,例如电子邮件、社交媒体等。
    • 补量。补量的意思是广告媒介由于某些自身因素,没有达到预期承诺的广告投放标准,例如展示次数不足、点击量不足等,此时媒介会通过增加广告位置、延长广告时长等方式补足承诺效果。

    基于时间序列的用户群体过滤

    在大多数细分群体过滤条件应用时,都是以无时间序列的方式做条件组合,例如:

    • 看了首页又看了商品页的用户;
    • 搜索了A品牌词2次又看了帮助中心的用户;
    • 看了M活动页又将商品P加入购物车的用户。
      但很多时候,我们可以将不同事件的时间序列模式加入到群体细分条件中,例如还是上面的3个示例,加入时间序列特征后条件如下:
    • 先看了首页后又看了商品页的用户;
    • 先搜索了A品牌词2次又看了帮助中心的用户;
    • 先看了M活动页又将商品P加入购物车的用户。

    加入时间序列后的过滤条件要求目标过滤条件必须有明显的先后顺序特征,否则即使两个条件都满足也不符合条件。这种基于时间序列的用户群体过滤能应用到很多具有明显事件先后顺序的分析场景中,例如:

    • 分析促销活动效果,要求先浏览活动然后才购买活动中的商品;
    • 分析广告媒体效果,要求先看了A广告,然后再看了B广告;
    • 分析流量引导模式,要求先点击C1商品展位,后点击C2商品展位。

    补充

    关注趋势、重要事件和潜在因素是日常报告的核心

    日常报告如果要在常规化的前提下做出特色,内容是最重要的一个方面,以下是针对日常报告中内容的4个建议。

    • 关注整体趋势。周期性报告一定要有关于整体趋势的定论,对比、环比、定基比都是比较好的趋势观察方法,关于整体趋势的变化结论除了描述涨落以外,还需要确定涨落异常;另外,确定标杆值也是日常数据描述的重要途径和参照点。
    • 关注重要事件。报告期内的重要事件是汇报对象普遍关注的模块,因此有必要将重要事件的数据及对整体的影响做简要分析。
    • 关注潜在因素。除了整体数据外,作为数据分析师一定能通过数据发现报告周期内的潜在因素,该因素可能是与整体趋势相近或相反的,但对整体可能产生重要影响的业务节点。
    • 关注成本对象。大多数情况下,企业内部对于成本的支出较为关注,因此应该在报告中将占有较高成本的对象的实际效果加以反馈,尤其对于其变化的原因加以了解。

    流营销流量的质量评估是难点工作

    流量质量的评估不仅是重点还是难点工作,主要表现在两方面:
    一方面,“质量”并不是一个恒定且可以用数据直接定义的指标,不同目标、不用需求、不同时间下质量定义不同。
    另一方面,“质量”结果的影响因素多种多样,很难准确区隔不同因素对“质量”的影响权重。
    例如,针对跳出率高的分析点至少包括三方面:

    • 站外渠道因素,即渠道本身的质量因素,包括群体喜好、需求、媒体质量等;
    • 站外广告因素,即广告素材对质量的影响,包括广告卖点、宣传商品、促销价格等;
    • 站内自身因素,包括着陆页设计、用户对网站品牌的认知度、熟悉程度等。

    以上三方面因素综合影响跳出率,但很难只将站内渠道因素分离处理并得到渠道本身质量问题;尤其是关于信息匹配度、需求吻合度、价格敏感度、需求强烈度、品牌认可度等主观数据无法直接通过数据测量。这也是当前流量运营中的难点,因此大多数情况下流量效果评估仍然聚焦在流量规模上,而对于流量质量的评估上属于“辅助”评估因素。

    作为数据从业者,仍然可以一定方法来对营销流量做评估和校验:

    • 对比分析是评估广告流量质量的实用方法,将广告流量与非广告流量进行对比即可了解到底是渠道质量问题还是网站自身质量问题。
    • 建立复合指标评估体系,将用户的复杂行为分解为可供站内评估的目标矩阵,如注册、试用、订单、产品页浏览、加入购物车等。
    • A/B测试(双变量测试)是找到最佳方案的有效手段,可直接对比发现影响渠道质量的关键因素。

    个性化媒体投放问题

    个性化的媒体广告投放相对于大众广告投放具有以下3方面优势:

    1. 更好的用户体验。传统广告的单向传播模式在个性化媒体时代发生了变化,用户的每一个“声音”都被记录和分析;同时,媒体已经开始“猜测”用户需求,媒体的角色开始从主观推送需求向满足需求转变,整个过程的用户认知度、体验度和忠诚度提高。
    2. 营销效率的提升。传统广告的购买与投放执行主要依靠广告代理或企业自身,经过谈判之后购买固定时间、版面、人群、网站群等;由于整个过程主要靠人工操作,效率低且出错几率大,更重要的是要耗费大量人力、财力、物力和时间成本。个性化媒体投放通过自动化、智能化程序实现人群定位、素材管理与投放、效果评估与自我优化等关键流程,大大提高了营销效率。
    3. 营销效果的提升。个性化媒体投放从广告曝光、点击、到达这三个关键环节都是针对用户个性化需求而提供的内容,高度相关的内容提高了广告点击率、到达率,直接从广告源头提高流量,直接降低CPM、每次点击成本和每次访问成本的同时还能促进广告转化率的提升。

    个性化投放问题:

    媒体认知问题

    从大众传播开始媒体就一直处于强势地位,广告、消息等都是直接通过媒体向用户单向传播;媒体对于自身定位、服务价值、服务方式等定位仍然停留在强势媒体阶段,大多数媒体尤其是强势媒体还没有“客户服务”的概念,个性化媒体广告投放无从谈起。这直接导致了接入到个性化媒体平台的媒体数量,尤其是优质媒体数量的不足。

    优势资源问题

    虽然现在可供选择的媒体平台众多,但真正的高价值流量仍然集中于少数媒体,这些媒体往往通过CPD(包段购买,如包天、包月)、CPM(每千次付费)等品牌传播类形式售卖优势资源,如新浪门户的首页焦点图、视频媒体TIPS弹窗等、导航文字链都属于此类售卖方式;而能够实现个性化媒体投放的资源往往是优势资源之外的“剩余资源”或低价值资源位,因此造成个性化媒体投放难以大规模应用到核心媒体资源或核心媒介中。覆盖面的不足直接导致了曝光的补足,个性化媒体从入口开始面临紧缩考验。

    技术实现问题

    个性化投放的实现需要基于海量数据,但这些数据以及对应的实施技术和规则等仍然面临现实性难题:

    • 数据不全面。个性化媒体投放需要尽量多的关于平台、用户和投放企业的信息,而这些信息是分散在不同场景中的,媒体本身无法掌握全部信息。数据不全直接导致个性化投放效果不佳。例如我在A商城浏览了P商品,但之后2天我却在B商城购买该商品,此时A商城的个性化广告很可能会持续给我推送P商品的广告和促销活动。
    • 方案无法全部个性化。个性化的媒体广告投放,如果是涉及商品投放的可以直接调取商品属性和描述信息,但如果是文字、图片、视频以及交互类广告的则需要企业主提供多种交互方案,这本身就不是一个可以完全个性化的实施思路,因为广告主无法想到所有的个性化广告方案。

    常用流量分析工具

    • Adobe Analytics:进入中国市场较早,凭借其技术实力及在华跨国子公司占据了很大一部分国内市场,也是国内付费网站分析工具领域最主要的工具和服务供应商。
    • Webtrekk Suite:进入中国时间较晚,因此在市场时机上不占天时,但通过最近几年的发展以及本地化的快速响应,它已经广泛获得客户的认可并具有很高的市场知名度。
    • Webtrends:网站分析鼻祖,于1999年进入中国,由于其技术实力、行业经验及国外知名客户案例多等优势,再加上其本地化的部署方式,能最大化满足国内企业数据安全性的需求,因此初期客户规模庞大。
    • Google Analytics:免费版本,但其数据跟踪、采集、定义、分析等方面的能力非常强大,它几乎已经满足大多数中小企业的日常需求。当然,对大型企业来说,受其流量处理规模的限制、有限的定制特性的限制,通常无法满足很多个性化、灵活性和大规模数据分析和整合的企业需求。这点已经成为大型企业应用的桎梏。
    • IBM Coremetrics:IBM coremetrics主要包括两部分:网站分析套件(Web Analytics Suite)和数字营销优化套件(Digital Marketing Optimization Suite)。前者是针对网站流量统计、分析和数据挖掘的解决方案,后者是从网站分析套件中获取数据洞察和价值驱动点,然后整合到自身营销优化应用中,通过网络、社交和移动应用等针对性地进行业务活动
    • 百度统计:整体来看,百度统计满足了企业网站分析入门时只看数据统计结果的需求,尤其是做大规模百度投放的客户,结合这些数据后更利于SEM优化。
    • Flurry:Flurry是国外的一款基于SAAS的免费移动应用分析工具,它是移动应用统计分析领域的标杆。
    • 友盟提供针对iOS、Android和Windows Phone等多平台的服务,基于SAAS服务模式,用户只需要注册并下载友盟SDK并集成到APP开发中就可以实现针对APP的数据跟踪及其他服务。

    第三方流量分析工具选择

    需要结合企业自身需要做有效评估;否则,即使工具性能再强大,企业也无法发挥其真正价值。

    整体解决方案

    整体解决方案能力是指能完整的、与其他工具或解决方案融合提供更广泛支持的能力

    整合数据能力

    • 网站数据:网站(WEB/WAP/APP)流量相关数据。
    • 运营数据:运营环境数据,如果运营范畴只为围绕网站端的所有业务动作,可能只包括营销、运营、用户体验和在线销售相关数据;如果运营有更大的业务范畴,可能还包括会员维系、活动策划、产品规划、市场规划等相关数据
    • 业务数据:整个业务体系数据,运营数据外,还包括运营的上下游业务部门的数据,如IT、HR、管理、监察等。
    • 企业数据:所有企业产生的业务数据、财务数据、职能数据等,所有数据构成企业大数据集合。

    网站分析工具整合数据系统的能力越强,越容易实现数据集成以及基于整合数据的完整视角。

    整合运营系统能力

    网站数据发挥价值的方式之一是通过数据相关从业者提供数据解读,从而为业务策略和执行提供辅助建议;另外一种方式是通过相关系统对接,直接通过数据驱动的方式将数据价值输出到业务系统,实现数据的自我价值。
    常见的与网站分析工具集成的运营系统包括:

    • CRM:通过网站流量数据固定触发,针对性地完成CRM相关流程。如针对已经登录并将商品加入购物车但放弃购物的用户,网站分析工具将数据传输到CRM中,CRM根据预设条件进行判断并执行,如可针对性地发送优惠券、打折信息或其他刺激购买的方式提高转化率
    • 销售系统:网站分析工具将网站流量数据传输到销售预测系统中,销售预测系统根据产品浏览趋势、用户属性和来源,以及转化率数据综合评估出未来N天的产品销售情况,并将该数据传输到相关库存系统,及时提醒相关采购补货。
    • 站外营销系统:网站分析工具对站内用户的关键行为进行采集并提取出特定特征,然后将用户喜好信息反馈到营销系统,营销系统根据此信息优化站外投放结构、素材和其他营销策略。
    • 站内推荐系统:网站分析工具将特定数据传输到站内推荐系统,站内推荐系统根据用户行为有针对性地推荐其喜好的内容或产品。
    • 网站运营系统:大多数网站运营系统都靠人工以手动方式调整素材和内容等,网站分析工具可以将固定广告位、内容位、资源位数据回传到网站运营系统中,网站运营系统根据数据自动调整页面展示内容,提高运营效率。

    产品易用性

    IT部门关注易实施

    对于IT部门来说,产品稳定性高、实施方便、技术开发难度小、数据安全性高是首要关注因素。对于SaaS模式而言,产品易实施是其最重要的关注点。
    容易实施的技术方案不仅能减少技术开发工作量,从而保证网站分析项目快速落地,而且可以减少由于代码过多导致的版本更新、代码发布等网站数据采集的问题。

    业务部门关注易用性

    面对这种复杂的数据需求矩阵,如何让用户根据自身需要而快速、有效、深入地得出结论是评估一款网站分析工具的重要指标。

    • 以用户角色为出发点的产品定位。领导层和执行层看的数据不同,领导层关注结果、趋势或汇总数据,因此Dashboard、汇总报表必不可少,如果能有一个报表能涵盖领导日常关注的核心指标已经足够,通过多种发送、实时更新或数据对接产生更多的附加值则是锦上添花;执行层关注原因、细节和深入探究,因此多层级下钻、多维度交叉分析、用户群体细分、路径流及各种数据分析和挖掘模型必不可少。
    • 以用户应用为导向的功能设计。根据不同的业务模块划分数据报表,营销推广、站内运营、用户体验、在线销售等不同业务模块需要不同的报表,报表需要单独拆分呈现;并且要让用户以少的点击、最快的速度找到答案,尽量减少业务思考数据在哪的时间。

    功能丰富性

    • 基本功能:基本维度、基本指标、APP跟踪、WAP跟踪、用户权限管理、热力图、Excel插件、标签管理器、下钻功能。
    • 自定义功能:自定义维度跟踪、自定义事件跟踪、自定义指标跟踪、自定义计算指标、自定义数据分类、自定义报表、自定义Dashboard等。
    • 高级功能:标签管理器、跨域追踪、跨设备跟踪、单归因功能、A/B测试、路径功能、漏斗功能、数据整合能力、实时数据、预警功能、自动发送服务等。
    • 特色功能:当前市场上的网站分析工具,尤其是商用付费工具的功能特性基本相同。但不同的工具具有一些其他工具没有的特征。例如Adobe Analytics的异常检测、无穷维度下钻、多序列模型的过滤器,Webtrekk的关联算法模型、描述性统计特征、预测性数据指标

    增值服务价值

    增值服务的考察点分为3个方面:

    1. 日常支持 :日常支持会涉及部署、沟通、培训等各方面的问题,日常支持的方式(邮件、电话、进驻企业)、响应效率(2小时答复、7×24,还是其他)等都是重要参考因素。
    2. 原厂服务团队: 大多数国外网站分析工具都是通过代理商提供产品销售和服务支持,但由于各方面的问题,代理商团队很可能无法提供高质量的咨询服务。如果有原厂服务团队支持,无论是本地还是远程沟通,将更利于问题解决。
    3. Local办公和本地化作业:Local办公是指在中国有分公司或办公室,本地化作业是指根据企业需求入驻到企业内部共同推进该项目,这两方面是评价一个网站分析工具服务商本地化的重要参考标准。

    价格和费用

    • 流量费用:大多数网站分析工具都是基于流量付费,流量规模决定了付费区间,流量越高,整体价格越高(单价其实更低)。
    • 功能费用:支付流量费用之后,网站分析工具大部分功能都可以使用,但某些功能模块可能需要额外付费。在选择网站分析工具时,需要确认是否所有的产品和功能特征都可用,以免后期使用时造成不必要的麻烦。
    • 服务费用:服务费用通常与以上两种费用打包结算,国内目前很少按时间付费,这也是网站分析咨询服务价值低的一个体现。

    参考:

    《python数据分析与数据化运营》 宋天龙

    展开全文
  • 网络异常流量数据集CIC-IDS-2017/2018 && 流量特征提取工具CICFlowMeter的使用1. 数据集CIC-IDS-2017/20182. 流量特征提取工具CICFlowMeter 1. 数据集CIC-IDS-2017/2018 下载链接:...

    网络异常流量数据集CIC-IDS-2017/2018 && 流量特征提取工具CICFlowMeter的使用

    1. 数据集CIC-IDS-2017/2018

    下载链接:https://www.unb.ca/cic/datasets/ids-2017.html

    通信安全机构(CSE)与加拿大网络安全研究所(CIC)合作项目。
    CIC-IDS数据集官网
    对自1998年以来现有的11个数据集的评估表明,大多数数据集(比如经典的KDDCUP99,NSLKDD等)已经过时不可靠。其中一些数据集缺乏流量多样性和容量,一些数据集没有涵盖各种已知的攻击,而另一些数据集将数据包有效载荷数据匿名化,这不能反映当前的趋势。有些还缺少特征集和元数据。

    CIC-IDS-2017 数据集包含良性和最新的常见攻击,类似真实世界数据(PCAPs)。

    它的数据采集截至2017年7月7日(星期五)下午5时,共计5天。星期一是正常的一天,只包括正常的流量。实现的攻击包括暴力FTP暴力SSHDoSHeartbleedWeb攻击渗透僵尸网络DDoS。他们分别于周二、周三、周四和周五上午和下午被执行。
    IDS-2017制作是每天进行的攻击写实类型
    CIC-IDS-2017数据集为每天测试得到的流量数据进行了特征提取,生成一共80多条特征,最后给他们一个标签,正常或攻击类型。

    这是ids2017数据集的特征,label这个标签是数据集根据实验环境标注的,实际使用CICFlowMeter生成的是无标签的。

    | Flow ID | Source IP| Source Port | Destination IP | Destination Port |Protocol | Timestamp| Flow Duration | Total Fwd Packets | Total Backward Packets | Total Length of Fwd Packets | Total Length of Bwd Packets | Fwd Packet Length Max | Fwd Packet Length Min | Fwd Packet Length Mean | Fwd Packet Length Std | Bwd Packet Length Max | Bwd Packet Length Min | Bwd Packet Length Mean | Bwd Packet Length Std | Flow Bytes/s | Flow Packets/s | Flow IAT Mean | Flow IAT Std | Flow IAT Max | Flow IAT Min | Fwd IAT Total | Fwd IAT Mean | Fwd IAT Std | Fwd IAT Max | Fwd IAT Min | Bwd IAT Total | Bwd IAT Mean | Bwd IAT Std | Bwd IAT Max | Bwd IAT Min | Fwd PSH Flags | Bwd PSH Flags | Fwd URG Flags | Bwd URG Flags | Fwd Header Length | Bwd Header Length | Fwd Packets/s | Bwd Packets/s | Min Packet Length | Max Packet Length | Packet Length Mean | Packet Length Std | Packet Length Variance | FIN Flag Count | SYN Flag Count | RST Flag Count | PSH Flag Count | ACK Flag Count | URG Flag Count | CWE Flag Count | ECE Flag Count | Down/Up Ratio | Average Packet Size | Avg Fwd Segment Size | Avg Bwd Segment Size | Fwd Header Length | Fwd Avg Bytes/Bulk | Fwd Avg Packets/Bulk | Fwd Avg Bulk Rate | Bwd Avg Bytes/Bulk | Bwd Avg Packets/Bulk | Bwd Avg Bulk Rate | Subflow Fwd Packets | Subflow Fwd Bytes | Subflow Bwd Packets | Subflow Bwd Bytes | Init_Win_bytes_forward | Init_Win_bytes_backward | act_data_pkt_fwd | min_seg_size_forward | Active Mean | Active Std | Active Max | Active Min | Idle Mean | Idle Std | Idle Max | Idle Min | Label  | External IP |
    

    2. 流量特征提取工具CICFlowMeter

    IDS-2017 数据集使用 CICFlowMeter 作为流特征提取工具,能够根据提交的 .pcap文件(使用wireshark软件或者流量sniff函数都可获得网卡的流量数据,格式为.pcap)生成有80多个特征的csv文件,使用方法有两种:在线和离线模式。在线模式可以实时监控并产生特征,监听结束之后可以保存到本地;离线模式是提交一个 .pcap 文件,得到一个包含特征的 csv 文件。

    下载地址:https://github.com/ahlashkari/CICFlowMeter
    代码是用Java编写的,可用 IntellJ 或者 eclipse 打开;

    想要运行,还需一下步骤:

    1.Windows 安装 winpcap ,Linux安装libpcap这两个工具是用来解析pcap文件的。
    2.下载jnetpcap文件https://sourceforge.net/projects/jnetpcap/files/jnetpcap/1.3/
    因为 .pcap 文件是用C写的,而 Java 又不能直接调用C的资源,通过jnetpcap 可以调用C的动态库。
    3.在这里用 IntelliJ 打开github下的项目
    在这里插入图片描述
    打开下方的终端,cd 进入到 …/jnetpcap/win/jnetpcap-1.4.r1425目录下

    输入命令:mvn install:install-file -Dfile=jnetpcap.jar -DgroupId=org.jnetpcap -DartifactId=jnetpcap -Dversion=1.4.1 -Dpackaging=jar
    在这里插入图片描述
    (可能会报错,找不到mvn命令,百度装一下,配一下环境变量即可。)
    出现如下,就成功了。
    在这里插入图片描述
    终端cd …回到开始的项目文件夹
    输入:gradlew execute就应该出现界面了。
    在这里插入图片描述
    点击上方的network,选择离线模式,选择.pcap文件和目标文件夹,点击OK,就可以得到从.pcap文件提取出的.csv特征文件。
    在这里插入图片描述
    也有可能点击OK之后可以导入.pcap文件,但没反应,这是就需要将从官网下载的项目里的jnetpcap-1.4.r1425用之前下的jnetpcap-1.4.r1425文件夹替换。

    参考连接:
    https://www.jianshu.com/p/125e2c8e9190
    https://www.jianshu.com/p/d72bec65397b
    https://metang326.github.io/2019/04/21/
    https://blog.csdn.net/u010916338/article/details/84397495

    展开全文
  • 流量数据API使用说明

    千次阅读 2011-12-14 18:48:51
    流量数据是淘宝对用户访问日志、历史交易信息等进行筛选及敏感数据处理后而开放给ISV的数据,通过对流量数据的统计及二次加工ISV可以为商家提供数据分析工具或其他功能。例如:流量数据提供每一个用户当前访问页面的...
  •  zabbix没有提供监控流量数据的api(至少我没有找到),历史表有一部分数据,但是不全,所以只能从趋势数据表里获取。流量数据是隔段时间保存一次的,每次保存的是截止该时间点的总流量,所以要获取某时间点的瞬时...
  • 在前面说了PyG这个框架,但是这个框架处理数据其实没那么简单,并且有时候我们想要改变底层的图卷积框架时就无能为力了,所以这一章说一下用PyTorch怎么写出图卷积并且实现交通流量数据的预测。但在这之前,需要先...
  • 从细分到多层下钻数据分析 细分是网站分析的基本方法,也是数据分析的基本思路。细分分析的过程是对整体数据进行层层拆分,然后找到影响整体的局部因素。 步骤1:全站流量按来源模块可细分为广告、SEM、SEO和直接...
  • 该工具基于微信中的宜出行提供的数据接口进行爬取,能够爬取一定范围内的当前时间点的人流量数据。 环境: windows python3+ 安装第三方包:缺啥安装啥 使用指南: 申请多个qq号,并将qq号放入当前目录下的qqlist.py...
  • 抓取“矢量”的实时交通流量数据

    千次阅读 2015-08-30 15:41:00
    1. 引言 最近老师有一个需求,就是想要抓取实时的矢量交通流量数据来做分析,类似于百度地图,高德地图的“实时路况”那种。平时的网络抓取工作一般是抓取网页上现成的数据,但是交通流量数据只有栅格的切片,没有...
  • 9:00 的服务区图层2 为上午 9:00 的服务区图层求解3 配置晚上 10:00 的服务区图层4 为晚上 10:00 的服务区图层求解5 将上午 9:00 和晚上 10:00 的服务区进行比较*6 配置分析以利用实时流量数据求解(可选) ...
  • 网络流量数据

    万次阅读 2018-04-15 20:53:17
    开放数据集:1.CAIDA数据集http://www.caida.org/data(缺乏政府,企业和研究机构的支持,DatCat发展空间不大)2.UNIBS数据集www.ing.unibs.it/ntw/tools/traces/index.php3.WIDE数据集...
  • 37.[开源][安卓][流量数据进行实时统计]gauges-android-master Gaug.es for Android是由gaug.es推出的一款在Android设备上对网站流量数据进行实时统计的应用。gauges-android包含了该应用的源代码,开发者可以直接...
  • 数据:3000条轨迹(模拟),首尾点经纬度坐标,每条轨迹的权重。权重可简单理解为同首尾点轨迹重复的次数。数据格式为: [起始点经度,起始点纬度,末尾点经度,末尾点纬度,权重] 需求:可视化每条航线,并根据...
  • 如何在linux服务器上将部署好的cacti监控到的流量图导出来,导到windows文件夹
  • 网络爬虫获取地铁人流量数据

    千次阅读 2020-01-25 22:37:27
    只需绘制发车时间与抵达终点站时间的线性图即可体现调度功能,并加入真实数据处理更具逼真性。 已有 学长传给的公交车运行数据(excel表格)## [x] 1.用c语言读入数据 计划任务 ...
  • Fiddler抓取移动端APP流量数据

    千次阅读 2019-03-23 16:10:16
    配置Fiddler ... ... 配置Connections,如图所示配置即可 ...首先移动端链接的无线网络保持和PC端连接一致,并且移动端的无线网络配置...过滤数据流 例如指向看到域名为leadscloud.com的 配置完成后,运行一下即可
  • 流量数据分析的方法学习

    千次阅读 2018-05-21 10:35:24
    1、看数字和趋势(以电商网站为例)2、维度分解3、用户分群(又叫用户画像)4、转化漏斗5、行为轨迹关注行为轨迹,是为了真实了解用户行为。...我们可以通过数据分析理解留存情况,也可以通过分析用户行为或行...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 41,258
精华内容 16,503
关键字:

流量数据