精华内容
下载资源
问答
  • 因为下面要统计每个词语的个数,所以 为了准确性 这里对过滤后的数据 title_clean 中的每个list的元素进行去重,即 每个标题被分割后的词语唯一。 观察 word_count 表中的词语,发现jieba默认的词典 无法满足需求: ...

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    项目内容

    本案例选择>> 商品类目:沙发;

    数量:共100页  4400个商品;

    筛选条件:天猫、销量从高到低、价格500元以上。

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    项目目的

    1. 对商品标题进行文本分析 词可视化

    2. 不同关键词word对应的sales的统计分析

    3. 商品的价格分布情况分析

    4. 商品的销量分布情况分析

    5. 不同价格区间的商品的平均销量分布

    6. 商品价格对销量的影响分析

    7. 商品价格对销售额的影响分析

    8. 不同省份或城市的商品数量分布

    9.不同省份的商品平均销量分布

    注:本项目仅以以上几项分析为例。

    项目步骤

    1. 数据采集:Python爬取淘宝网商品数据

    2. 对数据进行清洗和处理

    3. 文本分析:jieba分词、wordcloud可视化

    4. 数据柱形图可视化 barh

    5. 数据直方图可视化 hist

    6. 数据散点图可视化 scatter

    7. 数据回归分析可视化 regplot

    工具&模块:

    工具:本案例代码编辑工具 Anaconda的Spyder

    模块:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。

    原代码和相关文档后台回复淘宝下载

    一、爬取数据

    因淘宝网是反爬虫的,虽然使用多线程、修改headers参数,但仍然不能保证每次100%爬取,所以 我增加了循环爬取,每次循环爬取未爬取成功的页 直至所有页爬取成功停止。

    说明:淘宝商品页为JSON格式 这里使用正则表达式进行解析

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    二、数据清洗、处理:

    (此步骤也可以在Excel中完成 再读入数据)

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    说明:根据需求,本案例中只取了 item_loc, raw_title, view_price, view_sales 这4列数据,主要对 标题、区域、价格、销量 进行分析。

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    三、数据挖掘与分析:

    【1】. 对 raw_title 列标题进行文本分析:

    使用结巴分词器,安装模块pip install jieba

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    对 title_s(list of list 格式)中的每个list的元素(str)进行过滤 剔除不需要的词语,即 把停用词表stopwords中有的词语都剔除掉:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    因为下面要统计每个词语的个数,所以 为了准确性 这里对过滤后的数据 title_clean 中的每个list的元素进行去重,即 每个标题被分割后的词语唯一。

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    观察 word_count 表中的词语,发现jieba默认的词典 无法满足需求:

    有的词语(如 可拆洗、不可拆洗等)却被cut,这里根据需求对词典加入新词(也可以直接在词典dict.txt里面增删,然后载入修改过的dict.txt)

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    可视化:

    安装模块 wordcloud:

    方法1: pip install wordcloud

    方法2: 下载Packages安装:pip install 软件包名称

    软件包下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

    注意:要把下载的软件包放在Python安装路径下。

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    分析结论:

    1. 组合、整装商品占比很高;

    2. 从沙发材质看:布艺沙发占比很高,比皮艺沙发多;

    3. 从沙发风格看:简约风格最多,北欧风次之,其他风格排名依次是美式、中式、日式、法式 等;

    4. 从户型看:小户型占比最高、大小户型次之,大户型最少。

    【2】. 不同关键词word对应的sales之和的统计分析:

    (说明:例如 词语 ‘简约’,则统计商品标题中含有‘简约’一词的商品的销量之和,即求出具有‘简约’风格的商品销量之和)

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    对表df_word_sum 中的 word 和 w_s_sum 两列数据进行可视化

    (本例中取销量排名前30的词语进行绘图)

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    由图表可知:

    1. 组合商品销量最高 ;

    2. 从品类看:布艺沙发销量很高,远超过皮艺沙发;

    3. 从户型看:小户型沙发销量最高,大小户型次之,大户型销量最少;

    4. 从风格看:简约风销量最高,北欧风次之,其他依次是中式、美式、日式等;

    5. 可拆洗、转角类沙发销量可观,也是颇受消费者青睐的。

    【3】. 商品的价格分布情况分析:

    分析发现,有一些值太大,为了使可视化效果更加直观,这里我们结合自身产品情况,选择价格小于20000的商品。

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    由图表可知:

    1. 商品数量随着价格总体呈现下降阶梯形势,价格越高,在售的商品越少;

    2. 低价位商品居多,价格在500-1500之间的商品最多,1500-3000之间的次之,价格1万以上的商品较少;

    3. 价格1万元以上的商品,在售商品数量差异不大。

    【4】. 商品的销量分布情况分析:  

    同样,为了使可视化效果更加直观,这里我们选择销量大于100的商品。

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    由图表及数据可知:

    1. 销量100以上的商品仅占3.4% ,其中销量100-200之间的商品最多,200-300之间的次之;

    2. 销量100-500之间,商品的数量随着销量呈现下降趋势,且趋势陡峭,低销量商品居多;

    3. 销量500以上的商品很少。

    【5】. 不同价格区间的商品的平均销量分布:

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    由图表可知:

    1. 价格在1331-1680之间的商品平均销量最高,951-1331之间的次之,9684元以上的最低;

    2. 总体呈现先增后减的趋势,但最高峰处于相对低价位阶段;

    3. 说明广大消费者对购买沙发的需求更多处于低价位阶段,在1680元以上 价位越高 平均销量基本是越少。

    【6】. 商品价格对销量的影响分析:

    同上,为了使可视化效果更加直观,这里我们结合自身产品情况,选择价格小于20000的商品。

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    由图表可知:

    1. 总体趋势:随着商品价格增多 其销量减少,商品价格对其销量影响很大;

    2. 价格500-2500之间的少数商品销量冲的很高,价格2500-5000之间的商品多数销量偏低,少数相对较高,但价格5000以上的商品销量均很低 没有销量突出的商品。

    【7】. 商品价格对销售额的影响分析:

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    由图表可知:

    1. 总体趋势:由线性回归拟合线可以看出,商品销售额随着价格增长呈现上升趋势;

    2. 多数商品的价格偏低,销售额也偏低;

    3. 价格在0-20000的商品只有少数销售额较高,价格2万-6万的商品只有3个销售额较高,价格6-10万的商品有1个销售额很高,而且是最大值。

    【8】. 不同省份的商品数量分布:

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    由图表可知:

    1. 广东的最多,上海次之,江苏第三,尤其是广东的数量远超过江苏、浙江、上海等地,说明在沙发这个子类目,广东的店铺占主导地位;

    2. 江浙沪等地的数量差异不大,基本相当。

    【9】. 不同省份的商品平均销量分布:

    代码如下:

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    热力型地图

    利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    http://www.aibbt.com/a/18575.html

    展开全文
  • 利用python做数据分析书中的数据集

    千次阅读 2019-01-08 13:43:40
    利用python做数据分析的数据集 参考这个项目,很全免费 https://github.com/wen-fei/PythonForDataAnalysis

    利用python做数据分析的数据集

    参考这个项目,很全免费
    https://github.com/wen-fei/PythonForDataAnalysis

    展开全文
  • 本文探讨数据应用层中的运营数据系统,因为运营数据几乎是所有互联网创业公司开始做数据的起点,也是早期数据服务的主要对象。本文将着重回顾下我们做了哪些工作、遇到过哪些问题、如何解决并实现了相应的功能。

      作为系列文章的第二篇,本文将首先来探讨应用层中的运营数据系统,因为运营数据几乎是所有互联网创业公司开始做数据的起点,也是早期数据服务的主要对象。本文将着重回顾下我们做了哪些工作、遇到过哪些问题、如何解决并实现了相应的功能。

    早期数据服务

      产品上线开始推广后不久,后台研发人员便会经常收到运营同事的私信:“能不能查一下有多少用户注册了,来自哪里?……..”。几次之后,大家便觉得这样的效率太低了:研发人员需要在繁忙的开发任务中抽时间来做数据查询、统计,而运营同事则需要等很久才能拿到数据。于是,大家开始协商更好的方法,最终达成一致:由运营同事提供所需的数据模板,后台研发人员根据模板将数据导入Excel文件,运营同事可根据自身需求自己分析统计。这便是早期的数据服务了,其组成结构如下图所示。

    20161205181333777


      这样的做法简单明了,后台研发人员根据数据模板写一个Python脚本,从业务数据库中将数据捞出来,做些分析、整合后,将结果输出到一个Excel文件,然后发送邮件通知运营同事接收文件。然而,随着需求的增加和细化、数据量的增加,暴露的问题越来越多,这里先罗列出来,这些问题有的会在本文提出解决方案,有的则会在后面的文章中陆续提出解决方案。

    • Worker越来越多,分布在多个地方,存在很多重复的劳动和代码,某个逻辑的修改需要改很多文件。
    • 由于使用ORM来访问数据库,很多代码只考虑逻辑,没考虑到查询数据的效率问题,导致有些报告需要跑十几个小时才能出结果(在循环查询数据的性能问题及优化一文有讲解)。
    • 中间计算结果流失,数据没有共享,每个Worker都要跑自己的逻辑去算一遍。
    • Woker依靠crontab来控制触发,没有监管,经常由于脏数据导致中断,需要等到运营同事发现后报过来才知道。

    运营数据Dashboard

      随着业务的发展,以数据报表的形式来提供数据服务逐渐不能满足需求了。一方面,高层期望每天一早便能看到清晰的数据,搞清楚最近的运营效果和趋势;另一方面,虽然数据报表提供了详细的数据,但是还是需要手动去过滤、统计一下才有结果,所有想看数据的人都需要做一遍才行,而业务人员处理Excel的水平层次不齐。
      于是,我们开始筹划Dashboard系统,以Web的形式提供数据可视化服务。可是,Dashboard要做成什么样子?由于产品经理和设计人员都忙于产品业务,所以只能自己考虑要做什么、怎么做。好在笔者之前用过百度统计,对那里面的一些统计服务比较清楚,结合公司的业务,形成了一些思路:

    • 数据内容上,包含:核心指标数据和图表分析两部分。前者以曲线图为主,要能快速显示数量和趋势,比如注册日增量趋势图;后者使用各种图表来展现某个时间段内的分析结果,比如10月份的TOP10用户感兴趣品牌。
    • 数据类型上,包含:C端核心指标、B端核心指标、核心分析和专题活动指标与分析。前两者是分别针对C端和B端的指标数据,核心分析是一些综合的分析,比如转化率分析,专题活动是针对一些特定的大型运营活动。
    • 数据维度上,包含:时间维度、城市维度和B端品牌维度。时间是最基本最重要的维度,城市维度可以分析各个运营大区的状态,B端品牌维度主要是针对B端上的业务。

      整理后便形成了下图所示的Mockup(简化版),基本涵盖了上述的思路。虽然在美观上相对欠缺,但是毕竟是内部使用嘛,重要的数据显示要能准确、快速。

    SouthEast


      搞清楚了要做什么,接下来就是要将想法落地,考虑如何实现了。

    整体架构

      系统的整体架构如下图所示,主要基于这么几点考虑:

    • 前后端分离。前端只负责加载图表、请求数据并显示,不做任何数据逻辑处理;后端负责产出数据,并提供REST API与前端交互。
    • 离线与实时计算并存。为了提高数据获取的速度,曲线指标数据采用离线计算的方式,提供历史数据供前端展示;图表分析类数据采用实时计算的方式,其速度取决于所选时间段内的数据量,必要时进行缓存。
    SouthEast


    前端实现

      Dashboard系统的前端并不复杂,前面也提到我们不会做太多样式上的工作,重点是数据的显示。那么,第一件事就是要寻找一款图表库。笔者这里选择的是百度ECharts,其提供了丰富的图表类型,可视化效果很棒,对移动端的支持很友好,重要的是有详细的示例和文档。事实证明ECharts确实很强大,很好的满足了我们的各种需求。
      选好了图表库,接下来的问题是如何优雅的加载几十个图表,甚至更多。这就需要找到图表显示共性的地方(行为和属性),进行抽象。通常,使用ECharts显示一个数据图表需要四步(官方文档):第一步,引入ECharts的JS文件;第二步,声明一个DIV作为图表的容器;第三步,初始化一个echart实例,将其与DIV元素绑定,并初始化配置项;第四步,加载图表的数据并显示。可以发现,行为上主要分为初始化和更新数据两个,属性上主要是初始配置项和数据。
      基于此,笔者使用“Pattern+Engine”的思想来实现前端数据加载。首先,在JS中使用JSON对每个图表进行配置,即写Pattern。例如,下面的配置便对应了一个图表,elementId是DIV的id,title是图表的标题,names是图表的曲线名称,url提供了获取数据的API,loader表示要加载的图表Engine。而一个页面的图表便由一组这样的配置项组成。

    {
            elementId: 'register_status_app_daily',
            title: 'App注册统计(日增量)',
            names: ['用户数'],
            url: '/api/dashboard/register_status_daily/',
            loader: 'line_loader'
    }

      页面加载时,根据Pattern中的配置项生成相应的Loader Engine实例,用来初始化图表和更新数据。每个Loader对应一个ECharts图表类型,因为不同图表类型的初始化和加载数据的方法不同。程序类图如下所示。

    SouthEast


    后端实现

      前面提到在早期的数据服务中,存在很多重复劳动和代码,因此在Dashboard系统的后端实现中,笔者开始考虑构建数据分析的公共库,这块占据了很大一部分工作量。底层公共库不针对任何特殊业务需求,主要负责三件事:第一,封装数据源连接方法;第二,封装时间序列的生成方法,产生以天、周、月为间隔的时间序列;第三,封装基础的数据查询、清洗、统计、分析方法,形成格式化的数据,这部分是最重要的。
      完成了底层公共库的构建后,整个代码结构一下子就清爽了很多。在其基础上,开始构建上层的Analyzer。Analyzer用于完成具体的数据分析需求,每个Analyzer负责一个或多个数据指标的产出,每个曲线图/图表的数据由一个Analyzer来负责。离线计算与实时计算,则是分别在Schedule和Web请求的触发下,调用对应的Analyzer来完成数据产出。因此,整个后台系统分为三层来实现,如下图所示。

    SouthEast


      最后谈一谈离线数据的问题。目前离线计算是由Schedule来触发,每日零点计算前一日的数据,数据按照“每个指标在不同维度上每天一个数据点”的原则来生成,由上述的Analyzer来负责产出格式化的数据,存入MongoDB中。由于查询规则简单,只需建立一个组合索引就可以解决效率问题了。目前数据量在500W左右,暂时没有出现性能问题,后期可以考虑将部分历史数据迁移,当然这是后话。

    数据报表

      Dashboard上线后,我们开始考虑将早期的数据报表服务逐步停下来,减少维护的成本。而运营同事希望能继续保留部分报表,因为Dashboard虽然提供了很多数据指标和分析,但是有些工作需要更精细的数据信息来做,比如给带来微信注册的校园代理结算工资、对新注册用户电话回访等等。经过一番梳理和协商,最终保留了六个数据报表。另一方面,B端的商家期望能在后台导出自己的相关数据。综合两方面需求,笔者构建了新的数据报表系统。

    SouthEast


      新的数据报表系统,按照流程来划分为三部分:触发、执行与通知。内部数据报表依旧由Schedule触发,启动相应的Worker进程来执行;而提供给外部的报表由Web前端通过REST API来触发,将相应的任务加入Celery任务队列中执行。执行体由一组Exporter来完成,Exporter负责获取数据、生成适合写入Excel的数据格式、写Excel文件,数据获取部分依赖前面所述的底层公共库。最后,统一发送邮件通知。
      考虑到早期数据服务中经常遇到异常导致生成报表失败的问题,笔者在新的数据报表系统中做了两点与异常相关的处理:

    • 使用Airflow对Schedule触发的任务进行监控(后续文章会有详细介绍),手动触发的任务则由Celery进行监控,遇到异常便发送邮件通知到开发人员。
    • 如果一个Excel数据文件由多个Sheet组成,当某个Sheet出现异常时,通常由两种处理方法:一是丢弃整个文件,二是保留其他Sheet信息继续生成Excel文件。这里,内部报告使用了第二种处理方法,外部报告相对严谨,使用了第一种。


      以上便是笔者所在公司的运营数据系统的发展历程和现状,目前Dashboard与数据报表两个系统已经趋于稳定,基本提供了90%以上的运营数据服务。当然,随着数据量的增长、业务需求的发展,一定会面临更多新的挑战。



    (本文完,地址:http://blog.csdn.net/zwgdft/article/details/53467974
    Bruce,2016/12/07


    展开全文
  • 【机器学习】神经网络做数据分类

    万次阅读 2019-12-19 12:07:09
    神经网络做数据分类 问题描述 给定两个范围在[-1, 1]之间的数字[x1, x2],求落在[-0.5, 0.5]之间的数字个数 思路 构建一个神经网络,包含若干层,将一系列训练数据输入训练参数进行预测 神经网络的每层用一个Relu...

    神经网络做数据分类

    问题描述

    给定两个范围在[-1, 1]之间的数字[x1, x2],求落在[-0.5, 0.5]之间的数字个数

    思路

    • 构建一个神经网络,包含若干层,将一系列训练数据输入训练参数进行预测
    • 神经网络的每层用一个Relu(Wx+b)实现

    问题分解

    • 构建数据集
      • 实际上,我们需要先判断x是否落在目标区间,是,则为1,不是则为0,将结果相加
      • 代码见train_data函数
    • 神经网络搭建
      • 思路同之前的深度神经网络训练手写文字识别
      • 暂时不做优化
      • 仅搭建两层神经网络
      • 暂时不做validate,因为数据充分,每次训练都是新数据,新数据都相当于validate

    代码:digit_nn.py

    训练结果

    仅截取最后一次结果为例

    current first data [0.206416, 0.101028]
    current first predict: [0.000000, 0.000177, 0.999823]
    Minibatch loss at step 9980: 0.036539
    Minibatch accuracy: 100.0%
    
    展开全文
  • 用SPSS做数据分析(1)

    千次阅读 多人点赞 2020-04-18 23:30:54
    如何用SPSS做数据分析?这篇文章来就对了,最近都会更新关于SPSS做数据分析的系列文章,这一篇文章主要关于SPSS中的数据管理,属于比较基础的概念,但是同时也是比较重要的,基础是高度的垫脚石.
  • 创业公司做数据分析(一)开篇

    万次阅读 多人点赞 2016-12-01 23:14:06
    作为系列文章的第一篇,本文采用“WHY->WHAT->HOW”的思考方式来介绍三点:1. 创业公司为什么需要做数据分析?2. 创业公司做数据分析,需要做哪些事情?3. 如何实现这些数据上的需求?
  • 1小时轻松学会用Excel做数据分析

    千次阅读 2017-03-21 14:42:23
    1小时轻松学会用Excel做数据分析
  • python做数据分析实例

    千次阅读 热门讨论 2017-10-08 19:02:24
    本文用到的数据在评论区留下邮箱即可。 本文通过对美国枪杀数据的探索,综合运用python一些数据的提取和统计
  • 不过你知道如何利用Python做数据分析吗?需要学习哪些知识?下面就给大家讲解一下。 与数据分析相关的Python库很多,比如Numpy、pandas、matplotlib、scipy等,数据分析的操作包括数据的导入和导出、数据筛选、数据...
  • 但是这一年多的经历,让自己真实感慨万千,来这里给大家说说如果做数据标注,同时很多的数据标注公司,我们可能会遇到哪些坑,让后来想从事的朋友们有个思想上的准备尽早加入龙猫数据。 其实公司和个人标注团队是不...
  • 昆仑通态触摸屏用串口与西门子200通讯,用网口做数据中转,把PLC数据转发给其他modbusTCP客户端 背景 有一个升级改造的项目,想要用上位机采集PLC的数据,存储到数据库中,然后再做其他处理。现有的设备是西门子200...
  • 创业公司做数据分析(六)数据仓库的建设

    万次阅读 多人点赞 2017-02-02 19:36:58
    本文重点探讨了数据处理层中数据仓库的建设,旨在构建一个适于分析的数据存储系统。文章探讨了数据仓库建设中的两个重要环节:数据建模与ETL过程,根据实践谈了谈维度建模的方法,以及ETL中的增量更新机制与基于...
  • 手把手教你用FineBI做数据可视化

    万次阅读 多人点赞 2016-04-26 14:23:10
    数据可视化可谓是越来越热门,本文我将分享如何通过商业智能工具FineBI来做数据可视化。
  • SPSS 做数据预测方法

    万次阅读 2018-05-21 18:34:17
    我这里就不了,直接用我处理之后的数据。打开我们要分析的数据,单击“分析”,选择“回归”,然后选择“二元Logistics回归”,弹出下面的界面,如图: 把是否购买移到因变量框里面去,把消费金额和消费数量移动...
  • 创业公司做数据分析(三)用户行为数据采集系统

    万次阅读 多人点赞 2016-12-27 17:12:46
    本文将重点探讨数据采集层中的用户行为数据采集系统,分析了为什么要建设用户行为数据采集系统、采什么、前端怎么采、后端怎么存。
  • 数据库:如何做数据报表

    千次阅读 2019-05-28 09:38:43
    数据采集加工建模 数据可视化 提供有价值运营分析报告 二、图表选型 关联:可选择气泡图,用来表示两个、或更多变量之间的联系; 比较:可选择条图,按照强调的方式可以排列任何顺序,适用于高亮Top3或Top5数据; ...
  • MySQL使用binlog日志做数据恢复

    万次阅读 多人点赞 2017-07-09 15:49:27
    定期备份固然可以在服务器发生宕机的时候快速的恢复数据,但传统的全量备份不可能做到实时,所以在发生宕机的时候,也会损伤一部分数据,如果这个时候开启了binlog日志,那么可以通过binlog来对没有备份的这一阶.....
  • 目前有某个产品每天的销量数据,想通过这些数据看这个产品的销量趋势 2. 原理3. 代码import numpy from scipy.optimize import leastsq import pylab def zuixiaoerchen(arrayY, picTitle): print(f"arrayY: {...
  • 从零开始用Python3做数据分析

    万次阅读 多人点赞 2018-05-19 13:35:59
    ​点击关注 异步图书,置顶公众号每天与你分享 IT好书 技术干货 职场知识​​参与文末话题讨论,每日赠送异步图书——异步小编​欢迎来到Python数据分析的世界!如今,Python已成为数据分析和数据科学事实上的标准...
  • 一文看懂怎么用 Python 做数据分析

    万次阅读 多人点赞 2019-04-16 17:18:38
    一类是会爬虫但不知道如何进一步做数据分析的,一类是平常用 Excel 做分析但不太会用 Python 分析的。如果和你很像,那下面这篇系统长文会很适合你, 建议先收藏 。 Excel 是数据分析中最常用的工具,本文通过...
  • 基于redis的zSet集合做数据缓存实现分页查询 java

    万次阅读 热门讨论 2018-05-24 15:34:20
    需要场景:最近公司要手机页面展示新闻文章数据查询的优化工作,让我提个优化方案。现状是目前手机页面的数据请求系统后台,系统后台然后调用其他系统的接口,返回分页数据到前台展示,这样一来,用户每次下拉到...
  • 市场调研中如何做数据分析?

    千次阅读 2018-11-29 17:40:14
    市场调研是一个系统的具有逻辑的行为,其中的数据分析更是占据了市场调研的工作量中的一大部分,对于市场调研的必要性和目的性,前面说得很清楚,不搬运了,在这里需要补充强调说明一点:就是调研数据的可视化!...
  • 在我们进行数据分析时,通常会遇到各种数据缺失的情况,针对这种情况我们该如何进行填补呢? 1、人工填补 该方法仅适用于小数据集,...此处重点讲解一下fillna的参数,后面不说明 fillna(value=None, method=...
  • print('原始数据信息:') print(len(df)) # 长度 print(type(df)) # 数据类型
  • 在样本数据降维(通过消元减少降低模型复杂度,提高模型泛化能力)、缺失值估计、异常值修正方面发挥着极其重要的作用,是机器学习样本数据预处理的核心工具。 样本因素之间相关程度的量化使用相关系数corr,这是一...
  • 为什么ES不适合做数据存储

    万次阅读 多人点赞 2016-03-20 14:43:54
    在研究了一段时间后,发现ES不适合数据存储使用,理由如下: mapping不可改,不能改index属性。ES中以定义的mapping不能修改名字和属性,无法修改名字勉强还能接受,但无法修改属性。官方文档中介绍了几种修改...
  • 用户在微信中对Web H5网页进行浏览、分享,便会形成两种数据:操作行为数据和用户之间的传播关系数据,微信分享追踪系统便是对这类数据进行采集、存储,本文主要总结我们在微信分享追踪上的技术思考和方案演进。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,581,370
精华内容 2,232,548
关键字:

如何做数据