精华内容
下载资源
问答
  • 衡量事物之间或者变量之间线性相关程度的强弱并用适当的统计指标表现出来,这个过程是相关分析。SPSS软件是进行相关性分析的常用软件。操作方法01电脑先安装SPSS软件,并打开SPSS软件,导入你需要分析的数据,这里以...

    相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。衡量事物之间或者变量之间线性相关程度的强弱并用适当的统计指标表现出来,这个过程是相关分析。SPSS软件是进行相关性分析的常用软件。

    操作方法

    01电脑先安装SPSS软件,并打开SPSS软件,导入你需要分析的数据,这里以excel数据为例子。点击【文件】-【打开】-【数据】。选择excel数据,确认导入后,进行相关性分析。点击【分析】-【相关】-【双变量】。

    02看到双变量对话框了吗?左侧的候选对话框选择两个变量添加到列表框中,表示需要进行简单分析的两个变量。

    03然后选择系数类型。一般可以选择Pearson相关系数,也可以选择其他两个。Pearson是系统默认项,即积差相关系数。kendall和spearman都是等级相关系数。对于非等间距连续测度的连续变量,因为分布不明可以使用等级相关系数。也可以使用Pearson分析。对于完全等级的离散变量必须使用等级相关分析相关性。

    04最后点击确定按钮,操作就完成啦!SPSS软件会在结果输出窗口显示相关性分析结果。

    从上表来看,两个变量的Pearson相关系数为0.742,说明两者中度正线性相关。这就是SPSS软件的分析过程,是不是很简单?

    展开全文
  • 目录一、实验准备二、三级目录 一、实验准备 ... 针对Anscombe四重奏数据集,用excel对四组数据进行线性回归分析,判断其中哪些回归方程是成立的,哪些不成立?不成立的应该如何解决? 二、 三级目

    一、实验目的

    1.线性回归练习。“父亲高则儿子高,父亲矮则儿子矮”(即父亲与儿子身高相关,且为正相关)、“母高高一窝,父高高一个”(即母亲的身高比父亲的身高对子女的影响更大)的习俗传说是否成立?请在“父母子女身高”数据集(高尔顿数据集)基础上利用线性回归做出科学分析。

    • 1)选取父子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。 现在如果有一个新家庭的数据,已知父亲身高75英寸,请测算儿子的身高为多少?
    • 2)选取母子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。
    • 3)根据以上数据,阐明你对习俗说法是否正确的分析。
    • 4)你能用多元线性回归方法,计算出父亲、母亲与儿子身高的回归方程吗?

    2.线性回归方法的有效性判别。 针对“Anscombe四重奏”数据集,用excel对四组数据进行线性回归分析,判断其中哪些回归方程是成立的,哪些不成立?不成立的应该如何解决?

    二、高尔顿数据集

    1)父子身高

    在【数据】中使用【筛选】筛出儿子的身高数据。
    在这里插入图片描述

    在【数据】中使用【删除重复值】删去家庭编号相同的数据。
    在这里插入图片描述
    进行线性回归
    【数据】→【数据分析】→【回归】
    在这里插入图片描述
    得到拟合图,双击进行设置
    在这里插入图片描述
    右键图中黄点数据,选择添加趋势线,并进行相关设置
    在这里插入图片描述
    观察上方的统计
    在这里插入图片描述
    通过拟合得出y(儿子身高)对于x(父亲身高)的函数:

    • y=0.258x+51.995

    代入父亲身高x=75(英尺),求得儿子身高y=71.345(英尺)

    2)母子身高

    流程同上,将x值换为母亲身高
    在这里插入图片描述
    相关系数R的平方很小,说明两者不具有相关性,即儿子身高基本不受母亲身高所影响。
    然而常识表明这是不可能的,所以很有可能是我的统计方法有问题。

    三、Anscombe四重奏

    数据集一:
    在这里插入图片描述
    测定系数=0.666542
    P=0.00217
    回归方程:y=0.5x+3

    数据集二:
    在这里插入图片描述
    测定系数=0.666242
    P=0.002179
    回归方程:y=0.5x+3

    数据集三:
    在这里插入图片描述
    测定系数=0.666324
    P=0.002179
    回归方程:y=0.5x+3

    数据集四:
    在这里插入图片描述
    测定系数=0.666707
    P=0.002165
    回归方程:y=0.5x+3

    仅仅对这四个数据集进行线性回归分析,会发现分析得到的信息及其接近,甚至让人觉得是4组相同的数据,但是通过查看图形能发现这四个数据集的差距。

    • 数据集一:六阶多项式
      在这里插入图片描述

    • 数据集二:二阶多项式
      在这里插入图片描述

    • 数据集三:基本符合
      在这里插入图片描述

    • 数据集四:y值全为8
      在这里插入图片描述

    四、参考

    Excel实现线性回归分析——高尔顿数据集、四重奏数据集

    展开全文
  • 技巧111 对数据列表的局部启用自动筛选 技巧112 包含多重标题行的自动筛选 技巧113 在受保护的工作表中使用自动筛选 技巧114 包含合并单元格的自动筛选 技巧115 指定单列或多列启用自动筛选 技巧116 快速...
  • 4.5 对数据透视表中的数据进行排序 86 4.5.1 使用“选项”选项卡上的排序图标排序 86 4.5.2 使用字段列表隐藏的下拉菜单排序 88 4.5.3 了解关于自动排序布局变化的影响 89 4.5.4 使用手动排序 90 4.5.5 ...
  • 4.5 对数据透视表中的数据进行排序 86 4.5.1 使用“选项”选项卡上的排序图标排序 86 4.5.2 使用字段列表隐藏的下拉菜单排序 88 4.5.3 了解关于自动排序布局变化的影响 89 4.5.4 使用手动排序 90 4.5.5 ...
  • 4.5 对数据透视表中的数据进行排序 86 4.5.1 使用“选项”选项卡上的排序图标排序 86 4.5.2 使用字段列表隐藏的下拉菜单排序 88 4.5.3 了解关于自动排序布局变化的影响 89 4.5.4 使用手动排序 90 4.5.5 ...
  • 4.5 对数据透视表中的数据进行排序 86 4.5.1 使用“选项”选项卡上的排序图标排序 86 4.5.2 使用字段列表隐藏的下拉菜单排序 88 4.5.3 了解关于自动排序布局变化的影响 89 4.5.4 使用手动排序 90 4.5.5 ...
  • 内容导航:Q1:python能找到股票数据吗可以用python的相关模块进行股票的基础数据分析,制作曲线等.Q2:Python 如何爬股票数据找个网站,找个python网抓视频教程,着做就行了。用excel更简单,直接网抓到excel表格...

    内容导航:

    Q1:python能找到股票数据吗

    可以用python的相关模块进行股票的基础数据分析,制作曲线等.

    Q2:Python 如何爬股票数据

    找个网站,找个python网抓视频教程,对着做就行了。用excel更简单,直接网抓到excel表格里。

    Q3:python 为什么 获取不了 新浪股票数据 datareader

    应该都是可以获取的,一般获取数据有两个方法,get和post,在源码能够显示的使用的是get,而post一般是用异步加载的形式进行展现的。

    Q4:如何使用python抓取炒股软件中资金数据

    这个说来有点复杂,用fiddle监控软件跟服务器间的通讯,找到数据源地址,然后用excel或python抓这个源地址数据,可能还要加上反扒代码,构造时间戳等等,你网上找python网抓视频教程看看就知道了。

    Q5:哪本书介绍python获取雅虎股票数据

    应该没有书专门介绍 如何获取雅虎股票数据吧?

    你是想了解爬虫方面的吧?

    基本模块:urllib/urllib2/requests 用于发出URL请求,获取相应雅虎数据;

    beautifulsoup或者lxml 用于解析上面获取到的html内容;

    如果要小题大做的话,你也可以了解一下爬虫框架:scrpy

    Q6:python怎么分析所有股票

    在 Python的QSTK中,是通过 s_datapath 变量,定义相应股票数据所在的文件夹。一般可以通过 QSDATA 这个环境变量来设置对应的数据文件夹。

    具体的股票数据来源,例如沪深、港股等市场,你可以使用免费的WDZ程序输出相应日线、5分钟数据到 s_datapath 变量所指定的文件夹中。然后可使用 Python的QSTK中,qstkutil.DataAccess进行数据访问。

    展开全文
  • 第3篇为协同工作篇,介绍如何实现Excel与Access、Word、文本格式的数据以及网站数据的共享。 目录: chapter 01 快速输入与编辑数据 1.1 文字的输入 1.1.1 在编辑栏中输入 1.1.2 在单元格中输入 1.1.3 文字的...
  • 《Origin 8.0实用教程:科技作图与数据分析》适合科研人员、工程技术人员、理工科院校的教师、研究生及本科生工作和学习之,也可作为自学参考书。 编辑推荐 《Origin 8.0实用教程:科技作图与数据分析》由中国电力...
  • 1.2 用Excel服务器构建信息系统 3 1.3 基于Excel服务器的信息系统架构 8 1.4 如何学习使用Excel服务器 10 第2章、 安装与卸载 12 2.1 安装概述 12 2.2 标准版安装 13 2.3 Excel服务器的组成模块 17 2.4 卸载 19 2.5 ...
  • 本书在《别怕,Excel函数其实很简单》的基础上,浅显易懂的图文、生动形象的描述以及大量实际工作中的经典案例,对Excel函数与公式的应用进行了更深入的介绍。本书首先介绍了函数使用过程中都会遇到的两个问题—长...
  • 了解Excel数据分析工具,认识宏,并运用宏提高工作效率。 课程大纲: 第一章、Excel数据处理基本技巧 第一节Excel中的表格基本操作技巧 快捷键应用介绍 表格区域命名 多工作表的快速定位 工作表的链接 第二节、...
  • ASP EXCEL导入SQL

    2013-01-23 01:17:24
    AJAX技术充分利用了HTTP来获取网络资源并且实现了HTTP没有的对于异步数据进行传输的功能。AJAX技术还使得软件更好地实现分布性功能,在一个企业内只要一个人下载了AJAX引擎,其它企业内部的人员,就可以共享该资源了...
  • 本期我们以豆瓣电影Top250为例,向大家展示如何用python爬取电影相关信息,包括:片名、上映年份、评分、评价人数、导演、编剧、主演、类型、国家/地区、时长等信息,最后将数据保存至Excel进行可视化处理,...

    大家好,我是欧K。

    本期我们以豆瓣电影Top250为例,向大家展示如何用python爬取电影相关信息,包括:片名、上映年份、评分、评价人数、导演、编剧、主演、类型、国家/地区、时长等信息,最后将数据保存至Excel并对其进行可视化处理,希望对小伙伴们有所帮助。
    在这里插入图片描述

    涉及到的内容:

    • request+BeautifulSoup–网页数据爬取
    • openpyxl–保存数据至Excel
    • pandas–读取表格数据
    • pyechars–数据可视化

    1. 网页分析

    打开豆瓣电影网页:https://movie.douban.com/,可以看到Top250榜单共有10页数据:
    在这里插入图片描述
    在这里插入图片描述
    点击每一页观察网址变化:

    # 第1页
    'https://movie.douban.com/top250?start=0&filter='
    # 第2页
    'https://movie.douban.com/top250?start=25&filter='
    # 第3页
    'https://movie.douban.com/top250?start=50&filter='
    # 第4页
    'https://movie.douban.com/top250?start=75&filter='
    ...
    # 第9页
    'https://movie.douban.com/top250?start=225&filter='
    # 第10页
    'https://movie.douban.com/top250?start=250&filter='
    

    不难发现,每页网址只有start的值在发生变化

    规律:start=(页面数-1)x25

    所以我们只要构造如下url即可获取每一页信息:

    for i in range(11):
            url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
    

    细心的小伙伴会发现,单独根据每一页的链接去爬取数据,并不能爬取到电影上映年份、上映地区以及电影类型等这些信息。

    那么怎样才能获取更全的信息呢?

    我们随便点击第一部电影(肖申克的救赎)的链接看一下:
    在这里插入图片描述
    可以看到这个网页中有电影的所有详情也就是我们要去爬的信息。

    以上分析我们得出爬取步骤:

    • 循环构建榜单每一页的url
    • 在一级网页获取每部电影链接
    • 在二级网页获取电影具体信息

    2. 爬取数据

    准备工作,导入以下模块:

    import os
    import re
    import time
    import requests
    from bs4 import BeautifulSoup
    from fake_useragent import UserAgent
    from openpyxl import Workbook, load_workbook
    

    如果模块缺失,直接pip安装即可。

    2.1 循环构建榜单每一页的url

    代码:

    for i in range(11):
            print(f'正在爬取第{i}页,请稍等...')
            url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
    

    print语句用的是f-string格式输出,具体用法可参考下面这篇文章(点击跳转):
    技巧 | 5000字超全解析Python三种格式化输出方式【% / format / f-string】

    2.2 获取每页25部电影链接

    电影链接在每个<li>列表标签的<a>标签中:
    在这里插入图片描述

    代码:

    def getonepagelist(url,headers):
        try:
            r = requests.get(url, headers=headers, timeout=10)
            r.raise_for_status()
            r.encoding = 'utf-8'
            soup = BeautifulSoup(r.text, 'html.parser')
            lsts = soup.find_all(attrs={'class': 'hd'})
            for lst in lsts:
                href = lst.a['href']
                time.sleep(0.5)
                getfilminfo(href, headers)
        except:
            print('getonepagelist error!')
    

    2.3 获取每部电影具体信息

    片名和上映年份在<h1>标签中:
    在这里插入图片描述
    其他信息在<div id=‘info’>标签中:
    在这里插入图片描述
    代码:

    def getfilminfo(url,headers):
        filminfo = []
        r = requests.get(url, headers=headers, timeout=10)
        r.raise_for_status()
        r.encoding = 'utf-8'
        soup = BeautifulSoup(r.text, 'html.parser')
        # 片名
        name = soup.find(attrs={'property': 'v:itemreviewed'}).text.split(' ')[0]
        # 上映年份
        year = soup.find(attrs={'class': 'year'}).text.replace('(','').replace(')','')
        # 评分
        score = soup.find(attrs={'property': 'v:average'}).text
        # 评价人数
        votes = soup.find(attrs={'property': 'v:votes'}).text
        infos = soup.find(attrs={'id': 'info'}).text.split('\n')[1:11]
        # 导演
        director = infos[0].split(': ')[1]
        # 编剧
        scriptwriter = infos[1].split(': ')[1]
        # 主演
        actor = infos[2].split(': ')[1]
        # 类型
        filmtype = infos[3].split(': ')[1]
        # 国家/地区
        area = infos[4].split(': ')[1]
        if '.' in area:
            area = infos[5].split(': ')[1].split(' / ')[0]
            # 语言
            language = infos[6].split(': ')[1].split(' / ')[0]
        else:
            area = infos[4].split(': ')[1].split(' / ')[0]
            # 语言
            language = infos[5].split(': ')[1].split(' / ')[0]
    
        if '大陆' in area or '香港' in area or '台湾' in area:
            area = '中国'
        if '戛纳' in area:
            area = '法国'
        # 时长
        times0 = soup.find(attrs={'property': 'v:runtime'}).text
        times = re.findall('\d+', times0)[0]
        filminfo.append(name)
        filminfo.append(year)
        filminfo.append(score)
        filminfo.append(votes)
        filminfo.append(director)
        filminfo.append(scriptwriter)
        filminfo.append(actor)
        filminfo.append(filmtype)
        filminfo.append(area)
        filminfo.append(language)
        filminfo.append(times)
        filepath = 'TOP250.xlsx'
        insert2excel(filepath,filminfo)
    

    注意国家/地区的处理,为了数据分析更方便,这里时长只取电影的第一个时长(部分电影有多个时长)。

    2.4 保存数据

    这里我们使用openpyxl将数据保存到Excel中,大家也可以尝试保存其他文件或者数据库中:

    def insert2excel(filepath,allinfo):
        try:
            if not os.path.exists(filepath):
                tableTitle = ['片名','上映年份','评分','评价人数','导演','编剧','主演','类型','国家/地区','语言','时长(分钟)']
                wb = Workbook()
                ws = wb.active
                ws.title = 'sheet1'
                ws.append(tableTitle)
                wb.save(filepath)
                time.sleep(3)
            wb = load_workbook(filepath)
            ws = wb.active
            ws.title = 'sheet1'
            ws.append(allinfo)
            wb.save(filepath)
            return True
        except:
            return False
    

    3. 数据可视化

    3.1 读取数据

    用pandas模块读取:

    import pandas as pd
    from pyecharts import options as opts
    from pyecharts.charts import Bar
    
    data = pd.read_excel('TOP250.xlsx')
    

    3.2 各年份上映电影数量柱状图(纵向)

    代码:

    def getzoombar(data):
        year_counts = data['上映年份'].value_counts()
        year_counts.columns = ['上映年份', '数量']
        year_counts = year_counts.sort_index()
        c = (
            Bar()
            .add_xaxis(list(year_counts.index))
            .add_yaxis('上映数量', year_counts.values.tolist())
            .set_global_opts(
                title_opts=opts.TitleOpts(title='各年份上映电影数量'),
                yaxis_opts=opts.AxisOpts(name='上映数量'),
                xaxis_opts=opts.AxisOpts(name='上映年份'),
                datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_='inside')],)
            .render('各年份上映电影数量.html')
            )
    

    效果:
    在这里插入图片描述

    3.3 各地区上映电影数量前十柱状图(横向)

    代码:

    def getcountrybar(data):
        country_counts = data['国家/地区'].value_counts()
        country_counts.columns = ['国家/地区', '数量']
        country_counts = country_counts.sort_values(ascending=True)
        c = (
            Bar()
            .add_xaxis(list(country_counts.index)[-10:])
            .add_yaxis('地区上映数量', country_counts.values.tolist()[-10:])
            .reversal_axis()
            .set_global_opts(
            title_opts=opts.TitleOpts(title='地区上映电影数量'),
            yaxis_opts=opts.AxisOpts(name='国家/地区'),
            xaxis_opts=opts.AxisOpts(name='上映数量'),
            )
            .set_series_opts(label_opts=opts.LabelOpts(position="right"))
            .render('各地区上映电影数量前十.html')
            )
    

    效果:
    在这里插入图片描述

    3.4 电影评价人数前二十柱状图(横向)

    代码:

    def getscorebar(data):
        df = data.sort_values(by='评价人数', ascending=True)
        c = (
            Bar()
            .add_xaxis(df['片名'].values.tolist()[-20:])
            .add_yaxis('评价人数', df['评价人数'].values.tolist()[-20:])
            .reversal_axis()
            .set_global_opts(
                title_opts=opts.TitleOpts(title='电影评价人数'),
                yaxis_opts=opts.AxisOpts(name='片名'),
                xaxis_opts=opts.AxisOpts(name='人数'),
                datazoom_opts=opts.DataZoomOpts(type_='inside'),
                )
            .set_series_opts(label_opts=opts.LabelOpts(position="right"))
            .render('电影评价人数前二十.html')
            )
    

    效果:
    在这里插入图片描述


    以上就是本期为大家整理的全部内容了,赶快练习起来吧,原创不易,喜欢的朋友可以点赞、收藏也可以分享让更多人知道哦

    推荐阅读

    基础 | Python函数一文详解
    技巧 | 20个Pycharm最实用最高效的快捷键(动态展示)
    技巧 | 5000字超全解析Python三种格式化输出方式【% / format / f-string】
    爬虫 | Python送你王者荣耀官网全套皮肤
    爬虫 | 用python构建自己的IP代理池,再也不担心IP不够用啦!
    可视化 | Python制作最炫3D可视化地图
    可视化 | 动起来的中国大学排名,看看你的母校在哪里

    微信公众号 “Python当打之年” ,每天都有python编程技巧推送,希望大家可以喜欢
    在这里插入图片描述

    展开全文
  • 数据运营思维导图

    2018-04-26 14:24:22
    消费属性指用户的消费意向、消费意识、消费心理、消费嗜好等,用户的消费有个全面的数据记录,用户的消费能力、消费意向、消费等级进行很好的管理 用户心理属性 心理属性指用户在环境、社会或者交际、感情过程...
  • 2019数据运营思维导图

    2019-03-29 21:34:09
    数据运营 作用&意义 知错能改,善莫大焉 —错在哪里,数据分析告诉你 运筹帷幄,决胜千里 —怎么做好“运筹”,数据分析告诉你 以往鉴来,未卜先知 —怎么发现历史的规律以预测未来,数据分析告诉你 工作思维 业务...
  • 【取唯一值】 还在使用<分类汇总>或<小计>功能对数据进行唯一值的繁锁操作吗? 本工具可快捷方便地取任意选中区域的存储格内容为唯一值清单,快捷且高效。 【取产品型号】 功能较在字符串中取数字强大多倍。能批量...
  • 在今天的教程中,你将会学到:如何预处理和合并数据如何探索并分析数据如何做出漂亮的图表结果进行可视化。 这篇教程面向:经常从事数据相关工作,Python和Pandas有初步理解的人。情景...
  • 完整清晰版 PDF ,有目录。共 230MB,分为 2 个分卷 中文版Excel2007 公式与函数应用宝典 OFFICE2007 OFFICE2010 中文版Excel 2007公式与函数应用...此外,他还为许多有名望的报刊杂志撰写了上百篇Excel相关文章。
  • 完整清晰版 PDF ,有目录。共 230MB,分为 2 个分卷 中文版Excel2007 公式与函数应用宝典 OFFICE2007 OFFICE2010 中文版Excel 2007公式与函数应用...此外,他还为许多有名望的报刊杂志撰写了上百篇Excel相关文章。
  • LISREL使用.pdf

    2020-01-09 05:27:04
    它主要用于在构建结构模型之前,对数据进行前期处理和初 步分析。PRELIS 的主要用途包括: o 将其它格式的数据文件(SAS, SPSS, Excel, Stat 等等)读入并存储为PRELIS 数据文 件。 o 将 PRELIS(*.psf)数据...

空空如也

空空如也

1 2 3 4 5 ... 11
收藏数 216
精华内容 86
关键字:

如何用excel对数据进行相关分析