精华内容
下载资源
问答
  • 一个r语言数据分析案例(里面有代码和论文报告),包括对数据的绘图、线性回归和非线性回归,模型的拟合优度,模型的数据预测等等。
  • r语言数据统计分析(含代码、数据和论文报告),对20年的人口数据进行线性回归拟合,通过对模型的改进,预测未来的人口。
  • 其他数据分析案例看我的另一篇文章:中国疫情数据分析与预测 r语言基础教程(觉得干货!):r语言基础知识 本次数据分析案例结合全国人口数据,首先进行线性回归分析,分析模型的拟合优度,再通过线性回归模型预测...

    其他数据分析案例看我的另一篇文章:中国疫情数据分析与预测
    r语言基础教程(觉对干货!):r语言基础知识

    本次数据分析案例结合全国人口数据,首先进行线性回归分析,分析模型的拟合优度,再通过线性回归模型预测未来人口。需要代做加QQ1975728171

    部分展示:
    数据来源:国家统计局
    下载最近20年的人口年度数据,包括年末总人口(万人)、男性人口(万人)、女性人口(万人)、城镇人口(万人)、农村人口(万人)。
    在这里插入图片描述
    (1)绘图
    year=rep(2020:2001)
    plot(data$V2[-1]~year,col=‘red’,xlab=‘年份’,ylab=‘总人口(万人)’,main = “中国年末总人口(2001-2020)”)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • R语言数据分析案例(1)

    千次阅读 2021-06-26 17:58:37
    (1)学生在如下类别内任选其一,结合项目的行业特点,自拟题目和功能需求,利用R语言完成相关数据统计分析和绘图工作。要求:学生选题要“一人一题”,不得重复,个人项目需征得教师同意方可开展后续研究。 互联网...

    利用R语言完成相关数据统计分析和绘图工作,需结合项目的专业应用,建立系统模型,运用R语言实现模型功能,并自拟实验数据,对系统模型进行验证和评价。

    1. 天津地区旅游发展与居民幸福指数研究
    2. 民营企业诚信体系建设问题研究
    3. 金融服务支持民营经济发展研究
    4. 数字货币问题研究
    5. 金融发展对绿色经济发展的影响研究
    6. 金融科技与风险预警研究
    7. 天津地区劳动年龄人口变动趋势与就业优先战略研究
    8. 家庭养育成本及其对生育的影响研究
    9. 乡村振兴背景下积极应对农村人口老龄化研究
    10. 房价对经济影响
      ① 国民经济类
      ② 高等教育类
      ③ 人与自然类
      ④ 卫生健康类
      ⑤ 智能制造类
      ⑥ 其他类型符合要求也可

    其他数据分析案例—>>>r语言对全国人口数据进行分析建模并预测未来人口

    本文是一个r语言数据分析案例,包括对数据的线性回归和非线性回归,模型的拟合优度,模型的数据预测等等。 需要代做加qq1975728171

    部分展示:
    截取任意中国的新冠疫情数据(5月份)。
    在这里插入图片描述
    从5月1号开始,到5月31号结束的全国现有确诊人数。

    (a) 画图疫情病例vs时间
    在这里插入图片描述
    大概趋势:开始一段时间几乎不增长,15号开始增长速度激增。
    (b)用线性和非线性方法拟合(a)中的趋势
    线性:

    lm=lm(confirm~date)
    abline(lm)
    

    在这里插入图片描述
    非线性:

    Lm2=lm(y~x+I(x^2)+I(x^3))
    plot(confirm~date,col='red',main = "中国疫情现有确诊人数趋势图(5月份)")
    lines(x,predict(lm2))
    

    在这里插入图片描述
    c)分析两种拟合的拟合优度
    线性:
    计算拟合优度
    在这里插入图片描述

    画残差图:

    qqnorm(lm$residuals)
    qqline(lm$residuals)
    

    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • R语言数据分析案例合集

    万次阅读 2018-04-04 19:54:36
    案例一、汽车数据可视化分析R)-ggplot2案例二、房价指数的分析与预测-时间序列
    展开全文
  • R语言数据分析、展现与实例 R语言数据分析、展现与实例
  • R语言 数据分析】豆瓣电影R语言爬虫和数据分析

    千次阅读 多人点赞 2017-12-25 10:50:59
    1、r语言爬虫 rvest包的使用。 2、r语言字符串处理stringr包的使用。 3、r语言聚合dplyr 包的使用。 4、r语言可视化ggplot 包的使用。 5、r语言画词云图worldcloud2 包的使用。 6、正则表达式 str_match 的使用...

    主要内容:
    1、r语言爬虫 rvest包的使用。
    2、r语言字符串处理stringr包的使用。
    3、r语言聚合dplyr 包的使用。
    4、r语言可视化ggplot 包的使用。
    5、r语言画词云图worldcloud2 包的使用。
    6、正则表达式 str_match 的使用
    7、sapply的用法。
    8、字符串切割函数str_split的 用法。

    代码片段1(字符串切割和字符串正则匹配):

    > (a <- "2017-12-25")
    [1] "2017-12-25"
    > (b <- str_split(a,"-"))
    [[1]]
    [1] "2017" "12"   "25"  
    
    > (c <- str_match(a,"-(.*?)-")[,2])
    [1] "12"
    > 

    代码片段2(sapply函数 运用,功能强大,类似scala map函数,可自定义函数作用于每个元素)

    (d <- c(1,2,3,4,5,6,7,8,9))
    #每个元素乘以2
    (e <- sapply(d,function(x) x*2))
    

    代码片段3(rvest爬虫 管道%>%解析法):

    # 读取网页内容
    page <- html_session(url)
    # 获取电影的链接
    movie_url <- html_nodes(page, 'p>a') %>% html_attr("href")
    
    # 获取电影名称
    movie_name <- html_nodes(page, 'p>a') %>% html_text()

    代码片段4(dplyr包 group_by 和summarise 的用法,分组求和)

    # 聚合操作
    groupby_countrys <- group_by(df, countries)
    df <- summarise(groupby_countrys, Freq = sum(Freq))

    代码片段5(arrange 排序功能)

    # 降序排序
    df <- arrange(df, desc(Freq))

    代码片段6(ggplot 画条形图)

    # 1、参评人数最多的Top10的电影
    # 配置画图的数据
    p <- ggplot(data = arrange(raw_data, desc(evalue_users))[1:10,], 
                mapping = aes(x = reorder(movie_name,-evalue_users), 
                              y = evalue_users)) + 
      # 限制y周的显示范围
      coord_cartesian(ylim = c(500000, 750000)) + 
      # 格式化y轴标签的数值
      scale_y_continuous(breaks = seq(500000, 750000, 100000),
                         labels = paste0(round(seq(500000, 750000, 100000)/10000, 2), 'W')) + 
      # 绘制条形图
      geom_bar(stat = 'identity', fill = 'steelblue') +
      # 添加轴标签和标题
      labs(x = NULL, y = '评价人数', title = '评价人数最多的top10电影') + 
      # 设置x轴标签以60度倾斜
      theme(axis.text.x = element_text(angle = 60, vjust = 0.5),
            plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'))
    
    p

    这里写图片描述

    全部源码学习:

    
    rm(list=ls())
    gc()
    options(scipen = 200)
    
    library(rvest)
    library(stringr)
    library(dplyr)
    library(wordcloud2)
    library(ggplot2)
    
    
    ##################################爬虫部分###########################################
    
    # 指定需要抓取的URL
    url <- 'https://zhuanlan.zhihu.com/p/22561617'
    
    # 读取网页内容
    page <- html_session(url)
    # 获取电影的链接
    movie_url <- html_nodes(page, 'p>a') %>% html_attr("href")
    
    # 获取电影名称
    movie_name <- html_nodes(page, 'p>a') %>% html_text()
    # 获取电影的其他描述信息
    describe <- html_nodes(page, 'p') %>% html_text()
    # 筛选出需要的子集
    describe <- describe[16:443]
    # 通过正则表达式匹配评分
    score <- as.numeric(str_match(describe, '.* (.*?)分')[,2])
    # 通过正则表达式匹配评价人数
    evalue_users <- as.numeric(str_match(describe, '分 (.*?)人评价')[,2])
    # 通过正则表达式匹配电影年份
    year <- as.numeric(str_match(describe, '评价 (.*?) /')[,2])
    
    # 由于生产国和电影类型用/分割,且没有固定的规律,故将生产国和电影类型存入到一个变量中
    other <- sapply(str_split(describe, '/', n = 2),'[',2)
    # 构建数据框
    raw_data <- data.frame(movie_name, movie_url,score,evalue_users,year,other)
    head(raw_data)
    # 将抓取的数据写出到本地
    write.csv(raw_data, 'E:/ID/data/movies.csv', row.names = FALSE)
    
    
    
    ###############################数据处理部分#############################################
    # 需要将电影的其他描述信息进行拆分
    # 前往搜狗官网,下载所有国家名称的字典,再利用“深蓝词库转换”工具,将scel格式的字典转换成txt
    # http://pinyin.sogou.com/dict/detail/index/12347
    countrys <- readLines(file.choose())
    # 把数据集中的other变量进行切割
    cut_other <- str_split(raw_data$other, '/')
    head(cut_other)
    # 删除所有空字符串
    cut_other <- sapply(cut_other, function(x) x[x != " "])
    # 剔除字符串中的收尾空格
    cut_other <- sapply(cut_other, str_trim)
    head(cut_other)
    # 提取出所有关于电影所属国家的信息
    movie_country <- sapply(cut_other, function(x,y) x[x %in% y], countrys)
    head(movie_country)
    # 提取出所有关于电影所属类型的信息
    movie_type <- sapply(cut_other, function(x,y) x[!x %in% y], countrys)
    head(movie_type)
    
    # 数据分析
    # 1、参评人数最多的Top10的电影
    # 配置画图的数据
    p <- ggplot(data = arrange(raw_data, desc(evalue_users))[1:10,], 
                mapping = aes(x = reorder(movie_name,-evalue_users), 
                              y = evalue_users)) + 
      # 限制y周的显示范围
      coord_cartesian(ylim = c(500000, 750000)) + 
      # 格式化y轴标签的数值
      scale_y_continuous(breaks = seq(500000, 750000, 100000),
                         labels = paste0(round(seq(500000, 750000, 100000)/10000, 2), 'W')) + 
      # 绘制条形图
      geom_bar(stat = 'identity', fill = 'steelblue') +
      # 添加轴标签和标题
      labs(x = NULL, y = '评价人数', title = '评价人数最多的top10电影') + 
      # 设置x轴标签以60度倾斜
      theme(axis.text.x = element_text(angle = 60, vjust = 0.5),
            plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'))
    
    p
    
    
    
    # 2、一部经典的电影需要多少国家或地区合拍
    # 统计每一部电影合拍的国家数
    movie_contain_countrys <- sapply(movie_country, length)
    table(movie_contain_countrys)
    # 由于电影的制作包含5个国家及以上的分别只有1部电影,故将5个国家及以上的当做1组
    # 转化为数据框
    df <- as.data.frame(table(movie_contain_countrys))
    # 数据框变量的重命名
    names(df)[1] <- 'countries'
    # 数据类型转换
    df$countries <- as.numeric(as.character(df$countries))
    df$countries <- ifelse(df$countries<=4, df$countries, '5+')
    # 聚合操作
    groupby_countrys <- group_by(df, countries)
    df <- summarise(groupby_countrys, Freq = sum(Freq))
    # 数据类型转换,便于后面可视化
    df$countries <- factor(df$countries)
    df
    
    # 运用环形图对上面的数据进行可视化
    # 定义数据,用于画图
    df$ymax <- cumsum(df$Freq)
    df$ymin <- c(0, cumsum(df$Freq)[-length(df$ymax)])
    # 生成图例标签
    labels <- paste0(df$countries,'(',round(df$Freq/sum(df$Freq)*100,2),'%',')')
    # 绘图
    p <- ggplot(data = df, mapping = aes(xmin = 3, xmax = 4, ymin = ymin, 
                                         ymax = ymax, fill = countries)) + 
      # 矩形几何图
      geom_rect(size = 5) + 
      # 极坐标变换
      coord_polar(theta = 'y') + 
      # 环形图
      xlim(1,4) + 
      # 添加标题
      labs(x = NULL, y =NULL, title = '一部电影需要多少国家合作') + 
      # 设置图例
      scale_fill_discrete(breaks = df$countries, labels = labels) + 
      theme(legend.position = 'right', 
            plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'),
            axis.text = element_blank(),
            axis.ticks = element_blank(),
            panel.grid = element_blank(),
            panel.background = element_blank()
      )
    p
    
    
    # 3、经典电影产量top10都是哪些国家
    # 罗列出所有电影的拍摄国家
    top_countris <- unlist(movie_country)
    # 频数统计,并构造数据框
    df <- as.data.frame(table(top_countris))
    # 降序排序
    df <- arrange(df, desc(Freq))
    df
    # 香港,中国大陆和台湾入围前十,分别是第5,第7和第10名。前三的归美国,英国和日本。美国绝对是量产的国家,远远超过第二名的英国。
    # 运用文字云对上面的数据进行可视化
    wordcloud2(df, backgroundColor = 'black', rotateRatio = 2)
    
    # 4、这些经典电影主要都是属于什么类型
    # 罗列出所有电影的类型
    top_type <- unlist(movie_type)
    # 构造数据框
    df <- as.data.frame(table(top_type))
    # 降序排序
    df <- arrange(df, desc(Freq))
    df
    # 由于几乎所有的电影都贴上剧情这个标签,我们暂不考虑这个类型,看看其他的类型top15分布
    # 去除第一行的(剧情)类型
    df <- df[-1,]
    df$top_type <- as.character(df$top_type)
    # 我们使用条形图来反馈上面的数据情况
    # 提取出前15的类型
    df$top_type <- ifelse(df$top_type %in% df$top_type[1:15], df$top_type, '其他')
    # 数据聚合
    groupby_top_type <- group_by(df, top_type)
    df <- summarise(groupby_top_type, Freq = sum(Freq))
    # 排序
    df <- arrange(df, desc(Freq))
    # 构造数值标签
    labels <- paste(round(df$Freq/sum(df$Freq)*100,2),'%')
    p <- ggplot(data = df, mapping = aes(x = reorder(df$top_type, Freq), y = Freq)) +
      # 绘制条形图
      geom_bar(stat = 'identity', fill = 'steelblue') + 
      # 添加文字标签
      geom_text(aes(label = labels), size = 3, colour = 'black', 
                position = position_stack(vjust = 0.5), angle = 30) + 
      # 添加轴标签
      labs(x = '电影类型', y = '电影数量', title = 'top15的电影类型') + 
      # 重组x轴的标签
      scale_x_discrete(limits = c(df$top_type[df$top_type!='其他'],'其他')) +
      # 主题设置
      theme(plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'),
            panel.background = element_blank())
    p
    # 前三名的电影类型分别为爱情、喜剧和犯罪
    
    # 5、哪些年代的电影好评度比较高
    # 根据年份的倒数第二位,判读所属年代
    raw_data$yearS <- paste0(str_sub(raw_data$year,3,3),'0','S')
    # 对年代聚合
    groupbyYS <- group_by(raw_data, yearS)
    yearS_movies <- summarise(groupbyYS, counts = n())
    # 绘图
    p <- ggplot(data = yearS_movies, 
                mapping = aes(x = reorder(yearS, -counts), 
                              y = counts)) +
      # 绘制条形图
      geom_bar(stat = 'identity', fill = 'steelblue') + 
      # 添加轴标签和标题
      labs(x = '年代', y = '电影数量', title = '各年代的好评电影数量') + 
      # 主题设置
      theme(plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'),
            panel.background = element_blank())
    p
    
    # 6、评分top5的电影类型
    # 所有电影类型
    types <- unique(unlist(movie_type))
    # 定义空的数据框对象
    df = data.frame()
    # 通过循环,抓取出不同标签所对应的电影评分
    for (type in types){
      res = sapply(movie_type, function(x) x == type)
      index = which(sapply(res, any) == 1)
      df = rbind(df,data.frame(type,score = raw_data[index, 'score']))
    }
    # 按电影所属类型,进行summary操作
    type_score <- aggregate(df$score, by = list(df$type), summary)
    # 数据集进行横向拼接为数据框
    type_score <- cbind(Group = type_score$Group.1, as.data.frame(type_score$x))
    # 按平均得分排序
    type_score <- arrange(type_score, desc(Mean))
    type_score
    # 单从电影类型的平均得分来看,灾难片、恐怖片和儿童片位居前三,尽管分别只有3部,2部和12部。
    
    
    # 7、评论人数和评分之间的关系
    p <- ggplot(data = raw_data, mapping = aes(x = evalue_users, y = score)) + 
      # 绘制散点图
      geom_point(colour = 'steelblue') + 
      # 添加一元线性回归拟合线
      geom_smooth(method = 'lm', colour = 'red') + 
      # 添加轴标签和标题
      labs(x = '评论人数', y = '评分', title = '评论人数与评分的关系') + 
      # 设置x轴的标签格式
      scale_x_continuous(breaks = seq(30000, 750000, 100000),
                         labels = paste0(round(seq(30000, 750000, 100000)/10000, 2), 'W')) + 
      scale_y_continuous(breaks = seq(8, 9.6, 0.2)) + 
      # 主题设置
      theme(plot.title = element_text(hjust = 0.5, colour = 'brown', face = 'bold'))
    p  
    展开全文
  • 关于十项全能的数据挖掘和分析案例,其中包含了r语言和markdown的内容。
  • 目标 本文的目的是对如何在R中进行生存分析进行简短而全面的评估。关于该主题的文献很广泛,仅涉及有限数量的(常见)问题...以下是本次审查中用于读取,管理,分析和显示数据的软件包。 运行以下行以安装和加载...
  • 原创附代码数据 原创附代码数据 有问题到淘宝找大数据部落就可以了 有问题到淘宝找大数据部落就可以了 语言数据分析回归研究案例移民政策偏好是否有 R语言数据分析回归研究案例移民政策偏好是否有 R 准确的刻板印象 ...
  • 原文:http://tecdat.cn/?p=3805 #读取数据 data=read.csv("artificial-cover.csv") #查看部分数据 head(data) ## tree.cover shurb.grass.cover ## 1 13.2 16.8 ## 2 17.2 2...
  • 【基于R语言的数据挖掘数据分析实操案例】 【2000到2015年豆瓣共47000部电影数据分析】 第一章 数据抓取 第二章 整理电影属性 第三章 整理电影属性 第四章 这样的图表才专业 第五章 频率密度图学会ggplot2 配件 第六...
  • R语言数据分析、展现与实例(01)

    千次阅读 2017-02-09 21:00:07
    R语言数据分析、展现与实例(01)统计参考书:《统计建模与R基础》用于管理R工作空间的函数:常用R对象: 向量c() 矩阵matrix() 数组array() 数据框dataframe() 列表list() 因子factor() 创建向量和矩阵产生向量 Seq...
  • R语言数据分析、展现与实例(02)

    千次阅读 2017-02-24 10:28:32
    R语言数据分析、展现与实例(02)数据输入> mydata (age=numeric(0),gender=character(0),weight=numeric(0)) #创建空数据框 > mydata (mydata) #打开编辑框进行编辑,并将结果赋值给原数据框  输入数据,直接退出...
  • R语言生存分析数据分析可视化案例

    千次阅读 2019-06-24 17:00:00
    目标 本文的目的是对如何在R中进行生存分析进行简短而全面的评估。关于该主题的文献很...以下是本次审查中用于读取,管理,分析和显示数据的软件包。运行以下行以安装和加载所需的包。 if (!require(pacman)) i...
  • R语言数据分析、展现与实例(04)

    千次阅读 2017-03-07 15:44:35
    R语言数据分析、展现与实例(04)利用xyplot()对散点分组——在lattice包里> library(lattice) > mtcars > xyplot(mpg~disp, + data=mtcars, + groups = cyl, + suto.key=list(corner=c(1,1))) #生成右上角的图例...
  • R语言金融数据分析

    2018-06-05 17:23:54
    目录 R语言介绍 时间背景知识 金融案例分析R语言实现均线模型 ppt 43页 2014
  • R R 原创 语言案例数据分析报告论文附代码数据 原创 语言案例数据分析报告论文附代码数据 有问题到淘宝找大数据部落就可以了 有问题到淘宝找大数据部落就可以了 语言案例数据分析可视化报告 R 语言案例数据分析可视...
  • 点击链接加入群【R语言&大数据分析】:https://jq.qq.com/?_wv=1027&k=4BQLEWp,R语言&大数据分析qq群 456726635 欢迎讨论交流
  • 基于R语言数据分析导论,共7章:金融数据及特征、金融时间序列的线性模型、线性时间序列分析案例学习、资产波动率及其模型、波动率模型的应用、高频金融数据、极值理论、分位数估计与VaR
  • R语言数据分析第一节

    2020-09-06 10:58:47
    一、R语言数据分析是什么? R 是一种免费的、开源的语言和操作环境,一开始是为了统计计算和画图,R语言现在可以在诸多领域进行应用,比如,数据挖掘、机器学习、社交网络、生物信息、金融数据分析,数据分析等。...
  • 本次培训采取深入浅出的方法,先以简单的案例引入R数据分析的基本原理,随后重点讲解多种常用单元的功能和特性,以及有R数据分析与数据的实用技术和处理方法,紧密结合应用实例,针对工作中存在的疑难问题进行分析...
  • R语言数据分析、展现与实例(03)

    千次阅读 2017-03-01 21:46:01
    R语言进阶——数据展现传统表格 二维结构 数字与文字为主 缺乏润色 现代信息图 以人眼敏感的视觉元素为主 信息高度密集 何为美 新颖 充实 高效 美感 学习经典元素周期表 - 元素周期表的天才之处:通过元素的编排...
  • 语言数据分析可视化案例报告论文附代码数据 原创定制 语言数据分析可视化案例报告论文附代码数据 有问题到淘宝找大数据部落就可以了 有问题到淘宝找大数据部落就可以了 R R 语言主成分分析因子分析案例报告 ...
  • R语言网络数据分析

    万次阅读 2016-10-17 11:38:35
    R语言的网络数据分析,既可分析internet网的大量数据,例如电信数据,又可建立图数据结构,然而R语言的图结构称为网络格式数据,包括节点属性。
  • R语言泰坦尼克号随机森林案例数据分析报告(附代码数据)

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 96,717
精华内容 38,686
关键字:

r语言数据分析案例