精华内容
下载资源
问答
  • 大数据部落

    2020-06-29 22:33:05
    我国经济迅速发展,个人信用业务也迅速发展,个人信用业务具有提高内需、促进消费的作用。 在个人信用业务规模扩大的同时,信用违约等风险问题日益突出,在一定程度上制约了我国信用市场的健康发展。...

    我国经济迅速发展,个人信用业务也迅速发展,个人信用业务具有提高内需、促进消费的作用。 在个人信用业务规模扩大的同时,信用违约等风险问题日益突出,在一定程度上制约了我国信用市场的健康发展。
      近年来,个人消费贷款类型呈现多种变化和发展,从原来的单一贷款种类发展到今天各种各样的贷款种类,汽车贷款、教育补助金贷款、耐用消费品贷款(家电、电脑、烹饪器具等)、结婚贷款等在我国陆续展开。 违约风险是指债务人由于各种原因无法按时偿还借款债务的风险,对商业银行来说,违约风险主要是指贷款人的偿还能力下降、信用水平下降等违反合同的风险。
      决策树(Decision  Tree  )是用于分类和预测的主要技术,从一系列不规则的事例推论决策树的表现形式的分类规则,采用自上而下的递归方式在决策树的内部节点进行属性值的比较,根据属性判断从该节点的分支,在决策树的叶节点得到结论。 因此,从根节点到叶节点与合理的规则相对应,树整体与式规则的集合相对应。 决策树是数据分析中常用的非常重要的技术,可用于数据分析和预测。 基于决策树算法的最大优点之一是,在学习过程中用户不需要知道很多背景知识,如果能通过训练事例是属性的结论来表现,就可以使用该算法来学习。

    展开全文
  • 原文链接 http://tecdat.cn/?p=2623 原文出处:拓端数据部落公众号 和宏观经济数据不同,金融市场上多为高频数据,比如股票收益率序列。直观的来说 ,后者是比前者“波动”更多且随机波动的序列,在一元或多元的...

    原文链接  http://tecdat.cn/?p=2623

    原文出处:拓端数据部落公众号

     

    和宏观经济数据不同,金融市场上多为高频数据,比如股票收益率序列。直观的来说 ,后者是比前者“波动”更多且随机波动的序列,在一元或多元的情况下,构建Copula函数模型和GARCH模型是最好的选择。

    多元GARCH家族中,种类非常多,需要自己多推导理解,选择最优模型。本文使用R软件对3家上市公司近十年的每周收益率为例建立模型。 

    首先我们可以绘制这三个时间序列。

    IMG_256

    在这里使用多变量的ARMA-GARCH模型。  

        本文考虑了两种模型

          1 ARMA模型残差的多变量GARCH过程

    2 ARMA-GARCH过程残差的多变量模型(基于Copula)
     

    1 ARMA-GARCH模型

    > fit1 = garchFit(formula = ~arma(2,1)+ garch(1,1),data = dat [,1],cond.dist =“std”)
    
    

    可视化波动 

    IMG_257

    隐含的相关性 

    > emwa_series_cor = function(i = 1,j = 2){+ if((min(i,j)== 1)&(max(i,j)== 2)){+ a = 1; B = 5; AB = 2}
    
    +}

    IMG_258

    2 BEKK(1,1)模型:

       BEKK11(dat_arma)

    IMG_259

    隐含的相关性

     IMG_260

    对单变量GARCH模型残差建模

    第一步可能是考虑残差的静态(联合)分布。单变量边际分布是

    IMG_261

    而联合密度为

    IMG_262

    可视化 密度 

     IMG_263 

    IMG_264

    查看相关性是否随着时间的推移而稳定。

      IMG_265

    斯皮尔曼相关性

    IMG_266

    肯德尔相关性

    IMG_267

    对相关性建模,考虑DCC模型

     IMG_268 

    对数据进行预测 

     > fcst = dccforecast(dcc.fit,n.ahead = 200)

     
    IMG_269

     

    我们已经完全掌握了多元GARCH模型的使用,接下来就可以放手去用R处理时间序列了!

     


    最受欢迎的见解

    1.R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测

    2.R语言基于ARMA-GARCH-VaR模型拟合和预测实证

    3.R语言基于ARMA-GARCH过程的VAR拟合和预测

    4.GARCH(1,1),MA以及历史模拟法的VaR比较

    5.R语言多元COPULA GARCH 模型时间序列预测

    6.matlab预测ARMA-GARCH 条件均值和方差模型

    7.R语言对S&P500股票指数进行ARIMA + GARCH交易策略

    8.R语言: GARCH模型股票交易量的研究道琼斯股票市场指数

    9.R语言GARCH-DCC模型和DCC(MVT)建模估计

     

    展开全文
  • 大数据部落】用R挖掘Twitter数据

    千次阅读 2019-07-04 16:52:58
    原文链接:http://tecdat.cn/?p=3956 原文出处:拓端数据部落公众号 Twitter是一个流行的社交网络,这里有大量的数据等着我们分析。Twitter R包是对twitter数据进行文本挖掘的好工具。本文是关于如何使用Twitter R...

    原文链接:http://tecdat.cn/?p=3956 

    原文出处:拓端数据部落公众号

     

    Twitter是一个流行的社交网络,这里有大量的数据等着我们分析。Twitter R包是对twitter数据进行文本挖掘的好工具。本文是关于如何使用Twitter R包获取twitter数据并将其导入R,然后对它进行一些有趣的数据分析。

    【大数据部落】用R挖掘Twitter数据

    第一步是注册一个你的应用程序。

    为了能够访问Twitter数据编程,我们需要创建一个与Twitter的API交互的应用程序。

    【大数据部落】用R挖掘Twitter数据

    【大数据部落】用R挖掘Twitter数据

    【大数据部落】用R挖掘Twitter数据

    注册后你将收到一个密钥和密码:

    【大数据部落】用R挖掘Twitter数据

    【大数据部落】用R挖掘Twitter数据

    获取密钥和密码后便可以在R里面授权我们的应用程序以代表我们访问Twitter:

    【大数据部落】用R挖掘Twitter数据

    根据不同的搜索词,我们可以在几分钟之内收集到成千上万的tweet。这里我们测试一个关键词 littlecaesars的twitter结果:

    抓取最新的1000条相关twitter

    由于默认的抓取结果是json格式,因此使用twlisttodf函数将其转换成数据框

    【大数据部落】用R挖掘Twitter数据

    然后我们做一些简单的文本清理

    从得到的数据里,我们可以看到有twitter发表时间,内容,经纬度等信息

    【大数据部落】用R挖掘Twitter数据

    【大数据部落】用R挖掘Twitter数据

    在清理数据之后,我们对twitter内容进行分词,以便进行数据可视化

    【大数据部落】用R挖掘Twitter数据

    分词之后可以得到相关twitter的高频词汇,然后将其可视化

    【大数据部落】用R挖掘Twitter数据

    【大数据部落】用R挖掘Twitter数据

    【大数据部落】用R挖掘Twitter数据

    除此之外,还可以结合数据中的时间戳数据和地理数据进行可视化分析

    【大数据部落】用R挖掘Twitter数据

    【大数据部落】用R挖掘Twitter数据

    【大数据部落】用R挖掘Twitter数据

    【大数据部落】用R挖掘Twitter数据

    如果你一直在考虑对一些文本数据应用情感分析,你可能会发现使用R比你想象的更容易!

     

    展开全文
  • 大数据部落】R语言电商网站爬虫

    千次阅读 2019-06-27 14:24:47
    由于电商网站的数据的实时性要求,数据分析时一般直接从网页爬取。因此使用爬虫的方法显得十分重要。R作为数据分析的软件,可以直接对爬取的数据进行后续处理,加上上手快的特点,是电商网站数据爬取和分析的好...

    原文链接:http://tecdat.cn/?p=4559

     

    由于电商网站的数据的实时性要求,数据分析时一般直接从网页爬取。因此使用爬虫的方法显得十分重要。R作为数据分析的软件,可以直接对爬取的数据进行后续处理,加上上手快的特点,是电商网站数据爬取和分析的好工具。

    下面以?http://cn.shopbop.com/为例 简单分享下使用Rcurl对网站进行数据爬取的过程。

     

    首先需要在Rgui里安装需要的软件包

    require("RCurl")
    
    require("rjson")
    
    require(stringr)
    
    require(XML)
    #得到网页地址,并将其转换成html源码
    
    url = "http://cn.shopbop.com/"
    
    doc = getURL(url) 
    
    txt = htmlParse(doc, asText = TRUE)
    
    print(txt)

     

    #由于获取网页中商品数据需要对html源码结构进行分析,因此可以直接在浏览器中查看后,再到R中进行编辑

     

     

    在源码中很容易找到网站导航中子网站的网址

     

    #因此可以通过xmlPath语言找到相应子网站的节点

    a <- getNodeSet(txt, path = "//a[@class = 'parent topnav-logged-in ']")#找到子网页的xml路径?
    
    

     

     

    如果得到的中文有乱码,则需要对编码进行转换

    b <- sapply(a,xmlValue)
    
    c <- iconv(b,"utf-8","gbk")
    
    c

    否则 可以通过xmlGetAttr函数 得到所需的attributes

    ?d <- sapply(a,xmlGetAttr , "href")#获取子网页

     

    ??由于得到的只是子网页的路径,要获取子网页的数据 需要用paste链接网站根目录地址

    d1=paste(url,d[1],sep="" )


    ?#对于批量爬取商品的信息还需要获取商品展示子网页的页数

    ?每页显示40个商品,一共有1200个商品。 

     

    ???通过网址,我们很容易了解商品展示页的地址规则。

     

    #因此,可以通过一个简单的循环来获取所有网页的地址,从而获取每个网页的所有商品信息。???

    a <- getNodeSet(txt, path = "//span[@class = 'page-number']")#找到子网页的xml路径?(部分代码省略)
    
    d <- sapply(a,xmlGetAttr , "data-number-link")#获取子网页中的目录
    
    pagenum=strsplit(d,"=")
    
    maxpagenum=0;
    
    for(i in 1:length(pagenum)){
    
      maxpagenum[i]= pagenum[[i]][3]
    
      
    
      
    
    }
    
    maxpagenum=max(as.numeric(maxpagenum))
    
    #[1] 1200
    
    

    #在获得所有网页后,获取所有商品的信息就变得简单了,只要循环对每个网页的信息进行xml关键字的爬取

    #名称信息?

     

    ?图片信息

    ?价格信息

    ?通过文本处理和输出,就可以将其进行保存和后续的数据分析。

      

     

     

    展开全文
  • 探析大数据期刊文章研究热点 2.618网购数据盘点-剁手族在关注什么 3.r语言文本挖掘tf-idf主题建模,情感分析n-gram建模研究 4.python主题建模可视化lda和t-sne交互式可视化 5.r语言文本挖掘nasa数据网络分析,tf-idf...
  • 原文链接:http://tecdat.cn/?p=2982 原文出处:拓端数据部落公众号 风险价值是衡量与投资组合相关的风险水平的统计方法。风险价值在指定的时间范围内和给定的置信水平下测量最大损失量。 首先,它的英文值是价值的...
  • 如今DT(数据技术)时代,数据变得越来越重要,其核心应用“预测”也成为互联网行业以及产业变革的重要力量。对于零售行业来说,预测几乎是商业智能(BI)研究的终极问题,单纯从机器学习的角度来说,做到精准...
  • 原文链接:http://tecdat.cn/?p=1573 原文出处:拓端数据部落公众号 “今天我们见证了数据的爆炸式增长:社交媒体数据、系统数据、CRM数据以及大量网络数据。然而, 在大多数情况下,这些数据告诉了我们用户行为的...
  • 原文链接:http://tecdat.cn/?p=2784 原文出处:拓端数据部落公众号 之前在某社区中看到一篇帖子《一张价值几十万个跌停的统计表》,主要是预测即将被ST的股票,虽然有些标题党,但是还有有一些参考价值的。...
  • 原文链接... In the Internet age, data is the most valuable resource, big data to lead the traditional industries, gave birth to new vitality. Almost all industries are embracin...
  • 原文链接:... "With the introduction of real estate regulation and control policies, regulatory policies continue to tighten, the impact of rising housing prices will become in...
  • 原文链接 http://tecdat.cn/?p=1474 原文出处:拓端数据部落公众号 Home appliance industry and consumer upgrades quietly unfolded. This change in the market so that consumer expectations of household ...
  • 原文链接:http://tecdat.cn/?p=1506 原文出处:拓端数据部落公众号 “ 高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手。...
  • 原文链接:http://tecdat.cn/?p=393 原文出处:拓端数据部落公众号 如何衡量电商存量用户的价值?是上一次购买时间?消费金额?还是购买次数?通过什么模型进行用户细分对营销活动提升用户的响应率最有效? 如果一个...
  • 业务背景 电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。...
  • 原文链接:http://tecdat.cn/?p=3994 原文出处:拓端数据部落公众号 对于非结构化的网站中文评论信息,r的中文词频包可能是用来挖掘其潜在信息的好工具,要分析文本内容,最常见的分析方法是提取文本中的词语,并...
  • 原文链接:http://tecdat.cn/?p=2175/ 原文出处:拓端数据部落公众号 案例1 早在1995年比尔·盖茨就在《未来之路》里说过:未来没有配套智能家居的房子,就是毛坯房。当你还在纠结“人工智能”安利值不值得吃,最近...
  • 探析大数据期刊文章研究热点 3.机器学习助推快时尚精准销售预测 4.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用 5.数据聆听人民网留言板的那些“网事” 6.在r语言中使用GAM(广义相加模型)进行...
  • 移动平均线是技术分析中最常用的,作为一种简单有效的数学模型而被广泛使用。均线使用的方式的差异在于均线的计算方式与价格使用方式。不同的均线计算方式会产生不同的结果,不同的价格使用也会有不同的效果。...
  • 原文链接:http://tecdat.cn/?p=4815 原文出处:拓端数据部落公众号 因为近期在分析数据时用到了EM最大期望估计法这个算法,在参数估计中也用到的比较多。然而,发现国内在R软件上实现高斯混合分布的EM的实例并不多...
  • 大数据时代,数字媒体凭借自身的技术优势,以独特的新闻信息采访形式、表达方式和传播方式等多方面优势给传统媒体造成了较大冲击。传统媒体应用互联网思维改造自身,以用户为中心,产品与服务为导向,进行内容、渠道、...
  • 原文:http://tecdat.cn/?p=3928 用Shiny生态快速搭建交互网页应用 ... ...Shiny包可以快速搭建基于R的交互网页应用。...Shiny包的特点在于不需要了解网页语言,用纯R来搭建。生成的网页应用是动态交互、...
  • 原文链接:http://tecdat.cn/?p=1427 原文出处:拓端数据部落公众号 In the era of information explosion, "credit" has become increasingly important intangible property. The practical significance of "data...
  • 新常态下银行信贷风险预警之道 基于决策树银行信贷用户分类 引言业务主页背景 ...我国经济高速发展,个人信贷业务也随着快速发展,而个人信贷业务对提高内需,促进消费也有拉动作用。有正必有反,在个人信贷业务...
  • 原文链接:http://tecdat.cn/?p=2857 原文出处:拓端数据部落公众号 本文是通过对area,perimeter,campactness几个变量的贝叶斯建模,来查看他们对groovelength这个变量的影响. 并且对比rjags R2jags和内置贝叶斯预测...
  •  基于此,银行分析和计算大数据技术,准确评估客户的信用。 银行客户信用评分数据从银行产生的内部数据或外部数据得出,如下 在本文中我们将从使用R: 对可视化银行客户的信用的人口属性进行som聚类并且进行可视化 ...
  • 对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率。 对于付费用户预测,主要是思考收入由哪些因素推动,再对每个因素做预测...
  • 原本链接:http://tecdat.cn/?p=4838 原文出处:拓端数据部落公众号 众所周知,在证券投资领域将涉及很多数据,因此,通过简单的处理难以有效地分析各种公司股票之间的关系,而关联规则挖掘可以很好的解决这个问题,...
  • 原文链接:http://tecdat.cn/?p=4012 原文出处:拓端数据部落公众号 我们以R语言抓取的推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息。 找到推特来源是苹果手机或者安卓手机的样本...
  • 原文链接:http://tecdat.cn/?p=1078 原文出处:拓端数据部落公众号 618购物狂欢节前后,网民较常搜索的关键词在微博、微信、新闻三大渠道的互联网数据表现,同时通过分析平台采集618相关媒体报道和消费者提及数据。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,955
精华内容 782
关键字:

大数据部落