精华内容
下载资源
问答
  • 金融经济数据方面应用Python非常广泛,也可以算是用Python进行数据分析的一个实际应用数据规整化方面的应用 时间序列与截面对齐 在处理金融数据时,最费神的一个问题就是所谓的“数据对齐” (data ...

    金融经济数据方面应用Python非常广泛,也可以算是用Python进行数据分析的一个实际应用。

    数据规整化方面的应用

    时间序列与截面对齐
    在处理金融数据时,最费神的一个问题就是所谓的“数据对齐” (data alignment)问题。两个相关的时间序列的索引可能没有很好的对齐,或两个DataFrame对象可能含有不匹配的列或行。

    Pandas可以在算术运算中自动对齐数据。在实际工作中,这不仅能为你带来极大自由度,而且还能提升工作效率。如下,看这个两个DataFrame分别含有股票价格和成交量的时间序列:
    这里写图片描述

    假设你想要用所有有效数据计算一个成交量加权平均价格(为了简单起见,假设成交量数据是价格数据的子集)。由于pandas会在算术运算过程中自动将数据对齐,并在sum这样的函数中排除缺失数据,所以我们只需编写下面这条简洁的表达式即可:
    这里写图片描述

    由于SPX在volume中找不到,所以你随时可以显式地将其丢弃。如果希望手工进行对齐,可以使用DataFrame的align方法,它返回的是一个元组,含有两个对象的重索引版本:

    这里写图片描述

    另一个不可或缺的功能是,通过一组索引可能不同的Series构建一个DataFrame。
    这里写图片描述

    跟前面一样,这里也可以显式定义结果的索引(丢弃其余的数据):

    这里写图片描述

    时间和“最当前”数据选取

    假设你有一个很长的盘中市场数据时间序列,现在希望抽取其中每天特定时间的价格数据。如果数据不规整(观测值没有精确地落在期望的时间点上),该怎么办?在实际工作当中,如果不够小心仔细的话,很容易导致错误的数据规整化。看看下面这个例子:
    这里写图片描述

    利用Python的datetime.time对象进行索引即可抽取出这些时间点上的值:
    这里写图片描述

    实际上,该操作用到了实例方法at_time(各时间序列以及类似的DataFrame对象都有):

    这里写图片描述

    还有一个between_time方法,它用于选取两个Time对象之间的值:

    这里写图片描述

    正如之前提到的那样,可能刚好就没有任何数据落在某个具体的时间上(比如上午10点)。这时,你可能会希望得到上午10点之前最后出现的那个值:

    这里写图片描述

    如果将一组Timestamp传入asof方法,就能得到这些时间点处(或其之前最近)的有效值(非NA)。例如,我们构造一个日期范围(每天上午10点),然后将其传入asof:

    这里写图片描述

    拼接多个数据源

    在金融或经济领域中,还有几个经常出现的合并两个相关数据集的情况:
    ·在一个特定的时间点上,从一个数据源切换到另一个数据源。
    ·用另一个时间序列对当前时间序列中的缺失值“打补丁”。
    ·将数据中的符号(国家、资产代码等)替换为实际数据。
    第一种情况:其实就是用pandas.concat将两个TimeSeries或DataFrame对象合并到一起:
    这里写图片描述

    其他:假设data1缺失了data2中存在的某个时间序列:
    这里写图片描述

    combine_first可以引入合并点之前的数据,这样也就扩展了‘d’项的历史:
    这里写图片描述

    DataFrame也有一个类似的方法update,它可以实现就地更新。如果只想填充空洞,则必须传入overwrite=False才行:
    这里写图片描述
    上面所讲的这些技术都可实现将数据中的符号替换为实际数据,但有时利用DataFrame的索引机制直接对列进行设置会更简单一些:

    这里写图片描述

    收益指数和累计收益

    在金融领域中,收益(return)通常指的是某资产价格的百分比变化。一般计算两个时间点之间的累计百分比回报只需计算价格的百分比变化即可:对于其他那些派发股息的股票,要计算你在某只股票上赚了多少钱就比较复杂了。不过,这里所使用的已调整收盘价已经对拆分和股息做出了调整。不管什么样的情况,通常都会先算出一个收益指数,它是一个表示单位投资(比如1美元)收益的时间序列。
    从收益指数中可以得出许多假设。例如,人们可以决定是否进行利润再投资。我们可以利用cumprod计算出一个简单的收益指数:
    这里写图片描述

    得到收益指数之后,计算指定时期内的累计收益就很简单了:

    这里写图片描述

    当然了,就这个简单的例子而言(没有股息也没有其他需要考虑的调整),上面的结果也能通过重采样聚合(这里聚合为时期)从日百分比变化中计算得出:
    这里写图片描述

    如果知道了股息的派发日和支付率,就可以将它们计入到每日总收益中,如下所示:
    这里写图片描述

    展开全文
  • 手机信令数据应用

    万次阅读 2018-01-15 01:18:07
    《基于手机信令数据的城域出行模式提取模型研究与实现》论文摘要 研究主要取得的成就包含: 1. 通过预处理,修复基站抖动修复 筛选活跃用户 修复基站抖动 2. 面向时间序列的空间密度聚类算法,提取完整用户单...

    《基于手机信令数据的城域出行模式提取模型研究与实现》论文摘要

    研究主要取得的成就包含:
    1. 通过预处理,修复基站抖动修复
    筛选活跃用户
    修复基站抖动
    2. 面向时间序列的空间密度聚类算法,提取完整用户单日出行链
    原始记录 停留点 移动点 OD出行
    基于改进的空间密度聚类的停留点识别(改进DBSCAN,加入时间维度)
    3. 基于手机用户出行链数据和城市交通小区数据,构建区域间出行矩阵,发现城市热点出行区域
    网格划分和交通小区划分(2014年461个)
    PNPoly算法(改进)匹配交通小区
    对OD矩阵进行排序,得到热点出发区域和热点到达区域
    热点区域出行区域的出行模式提取(根据速度和时间特性,定义九种出行模式)
    OD轨迹填补
    4. 基于多次出行进行轨迹填补,识别路径偏好,发现群体在区域间出行时的路径选择偏好
    路径选择偏好(DWT算法)
    偏好分类
    5. 使用北京手机信令数据进行验证

    需要

    1. 信令数据
    2. 数据格式说明(单基站数据OR多基站定位数据)
    3. 交通小区数据

    网站

    展示网站
    http://47.93.128.28:8080/

    展开全文
  • 基于CMW500的数据应用测试

    千次阅读 2014-01-03 16:01:02
    随着中国移动的TD-LTE网络商用广告频频出现在公众的视野,...相对于2G/3G而言,LTE用户能体验到的最明显的大跃进就是更高的下载速率,而且其面向IP和移动互联网的设计为更多、更新的数据应用提供了更加宽广的业务平台,

      随着中国移动的TD-LTE网络商用广告频频出现在公众的视野,4G时代的到来已经成为不争的事实。现阶段,移动用户对数据业务需求的急剧增加,用户数量的日益增长,移动网络速率也已经开始跟不上时代前进的节拍,这也将逐步转变为未来移动通信业务的主要矛盾。相对于2G/3G而言,LTE用户能体验到的最明显的大跃进就是更高的下载速率,而且其面向IP和移动互联网的设计为更多、更新的数据应用提供了更加宽广的业务平台,多种互联网服务,即便是超高清影视,在LTE网络上也能够轻松实现。所以,对于4G终端而言,以用户体验为目标的测试也变得比任何时候都重要。数据应用测试,主要是HTTP /FTP/Ping/IMS等业务,基本覆盖了目前人们所使用的主要业务,用数据定量地展示了移动网络的用户体验。针对数据应用测试,本文将介绍一个非常完美的解决方案。

      1. 数据应用测试

      数据应用测试是面向最终用户体验的测试,通过用户的日常应用来验证终端软硬件的整体性能,确保终端满足最初的设计性能。数据应用测试的方法是在一个独立可控的环境中运行用户应用程序 (如彩信,下载行为,网页浏览,流媒体业务等) 来验证终端是否最终能够达到商用的标准。测试的主要架构如图1所示,终端用户利用无线基站的资源,通过IP域访问服务器,完成FTP下载、HTTP访问网页等业务。

    数据应用网络架构图

      在早期,很多终端研发工程师需要利用商用网络,通过真实基站完成这一项测试。由于商用网络运行环境的不确定性,比如,资源分配的随机性和无线环境的影响,很难准确地反映终端的真实能力。因此,拥有一个可用于应用测试、无线资源和环境可控的测试平台是非常有必要的。

      2.CMW500测试平台

      CMW500是一款通用的数字无线综合测试仪,频率范围从70MHz~6GHz,支持所有的移动通信标准,也非常容易扩展到将来的标准。测试仪所提供的信令和非信令测试模式可根据测试需求自由定制,为用户提供了极大的灵活性。因此,在产线、研发、实验室各个测试应用阶段都得到了非常广泛、成功的应用。目前,在数据应用测试方面,CMW500支持LTE(TDD/FDD)、GSM/(E)GPRS、WiMAX、WLAN(abgn)、WCDMA\HSPA+、CDMA2000/EVDO(0/A/B)等完整的应用测试解决方案,可以满足终端多种网络通信技术的测试要求。

      3.CMW500用于数据应用测试

      从GSM网络的12Kbps下载速率,到现阶段FDD-LTE的150Mbps,现代通信网络在速率上无疑是一个巨大的跃进。在高速率的情况下,测试中任何一个环节的瓶颈都会影响到最终的测试结果。比如,PC的百兆网卡会影响到150Mbps的流量测试。与同类型仪表相比,CMW500采取内置服务器的方式,并且内置应用测试软件,避免了任何瓶颈的出现。CMW500提供了多种服务类型,可以覆盖几乎所有的应用测试,具体包含有:1、验证终端的某项具体业务,包括可以达到的上下行数据速率,BLER/FER,ACK/NACK等服务质量指标,并可进行IP的统计;2、多项业务并行下终端的支持情况,研究它们之间的相互影响情况;3、结合射频指标、实时信令消息以及IP包分析,辅助分析在测试中发现的问题。

      CMW500用于应用测试的优势有如下几点:首先,高度集中的测试平台,在内置服务器和应用软件的帮助下,用户完成各项应用测试变得十分简单;除了内置服务器外,CMW500同时也提供了外置服务器的网络接口,测试人员根据需要,以CMW500作为IP中继,访问局域网或广域网其次,与实际网络测试相比,CMW500的无线资源可根据用户的需求,自定义分配和加扰;利用CMW500内置衰落模拟器或外接衰落模拟器,测试各种衰落场景下的用户体验,如高速行驶时的下载速率。最后,由于内置服务器硬件和测试软件的统一,使得测试结果具备了一致性;外接服务器的硬件形形色色,或者服务器软件中可能存在的瓶颈或异常,都可能带来测试结果的差异,而高度集中的测试架构避免了这种差异的发生。

      CMW500目前支持的测试主要包含:1. Ping用于检查网络是否通畅或者网络连接速度;2. DNS用于域名解析功能测试;3. HTTP是用浏览器访问网页;4. Streaming是视频流测试;5. IMS是IP多媒体服务,可以进行对基于IP层的语音、视频通话和彩信的测试;6. FTP指文件传输速度测试,7. Iperf是网络性能测试。在这些测试中,Iperf和FTP可以定量的反映网络宽带性能,也就是吞吐量测试。

      4.3G/4G吞吐量测试结果对比

      表1是对3G和4G两款无线上网卡测试的结果。4G无线上网卡:FDD-LTE,终端类别为3。3G无线上网卡:WCDMA制式,支持DC-HSPA,终端类别为24。

    3G/4G的吞吐量测试结果

      从表中可看出,4G的下载速率可达百兆,远远超过3G的下载速率。

      5.结束语

      更高速率的业务应用,是现代移动通信技术发展的重要驱动力之一。所以,我们有理由相信,应用测试必将成为4G时代的测试重点。

    转自:http://www.52rd.com/S_TXT/2013_12/TXT53673.HTM


    展开全文
  • 金融经济数据方面应用Python非常广泛,也可以算是用Python进行数据分析的一个实际应用数据规整化方面的应用时间序列与截面对齐在处理金融数据时,最费神的一个问题就是所谓的“数据对齐” (data alignment)问题...

    金融经济数据方面应用Python非常广泛,也可以算是用Python进行数据分析的一个实际应用。

    数据规整化方面的应用

    时间序列与截面对齐

    在处理金融数据时,最费神的一个问题就是所谓的“数据对齐” (data alignment)问题。两个相关的时间序列的索引可能没有很好的对齐,或两个DataFrame对象可能含有不匹配的列或行。

    Pandas可以在算术运算中自动对齐数据。在实际工作中,这不仅能为你带来极大自由度,而且还能提升工作效率。如下,看这个两个DataFrame分别含有股票价格和成交量的时间序列:


    假设你想要用所有有效数据计算一个成交量加权平均价格(为了简单起见,假设成交量数据是价格数据的子集)。由于pandas会在算术运算过程中自动将数据对齐,并在sum这样的函数中排除缺失数据,所以我们只需编写下面这条简洁的表达式即可:


    由于SPX在volume中找不到,所以你随时可以显式地将其丢弃。如果希望手工进行对齐,可以使用DataFrame的align方法,它返回的是一个元组,含有两个对象的重索引版本:


    在这里还是要推荐下我自己建的Python开发学习群:483546416,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴

    另一个不可或缺的功能是,通过一组索引可能不同的Series构建一个DataFrame。

    跟前面一样,这里也可以显式定义结果的索引(丢弃其余的数据):

    时间和“最当前”数据选取

    假设你有一个很长的盘中市场数据时间序列,现在希望抽取其中每天特定时间的价格数据。如果数据不规整(观测值没有精确地落在期望的时间点上),该怎么办?在实际工作当中,如果不够小心仔细的话,很容易导致错误的数据规整化。看看下面这个例子:

    利用Python的datetime.time对象进行索引即可抽取出这些时间点上的值:

    实际上,该操作用到了实例方法at_time(各时间序列以及类似的DataFrame对象都有):

    还有一个between_time方法,它用于选取两个Time对象之间的值:

    正如之前提到的那样,可能刚好就没有任何数据落在某个具体的时间上(比如上午10点)。这时,你可能会希望得到上午10点之前最后出现的那个值:

    如果将一组Timestamp传入asof方法,就能得到这些时间点处(或其之前最近)的有效值(非NA)。例如,我们构造一个日期范围(每天上午10点),然后将其传入asof:

    拼接多个数据源

    在金融或经济领域中,还有几个经常出现的合并两个相关数据集的情况:

    ·在一个特定的时间点上,从一个数据源切换到另一个数据源。

    ·用另一个时间序列对当前时间序列中的缺失值“打补丁”。

    ·将数据中的符号(国家、资产代码等)替换为实际数据。

    第一种情况:其实就是用pandas.concat将两个TimeSeries或DataFrame对象合并到一起:

    其他:假设data1缺失了data2中存在的某个时间序列:

    combine_first可以引入合并点之前的数据,这样也就扩展了‘d’项的历史:

    DataFrame也有一个类似的方法update,它可以实现就地更新。如果只想填充空洞,则必须传入overwrite=False才行:

    上面所讲的这些技术都可实现将数据中的符号替换为实际数据,但有时利用DataFrame的索引机制直接对列进行设置会更简单一些:

    收益指数和累计收益

    在金融领域中,收益(return)通常指的是某资产价格的百分比变化。一般计算两个时间点之间的累计百分比回报只需计算价格的百分比变化即可:对于其他那些派发股息的股票,要计算你在某只股票上赚了多少钱就比较复杂了。不过,这里所使用的已调整收盘价已经对拆分和股息做出了调整。不管什么样的情况,通常都会先算出一个收益指数,它是一个表示单位投资(比如1美元)收益的时间序列。

    从收益指数中可以得出许多假设。例如,人们可以决定是否进行利润再投资。我们可以利用cumprod计算出一个简单的收益指数:

    得到收益指数之后,计算指定时期内的累计收益就很简单了:

    当然了,就这个简单的例子而言(没有股息也没有其他需要考虑的调整),上面的结果也能通过重采样聚合(这里聚合为时期)从日百分比变化中计算得出:

    如果知道了股息的派发日和支付率,就可以将它们计入到每日总收益中,如下所示:

    微信公众号:程序员大牛

    欢迎关注,一起学习。

    回复“Python”,有本人精心收集的Python,Java,iOS,大数据,前端,小程序,后端,算法等等近1T的网盘资源免费分享给你。

    展开全文
  • 寿阳,花名云生,袋鼠云数据中台解决方案专家。拥有二十年的企业IT管理经验,擅长大型企业信息化规划、项目管理、流程优化及管理变革等领域,曾在用友公司长期担任售前顾问,出任河南天瑞集团CIO(中国民企500强),...
  • 基于Cloudant数据库的应用开发(选题不限,领域不限,只要数据层采用Cloudant)。 [b]【参赛人员】[/b] 任何依法成立的公司、社会团体或个人均可参赛(IBM员工除外)。 [b]【大赛时间】[/b] [align=center...
  • 数据治理、共享和应用

    千次阅读 2019-07-23 11:47:31
    如何让数据资产工具更好的用户体验,实现数据“好找、好用、好看、实时和共享”,需借助大数据、云搜索、微应用等先进技术,搭建企业数据资产管理体系,推动企业数据资产管理规范和创新,丰富数据应用与消费工具,...
  • Python利用pandas处理Excel数据应用

    万次阅读 多人点赞 2019-04-16 20:06:42
    最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据...该教程仅仅限于结合柠檬班的全栈自动化测试课程来讲解下pandas在项目中的应用,这仅仅只是冰山一角,希望大家可以踊跃的去尝试和...
  • 数据结构核心原理与算法应用

    千人学习 2019-09-03 17:50:03
    为此,樊老师结合多年的工作经验,经过长时间的准备,精心打造了《数据结构基本原理与算法应用》课程,本课程不拘泥于任何一门编程语言,从实际应用出发,深入浅出,注重学员对于课程知识的整体掌握与深入理解。...
  • ImageNet数据应用

    万次阅读 2018-09-14 19:43:07
    ImageNet数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。 其图片数量最多,分辨率最高,含有的类别更多,有上千个图像类别。 每年ImageNet的项目组织都会举办一场ImageNet大规模视觉识别...
  • 数据驱动的应用程序设计和开发

    千次阅读 2011-05-15 23:16:00
    数据 应用程序 设计 开发
  • 大型系统在进行数据库部署时,常常会分为主数据应用中心和应急数据中心。通常情况下应用系统访问的是主数据中心,只有主数据中心出现故障的时候才会切换至应急数据中心,主数据中心与应急数据中心数据保持增量备份。...
  • HarmonyOS应用开发-应用偏好数据读写

    千次阅读 2020-09-25 14:35:15
    感谢关注HarmonyOS,为了便于大家学习特将鸿蒙2.0基础教学内容...1、HarmonyOS应用开发—视频播放 https://developer.huawei.com/consumer/cn/codelab/HarmonyOS-hap1/index.html#0 2、HarmonyOS应用开发—基本控件 ...
  • 常见数据结构应用场景

    千次阅读 2018-10-06 19:52:58
    通用数据结构 可以简单的按照速度将通用数据结构划分为:数组和链表(最慢),树(较快),哈希表(最快)。增、删、改、查是四大常见操作,不过其实可以浓缩为两个操作:增和查。删除操作和和修改操作都是建立在...
  • 架构大数据分析应用

    万次阅读 2016-05-18 21:19:50
    这些考虑一般都是基于分析应用的日志,例如web访问日志,应用服务器日志,和数据库日志,但是也可以基于各种其他的数据源例如社交网络数据。当面对这些使用场景的时候,如果希望随着商务的增长而弹性扩展,就需要考虑...
  • Android 不同应用之间共享数据

    千次阅读 2018-12-14 17:32:22
    应用场景:A应用数据要共享,B应用调用;Android 7.0之前可以使用。 A应用: //Mode 为自定义数据名称 SharedPreferences share = context.getSharedPreferences("Mode",Context.MODE_WORLD_READABLE); ...
  • Android应用数据备份

    千次阅读 2015-05-26 14:20:31
    在Android上可以很方便地管理数据备份,那些不慎丢失设备的用户会对该功能感激不尽。备份数据会很安全地存储在云端,并且只在具有相同谷歌ID设备上恢复数据。 下面是典型的AndroidManifest.xml文件片段: ...
  • 数据仓库应用(三): SQL Server 2005的数据仓库应用–联机分析OLAP一、问题背景 某电子商务网站主要销售电子类产品,产品又分为几个大类别,包括:电脑类、手机类、键盘类等,每个类别内又细分为几个小类别,各类别...
  • 数据异常检测方法以及实际应用

    千次阅读 2019-05-28 20:35:17
    文章目录前言一、应用场景二、检测方法1、概率统计模型2、机器学习方法3、业务经验,逻辑规则4、判定规则三、实际应用1、从3 Sigma准则说起2、BOX-COX转化3、幂律分布(Power Law Distribution)...
  • 数据分析之地理围栏应用

    万次阅读 2019-06-19 19:13:27
    为了让大家对流数据分析中的地理围栏应用有更多的了解,本文将在上一篇文章的基础上详细介绍一下流数据分析的地理围栏应用。 一、 地理围栏简介 地理围栏是基于移动位置服务的一种新应用,即用...
  • Hadoop大数据分析应用场景

    万次阅读 2018-06-02 19:58:10
     一、Hadoop的应用业务分析  大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。  目前主流的三大分布式计算系统分别为:Hadoop、Spark...
  • Android本应用数据清除管理器

    千次阅读 2015-04-30 10:11:58
    应用数据清除管理器 package com.loopj.android.http.manager; import java.io.File; import android.content.Context; import android.os.Environment; /** * 本应用数据清除管理器 * 描 述: 主要功能...
  • MySQL中 JSON 数据类型应用

    万次阅读 2018-05-28 23:03:22
    前言 今天接触到mysql中json数据类型,之前不知道有这个类型,今天学习一下。 JSON我相信大家都已经很熟悉了,但在 MySQL中,直至 5.7 版本中,才正式引入 JSON数据类型。在次之前,我们通常使varchar或text...
  • Redis五大数据类型应用场景

    万次阅读 2018-07-21 16:17:30
    这里主要为了记录归档,日后不断理解,因为看一遍吸收的难以应用自如。 Redis开创了一种新的数据存储思路,使用Redis,我们不用在面对功能单调的数据库时,把精力放在如何把大象放进冰箱这样的问题上,而是利用...
  • 在Android系统中,不同的应用程序是不能直接读写对方的数据文件的,如果它们想共享数据的话,只能通过Content Provider组件来实现。那么,Content Provider组件又是如何突破应用程序边界权限控制来实现在不同的应用...
  • 数据挖掘应用案例集

    千次阅读 2013-01-10 17:34:41
    数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求少”。但是对于市场来说,如果不是真的“没有人买”所以“没有人卖”,那一定是创新的机会所在。个人的判断是,一个数据库只要有几十万以上记录...
  • 今天我们就来好好聊聊数据分析·大数据分析在电商行业中的应用。 电商行业相对于传统零售业来说,最大的特点就是一切都可以通过数据化来监控和改进。通过数据可以看到用户从哪里来、如何组织产品可以实现很好的...
  • 一、网站应用背景开发一个网站的应用程序,当用户规模比较小的时候,使用简单的:一台应用服务器+一台数据库服务器+一台文件服务器,这样的话完全可以解决一部分问题,也可以通过堆硬件的方式来提高网站应用的访问...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 644,785
精华内容 257,914
关键字:

数据应用