共享单车 订阅
公共交通工具的“最后一公里”是城市居民出行采用公共交通出行的主要障碍,也是建设绿色城市、低碳城市过程中面临的主要挑战。 [1]  共享单车(自行车)企业通过在校园、地铁站点、公交站点、居民区、商业区、公共服务区等提供服务,完成交通行业最后一块“拼图”,带动居民使用其他公共交通工具的热情。与其他公共交通方式产生协同效应。 [1]  共享单车是一种分时租赁模式,是一种新型绿色环保共享经济。 [1] 展开全文
公共交通工具的“最后一公里”是城市居民出行采用公共交通出行的主要障碍,也是建设绿色城市、低碳城市过程中面临的主要挑战。 [1]  共享单车(自行车)企业通过在校园、地铁站点、公交站点、居民区、商业区、公共服务区等提供服务,完成交通行业最后一块“拼图”,带动居民使用其他公共交通工具的热情。与其他公共交通方式产生协同效应。 [1]  共享单车是一种分时租赁模式,是一种新型绿色环保共享经济。 [1]
信息
地    点
校园、地铁站点、公交站点等
特    点
方便出行,经济实惠
别    名
共享自行车、公共自行车
中文名
共享单车
外文名
Bicycle-sharing
方    式
短期出租自行车
共享单车发展历史
第三方数据研究机构比达咨询日前发布的《2016中国共享单车市场研究报告》显示,截至2016年底,中国共享单车市场整体用户数量已达到1886万,预计2017年,共享单车市场用户规模将继续保持大幅增长,年底将达5000万用户规模。报告指出,中国共享单车市场已经历了三个发展阶段。2007年—2010年为第一阶段,由国外兴起的公共单车模式开始引进国内,由政府主导分城市管理,多为有桩单车。2010年—2014年为第二阶段,专门经营单车市场的企业开始出现,但公共单车仍以有桩单车为主。2014年至2018年为第三阶段,随着移动互联网的快速发展,以摩拜为首的互联网共享单车应运而生,更加便捷的无桩单车开始取代有桩单车。报告还显示,共享单车更受年轻男性欢迎。中国共享单车用户中男性占比54.2%,女性占比45.8%。用户年龄分布中,25岁—35岁人群使用最多,其次是25岁以下人群。使用频率中,每周使用3次—4次的用户最多。 [2]  2014年,北大毕业生戴威、薛鼎、张巳丁、于信4名合伙人共同创立ofo,致力于解决大学校园的出行问题。 [3]  2015年5月,超过2000辆共享单车在北大校园。ofo也走出北大,在其它七所首都高校成功推广,累计服务在校师生近90万次。 [3]  共享单车 实拍(13张) 截至到2016年11月,已经有多家共享单车诞生并且都获得了大量的风险投资。2016年12月8日,ofo在广州召开城市战略发布会,宣布正式登陆广州,将与海珠区政府建立战略合作,2016年内连接6万辆自行车。 [4]  2018年3月20日,央视315晚会点名共享单车押金难退问题之后,“共享单车免押金”再度成为人们热议的焦点,其中,用户对于摩拜免押金的呼声最高。据统计,市面上已经有十余款共享单车品牌实现了信用免押金。 [5]  2018年5月21日,北京市政交通一卡通与ofo小黄车共同宣布达成战略合作,并发布了支持北京一卡通的NFC智能锁,首批搭载新款NFC智能锁的小黄车已在人民大学校园内开始路测。 [6]  2018年7月5日,摩拜单车宣布即日起将在全国实行零门槛免押 [7]  。2018年7月16日报道,澳大利亚本土公司Airbike计划从7月30日开始,在首都堪培拉的部分地区投放共享单车。 [8]  2018年12月21日,交通运输部举行12月份例行新闻发布会,吴春耕成,根据初步统计,目前全国每天共享单车的使用量仍然在1000万人次以上。 [9]  共享单车行业在经历多年野蛮生长后正在步入新的发展阶段。近期,哈啰出行、青桔单车相继获得新一轮融资。随着新的资本加持,共享单车行业是否会重演往日的“烧钱大战”?专家认为,共享单车已告别烧钱补贴、恶性竞争的粗放式发展时期,如何运用技术手段提升供需匹配效率、增强精细化运营能力,已成为行业未来比拼的重点。 [10]  2017年1月16日,广东深圳南山区,深圳蛇口湾厦山公园出入口,出现大面积人为破坏的共享单车。几种品牌的数百辆共享单车堆积成两座“小山”,或因外力破坏等原因,不少单车的车把、车篮等零件散落在周围地上,一片狼藉。 [11]  2017年3月9日,上海市消保委约谈10家共享单车企业;上海市自行车行业协会总工程师徐道行表示,上海市共享自行车标准正在制定,预计6、7月份可以实行。徐道行透露,相关标准对共享单车的使用做出了一些规定,如上路三年强制报废、车辆完好率95%以上、租赁费用3元以内、退款7天内必须解决、一定要买保险等。 [12]  2017年3月12日至15日,ofo现身“西南偏南”大会专设的贸易展上。与此同时,奥斯汀城区街头不时可以看到停放在路边的ofo单车。与国内的单车不同的是,所有奥斯汀街头的“小黄车”都标有US(美国)的字样,并且只能用海外版软件打开。 [13]  2017年3月16日,共享单车平台ofo迈出了免押金的第一步。凡是ofo上海用户,只要芝麻信用分在650以上,即可免去99元的用车押金,直接开始骑行。 [14]  2017年3月29日,摩拜单车将入驻“微信钱包”。 [15-16]  2017年4月2日,微信、QQ上出现开锁群,要价0.2-1元,包月6元2017年4月4日,武汉建成全国首条共享单车专用道,摩拜单车为合作伙伴。 [17]  2017年4月6日,Trustdata数据显示,国内共享单车市场月活跃用户量约为432.2万。以此计算,摩拜单车所占据的市场份额已经达到令人震惊的72.5%。 [18]  2017年4月6日全国首个共享单车示范县市落户湖北枝江。 [19]  2017年4月12日,国内十一家部委直属的研究机构、科研院所和NGO联合摩拜单车,共同发起成立全球首个城市出行开放研究院。 [20]  2017年4月中旬,多个二手物品交易平台上出现共享单车,叫价在40元至100元不等,甚至还教授共享单车开锁技术,每个品牌要价5-100元不等。 [21]  2017年4月19日,上海上海静安区北站街道正在测试共享单车“电子围栏”,小鸣单车在晋元路上设置了上海首个“电子围栏”,想在附近区域停车的用户必须将共享单车停放在“电子围栏”内才能完成上锁 [22]  。2017年5月7日,在沪召开共享单车专业委员会成立大会,宣布成立中国自行车协会共享单车专业委员会。 [23]  2017年6月19日,悟空单车称:由于单车大量被盗,悟空单车从即日起停运。2017年6月21日,继悟空单车后,3Vbike发布公告称:由于大量单车被盗,3Vbike共享单车从2017年6月21日起停运,没有退押金的用户,尽快申请退款。 [24]  2017年7月25日,深圳发出共享单车“禁骑令” 共享还应共管。 [25]  2017年8月3日,十部门出共享单车新规:禁向未满12岁儿童提供服务。 [26]  2017年8月10日,首家跑路共享单车公司——町町单车倒闭,大批用户押金、余额无法退款。2017年12月1日,中消协召开“共享单车问题座谈会”。中消协副秘书长董祝礼介绍,近期,消协收到了大量消费者关于共享单车押金难退的来函、来电咨询,还有一些消费者来函明确要求消协要提起诉讼。截至11月30日,关于酷骑单车全国的消费者已投诉的数量超过了21万起,通州区消协投诉量是1.1万起,解决了3125起。 [27]  2018年2月26日消息,据国外媒体报道,香港自行车共享创业公司GoBeeBike关闭了法国城市所有运营的业务。 [28]  根据该公告,GoBeeBike在欧洲市场成功吸引了15万用户,为这些用户提供了成千上万次的服务。3200辆自行车失灵,1000辆自行车被非法停放在个人家中。 [28]  2018年3月,北京西城区有共享单车17万余辆,涉及10多个运营企业,大街小巷随处可见乱停乱放、损坏废弃的车辆。经过调研、走访,西城区确定了春、夏、秋3季不超过6万辆,冬季不超过5万辆的需求规模。 [29]  2018年6月4日虎嗅网报道称,从ofo、滴滴在职员工等多个独立信源获悉,ofo总部大规模裁员属实,总部整体裁员比例达到50%,海外市场主管张严琪离职,整个海外部门解散。同时离职的高管还包括负责市场公关业务的高级副总裁南楠与主管杨迅(编者注:ofo市场公关业务主管为杨汛)。 [30]  2018年9月28日,市民向媒体爆料称,在北京市朝阳区四惠桥至双桥附近的通惠河中,出现大量共享单车,这条河已经成了共享单车的“坟场”。打捞的摩拜工作人员表示,这段河里面可能存在上千辆共享单车。 [31]  截至2019年4月底,在京运营的互联网租赁自行车(俗称共享单车)企业共9家,报备车辆规模达191万辆。据市级监管平台监测统计,活跃车辆占比较低,月平均活跃度不足50%。 [32]  2017年11月17日,新华网登文总结,1、共享单车押金难退还 用户到底该咋办;2、押金存放在哪?为什么退不回来?3、最好的解决办法是提起诉讼;4、法规市场双调节,用户将获更多保障。 [33]  2017年5月7日,在上海召开共享单车专业委员会成立大会,宣布成立中国自行车协会共享单车专业委员会。 [23]  2017年8月3日,交通运输部等10部门联合发布了《关于鼓励和规范互联网租赁自行车发展的指导意见》。 [34]  2017年11月6日,中国通信工业协会发布团体标准《基于物联网的共享自行车应用系统总体技术要求》。2018年7月5日,摩拜单车就在行业内率先提出升级共享单车全生命周期环保行动,在设计、采购、生产、投放、运营、报废等全环节贯彻3R原则,废旧单车100%回收再用。2018年8月,北京公布共享单车减量调控方案,将共享单车的发展上限定为191万辆。同年9月,北京上线共享自行车监管和服务平台,对共享单车运营进行监控管理。2019年5月14日,北京市交通委发布消息,北京将开展为期一个月的专项整治活动,全面清理无序、违投、废弃“共享单车”。本次专项整治方案将重点清理未报备违规投放车辆,逾期不整改执法部门将对企业进行处罚。 [32]  2019年7月,一座双层共享单车立体停车器亮相郑州市中原区计划路街头,停车器上整齐摆放着各个品牌的共享单车,整齐划一 [35]  。
收起全文
精华内容
下载资源
问答
  • 共享单车

    2018-04-13 12:08:04
    共享单车市场的玩家分为3类:政府主导型共享单车,承包型共享单车,和互联网共享单车,后者包括主要玩家摩拜单车和ofo,以及小鸣单车、骑呗单车、优拜单车和hellobike等其它玩家。下文所称共享单车指互联网共享单车...
    2016年摩拜单车横空出世,引爆共享单车(自行车)市场,带动所在市场半年40亿元的融资。共享单车市场的玩家分为3类:政府主导型共享单车,承包型共享单车,和互联网共享单车,后者包括主要玩家摩拜单车和ofo,以及小鸣单车、骑呗单车、优拜单车和hellobike等其它玩家。下文所称共享单车指互联网共享单车。目前共享单车玩家已投放超过150万辆单车进入国内主要的一二线城市和国外新加坡、硅谷和伦敦等城市和地区。据统计,中国会选择“最后一公里”骑行人口大约0.85亿,按照10人共享1辆车计算,未来的市场规模在850万辆左右。据此估算,单车市场仍有较大增长空间。
      互联网共享单车已经对上下游产生重大影响。对上游生产商而言,其产能过剩得到极大缓解,一位共享单车CEO曾向媒体透露,现在全国80%的自行车生产线上出产的都是共享单车。对下游用户而言,共享单车解决了最后一公里出行难题。交通大数据得出结论:北京 80% 的出行和上海 60% 的出行中,地铁 自行车比小汽车更迅速。
      公共租赁自行车市场概况
      目前我国拥有世界最多的43万辆公共自行车,公共自行车在国内覆盖城市超过220个,能24小时运转的租赁服务占比超过70%,91%的城市采取的是超时收费制度,9%的城市采取的是诚信积分制度。
      互联网共享单车成功的原因
      1.单车的创新设计解决了传统痛点
      相对于政府主导或者承包的共享单车,为什么互联网共享单车能独放异彩?一是因为其取消了固定停车桩,用户可以在公共区域随意停放,解决了停车的痛点。以摩拜单车为例,用户使用手机可以卫星定位自行车,找到车后扫描车身上的二维码即可自动解锁,骑行结束后随意停放在路边政府画白线的停放区域或者公共区域,再合上车锁,即可离开。二是因为解决了办卡难的问题,只要手机扫码就可骑走。
      2.手机互联网用户的发展
      智能手机的普及和移动网民的增长是共享单车得以发展的基础。具体数据见下图:
      3.单车的高科技和情怀
      还是以摩拜单车举例,摩拜单车CEO王晓峰表示:
      第一,这是一个中国原创的项目,这一点可以把摩拜这个创业企业和其他99%的企业区分开来。第二,它是一个有社会属性的,跟民生相关的,这个和你去在一个城市里面服务的几千、几万个用户这个事情不大一样,所以这个就把我们和另外的99%的企业(创业企业)区分开来。第三,像我刚才讲的说,我们自己的软硬件的优势,使得我们有机会从至少在将来,有这个可能性从中国走出去,能够有机会成为一个全球化的企业,这个也不是每一个创业企业所具备的特点,可能另外的99%是我只想中国市场做大,我只想过来做,这么多的特点不同,其实我们自己心里面是非常坚信这个事。不是说现在就谈过去都有预见性,而是说我们现在离所谓的成功其实还很远,但是我们几乎走的每一步都是我们自己考虑好的。
      高科技方面,其车身锁内集成了嵌入式芯片,GPS模块和 SIM 卡,使用实心轮胎,无链条的轴传动,全铝不锈车身,整个单车可达到4年高频次使用条件下无需人工维护的标准。
      情怀方面,摩拜公司在2016年4月22日正式宣布登陆上海,当天是世界地球日,倡导绿色出行方式是给环保的一份礼物。而摩拜的用户界面也突出显示了节约碳排放量。而城市白领更关注运动和环保也是自行车在城市出行中重新闪光的重要因素。
      数据来源:海银投资研究中心
      4.减轻政府财政负担
      与滴滴和优步不同的是,政府对共享单车项目持欢迎态度。全国公共自行车系统运转情况最良好的是杭州市公共自行车系统,其服务点超过3500个,5年的车亭(棚)广告费收入约2亿元,广告营收增长率约为2%-3%,而运营成本的增速却高达10%,导致每年存在资金缺口数百万元。高居不下的人工成本和车辆损耗不断加重政府财政负担,诸如摩拜、ofo等共享单车公司便应运而生,有效地为政府分担解决。
      5.资本的涌入
      自2016年8月起半年的时间内,资金密集涌入共享单车。期间,摩拜完成了5轮融资, ofo完成了4轮融资;后来者小鸣单车在短短24天内完成3轮融资;优拜单车也在3个月内获得3轮融资。
      数据来源:投资中国,互联网,海银投资研究中心
      数据来源:比达咨询,海银投资研究中心
      摩拜E轮融资额未透露,假设其与D轮一样,都是1亿美元。那么截至2017年1月,摩拜单车共融资约33亿元。一般而言,早期和创业阶段的融资不会改变企业控制权,笔者估计33亿元的融资规模在30%-50%的股份,据此估计摩拜单车的估值约在66-109亿元左右。
      盈利模式
      共享单车行共享之名,却行租赁之实。用户骑行的单车并非来自共享,而是直接由单车服务商提供,用户付的实质上是租车费。就摩拜单车而言,在量产后其造价成本在1800元左右,用户骑车1次最低0.5元-1元,即使1辆车10人用,依靠租金回本遥遥无期更别提盈利了,而且时间长了,单车还会损坏。
      当前盈利模式:
      共享单车的盈利模式在于其押金模式。摩拜单车在骑行前会收取299元押金,ofo会收取99元押金,在骑行结束后,押金不会自动退还,而是需要用户手动提交申请,这部分可能是考虑了用户再次骑行的便捷体验。摩拜的押金退回需要2-7个工作日到账,按照上面的例子,如果10人用1辆车,则押金在2990元,实际上的退款周期依照笔者的体验,需要2天。如此,就为单车服务商依靠大数据获取押金收益提供空间。ofo的押金是实时退还的,这也验证了实际操作中押金是不需要滞留2-7天的。
      未来盈利模式:
      租金 押金 广告 大数据出售
      从政府主导的公共自行车盈利情况来看,大部分的城县的公共自行车系统仍然依靠政府补贴来维持运营,只有杭州等个别城市能基本实现盈亏平衡。杭州的公共自行车系统主要由杭州公交系统来负责建设和运营,在前期设备建设上,杭州公交集团依靠政府补贴;后期运营中每年的运营成本高达8000万元,由于目前公共自行车系统的公益性,面向终端用户的收费不构成收入的主要来源(公共自行车一般在1小时使用时间内免费为主,超过90%的市民的使用时间都在1小时内),因此的收入主要来自于广告资源和模式输出,一方面来看,杭州公共自行车系统每年的广告收入已经超过4000万,从上年2月份完成的广告经营权的招标情况来看,竞标方视科传媒以2.14亿元实现了五年广告经营权(不包括车身广告),另一方面,杭州公交集团旗下的金通科技每年依靠对其他市县的技术输出,总体基本上实现了盈亏平衡。
      未来,互联网共享单车的盈利模式有望多元化,在租金和押金的基础上,增加广告和大数据收入。从当前政府主导的公共自行车上来看,广告收入是大头。而对于互联网公司而言,大数据是其优势,比如摩拜表示它是一家技术和数据主导的公司。
      监管
      在共享单车市场做大之后,政府的监管也随之而来。上海市教委、市公安局交警总队日前约谈了多家共享单车企业。经协商后,教育部门、交通管理部门和共享单车企业将在新学期推出一系列举措,通过改进注册办法、加强巡查执法、家长引导等多种渠道,“严禁12周岁以下孩子骑行共享单车”。 根据多方协商达成的共识,上海各共享单车企业将从改进注册办法、履行签约承诺、增加弹窗提示、强化信用管理、更新智能锁等方面,严格落实法律法规关于未成年人骑行单车的要求。同时在单车上醒目张贴相关警示标语,不在中小学、少年宫等未成年人出入集中的场所投放共享单车,组织运维人员加大巡查力度并及时劝阻教育未成年人的违规骑行行为。
      目前共享单车数量还在迅猛增加,未来如果政府加强监管,比如控制城市的共享单车总数量,那么谁能胜出?下文从盈利和产品体验2个角度进行分析。
      谁将胜出?
      先看一组数据:
      数据来源:比达咨询,海银投资研究中心
      数据来源:比达咨询,海银投资研究中心
      数据来源:信诺大数据,海银投资研究中心 (注:DAU指日活跃用户量 MAU指月活跃用户量)
      数据来源:信诺大数据,海银投资研究中心
      1.盈利能力
      尽管据不完全统计,共享单车市场有约30家玩家,但从融资额和单车数量上来看,最后的胜利者可能是在摩拜单车和ofo之间产生。正如上文分析,摩拜依靠押金和骑车费的盈利模式已经清晰;但ofo却未有清晰盈利模式。光靠融资无法长远,没有盈利模式不能笑到最后,易趣网和淘宝网便是前车之鉴。
      2.产品体验
      从笔者约300公里的骑行体验而言,摩拜要优于ofo。
      1. 摩拜单车车上有GPS定位,找车方便;ofo车上没有,找车很难;
      2. 摩拜较重,ofo轻盈,长距离而言,ofo骑行更轻松。不过如果距离加长,城市出行会选择地铁或者出租车;经常需要骑车的用户也会自己购车;
      3. ofo强制要求用户打开手机上的GPS定位,充值最少20元;摩拜则没有强制打开GPS的规定,充值最少1元。这方面的用户体验摩拜优于ofo;
      4. 摩拜使用自动锁,无密码,设计的初衷是安全>耐用>舒适,因此虽重,但很少损坏;ofo使用的是密码锁,1车1组密码,损坏率较高,完好的车较少。摩拜每次停车都要锁车,锁车后自动结束计费。ofo停车后可以记住密码,打乱后锁车,只要手机上不手动点击结束则不会自动结束计费。笔者曾尝试ofo打乱密码锁车后去购物打算再骑,但车被他人骑走了,还继续计费,可见并不安全,确实有人在盗取密码骑车;
      5.摩拜可预约,ofo不行;
      6.信用体系:摩拜对每位用户打分,新用户默认拥有100 分信用分,每骑行一次增加一分,如果用户停放至违规处,一旦被运营团队发现或被其他用户举报,就会扣掉该用户的20 分信用分;当该用户的信用分低于80 分时,再次使用摩拜单车就会被按照5 元/半小时的价格收费。ofo没有。
      结论
      ofo胜在数量,摩拜胜在质量。摩拜开共享单车风气之先,有先发优势,其设计切实符合城市最后一公里的骑行需求。ofo则成本较低,依靠阶段性的免费骑行活动迅速扩张。目前摩拜形成清晰盈利模式,而且客户活跃;ofo虽有加装智能锁等一系列改进,但未见清晰盈利模式。笔者预测共享单车市场未来的胜者或许是摩拜单车。
    展开全文
  • 共享单车-源码

    2021-02-24 09:14:10
    共享单车
  • 爱护共享单车共享单车出行精选三篇 我们要珍惜自己的文明骑行信用记录,积极宣传文明骑行的重要意义,争做文明风尚的传播者和倡导者,用自己的模范行为带动身边的人,把文明风尚传播到城市的每一个角落。下面就是小...
  • 共享单车数学建模

    2017-08-11 11:11:43
    共享单车
  • 共享单车倡议书200字_共享单车倡议书怎么写 共享单车,亲切且便利,且行且珍惜。以下是小编整理的共享单车倡议书200字,希望对你有帮助。 共享单车倡议书200字【篇一】 全市各单位、各行业,广大市民朋友们: ...
  • 共享单车运营分析及决策研究张红, 周迪新, 程传祺, 沙毓兰州理工大学计算机与通信学院,甘肃 兰州 730050摘要:针对共享单车运营过程中出现的分配不均衡和调度不合理的问题,基于某城市10个区域的共享单车骑行记录...

    共享单车运营分析及决策研究

    张红, 周迪新, 程传祺, 沙毓

    兰州理工大学计算机与通信学院,甘肃 兰州 730050

    摘要针对共享单车运营过程中出现的分配不均衡和调度不合理的问题,基于某城市10个区域的共享单车骑行记录数据,综合应用时空统计及回归演绎分析和群智能算法,在分析共享单车时空分布特征的基础上,研究了基于蚁群算法的单车调度路径优化,设计了基于满足程度的共享单车区域最佳分配方案,并建立了共享单车投放量和打车人次间的回归模型,探讨了共享单车对打车市场的影响。研究结果对解决共享单车运营中存在的问题和提高共享单车运营效率及管理水平有重要的指导意义。

    关键词共享单车 ; 时空分布 ; 蚁群算法 ; 满足程度 ; 决策支持

    1669b974a61307758dc0cae978411f15.png

    论文引用格式:

    张红, 周迪新, 程传祺, 沙毓. 共享单车运营分析及决策研究. 大数据[J], 2019, 5(1):87-97

    ZHANG H,ZHOU D X, CHENG C Q, S Y. Study on operation analysis and decisionmaking for sharing-bicycles. Big data research[J], 2019, 5(1): 87-97

    1 引言

    在全国倡导节能环保的大趋势下,方便、快捷又低碳的共享单车无疑是一种比较理想的出行方式。通过将共享单车与其他几种交通方式有机结合,不仅唤醒了因城市快速发展而不断萎靡的自行车市场,而且有效地解决了出行“最后一公里”的问题,缓解了道路拥堵和环境污染问题,引起了越来越多人的关注和认可。《2016中国共享单车市场研究报告》显示,截至2016年年底,中国共享单车用户数量达到1 886万;第42次《中国互联网络发展状况统计报告》显示,截至2017年年底,我国共享单车用户数增长到22 078万,到2018年6月,共享单车用户数增长到24 511万。共享单车的数量急剧增长,在回应公民需求、给公民出行带来便利的同时,也出现了乱停乱放、扰乱公共秩序、调度不合理等现象,这些现象加大了共享单车的运营和维护成本。因此,综合分析共享单车在运营过程中出现的各种问题,并为这些问题提供可行的解决方案,根据单车的运行情况和时空分布特点,合理规划单车的调度和投放方案,是共享单车良好运行和可持续发展的关键问题。根据文献资料,目前对共享单车的研究要么是对已有问题的宏观分析,如单车运营政策法规,要么是某一具体模型或算法在共享单车研究方面的应用,如单车站点需求量的预测、单车的优化调度,对共享单车运营过程中存在的具体问题、基于具体问题的建模和定量研究相对较少。基于单车运行过程中产生的大量轨迹数据,综合应用机理模型和数据驱动模型,对单车的运行时空分布特征以及基于具体时空分布的调度和投放方案等问题进行研究,并合理规划管理,是解决共享单车运营过程中出现的问题的主要有效措施。

    因此,本文将以某城市10个区域的脱敏共享单车GPS定位数据为数据源,综合应用时空统计分析、回归演绎分析及智能蚁群算法,分析该地区共享单车的时空分布情况和运营状况,研究基于蚁群算法的共享单车优化调度和基于满足程度趋向的共享单车投放方案,并分析共享单车对打车市场的影响,以优化调度策略,合理规划共享单车的投放,提高共享单车的运营效率和管理水平,为共享单车的良性、可持续发展提供决策依据。

    2 共享单车的时空分布特征

    2.1 数据来源及预处理

    本文数据来源于某地区10个区域1 000辆共享单车的骑行数据,共计11 649条记录,数据按时间顺序记载了每辆单车的骑行GPS定位情况,每条记录包括单车编号、骑行开始地点、骑行结束地点、骑行开始时间、骑行结束时间等字段。数据已经进行了脱敏处理,用1~10标识了单车出发或到达的区域地点。笔者首先对脱敏数据进行缺失值检测和修补,并基于箱线图检测异常值。因为该数据中检测出来的异常数据量很小,远少于原始数据量的百分之一,所以本文直接剔除了这些异常值。

    2.2 可视化时空分布统计

    本文利用数据统计分析软件R对骑行数据进行了时空统计分析,分别统计该地区10个区域每小时的共享单车使用量,统计时间为某天早晨6:00到深夜24:00,统计结果见表1,10个区域的每小时共享单车使用可视化折线图如图1所示。根据10个区域共享单车每小时使用分布折线图,重新按流量划分共享单车使用时间段(共7个时间段),可视化地展现了每个时间段10个区域的共享单车数量统计分布,如图2所示。

    2631b1a918b0c2095110e6d7f74bc10b.pngd4386330b3ac8453eb0d34c0db24bb46.png

    图1 10个区域每小时共享单车分布

    5a52b6e6d304e13738df6b0822b22b37.png

    图2 10个区域不同时段的共享单车数量统计

    图1可以看出,10个不同区域的共享单车流量变化趋势大体相同,6:00—8:00共享单车使用人数急剧上升,8:00—12:00共享单车的使用量最高,12:00过后使用量渐渐减少,24:00左右使用量最低。由图2分析可知,相同时段,区域2、区域5和区域8的共享单车使用量比其他区域明显偏多,因此这3个区域应增加投放量,其中,区域8的共享单车使用量最多,应加强区域8的共享单车使用管理。

    3 共享单车调度方案优化

    共享单车的分布具有较强的时空特性,各个区域的共享单车使用量是不同的,同一区域不同时段的使用量也是不同的,合理调度共享单车是提高共享单车运营的关键因素。本文基于数据驱动,从单车使用量的时空变化特征出发,对单车的调度方案进行优化。

    3.1 区域距离计算

    以本体论认知理论为基础,本文描述了10个区域的概念设计以及概念间的相互关系,以增强对区域群体描述的精确性和一致性。当不考虑其他因素时,一般自行车的平均速度为18 km/h,统计共享单车样本数据中相同起讫点间的使用时间平均值,由此可计算基于本体论概念的区域间的距离,计算结果见表2。

    abf224ab3ca2c5887c18519d811a4820.png

    3.2 区域相对位置确定

    区域间的相对位置基于数学几何知识进行计算。在一个坐标系中,假设区域1的位置为点(6 000,6 000),那么区域2就在以区域1为圆心、以区域1与区域2之间的距离为半径的圆上,而区域3就在以区域1与区域2为圆心、以区域1与区域3和区域2与区域3的距离为半径的圆的交点上,以此类推,可以确定各个区域间的相对位置,如图3所示。当区域1的坐标位置确定后,其他区域的相对坐标位置如图4所示。

    47bbe82fc16e984104f4a2d69158d1cf.png

    图3 区域相对位置确定示意

    a57966f62c06e4446be8d21839d1efc3.png

    图4 10个区域相对坐标位置

    3.3 基于蚁群算法的优化调度

    蚁群算法能够较好地利用概率模型优化多路径选择问题。本文基于蚁群算法研究了10个区域间共享单车的最优调度方案。在确定10个区域相对坐标位置的基础上,根据蚁群算法确定调度共享单车的最佳路径。建立蚁群算法模型:

    b03fe2f153994f0b7d6104cbe821f015.png

    其中,Q为正常数,Lk为第k只蚂蚁在本次周游中走过的路径的长度。

    使用R软件,对10个区域建立了基于蚁群算法的优化调度方案,算法适应度进化曲线如图5所示,从图5可以看出,该算法收敛速度较快,优化后的单车调度路线如图6所示。通过对优化路径图与适应度进化曲线进行分析,若不考虑调度中心到第一个区域的路径,调度车一次遍历10个区域,调度共享单车的最优路径即最短距离为19 316.430 2 m,对应的区域调度次序为:区域9→区域2→区域4→区域6→区域3→区域1→区域7→区域5→区域10→区域8。

    a4629f7484c29828f4d56989cd623d6a.png

    图5 适应度进化曲线

    807d87f90666c3d67199c156f3f5345b.png

    图6 优化路径

    4 共享单车投放方案

    4.1 宏观的单车满足程度需求模型

    依据共享单车原来的投放量和实际使用量,本文建立了各个区域的共享单车供求模型,具体计算式如下:

    C=d-s (2)

    其中,C为共享单车的满足程度,d为共享单车需求量,s为实际提供的共享单车数量。当C>0时,表示该区域的共享单车实际需求量得不到满足,C越大,表示实际需求量越大;当C<0时,表示该区域实际需求共享单车已得到满足,|C|越大,表示该区域实际投放的共享单车剩余量越大,应该减少该地区的投放量。

    10个区域的共享单车需求与实际供求量间的差值(即共享打车满足程度)见表3,如表3中的第2行第2列表示区域2需要向区域1调度的共享单车数量与实际可调度的共享单车数量的差值。共享单车满足程度趋向如图7所示,如图7中2→1表示区域2向区域1调度。

    96cd40aacf3b21584419f121cf061d08.png53052b5d28e18131a56094bfecaed174.png

    图7 共享单车满足程度趋向(横坐标数字为区域编号)

    由图7(a)可知,在2→1、4→3、5→4、6→5、7→6、8→7、8→10、9→8、10→9的调度中,共享单车存在较大缺口,并且缺口数量平均高达130辆左右。由图7(b)可知,在10→1、9→2、9→4、8→5、10→6、10→8、2→9、6→10的调度中,有剩余的共享单车,剩余量最高达30辆。根据区域间的共享单车满足程度,本文计算了满足程度比重,计算结果见表4。共享单车的投放可按照满足程度比重进行投放,合理调度共享单车,以满足人们的短距离出行需要。

    4073d7ff9b4fa511e475f68dc7218811.png

    4.2 微观的共享单车投放模型

    根据共享单车的宏观满足程度需求模型,本文研究并设计了一种微观的单车投放模型。首先,跟踪记录每一辆共享单车每天的最早和最晚骑行时间节点所在的地区,得到该城市各地区每天的共享单车数量分布向量V(s)和V(e),则在第t个时段,各地区的共享单车实际数量分布向量为:

    21e72aa2811d84b68bced6bfbf465573.png

    每个时段每个地区的具体单车数量计算式为:

    91edff148e85813d1ade50f4b45d70e9.png

    其中,

    9c94c318ecd3ae01b030155300432ec1.png

    表示第t个时段,骑进第i个地区共享单车的数量;

    fd83c8a83fa8eaa2ae4eeaa5b5335f7f.png

    表示第t个时段,骑出第i个地区共享单车的数量,计算共享单车的数量变化矩阵表。再根据数量变化矩阵表,计算每个时段(这里为30 min)的共享单车租还比和需求占比。最后,根据需求占比,重新制定每个时段各地区的共享单车实际需求量,结合共享单车相对位置,制定出最终的共享单车微观投放方案,见表5,其中“无”表示不需要调度,宏观调度区域表示采用第4.1节模型调度的区域,微观调度区域表示采用第4.2节模型调度的区域。

    d4d5508dc0a4f9c6bbeb54bfbebc9e81.png

    5 共享单车对打车市场的影响

    共享单车方便了人们的日常出行,它的出现对打车市场的影响比较大。为了研究共享单车对打车市场的具体影响,本文建立了打车人次与单车投放量的回归模型,假设x为共享单车投放量,y为打车人次,则建立的模型可表示为:

    y=kx+c (5)

    其中,k和c表示回归系数。根 据提供的数据,建立的回归方程及参数见表6,可决系数R2的值为0.954 1,回归方程较好地拟合了打车人数与单车投放量的变化关系,根据该模型,可得出随着共享单车投放量的增加打车人数呈递减趋势的结论。

    092edf77758444af5f38be5429ff03e6.png

    为了进一步研究共享单车对打车市场的影响,统计了10个区域的共享单车骑行时间,如图8所示。从图8可以看出,大部分人的骑乘是短距离的,骑行时间为4~15 min,4.5 min左右的骑行量最大,骑行时间高于16 min的几乎没有。由此可得,共享单车是城市局部的微交通,共享单车的使用基本上是为了满足短距离出行的需要。因此,对于短距离出行而言,共享单车会对打车市场造成较大的冲击,而对于长距离出行而言,这种冲击较小。

    8526c582fc4bcc735016ed4a88b34bed.png

    图8 共享单车骑行时间统计

    本文研究了火车站和地铁附近的共享单车投放量与打车人数间的关系,如图9所示。可以看出,随着共享单车投放量的增加,打车人数呈递减趋势。另外,随着共享单车投放量的增加,地铁站打车人数下降得更快,说明相比火车站,地铁站附近的共享单车对打车市场的影响更大。在大城市中,人们的出行基本围绕着地铁站、城市中心发达的商业区及经济区展开,因此共享单车在地铁站、城市中心对打车市场的影响比较大,在城市的郊区及人口稀少的地方对打车市场的影响比较小。

    3e11064993b25ec7e76ffd38893bb4a4.png

    图9 共享单车投放量与打车人数的关系

    6 结束语

    基于某城市10个地区的共享单车行驶记录数据,本文对该城市10个地区的共享单车进行了时空分布可视化分析,从时间和空间两个角度统计分析了共享单车的分布情况,明确了共享单车使用比较频繁的时段和区域,以进行合理的共享单车投放管理。基于本体论理论,笔者设计了共享单车的区域相对位置计算方法,并用蚁群算法优化共享单车调度路径,使得调度车辆在一次遍历所有区域时经历的路线最短,以节约调度成本。同时,本文研究了各个区域共享单车的满足程度,并设计了基于满足程度的共享单车区域最佳分配方案。最后,建立了打车人与共享单车投放量的回归关系,以地铁站和火车站为主要区域,分析了共享单车对打车市场的影响。研究发现,骑行时间为4 min左右的共享单车对打车市场的影响最大,随着骑行时间的增加,这种影响逐渐减小,骑行时间超过16 min的共享单车对打车市场的影响非常小。

    共享单车有利于公交衔接和解决“最后一公里”的交通问题,对提高城市交通水平和优化交通结构具有积极的意义。共享单车为新生事物,影响其良好运行的因素较多。本文综合应用多领域知识,比较系统全面地分析和研究了某地区共享单车的运营、调度、投放和对打车市场的影响等问题,是大数据背景下基于数据驱动研究事物运行规律、挖掘数据中隐藏的知识并提供有效决策支持的典型应用,也是对“互联网+”典型应用的一次比较全面的分析研究。该研究对于不断改进共享单车的管理、提高服务水平、促使其可持续发展具有重要的意义。

    作者简介

    张红(1977- ),女,博士,兰州理工大学副教授,主要研究方向为交通大数据、机器学习。

    周迪新(1996- ),男,兰州理工大学本科生,主要研究方向为机器学习、数据挖掘。

    程传祺(1995- ),男,兰州理工大学硕士生,主要研究方向为机器学习。

    沙毓(1996- ),男,兰州理工大学本科生,主要研究方向为机器学习。

    《大数据》期刊

    《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。

    关注《大数据》期刊微信公众号,获取更多内容

    往期文章回顾

    医疗数据治理——构建高质量医疗大数据智能分析数据基础

    基于深度学习的异构时序事件患者数据表示学习框架

    人工智能在医学影像中的研究与应用

    基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法

    分布式数据库在金融应用场景中的探索与实践

    展开全文
  • react 共享单车项目

    2019-07-01 17:25:19
    react 共享单车项目
  • 上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-7.zip上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-7.zip
  • 上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-6.zip上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-6.zip
  • 上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-5.zip上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-5.zip
  • 上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-4.zip上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-4.zip
  • 上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-3.zip上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-3.zip
  • 上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-2.zip上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-2.zip
  • 上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-1.zip上海市2018年共享单车数据wgs84坐标系8月份到9月份共享单车数据-1.zip
  • 共享单车大数据报告

    万次阅读 2019-06-21 17:08:20
    随着智能手机的普及和手机用户的激增,共享单车作为城市交通系统的一个重要组成部分,以绿色环保、便捷高效、经济环保为特征蓬勃发展。(数据样例可参考文末) 作为城市共享交通系统的一个重要组成部分,以绿色环保...

    参考原文:http://url.cn/5Bfc7Ab

     

    随着智能手机的普及和手机用户的激增,共享单车作为城市交通系统的一个重要组成部分,以绿色环保、便捷高效、经济环保为特征蓬勃发展。(数据样例可参考文末)

    作为城市共享交通系统的一个重要组成部分,以绿色环保、便捷高效、经济环保为特征的自行车共享行业在2016年用户总数达到2030万人次,全国运营市场达到11.5亿元。

    基于以上背景,tecdat研究实验室(Tecdat Research Lab)对北京共享单车的数据进行分析,用数据探索“最后一公里出行”解决方案,勾勒出共享单车使用与用户出行现状。

    (数据可参考原文链接)

    填补公共交通空白:解决“两公里内出行难”

    从各个时间段的单车使用情况来看,上午8点和下午6点左右是用车高峰期,即早晚上下班时间的出行高峰明显,呈M型分布,早晚高峰期间发生的订单量占当日总订单量的40%左右。

    从骑行距离的分布情况来看,我们发现主要集中在 200-1500 米,解决了将近80%的用户“两公里范围内出行难”的需求,有短距离出行和短途接驳的作用,大大提高了出行效率,也有效地补充了长途出行。

    骑行大多位于商圈,目的地更加有趣、多元

    从骑行的始终点来看,我们发现用户使用密集的区域主要包括国贸、大望路、建外大街、王府井等。

    从出行的始终点和路径来看单车出行目的地多为商圈,行车频率一定程度上反映了某个地区的商业化程度。

    与长途旅行相比,短途骑行目的地更加有趣点,更加多元化,同时也满足了消费者对高频和多次微型旅行的需求。 用户的骑行目的地主要是生活休闲,购物,餐饮商业区。

    结语

    共享自行车数据可以实时表达城市的密度以及人们居住地和工作地之间的交通动态,同时对公共交通进行了有益补充,大大提高了大众出行效率。

    因为城市基础设施资源的稀缺,共享出行成为城市公共交通的“潜在替代品”,也促进了整个共享行业的快速发展。

    原文链接 http://tecdat.cn/?p=1951

     

    相关文章:

     把握出租车行驶的数据脉搏 :出租车轨迹数据给你答案!

    【大数据部落】基于ARIMA、SVM、随机森林销售的时间序列预测

    出租车数据分析:用数据告诉你出租车资源配置是否合理

     互联网行业各大岗位分析,全是干货,不看你就OUT了

    虎扑论坛数据分析

    新能源车主数据图鉴

    基于出租车GPS轨迹数据的研究:出租车行程的数据分析

    展开全文
  • 高仿 OFO 共享单车

    2019-03-17 22:21:00
    高仿 OFO 共享单车
  • 前言现如今,共享单车在生活中可谓处处可见,那么它的租赁需求是多少呢?今天我们就基于美国华盛顿共享单车的租赁数据,对租赁需求进行预测。目录正文1. 数据来源及背景数据背景: 该数据集是美国华盛顿共享单车租赁...

    前言

    现如今,共享单车在生活中可谓处处可见,那么它的租赁需求是多少呢?今天我们就基于美国华盛顿共享单车的租赁数据,对租赁需求进行预测。

    目录

    正文

    1. 数据来源及背景

    数据背景: 该数据集是美国华盛顿共享单车租赁数据, 其中有训练集和测试集, 在训练集中包含10886个样本以及12个字段, 通过训练集上自行车租赁数据对美国华盛顿共享单车租赁需求进行预测.

    2. 数据探索分析

    1. 读取数据

    importpandas as pd

    df= pd.read_csv(r'D:\Data\bike.csv')

    pd.set_option('display.max_rows',4)

    df

    afc133dc4f14b750a646a59be631041d.png

    通过以上可以得知数据维度10886行X12列, 除了第一列其它均显示为数值, 具体的格式还要进一步查看, 对于各列的解释也放入下一环节.

    2. 查看数据整体信息

    df.info()

    RangeIndex: 10886 entries, 0 to 10885

    Data columns (total 12 columns):

    datetime 10886 non-null object #时间和日期

    season 10886 non-null int64 #季节,  1 =春季,2 =夏季,3 =秋季,4 =冬季

    holiday 10886 non-null int64 #是否是假期, 1=是, 0=否

    workingday 10886 non-null int64 #是否是工作日, 1=是, 0=否

    weather 10886 non-null int64 #天气,1:晴朗,很少有云,部分多云,部分多云; 2:雾+多云,雾+碎云,雾+少云,雾; 3:小雪,小雨+雷雨+散云,小雨+散云; 4:大雨+冰块+雷暴+雾,雪+雾

    temp 10886 non-null float64 #温度

    atemp 10886 non-null float64 #体感温度

    humidity 10886 non-null int64 #相对湿度

    windspeed 10886 non-null float64 #风速

    casual 10886 non-null int64 #未注册用户租赁数量

    registered 10886 non-null int64 #注册用户租赁数量

    count 10886 non-null int64 #所有用户租赁总数

    dtypes: float64(3), int64(8), object(1)memory usage: 1020.6+ KB

    除了datetime为字符串型, 其他均为数值型, 且无缺失值.

    3. 描述性统计

    df.describe()

    温度, 体表温度, 相对湿度, 风速均近似对称分布, 而非注册用户, 注册用户,以及总数均右偏分布.

    1392a2b4b3fda70223ec362df8d246b2.png

    4. 偏态, 峰态

    for i in range(5, 12):

    name=df.columns[i]print('{0}偏态系数为 {1}, 峰态系数为 {2}'.format(name, df[name].skew(), df[name].kurt()))

    temp偏态系数为 0.003690844422472008, 峰态系数为 -0.9145302637630794

    atemp偏态系数为 -0.10255951346908665, 峰态系数为 -0.8500756471754651

    humidity偏态系数为 -0.08633518364548581, 峰态系数为 -0.7598175375208864

    windspeed偏态系数为 0.5887665265853944, 峰态系数为 0.6301328693364932

    casual偏态系数为 2.4957483979812567, 峰态系数为 7.551629305632764

    registered偏态系数为 1.5248045868182296, 峰态系数为 2.6260809999210672

    count偏态系数为 1.2420662117180776, 峰态系数为 1.3000929518398334

    temp, atemp, humidity低度偏态, windspeed中度偏态, casual, registered, count高度偏态

    temp, atemp, humidity为平峰分布, windspeed,casual, registered, count为尖峰分布.

    3. 数据预处理

    由于没有缺失值, 不用处理缺失值, 看看有没有重复值.

    1. 检查重复值

    print('未去重:', df.shape)print('去重:', df.drop_duplicates().shape)

    未去重: (10886, 12)

    去重: (10886, 12)

    没有重复项, 看看异常值.

    2. 异常值

    通过箱线图查看异常值

    importseaborn as snsimportmatplotlib.pyplot as plt

    fig, axes= plt.subplots(nrows=2, ncols=2, figsize=(12, 6))#绘制箱线图

    sns.boxplot(x="windspeed", data=df,ax=axes[0][0])

    sns.boxplot(x='casual', data=df, ax=axes[0][1])

    sns.boxplot(x='registered', data=df, ax=axes[1][0])

    sns.boxplot(x='count', data=df, ax=axes[1][1])

    plt.show()

    租赁数量会受小时的影响, 比如说上班高峰期等, 故在这里先不处理异常值.

    68066c2529d4f0179444575378a123e2.png

    3. 数据加工

    转换"时间和日期"的格式, 并提取出小时, 日, 月, 年.

    #转换格式, 并提取出小时, 星期几, 月份

    df['datetime'] = pd.to_datetime(df['datetime'])

    df['hour'] =df.datetime.dt.hour

    df['week'] =df.datetime.dt.dayofweek

    df['month'] =df.datetime.dt.month

    df['year_month'] = df.datetime.dt.strftime('%Y-%m')

    df['date'] =df.datetime.dt.date#删除datetime

    df.drop('datetime', axis = 1, inplace =True)

    df

    82e93c530cf907764e407f952f6a5a08.png

    4. 可视化分析

    1) 日期和总租赁数量

    importmatplotlib#设置中文字体

    font = {'family': 'SimHei'}

    matplotlib.rc('font', **font)#分别计算日期和月份中位数

    group_date = df.groupby('date')['count'].median()

    group_month= df.groupby('year_month')['count'].median()

    group_month.index=pd.to_datetime(group_month.index)

    plt.figure(figsize=(16,5))

    plt.plot(group_date.index, group_date.values,'-', color = 'b', label = '每天租赁数量中位数', alpha=0.8)

    plt.plot(group_month.index, group_month.values,'-o', color='orange', label = '每月租赁数量中位数')

    plt.legend()

    plt.show()

    2012年相比2011年租赁数量有所增长, 且波动幅度相类似.

    adee1a75ecdbc7b3a5932c968aa7deac.png

    2) 月份和总租赁数量

    importseaborn as sns

    plt.figure(figsize=(10, 4))

    sns.boxplot(x='month', y='count', data=df)

    plt.show()

    与上图的波动幅度基本一致, 另外每个月均有不同程度的离群值.

    6111c4e134fb948b3c59d0cfed84e007.png

    3) 季节和总租赁数量

    plt.figure(figsize=(8, 4))

    sns.boxplot(x='season', y='count', data=df)

    plt.show()

    就中位数来说, 秋季是最多的, 春季最少且离群值较多.

    027e43b6399df8c7f0284f117a57328d.png

    4) 星期几和租赁数量

    fig, axes = plt.subplots(nrows=3, ncols=1, figsize=(12, 8))

    sns.boxplot(x="week",y='casual' ,data=df,ax=axes[0])

    sns.boxplot(x='week',y='registered', data=df, ax=axes[1])

    sns.boxplot(x='week',y='count', data=df, ax=axes[2])

    plt.show()

    就中位数来说, 未注册用户周六和周日较多, 而注册用户则周内较多, 对应的总数也是周内较多, 且周内在总数的离群值较多(0代表周一, 6代表周日)

    e4e196a14b79eba7aab6b1d00c24b602.png

    5) 节假日, 工作日和总租赁数量

    fig, axes = plt.subplots(nrows=3, ncols=2, figsize=(9, 7))

    sns.boxplot(x='holiday', y='casual', data=df, ax=axes[0][0])

    sns.boxplot(x='holiday', y='registered', data=df, ax=axes[1][0])

    sns.boxplot(x='holiday', y='count', data=df, ax=axes[2][0])

    sns.boxplot(x='workingday', y='casual', data=df, ax=axes[0][1])

    sns.boxplot(x='workingday', y='registered', data=df, ax=axes[1][1])

    sns.boxplot(x='workingday', y='count', data=df, ax=axes[2][1])

    plt.show()

    未注册用户: 在节假日较多, 在工作日较少

    注册用户: 在节假日较少, 在工作日较多

    总的来说, 节假日租赁较少, 工作日租赁较多, 初步猜测多数未注册用户租赁自行车是用来非工作日出游, 而多数注册用户则是工作日用来上班或者上学.

    43334373d7b86153d52c883a6aee83ae.png

    6) 小时和总租赁数量的关系

    8f900a89c6347c561fdf2122f13be562.png

    961ddebeb323a10fe0623af514929fc1.png

    #绘制第一个子图

    plt.figure(1, figsize=(14, 8))

    plt.subplot(221)

    hour_casual= df[df.holiday==1].groupby('hour')['casual'].median()

    hour_registered= df[df.holiday==1].groupby('hour')['registered'].median()

    hour_count= df[df.holiday==1].groupby('hour')['count'].median()

    plt.plot(hour_casual.index, hour_casual.values,'-', color='r', label='未注册用户')

    plt.plot(hour_registered.index, hour_registered.values,'-', color='g', label='注册用户')

    plt.plot(hour_count.index, hour_count.values,'-o', color='c', label='所有用户')

    plt.legend()

    plt.xticks(hour_casual.index)

    plt.title('未注册用户和注册用户在节假日自行车租赁情况')#绘制第二个子图

    plt.subplot(222)

    hour_casual= df[df.workingday==1].groupby('hour')['casual'].median()

    hour_registered= df[df.workingday==1].groupby('hour')['registered'].median()

    hour_count= df[df.workingday==1].groupby('hour')['count'].median()

    plt.plot(hour_casual.index, hour_casual.values,'-', color='r', label='未注册用户')

    plt.plot(hour_registered.index, hour_registered.values,'-', color='g', label='注册用户')

    plt.plot(hour_count.index, hour_count.values,'-o', color='c', label='所有用户')

    plt.legend()

    plt.title('未注册用户和注册用户在工作日自行车租赁情况')

    plt.xticks(hour_casual.index)#绘制第三个子图

    plt.subplot(212)

    hour_casual= df.groupby('hour')['casual'].median()

    hour_registered= df.groupby('hour')['registered'].median()

    hour_count= df.groupby('hour')['count'].median()

    plt.plot(hour_casual.index, hour_casual.values,'-', color='r', label='未注册用户')

    plt.plot(hour_registered.index, hour_registered.values,'-', color='g', label='注册用户')

    plt.plot(hour_count.index, hour_count.values,'-o', color='c', label='所有用户')

    plt.legend()

    plt.title('未注册用户和注册用户自行车租赁情况')

    plt.xticks(hour_casual.index)

    plt.show()

    查看代码

    在节假日, 未注册用户和注册用户走势相接近, 不过未注册用户最高峰在14点, 而注册用户则是17点

    在工作日,  注册用户呈现出双峰走势, 在8点和17点均为用车高峰期, 而这正是上下班或者上下学高峰期.

    对于注册用户来说, 17点在节假日和工作日均为高峰期, 说明部分用户在节假日可能未必休假.

    c28db016a618061ab1e68349cf3f4f6a.png

    7) 天气和总租赁数量

    fig, ax = plt.subplots(3, 1, figsize=(12, 6))

    sns.boxplot(x='weather', y='casual', hue='workingday',data=df, ax=ax[0])

    sns.boxplot(x='weather', y='registered',hue='workingday', data=df, ax=ax[1])

    sns.boxplot(x='weather', y='count',hue='workingday', data=df, ax=ax[2])

    就中位数而言未注册用户和注册用户均表现为: 在工作日和非工作日租赁数量均随着天气的恶劣而减少, 特别地, 当天气为大雨大雪天(4)且非工作日均没有自行车租赁.

    82fd72129381553c98cdab4e1dafcbf7.png

    从图上可以看出, 大雨大雪天只有一个数据, 我们看看原数据.

    df[df.weather==4]

    只有在2012年1月9日18时为大雨大雪天, 说明天气是突然变化的, 部分用户可能因为没有看天气预报而租赁自行车, 当然也有其他原因.

    4709993f54aa5109baabbc81f3b7624e.png

    另外, 发现1月份是春季, 看看它的季节划分规则.

    sns.boxplot(x='season', y='month',data=df)

    123为春季, 456为夏季, 789为秋季...

    54a11146b8f8ddeeed46f8273c3cfe04.png

    季节的划分通常和纬度相关, 而这份数据是用来预测美国华盛顿的租赁数量, 且美国和我国的纬度基本一样, 故按照345春节, 678夏季..这个规则来重新划分.

    importnumpy as np

    df['group_season'] = np.where((df.month <=5) & (df.month >=3), 1,

    np.where((df.month<=8) & (df.month >=6), 2,

    np.where((df.month<=11) & (df.month >=9), 3, 4)))

    fig, ax= plt.subplots(2, 1, figsize=(12, 6))#绘制气温和季节箱线图

    sns.boxplot(x='season', y='temp',data=df, ax=ax[0])

    sns.boxplot(x='group_season', y='temp',data=df, ax=ax[1])

    第一个图是调整之前的, 就中位数来说, 春季气温最低, 秋季气温最高

    第二个图是调整之后的, 就中位数来说, 冬季气温最低, 夏季气温最高

    707fc958a6a288ae60d0f3f3755c0594.png

    显然第二张的图的结果较符合常理, 故删除另外那一列.

    df.drop('season', axis=1, inplace=True)

    df.shape

    (10886, 16)

    8) 其他变量和总租赁数量的关系

    这里我直接使用利用seaborn的pairplot绘制剩余的温度, 体感温度, 相对湿度, 风速这四个连续变量与未注册用户和注册用户的关系在一张图上.

    sns.pairplot(df[['temp', 'atemp', 'humidity', 'windspeed', 'casual', 'registered', 'count']])

    为了方便纵览全局, 我将图片尺寸缩小, 如下图所示. 纵轴从上往下依次是温度, 体感温度, 相对湿度, 风速, 未注册用户, 注册用户, 所有用户, 横轴从左往右是同样的顺序.

    077fe46e0105dcb3ea4bc0cc5e49f1cf.png

    从图上可以看出, 温度和体感温度分别与未注册用户, 注册用户, 所有用户均有一定程度的正相关, 而相对湿度和风速与之呈现一定程度的负相关. 另外, 其他变量之间也有不同程度的相关关系.

    另外, 第四列(风速)在散点图中间有明显的间隙. 需要揪出这一块来看看.

    df['windspeed']

    0 0.0000

    1 0.0000

    2 0.0000

    ...

    10883 15.0013

    10884 6.0032

    10885 8.9981

    Name: windspeed, Length: 10886, dtype: float64

    风速为0, 这明显不合理, 把其当成缺失值来处理. 我这里选择的是向后填充.

    df.loc[df.windspeed == 0, 'windspeed'] =np.nan

    df.fillna(method='bfill', inplace=True)

    df.windspeed.isnull().sum()

    0

    9) 相关矩阵

    由于多个变量不满足正态分布, 对其进行对数变换.

    #对数转换

    df['windspeed'] = np.log(df['windspeed'].apply(lambda x: x+1))

    df['casual'] = np.log(df['casual'].apply(lambda x: x+1))

    df['registered'] = np.log(df['registered'].apply(lambda x: x+1))

    df['count'] = np.log(df['count'].apply(lambda x: x+1))

    sns.pairplot(df[['windspeed', 'casual', 'registered', 'count']])

    530ce49562929b5bf005fc28ad383915.png

    经过对数变换之后, 注册用户和所有用户的租赁数量和正态还是相差较大, 故在计算相关系数时选择spearman相关系数.

    correlation = df.corr(method='spearman')

    plt.figure(figsize=(12, 8))#绘制热力图

    sns.heatmap(correlation, linewidths=0.2, vmax=1, vmin=-1, linecolor='w',

    annot=True,annot_kws={'size':8},square=True)

    均有不同程度的相关程度, 其中, temp和atemp高度相关, count和registered高度相关, 数值均达到0.99.

    91df973126fb9d2befeaed2bb8530aa8.png

    5. 回归分析

    岭回归和Lasso回归是加了正则化项的线性回归, 下面将分别构造三个模型:岭回归、Lasso回归和线性回归。

    5.1 岭回归

    1. 划分数据集

    from sklearn.model_selection importtrain_test_split#由于所有用户的租赁数量是由未注册用户和注册用户相加而成, 故删除.

    df.drop(['casual','registered'], axis=1, inplace=True)

    X= df.drop(['count'], axis=1)

    y= df['count']#划分训练集和测试集

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

    2. 模型训练

    from sklearn.linear_model importRidge#这里的alpha指的是正则化项参数, 初始先设置为1.

    rd = Ridge(alpha=1)

    rd.fit(X_train, y_train)print(rd.coef_)print(rd.intercept_)

    [ 0.00770067 -0.00034301 0.0039196 0.00818243 0.03635549 -0.01558927

    0.09080788 0.0971406 0.02791812 0.06114358 -0.00099811]

    2.6840271343740754

    通过前面我们知道, 正则化项参数对结果的影响较大, 下一步我们就通过岭迹图来选择正则化参数.

    8f900a89c6347c561fdf2122f13be562.png

    961ddebeb323a10fe0623af514929fc1.png

    #设置参数以及训练模型

    alphas = 10**np.linspace(-5, 10, 500)

    betas=[]for alpha inalphas:

    rd= Ridge(alpha =alpha)

    rd.fit(X_train, y_train)

    betas.append(rd.coef_)#绘制岭迹图

    plt.figure(figsize=(8,6))

    plt.plot(alphas, betas)#对数据进行对数转换, 便于观察.

    plt.xscale('log')#添加网格线

    plt.grid(True)#坐标轴适应数据量

    plt.axis('tight')

    plt.title(r'正则化项参数$\alpha$和回归系数$\beta$岭迹图')

    plt.xlabel(r'$\alpha$')

    plt.ylabel(r'$\beta$')

    plt.show()

    查看代码

    通过图像可以看出, 当alpha为107时所有变量岭迹趋于稳定.按照岭迹法应当取alpha=107.

    25e359b4919baba0b5839e895ccf60f7.png

    由于是通过肉眼观察的, 其不一定是最佳, 采用另外一种方式: 交叉验证的岭回归.

    from sklearn.linear_model importRidgeCVfrom sklearn importmetrics

    rd_cv= RidgeCV(alphas=alphas, cv=10, scoring='r2')

    rd_cv.fit(X_train, y_train)

    rd_cv.alpha_

    805.0291812295973

    最后选出的最佳正则化项参数为805.03, 然后用这个参数进行模型训练

    rd = Ridge(alpha=805.0291812295973) #, fit_intercept=False

    rd.fit(X_train, y_train)print(rd.coef_)print(rd.intercept_)

    [ 0.00074612 -0.00382265 0.00532093 0.01100823 0.03375475 -0.01582157

    0.0584206 0.09708992 0.02639369 0.0604242 -0.00116086]

    2.7977274604845856

    4. 模型预测

    from sklearn importmetricsfrom math importsqrt#分别预测训练数据和测试数据

    y_train_pred =rd.predict(X_train)

    y_test_pred=rd.predict(X_test)#分别计算其均方根误差和拟合优度

    y_train_rmse =sqrt(metrics.mean_squared_error(y_train, y_train_pred))

    y_train_score=rd.score(X_train, y_train)

    y_test_rmse=sqrt(metrics.mean_squared_error(y_test, y_test_pred))

    y_test_score=rd.score(X_test, y_test)print('训练集RMSE: {0}, 评分: {1}'.format(y_train_rmse, y_train_score))print('测试集RMSE: {0}, 评分: {1}'.format(y_test_rmse, y_test_score))

    训练集RMSE: 1.0348076524200298, 评分: 0.46691272323469246

    测试集RMSE: 1.0508046977499312, 评分: 0.45801571689420706

    5.2 Lasso回归

    1. 模型训练

    8f900a89c6347c561fdf2122f13be562.png

    961ddebeb323a10fe0623af514929fc1.png

    from sklearn.linear_model importLasso

    alphas= 10**np.linspace(-5, 10, 500)

    betas=[]for alpha inalphas:

    Las= Lasso(alpha =alpha)

    Las.fit(X_train, y_train)

    betas.append(Las.coef_)

    plt.figure(figsize=(8,6))

    plt.plot(alphas, betas)

    plt.xscale('log')

    plt.grid(True)

    plt.axis('tight')

    plt.title(r'正则化项参数$\alpha$和回归系数$\beta$的Lasso图')

    plt.xlabel(r'$\alpha$')

    plt.ylabel(r'$\beta$')

    plt.show()

    查看代码

    通过Lasso回归曲线, 可以看出大致在10附近所有变量趋于稳定

    cf75818ea0480bc0438fefb218de23b8.png

    同样采用交叉验证选择Lasso回归最优正则化项参数

    from sklearn.linear_model importLassoCVfrom sklearn importmetrics

    Las_cv= LassoCV(alphas=alphas, cv=10)

    Las_cv.fit(X_train, y_train)

    Las_cv.alpha_

    0.005074705239490466

    用这个参数重新训练模型

    Las = Lasso(alpha=0.005074705239490466) #, fit_intercept=False

    Las.fit(X_train, y_train)print(Las.coef_)print(Las.intercept_)

    [ 0. -0. 0. 0.01001827 0.03467474 -0.01570339

    0.06202352 0.09721864 0.02632133 0.06032038 -0. ]

    2.7808303982442952

    对比岭回归可以发现, 这里的回归系数中有0存在, 也就是舍弃了holiday, workingday, weather和group_season这四个自变量.

    #用Lasso分别预测训练集和测试集, 并计算均方根误差和拟合优度

    y_train_pred =Las.predict(X_train)

    y_test_pred=Las.predict(X_test)

    y_train_rmse=sqrt(metrics.mean_squared_error(y_train, y_train_pred))

    y_train_score=Las.score(X_train, y_train)

    y_test_rmse=sqrt(metrics.mean_squared_error(y_test, y_test_pred))

    y_test_score=Las.score(X_test, y_test)print('训练集RMSE: {0}, 评分: {1}'.format(y_train_rmse, y_train_score))print('测试集RMSE: {0}, 评分: {1}'.format(y_test_rmse, y_test_score))

    训练集RMSE: 1.0347988070045209, 评分: 0.4669218367318746

    测试集RMSE: 1.050818996520012, 评分: 0.45800096674816204

    5.3 线性回归

    最后,再用传统的线性回归进行预测, 从而对比三者之间的差异.

    from sklearn.linear_model importLinearRegression#训练线性回归模型

    LR =LinearRegression()

    LR.fit(X_train, y_train)print(LR.coef_)print(LR.intercept_)#分别预测训练集和测试集, 并计算均方根误差和拟合优度

    y_train_pred =LR.predict(X_train)

    y_test_pred=LR.predict(X_test)

    y_train_rmse=sqrt(metrics.mean_squared_error(y_train, y_train_pred))

    y_train_score=LR.score(X_train, y_train)

    y_test_rmse=sqrt(metrics.mean_squared_error(y_test, y_test_pred))

    y_test_score=LR.score(X_test, y_test)print('训练集RMSE: {0}, 评分: {1}'.format(y_train_rmse, y_train_score))print('测试集RMSE: {0}, 评分: {1}'.format(y_test_rmse, y_test_score))

    [ 0.00775915 -0.00032048 0.00391537 0.00817703 0.03636054 -0.01558878

    0.09087069 0.09714058 0.02792397 0.06114454 -0.00099731]

    2.6837869701964014

    训练集RMSE: 1.0347173340121176, 评分: 0.46700577529675036

    测试集RMSE: 1.0510323073614725, 评分: 0.45778089839236114

    总结

    就测试集和训练集均方根误差之差来说, 线性回归最大, 岭回归最小, 另外回归在测试集的拟合优度最大, 总体来说, 岭回归在此数据集上表现略优.

    732f975ed780bfc65a35abfaea35a11f.png

    就这个评分来说, 以上模型还不是很好, 还需要学习其他模型, 比如决策树, 随机森林, 神经网络等.

    声明: 本文仅用作学习交流

    展开全文
  • 共享单车数据集

    2019-03-12 11:35:33
    包含2017年上海地区摩拜单车8月份共享单车数据集,用来做大数据实验分析,等研究。
  • 共享单车虽然是当今热议的话题,但是对于其学术层面的研究寥寥无几。以摩拜单车为例,通过整合相关资讯,运用商业画布九要素模型详尽地对模型中的每一个要素进行梳理,并将各要素串联成为一体,清晰地呈现出共享单车商业...
  • 一、项目介绍1.1 项目背景共享单车是指企业在校园、地铁站点、公交站点、居民区、商业区、公共服务区等提供自行车单车共享服务,人们可以从各站点租赁自行车,到达目的地进行归还。1.2 项目需求本项目需要结合历史...
  • 目录文章分为以下五大部分项目介绍数据准备数据处理数据分析总结一、项目介绍针对共享租赁时代中比较火的共享单车项目,现分析kaggle提供的国外The Pronto Cycle Share的共享单车数据集。Pronto Cycle Share是一个非...
  • Python数据分析实战项目-共享单车有效的解决了“走路累,公交挤,开车堵,打车贵”的苦恼。一夜之间,北上广深、甚至部分二线城市,共享单车大街小巷随处可见。
  • 项目数据来源于kaggle项目 Bike Share Demand,使用Python对数据进行了可视化分析:共享单车项目分析_页面_01.jpg共享单车项目分析_页面_02.jpg共享单车项目分析_页面_03.jpg共享单车项目分析_页面_04.jpg共享单车...
  • 目录一、获取数据二、理解数据三、 数据清洗四、数据可视化分析一、获取数据从kaggle下载数据集Cycle Share Dataset​www.kaggle.com此数据是Pronto在西雅图运营的500辆共享单车数据(2014-2016年),提供了包括租车...
  • 上海共享单车规定.doc

    2021-01-18 19:04:15
    上海共享单车规定 为促进本市共享自行车健康有序发展,倡导市民绿色低碳出行,近日,上海出台共享单车规定,下面是相关内容,供大家阅读参考。 上海将从产品质量和服务规范两方面对共享单车发展提供有效的技术基础...
  • 原标题:走进夜间共享单车调度员 最担心被辞退 华灯初上,当人们休息在家中的时候,也是共享单车调度员最忙碌的时候,他们晚上要调度上千辆共享单车,到有需要的地方,方便次日市民的使用。 很多人,经常故意损坏...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,727
精华内容 1,490
关键字:

共享单车