精华内容
下载资源
问答
  • 比如说安装量这个数据,有平台统计是激活量、新用户数,还有平台统计的数据包含重复安装量,没有排重功能。 甚至有统计平台明确表明存在数据丢失,有误差,不建议作为与渠道商结算依据,只作为帮助开发者...

    最近研究了市面上主流的几款渠道统计工具,乍一看好像功能都差不多,进入后台仔细研究下发现每家的数据其实都是不一样的。

    先来说说统计数据的精确性问题,每家的统计原理和标准都不一样。比如说安装量这个数据,有的平台统计的是激活量、新用户数,还有的平台统计的数据包含重复安装量,没有排重功能。

    甚至有的统计平台明确表明存在数据丢失,有误差,不建议作为与渠道商结算的依据,只作为帮助开发者衡量各渠道之间的推广效果。

    在选择渠道分析工具之前,先明确自己的需求是什么,如果对精确性要求不高,只是大致衡量各渠道推广效果,选择些免费的渠道统计工具就可以了比如腾讯移动统计、百度移动统计、友盟等。

    如果对精确性要求比较高,就需要选择能精确统计App安装量的工具,比如openinstall

    大部分广告联盟其实自己也有做统计,但大部分都存在扣量等情况。

    要想知道渠道统计平台精不精确,只需要看它的统计原理就知道了,大部分渠道统计平台还都是采用基于设备ID进行效果追踪的策略,属于泛型统计,而不是以逐个计数的方式统计。


    展开全文
  • 中国第一 App 是哪一个? 当然是微信。...为什么在微信吞噬一切同时,还有一个另一个同类产品做到如此巨大体量? 有了微信为什么还要 QQ 呢? 到底是哪些人在用 QQ? QQ 到底解决了神马痛点? 为什么

    中国第一大 App 是哪一个?

    当然是微信。

    那么第二大 App 是哪一个呢?

    答案是已经 21 岁的互联网“化石级”产品——QQ!

    QQ 的今天月活用户居然高达 7.35 亿,稍微观察一下就会发现一个奇怪的现象:第一名的微信和第二名的 QQ 居然同属即时通讯领域。
    在这里插入图片描述

    数据来源:Trustdata(2020.3)

    那么一个巨大的问题就来了——

    为什么在微信吞噬一切的同时,还有一个另一个同类产品做到如此巨大的体量?

    有了微信为什么还要 QQ 呢?

    到底是哪些人在用 QQ?

    QQ 到底解决了神马痛点?

    为什么我和我身边的人都不用了但 QQ 依然如此强大?

    为什么强者恒强的马太效应没有出现在这两个同类应用之间呢?

    中国的科技媒体从业人员大部分由于本身早已不用 QQ,QQ 也成了一款在这一人群中非常没有存在感的应用,于是行业内很少有人特别关注这个问题。

    今天卫夕就和大家一起来好好聊一聊 QQ 这只“房间里的大象”——

    已经有了微信为什么还要一个 QQ?

    在回答这个问题之前,让我们先来回顾一下历史,其实在 9 年前微信诞生的时候,业界的问题和今天完全相反:那时候,中国网民疑惑的问题是——已经有了 QQ,为什么还要一个微信呢?

    这个问题的答案简单地说,是因为有着沉重 PC 包袱、功能复杂的 QQ 承载不了“轻量级移动 IM”这一基础设施的重任,比如“离线、在线、隐身”这种状态是 QQ 最深入骨髓的特征,而移动 IM 的重要逻辑则是永远在线,这一产品矛盾几乎无解,至今 QQ 依然保持了在线状态这一重要功能;
    在这里插入图片描述

    在线状态是 QQ 诞生时就存在的“灵魂功能”

    再比如,QQ 五花八门的各种“钻”体系、QQ 秀、QQ 空间复杂的功能几乎不可能让一个刚刚使用智能手机的 50 岁三线城市大妈快速上手,曾经引以为傲的个性化和 PC 端的包袱成为了 QQ 走向“移动互联网基础设施”的拦路虎。

    于是这时候微信就诞生了,微信做到了什么——它在任何一个功能层面都做到了最简洁:

    最简洁的注册登录、最简洁的聊天界面、最简洁的群聊,最简洁的朋友圈,最简洁的支付…

    它一开始就是为所有中国人设计的,如果你没办法理解这种简洁,我说一个简单的结论你就明白了——微信几乎是中国诸多不识字的老人唯一会使用的 App。

    在这里插入图片描述

    没错,“不为任何一个群体订制”成就了微信这一国民应用,迅速取代了 QQ 成为使用最广泛的通讯应用,这时候摆在 QQ 面前的难题是——

    QQ 怎么办?QQ 接下来的生存空间在哪里?

    这是一个关乎 QQ 生死存亡的终极问题。

    要知道滴滴收购快的之后,快的就没有存在的必要了;优酷收购土豆之后,土豆就被战略放弃了;如果没有找到正确的定位,QQ 存在的必要性这个重要问题就要打一个巨大的问号。

    如果也将自己定位为即时通讯基础设施,QQ 必然会和微信陷入同质竞争的残酷红海,但如果不进行同质竞争,QQ 可以打哪些差异点呢?
    在这里插入图片描述

    移动网络初期 im 即时通讯竞争的残酷红海

    从公开的资料看,QQ 团队经历了漫长的摸索和尝试,最终给出的答案是——年轻化

    没错,这是 QQ 今天依然保持了中国应用榜单亚军最核心的原因,那么问题来了——

    为什么年轻人会喜欢 QQ 呢?QQ 到底给年轻人带来了什么?微信为什么就满足不了年轻人的需求呢?

    有人说,这很简单嘛,是因为年轻人不愿意让他们家长看他们的朋友圈呗,这是思考上的懒惰,真相并没有这么简单。

    要真正回答这个问题,先让我们来一起认识一下这届年轻人——

    我把年轻人定义为 95-05 后,根据国家统计局的相关数据,这群人高达 2.64 亿,占全国总人口的 18.9%。

    那么这一代年轻人到底有什么本质特征呢?

    卫夕看了很多文章分析来分析去都没有讲清楚,各种报告对年轻人的描述都是清一色的——“叛逆、追求个性、敢于表达、乐于接受新鲜事物、充满好奇心、渴望自由…”

    注意:这些是所有年轻人的普遍特征,并非这一代年轻人独有的特征。

    在这里插入图片描述

    那么,这一代年轻人和以前的年轻人、和他们的父辈到底有什么真正区别呢?

    卫夕总结了五个这届年轻人独有的特征——

    第一、独生子女,1982 年计划生育正式开始实施,2015 年全面放开二胎,因此 95-10 这一代是整个中国历史中绝无仅有的结构化独生子女一代。

    这意味着这一代人几乎都是在没有同龄兄弟姐妹的环境中成长,因此他们对于社交和沟通的需求会比任何一代人都要强烈。

    第二、巨大的升学压力,在经历改革开放高歌猛进之后,随着向上跃迁和野蛮创富机会在客观上减少,无论是城市中产阶级农村家庭都将教育视为子女巨大的投资,这直接给了这一代年轻人在学业上有着巨大的压力,因此尽管有强烈的社交需求但客观上现实层面的社交时间并不多。

    第三、留守儿童和单亲家庭,“世界工厂”是中国经济奇迹最重要的支撑,而这背后的一个重要代价就是中国独有“留守儿童”,每一个东莞女工的背后可能都有一个留守在湖北大山里远离父母的孩子;

    同时社会流动性变大和婚姻观的现代化也让中国的离婚率在过去三十年大幅度上升,留守和单亲都给了这一代年轻人提供了一个更加需要社交的独特环境。

    第四、互联网原住民,和他们的父母上中学、上大学后才拥抱互联网的移民不同,新一代年轻人几乎都是一出生就互联网原住民,一个一岁半的婴儿拿到一本杂志会自然地用手指左右滑,因为他默认所有的图片都应该是像 iPad 一样可以滑动的,对这一代年轻人来说,互联网就如呼吸般稀疏平常,他们默认这是完整世界的一部分。

    第五、巨大的代际差异,这一代人和他们的父辈在成长环境是截然不同的,两代人的时间,中国这个古老的国家发生了天翻地覆的变化,和美国、日本、法国的年轻人不同,在现代中国成长的这代人和他们的父辈在眼界、知识上、价值观、生活习惯上都有着截然的区别,这在客观上加大了两代人的沟通成本和代沟,年轻人和同龄人的社交需求越发强烈。

    总结成一句话——作为独生子女和互联网原住民的新一代的年轻人,在代沟、升学压力、留守等时代因素影响下,社交渠道收窄的他们更倾向于在有限的时间里将娱乐和社交线上化。

    没错,社交和娱乐的线上化是理解这一代年轻人最重要的一把钥匙!

    而 QQ 恰好非常透彻地满足了这代人的需求。

    那么,QQ 是如何做的呢?它到底是如何从强大的微信阵容中虎口抢食的呢?

    我们一起来看一看 QQ 到底做了什么——

    青少年时期是人一生中极度敏感、感知能力最强的时期,这种青春期的小心思、小举动、小功能只有腾讯的产品经理拿捏的最为清楚准确。

    其实即便是 80 后也早已领教过 QQ 曾经“隐身对其可见”、“在线对其隐身”这些深刻洞察人性的小功能。

    是滴,为了服务好年轻人,今天的 QQ 很多功能已经到了众多曾经的 80 后难以直观理解的程度了——

    QQ 为了吸引年轻人,做了系列眼花缭乱的操作,QQ 整个应用变成了一款年轻人的“社交大游戏”,用 QQ 其实是在玩游戏——

    1. 把曾经的 QQ 秀升级成了厘米秀,让年轻人可以最具想象力的风格设置自己的虚拟形象。

    在这里插入图片描述

    2. 把曾经的偷菜升级成了偷胶囊,好友之间互相收割,这个游戏似乎穿越了时空,长盛不衰。

    3. 发红包可以设置语音口令,抢红包的人必须发一段指定的语音,比如“我好猥琐!”

    4. 两个人聊天会显示小火苗,聊的越频繁,火苗就越旺,“养火”成了 00 后线上交流的日常。

    5. 开发了史上功能最强大的 GIF 发送系统,让 00 后斗图极其方便,选择入口连续点击就可以如机关枪般不停歇,这种满足感是很多后浪难以理解滴

    6. 把“扩列”作为一个重要功能做到了子菜单,“扩充好友列表”是 00 后刚需,除了校园扩列、语音扩列,每人每天有 15 次随机匹配的机会,00 后喜欢这种不期而遇的邂逅。

    在这里插入图片描述

    7. 你听什么歌、玩什么游戏、用什么手机型号登录、封面获得多少赞…等等一切能体现个性的元素在聊天界面对方都能看到,让个人任何一点点优越感都能够一览无余。

    在这里插入图片描述

    8. 用 QQ 视频会有实时美颜,可以在视频和语音随意切换,更有各种炫酷特效,比如你比一个心,系统自动会打出一个比心特效。

    9. 在 QQ 里发语音,是可以随意变声的,萝莉、大叔、惊悚、搞怪、口吃…各种声音特效随意选择。
    在这里插入图片描述

    10. 更不用说无数深刻洞察人性的小功能——阅后即焚、照片访客、消息漫游、等级装扮、戳一戳、口吐字幕、双人挂件、手机屏幕分享、提取图片中的文字…

    正是这些眼花缭乱的功能牢牢抓住了敏感、懵懂、好奇而追求个性的年轻人,这就是 QQ 存在的最大意义,我们再次回顾这些神奇的功能会发现——这些是微信通通不可能做的功能!

    有人说,我也用 QQ 啊,为啥我没发现这些功能,这就是最能体现 QQ 产品经理核心功力的地方:任何功能都不影响最核心的 IM 需求,在需要的时候恰到好处的出现。

    在 QQ 里,闷骚而奔放的后浪们已经发展了一套上一代完全无法理解的语言体系,我们来看看下面这张图上的黑话,如果你对这些 00 后耳熟能详的词一无所知,说明你已经老了!
    在这里插入图片描述

    很多人现在非常不能理解,为什么现在的小孩子追星会如此狂热?为什么对一个头像的点赞数如此感热衷?为什么对 QQ 空间的一套皮肤如此着迷?

    感觉他们的行为非常幼稚!

    但事实上,这种认知本身才是幼稚的!

    那些对着年轻人花哨的 QQ 厘米秀丢下一句“幼稚!”的 80 后似乎忘记了多年前自己在 QQ 空间里上传的那些非主流大头贴、那些曾经花无数挂机时间换来的三个太阳和一颗星星以及点亮的无数图标。

    年轻人在 QQ 上展示自己的头像被赞了多少次和成年人在朋友圈炫耀自己的新买的车、有趣的旅行、温馨的聚会、优雅的米其林餐厅、独特的品味、和大咖的合影…本质上没有任何区别。

    寻找存在感、体现优越感在人生的每个阶段都存在。

    有人可能会问,那他们为啥不用微信呢,微信多方便啊!

    这是典型的以自我为中心的思考,我们觉得微信方便是因为它满足了我们全部社交的需求!

    但对于年轻人而言,用微信?你开玩笑吧!拜托!

    微信朋友圈能发我昨天珍藏的动图吗?微信能显示我昨天听了蔡徐坤的最新单曲么?微信能显示我用的是最新款的 iPhone 11 Pro Max 在线么?微信能显示我和女神聊天的小火苗么?

    通通不能!

    没错,微信是用来用的,而 QQ 是用来玩的。

    中国互联网最遥远的距离就是——用微信的爸爸对着用 QQ 的儿子撇下一句“幼稚!”,而用 QQ 的儿子对着用微信的爸爸回敬一句“无趣!”

    所以,把年轻人不用微信仅仅归因于他们的父母在微信上是思考上的偷懒!

    QQ 想得很明白,微信作为基础设施,因此不可能提供个性化的服务,这就给 QQ 提供了一个战略空位,只要把年轻人的需求拿捏的足够准确就能在生态位中找到独有的一席之地。

    在这样的背景下,QQ 变成了马化腾口中的“试验田”:QQ 的功能上和下比微信要频繁得多,曾经的 WebQQ 下掉了,曾经的 QQ 宠物下掉了,曾经的 QQ 家园下掉了,曾经的 QQ 日迹下掉了,而取而代之的是更受年轻人欢迎的坦白说、语音房、校园扩列…

    个性化是基础设施微信的砒霜,但却是“社交大游戏”QQ 的蜜糖!

    腾讯对年轻人的研究是深入骨髓的,2013 年,马化腾聊起 Snapchat 说过这样一段话:

    “Snapchat 我用起来觉得很没意思,我本来就干这行,但是我都觉得没意思,但是 12 到 18 岁的女孩子非常喜欢玩,特别火爆。年轻人现在在互联网上喜欢的东西,我越来越看不懂了,这是我最大的担忧。”

    没错,腾讯的确有做年轻人生意的基因。

    我举一个例子,腾讯关注年轻人到什么程度了呢?他们已经在开发 QQ 的儿童手表的版本了!

    在这里插入图片描述

    是滴,正是抓住了年轻人这个基本面,才让 QQ 这款 21 岁的产品没有老去,2004 年,在一次央视的活动中,30 多岁的年轻人马化腾向 1949 年出生的张瑞敏推销 QQ,然而当时并没能打动张瑞敏,16 年过去了,1976 年出生的马化腾也早已不再年轻,但 21 岁的 QQ 却依然做着年轻人的生意。

    对于 QQ 而言,一个让人担忧的问题在于,中国的生育率在下降,老龄化变成一个确定性趋势,仅 00 后就比 90 后少了 4700 万;

    这是真正的危机,它意味着从用户规模的角度,QQ 会遭遇理论意义上的天花板,这是 QQ 这艘巨轮最大的隐患,那么老练的 QQ 会如何应对呢?

    从公开的资料来看,QQ 团队目前的策略是,既然不能扩大用户的规模,那就延长用户的时长,因此内容化就是 QQ 继续抓住年轻人的选择:

    这几年这一趋势越发明显——Now 直播、QQ 看点、QQ 阅读、QQ 漫画、兴趣部落…

    核心就是内容化和娱乐化,让在父母的约束下不敢装太多 App 的年轻人能在一个应用里一站式解决所有娱乐需求。

    QQ 这个策略能在字节跳动猛烈的内容攻势下继续捕获年轻人的时间吗?我们把答案交给时间。

    好了,至此,我们就搞清楚了在微信的阴影下 QQ 依然盛行的最重要的一个原因。

    但这是唯一原因吗?

    当然不是,因为从数据上我们就会发现,中国的 00 后只有 2.64 亿,而微信的月活有 7.35 亿。

    很显然,仅仅凭借年轻人这一招并不能支撑 QQ 如此庞大的用户,那剩下的是什么人在用呢?

    答案是已经工作的人在用!

    他们把 QQ 作为核心的办公软件,在钉钉、企业微信诞生之前,毫不夸张地说,QQ 是中国最强大的办公 IM 软件,为什么 QQ 能成为重要的办公工具呢?

    原因在于其强大而完善的功能,这些功能包括便捷的跨端体验、完善的文件管理、快捷的同步漫游、极其方便的群和讨论组,还有强大的 QQ 邮箱…
    在这里插入图片描述
      就凭传视频不压缩就可以吸引诸多工作人群对 QQ 死心塌地。

    事实上,我从 2012 年毕业加入微博,微博就一直使用 QQ 进行办公,至今都是,在使用 QQ 办公的过程中,除了找人难度大一些之外,其实使用非常顺畅的,尤其是强大的讨论组对于要经常拉各种小群的 PM 而言简直是神器。

    今天,从微博的员工离职会有两个惯例——第一是在微博上点蜡烛,第二就是退出在微博加的各种讨论组和群。

    然而对于 QQ 而言,坏消息是,如今钉钉、企业微信等专业软件已经在大幅度蚕食 QQ 这一块的需求了,从腾讯的财报看,QQ 月活已经在下降了,下降的原因当然会相对复杂,但卫夕判断一定有专业软件蚕食的原因。

    在这里插入图片描述

    QQ 其实并不愿意认输,依然在继续努力——继续升级 TIM,推出“腾讯文档”等动作就是 QQ 强化办公这一属性的明证。

    除了工作,今天成年人的确对 QQ 并没有特别大的依赖,对于他们而言,微信几乎满足了他们所有的社交沟通需求。

    前几天,卫夕在朋友圈做了一个简单的调查——过去一周,你有使用过 QQ 吗?

    大概有一半人的回答是没有,注意,这并不意味着剩下另一半是 QQ 的忠诚用户,在这一半的用户中,绝大多数特别强调自己只是传文件或者仅仅打开并没有发生实际的沟通和交流。

    是滴,这种现象和现实数据也是吻合的——QQ的月活依然是中国第二,但日活和微信的差距还是非常大的,QQ 财报并不公布日活数据,卫夕找到了第三方公司 Questmobile 在 2019 年春节的一个报告,在这个报告中,QQ 的日活数据是——3.86 亿。

    在这里插入图片描述

    在我看来,3.86 亿这个日活数据可能更能说明 QQ 的活跃度,我相信,在微信没有诞生之前的 QQ,其月活和日活的差异会比现在小很多,那些为 QQ 贡献月活而不贡献日活的人群中,有一些是被非常简单基础的功能所吸引——传文件、截图等等。

    据腾讯一位总监透露,QQ 花了大力气让 QQ 的文件传输成功率增加到了 99.99%,如今,QQ 是中国第一大文件传输工具,每日传输 1.8 亿份文件,正是这些细小的功能吸引了一个庞大的群体登录那个陪伴了他们多年的 QQ。

    是滴,除了工作,成年人已经不花多少时间在 QQ 上了,这从另一个事实也能得到印证——既然 QQ 有微信一半的日活,理论上,在 QQ 上做Q商的人应该是微信上做微商的一半,但现实是几乎没有人在 QQ 上做Q商,这其中唯一的原因就是——成年人的时间并不在 QQ 上。

    好了,文章到这里就该结束了,现在我们能笃定地回答开头我们提出的问题了——为什么有了微信,QQ 依然位列排行榜第二?

    答案是——大部分的年轻人和少部分的办公人群撑起了 QQ 的日活,而偶尔传个文件的功能性怀旧老用户撑起了 QQ 的月活!

    展开全文
  • 企业为什么要有自己的APP? 1、打造企业品牌,同时手机在一定程度上与报纸、广播、电视、网络互相结合、渗透、融合,成了一种“全媒体”。 2、节省成本,APP的开发成本相比传统营销手段成本更低,省去大量印刷的...

    那么APP到底有哪些优势呢?企业为什么要有自己的APP?

    1、打造企业品牌,同时手机在一定程度上与报纸、广播、电视、网络互相结合、渗透、融合,成了一种“全媒体”。

    2、节省成本,APP的开发成本相比传统营销手段成本更低,省去大量印刷的宣传费用等。

    3、精准目标客户群,通过新技术以及数据分析,APP可实现精准定位企业目标用户,实现低成本快速增长成为可能。

    4、用户手机安装APP以后,企业即埋下一颗种子,可持续与用户保持联系。

    5、一键分享,透过微博、微信等分享功能;用户随时随地可把满意的体验分享给他的朋友,创造更多的话题。

    6、增加营业额:透过最新的优惠等推送通知,吸引用户再次消费,同时再透过在线支付功能,或者链接企业的商城,把产品直接送到客户家中。

    7、强化购买意欲:产品以生动的文字图片和影片展示胜于传统的宣传小册子更清晰生动而且产品分类准确、方便、快捷、易明更可连接更多的资料。

    展开全文
  • 爬虫,即网络爬虫,大家可以理解在网络上爬行一直蜘蛛,互联网就比作一张网,而爬虫便是在这张网上爬来爬去蜘蛛咯,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路...

    一、什么是爬虫,爬虫能做什么

    爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。

    爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值。也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序。以下行为都可以用爬虫实现:

    咨询报告(咨询服务行业)

    抢票神器

    投票神器

    预测(股市预测、票房预测)

    国民情感分析

    社交关系网络

    政府部门舆情监控

    二、浏览网页的过程与URL

    1、用户浏览网页过程

    在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如http://image.baidu.com/,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器HTML、JS、CSS等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

    因此,用户看到的网页实质是由HTML代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些HTML代码,实现对图片、文字等资源的获取。

    3.URL的含义

    URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

    URL的格式由三部分组成:

    ①第一部分是协议(或称为服务方式)。

    ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

    ③第三部分是主机资源的具体地址,如目录和文件名等。

    爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。

    三、爬虫的基本原理与过程

    1、基本原理

    爬虫是模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序。由以下4个基本流程。

    (1)发起请求

    通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应

    (2)获取响应内容

    如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型

    (3)解析内容

    得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理

    (4)保存数据

    保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件

    2、过程

    而当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入https://www.shsxt.com

    简单来说这段过程发生了以下四个步骤:

    (1)查找域名对应的IP地址。

    浏览器首先访问的是DNS(DomainNameSystem,域名系统),dns的主要工作就是把域名转换成相应的IP地址

    (2)向IP对应的服务器发送请求。

    (3)服务器响应请求,发回网页内容。
      (4)浏览器显示网页内容。

    网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据,而不需要一步步人工去操纵浏览器获取。

    四、什么是Request,Response

    浏览器发送消息给网址所在的服务器,这个过程就叫做HTPPRequest

    服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应的处理,然后把消息回传给浏览器,这个过程就是HTTPResponse

    浏览器收到服务器的Response信息后,会对信息进行相应的处理,然后展示

    Request中包含什么?

    请求方式

    主要有:GET/POST两种类型常用,另外还有HEAD/PUT/DELETE/OPTIONS

    GET和POST的区别就是:请求的数据GET是在url中,POST则是存放在头部

    GET:向指定的资源发出“显示”请求。使用GET方法应该只用在读取数据,而不应当被用于产生“副作用”的操作中,例如在WebApplication中。其中一个原因是GET可能会被网络蜘蛛等随意访问

    POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源,或二者皆有。

    HEAD:与GET方法一样,都是向服务器发出指定资源的请求。只不过服务器将不传回资源的本文部分。它的好处在于,使用这个方法可以在不必传输全部内容的情况下,就可以获取其中“关于该资源的信息”(元信息或称元数据)。

    PUT:向指定资源位置上传其最新内容。

    OPTIONS:这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用’*'来代替资源名称,向Web服务器发送OPTIONS请求,可以测试服务器功能是否正常运作。

    DELETE:请求服务器删除Request-URI所标识的资源。

    请求URL

    URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

    URL的格式由三个部分组成:

    第一部分是协议(或称为服务方式)。

    第二部分是存有该资源的主机IP地址(有时也包括端口号)。

    第三部分是主机资源的具体地址,如目录和文件名等。

    爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据。

    请求头

    包含请求时的头部信息,如User-Agent,Host,Cookies等信息,下图是请求请求百度时,所有的请求头部信息参数

    请求体

    请求是携带的数据,如提交表单数据时候的表单数据(POST)

    Response中包含了什么

    所有HTTP响应的第一行都是状态行,依次是当前HTTP版本号,3位数字组成的状态代码,以及描述状态的短语,彼此由空格分隔。

    响应状态

    有多种响应状态,如:200代表成功,301跳转,404找不到页面,502服务器错误

    1消息——请求已被服务器接收,继续处理

    2成功——请求已成功被服务器接收、理解、并接受

    3重定向——需要后续操作才能完成这一请求

    4请求错误——请求含有词法错误或者无法被执行
      5服务器错误——服务器在处理某个正确请求时发生错误常见代码:200OK请求成功400BadRequest客户端请求有语法错误,不能被服务器所理解401Unauthorized请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用403Forbidden服务器收到请求,但是拒绝提供服务404NotFound请求资源不存在,eg:输入了错误的URL500InternalServerError服务器发生不可预期的错误503ServerUnavailable服务器当前不能处理客户端的请求,一段时间后可能恢复正常301目标永久性转移302目标暂时性转移

    响应头

    如内容类型,类型的长度,服务器信息,设置Cookie,如下图

    响应体

    最主要的部分,包含请求资源的内容,如网页HTMl,图片,二进制数据等

    五、能爬取什么样的数据

    网页文本:如HTML文档,Json格式化文本等

    图片:获取到的是二进制文件,保存为图片格式

    视频:同样是二进制文件

    其他:只要请求到的,都可以获取

    六、如何解析数据

    直接处理

    Json解析

    正则表达式处理

    BeautifulSoup解析处理

    PyQuery解析处理

    XPath解析处理

    关于抓取的页面数据和浏览器里看到的不一样的问题

    出现这种情况是因为,很多网站中的数据都是通过js,ajax动态加载的,所以直接通过get请求获取的页面和浏览器显示的不同。

    七、如何解决js渲染的问题?

    分析ajax

    Selenium/webdriver

    Splash

    PyV8,Ghost.py

    怎样保存数据

    文本:纯文本,Json,Xml等

    关系型数据库:如mysql,oracle,sqlserver等结构化数据库

    非关系型数据库:MongoDB,Redis等key-value形式存储
    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    1.大数据分析,主要有哪些核心技术?
    http://www.duozhishidai.com/article-1938-1.html
    2.构建一个企业的大数据分析平台 ,主要分为哪几步?
    http://www.duozhishidai.com/article-8017-1.html
    3.数据科学,数据分析和机器学习之间,有什么本质区别?
    http://www.duozhishidai.com/article-7892-1.html
    4.数据分析是什么,如何完善数据分析知识体系
    http://www.duozhishidai.com/article-7743-1.html
    5.数据分析是什么?如何从零开始学习数据分析?
    http://www.duozhishidai.com/article-7653-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 那么一个客户端应用标准化是什么呢? 一个业务需求通常可以拆解功能需求,设计需求,体验需求,数据需求和运营需求,而每一种需求都对应着一类开发工作。 通过对每一类开发工作进行分析研究,我们得出了一个结论...
  • 好程序员web前端培训分享为什么那么多人使用vue.js一句话总结:用数据绑定的思想,vue可以简单写单个页面,也可以写一个的前端系统,也可以做手机app的界面。  1、Vue.js是什么?  渐进式框架  自底向上增量...
  • App恶意篡改严重

    千次阅读 2014-06-04 15:15:38
    中国IT研究中心4月份发布的《2014年Q1中国手机安全产品市场调研报告》显示,93.7%的用户担心手机安全问题,很一部分手机安全问题是App漏洞导致的。各项数据指明,App手机应用程序篡改给不法分子带来了巨额的盈利,...
  • 每天如果有100万用户来访问你的APP,积累下来一些浏览行为、访问行为、交易行为都是各种数据,这个数据量很,可以称之“大数据”。 大数据团队每天要做就是尽可能搜集每天100W用户在你的APP各种行为...
  • 那么如何才能利用用户数据提升用户运营效果呢? 积分商城平台首先是可以获取用户的第一手信息,这样可以帮助商家们快速的手机到用户的信息等内容,是积分营销的关键。积分商城平台可以通过接入一些商家APP的方法,...
  •  第二、如果用户是一个人群里面中心人物话,那么的的数据量就会很。页面显示及数据库处理就需要关注了;  第三、分解app有利于我们降低耦合,在后期维护和升级时,稍微容易一点。  我觉得框架...
  • 平台会与之前保存版本 1 离线包进行 diff ,算出 1 到 2 差分包。而客户端仅仅需要下载差分包,然后同样使用基于 bsdiff 算法工具,和本地版本 1 离线包进行 patch 生成版本 2 离线...
  • 更新表数据时会导致索引更新,当单表数据量很时这个过程比较耗时,这就是为什么表进行新增操作会比较慢原因,并且更新表数据会进行表级锁或者行锁,这样就导致其他操作等待。 所以我们将表拆分为多个...
  • app后端设计(8)-- 数据库分表

    万次阅读 2014-02-10 17:17:26
     更新表数据时会导致索引更新,当单表数据量很时这个过程比较耗时,这就是为什么表进行新增操作会比较慢原因,并且更新表数据会进行表级锁或者行锁,这样就导致其他操作等待。    所以我们将表拆分为多...
  • 有时候我们会遇到jar包冲突bug,或者说就是想单纯看看我那简单一句implementations到底导入了多少个jar包,这也是为什么Groovy语言Gradle和XML语言Maven相比,前者就能如此简洁。这时候,就可以去Android...
  • 数据/记录(及其创建者)所有更改历史记录,因此您的App用户可以轻松地“撤消”更改。 如果您曾经在程序中使用过“撤消”功能,那么您将体验到仅追加日志强大功能。 当数据存储在仅追加(不可变)日志中时,...
  • 自定义分区表 <pre><code> # Name, Type, SubType, Offset, Size, Flags # Note: if you change the phy_init or app partition offset, make sure to change the offset in Kconfig.projbuild nvs, data, nvs, ...

空空如也

空空如也

1 2 3 4 5 ... 19
收藏数 362
精华内容 144
关键字:

为什么app的用户数据那么大