热门好课推荐
猜你喜欢
相关培训 相关博客
  • 本文来源:http://wuzuozhi.com/背景这几天,同事都去出差,稍有感冒的我提前在办公室感受到了“孤独终老”的恐惧。于是,我想在自己有能力并且还有激情的时候,去做一些以后值得回忆的事。我萌生了去“探望”下知乎的念头。前言我个人是15年注册知乎,三年过去了,我个人主页数据是:我一直不喜欢知乎上面的氛围,但是通过知乎我确实拿到了很多学习、设计、阅读和产品灵感的资源,都是通过知乎链接到其他平
    2018-04-17 00:00:00
    阅读量:2034
    评论:1
  • 我们的教程直接点,不来虚的,先给个实战案例大家,过过瘾吧。不用写代码的爬虫实战案例:采集知乎数据之抓取知乎大V的文章标题。这位大V是:https://www.zhihu.com/people/a-hun/posts用QQ浏览器打开上面的网址​​在页面上点击鼠标右键,会出现一个菜单选项,然后点击“检查”​​点击“检查”后​​如果Web...
    2019-08-20 20:05:31
    阅读量:50
    评论:0
  • 作者:powerhql链接:http://www.zhihu.com/question/29133044/answer/67456932来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。系统学习大数据应该遵从《数据科学》的学习路径,从理论出发,延伸至实践中的技术:第一层次:感性认识,判断方向。阅读大数据领域与产业链的书籍,如:《大数据
    2016-04-15 22:14:56
    阅读量:12130
    评论:0
  • 技术更新迭代速度很快,我们必须时刻保持危机感!一步跟不上,步步跟不上!让我惊叹的是在这个大数据时代底下,比起我们自己,大数据似乎更懂得我们。如果科技更进一步,就像《奇葩说》中一集辩题里所说的,它有可能可以帮我们匹配到那个灵魂相契的人。有人觉得这个现象很恐怖,但在我看来,人的恐惧是源自于未知。 在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:957205962,即可...
    2019-02-13 13:13:18
    阅读量:416
    评论:0
  • 为了完成课程论文研究,暑假写了关于知乎的爬虫,把用户主页/回答中能爬到的数据全都爬下来了。接下来,把我踩过的坑跟大家分享,希望大家少走一些弯路!1.导入一些必要的python包,其中会包括我们接下来要使用的函数;importreimporturllib3frombs4importBeautifulSoupfromseleniumimportwebdriverfro...
    2019-03-28 22:19:29
    阅读量:461
    评论:0
  • 请问单月数亿/年度超过十亿级规模的日志分析系统需要使用Hadoop吗? 目前在小范围试用的一个系统,生产环境用的Oracle数据库。系统的行为日志模块要详细记录所有用户(总的活跃用户规模大概几百万)的每一个操作,根据目前小规模试用的现状评估,预计全面使用后单月的行为日志数会达到数亿的规模。用户行为日志分析在系统中是一个蛮重要的模块,目前在小规模试用期几百万数据量的情况下用Oracle速度
    2016-08-01 13:58:11
    阅读量:3781
    评论:0
  • 一、前言作为简书上第一篇文章,先介绍下小背景,即为什么爬知乎第一大V张公子的138w+关注者信息?其实之前也写过不少小爬虫,按照网上各种教程实例去练手,“不可避免”的爬过妹子图、爬过豆瓣Top250电影等等;也基于自身的想法,在浙大120周年校庆前,听闻北美帝国大厦首次给大陆学校亮灯,于是爬取2016-2017年官网上每日的亮灯图并用python的PIL库做了几个小logo,算是一名吃瓜群众自
    2017-11-01 11:56:50
    阅读量:3943
    评论:0
  • 磕盐需要,编写了一个爬虫程序,对知乎网站的数据进行爬取,关于知乎爬虫,我们分别从用户角度和问题角度两个方向对其进行爬取。项目流程:爬虫代码(Python)→非结构化数据(Mongo)→结构化数据(MySQL)→结构化数据(Access)数据的爬取以知乎话题下内容为爬取对象。通过python设计实现了爬虫程序,对知乎问答社区的资料进行了爬取,作为研究问题文本分类的数据。这些数据的来源是用浏览器获...
    2019-07-25 21:37:16
    阅读量:609
    评论:4
  • 自从我的知乎读者到达十五万之后,我经常会受到各种私信问我为什么能有这么多读者,有什么小技巧可以分享,我经常给的回复是:数据分析。我的知乎能在一年多时间里从零到十五万是我一步一步分析到实践的结果,那么简单来说一说我从哪些方面做的。1.经常分析研究精华回答精华回答就是知乎社区或者话题下赞同数量最多的回答,答案赞同越多答主曝光率越高,那么被关注的机会就越大,那么如何写一个高赞精华回答就很重要
    2017-08-09 19:56:36
    阅读量:1365
    评论:0
  • 1.知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中去。首先,需要获取任意知乎的问题,只需要你输入问题的ID,就可以获取相关的页面信息,比如最重要的合计有多少人回答问题。问题ID为如下标红数字编写代码,下面的代码用来检测用户输入的是否是正确的ID...
    2019-09-12 20:59:27
    阅读量:28
    评论:0