精华内容
下载资源
问答
  • 本文文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一时间解决?来看看...

    本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

    本文章来自腾讯云 作者:Python进阶者

    想要学习Python?有问题得不到第一时间解决?来看看这里“1039649593”满足你的需求,资料都已经上传至文件中,可以自行下载!还有海量最新2020python学习资料。
    点击查看

    在这里插入图片描述

    在这里插入图片描述
    豆瓣评分与观众
    对于一部国产网剧,如果想分析它的评分与评价,那么似乎只有豆瓣这一个网站可以选择了。

    而每一个学python的人,应该写过豆瓣,拉勾,网易云“三剑客”的爬虫吧?

    那么爬虫部分就不一一赘述了。

    for comment in comments:
        # 获取用户名
        user = comment.xpath('.//h3/span[2]/a/text()')[0]
        # 获取评星
        star = comment.xpath('.//h3/span[2]/span[2]/@class')[0][7:8]
        # 获取时间
        date_time = comment.xpath('.//h3/span[2]/span[3]/@title')
        # 获取评论文字
        comment = comment.xpath('.//p/span/text()')[0].strip()
    

    目前无论采用哪种方法,豆瓣的爬虫都只能爬到500条评论。

    首先在评分分布上,有70.6%的人都给出了5星好评,给1星的最少仅为3.2%,百分百的好剧评分分布
    在这里插入图片描述
    不过我们是数据可视化了500条短评,所以最终据结果与豆瓣评分对比肯定差异较大。

    关于评论时间的走势图呢,发现分布非常不均匀。
    在这里插入图片描述
    为什么呢?仔细一看两个极值点分别是4月2日和4月9日,正好相差一周。

    如果看过这部剧的同学相信一下就知道原因了。

    《龙岭迷窟》网剧是每周三晚8点更新,那么当晚和第二天对该剧的评分以及新剧情的讨论肯定是最高峰啊。

    在这里插入图片描述
    我们在爬取豆瓣的评分评论时,顺便还爬到了评论用户的个人主页url。

    那么我们也可以根据url对他的个人主页进行访问,顺便获取他的个人信息。

    再利用pyecharts制作《龙岭迷窟》豆瓣短评用户的地域分布图。
    在这里插入图片描述
    其中评论人群北京最多,其次是上海、广东。

    (这个最好跟豆瓣的用户群体对比一下)

    龙岭迷窟 x 精绝古城
    在凹凸数据做的统计中,《龙岭迷窟》、《精绝古城》 是目前评分最高的两部《鬼吹灯》系列影视化作品。

    在这里插入图片描述
    那么就看看大家分别对他们的评价如何吧。
    在这里插入图片描述
    在这里插入图片描述
    两个词云图中的词语基本都是正向的。

    不过《龙岭迷窟》中主要围绕潘粤明饰演的胡八一、高伟光饰演的鹧鸪哨以及王胖子,而张雨绮饰演的雪莉杨讨论度却不高。

    《精绝古城》则正好相反,陈乔恩的关注度非常高。

    看过很多分析豆瓣的文章,这次我们玩点新的。

    看看哪些观众看过这两部网剧,又是分别打多少分的?分别怎么评价的?

    分别爬取两部剧的评论各500条,利用 merge() 方法将两个表横向,并指定评论用户url为内连接的连接键。

    df3 = pd.merge(df1,df2,on='user_url',how = 'inner')
    

    看看其中给龙岭迷窟打分> 精绝古城的评分与评论:

    df3[df3['star_x'] > df3['star_y']][['name_x','star_x','comment_x','star_y','comment_y']]```
    

    在这里插入图片描述
    给龙岭迷窟打分> 精绝古城的评论似乎也没有什么强有力的理由,唯一一个就是给精绝古城打1分的,是认为陈乔恩不适合这个角色。

    其中给龙岭迷窟打分< 精绝古城的评分与评论:

    df3[df3['star_x'] < df3['star_y']][['name_x','star_x','comment_x','star_y','comment_y']]
    

    在这里插入图片描述
    吐槽胡八一太胖可还行

    龙岭迷窟 x 黄皮子坟
    这两部剧对比更像是中青年的胡胖搭档的对比。

    上一节做了词云,此处就来个词频吧。

    在这里插入图片描述
    在这里插入图片描述
    《黄皮子坟》相比《龙岭迷窟》,阮经天的台湾省口音还是提到的比较多的词语。

    看看哪些观众看过这两部网剧,又是分别打多少分的?分别怎么评价的?

    看看其中给龙岭迷窟打分> 黄皮子坟的评分与评论:
    在这里插入图片描述
    其中打低分的理由很多,相对于演员选角,剧本改编的问题似乎更受质疑。

    其中给龙岭迷窟打分< 黄皮子坟的评分与评论:

    龙岭迷窟 x 盗墓笔记
    《鬼吹灯》和《盗墓笔记》作为国内最出名的两部盗墓题材小说,非常相似,都是铁三角组合。

    大家经常拿他们俩对比,影视化作品自然也不会少了相互对比。

    其实我是想做一个用户人群的画像,但是豆瓣无法获取更多的评论用户个人信息。

    所以我选择了百度指数,看看分别搜索这两部小说的人群有什么不同点?
    在这里插入图片描述
    在这里插入图片描述
    非常明显,《盗墓笔记》的粉丝群体中女性比例远高于《鬼吹灯》。

    个人认为主要是受到小说内容,以及后期影视化过程中演员选角的影响。

    看《盗墓笔记》的年龄段相对于《鬼吹灯》来说,也较低一些。

    那么改编成网剧后,大家又是如何评价的呢?

    看看其中给龙岭迷窟打分> 盗墓笔记的评分与评论:
    在这里插入图片描述
    真的是满屏的1分啊,不多说自己看吧。

    现在我回忆起来也只记得“上交国家”和随处可见的“红牛”了。

    其中给龙岭迷窟打分< 盗墓笔记的评分与评论:

    小结
    很高兴国产网剧能又出现一部好剧,同时演员又都在线。

    潘粤明在《怒晴湘西》演过陈玉楼,在本剧又演胡八一,再次体验一人饰演两个角色。“李大嘴”姜超饰演的王凯旋,终于像王胖子了。身为一个厨子,拿个工兵铲炒炒菜怎么了。

    看的出来《龙岭迷窟》剧组从主角到配角他们都在用心地在挑选、在打磨。

    这样的剧确实配得上观众给出的高分。

    但其中仍然也有很多国产剧的通病。

    展开全文
  • XML对这一原理进行了深化和扩展,XML,你可以描述你信息在哪里,你可以通过meta来验证信息,执行搜索,强制显示,或者处理其他数据。 下面是一些XML metadata在实际应用中用途: 1.可以验证数字签名,使...
  • WNetGetConnection 获取本地或已连接的一个资源的网络名称 WNetGetLastError 获取网络错误的扩展错误信息 WNetGetUniversalName 获取网络中一个文件的远程名称以及/或者UNC(统一命名规范)名称 WNetGetUser 获取...
  • 本文来自AI新媒体量子位...深度学习和神经科学这两个学科现在都很大,我经历尚浅,如果大家发现哪里说得不太对,欢迎提出指正,谢谢! 那我们就自底往上说。 神经元 在深度学习领域,神经元是最底层单元,如果...
    本文来自AI新媒体量子位(QbitAI)

    我自己是生物本科,认知神经科学研究生在读,课余时间比较喜欢编程和机器学习。我试着从我的角度来说下我看到的深度学习和神经科学的联系。

    深度学习和神经科学这两个学科现在都很大,我的经历尚浅,如果大家发现哪里说得不太对,欢迎提出指正,谢谢!

    那我们就自底往上说。

    神经元

    在深度学习领域,神经元是最底层的单元,如果用感知机的模型,wx+b加上一个激活函数构成了全部,输入和输出都是数字,研究的比较清楚,别的不说,在参数已知的情况下,有了输入可以计算输出,有了输出可以计算输入。

    但在神经科学领域,神经元并不是最底层的单位,举例来说,有人在做神经元膜离子通道相关的工作。一个神经元的输入,可以分为三部分:

    • 从其他神经元来的电信号输入
    • 化学信号输入
    • 还有编码在细胞内的信号(兴奋,抑制类型,这里可以类比为激活函数?)

    输出也是三个:

    • 电输出
    • 化学输出
    • 改变自身状态(LTP长时程增强,LTD长时程抑制)

    我们是否足够了解神经元?我个人十分怀疑这一点,前几天还看到一个关于神经元的进展,大意是神经元不仅能对单一信号产生反应。。还能对一定一定间隔的信号产生反应。。神经元的底层编码能力其实更强。。。我们神经科学发展了这么久,可能真的连神经元都没真正的搞清楚。

    在这另外说一句。深度神经网络里面,大部分节点都是等同的,但是在人类神经网络里面,并不是这样,不同的脑区,甚至脑区内部,神经元的形态都可以有很大的差异,如V1内部的六层就是基于神经元形态的区分。

    从这个角度,人类神经系统要更复杂一些。我个人并不否认每一种神经元可以用不同初始化参数的节点来代替,但是目前来说,复杂度还是要比深度神经网络要高。

    信号编码方式

    再说编码方式,神经科学里面的神经元是会产生0-1的动作电位,通过动作电位的频率来编码相应的信号(脑子里面的大部分是这样,外周会有其他形式的),而人工神经网络?大部分我们听到的,看到的应该都不是这种方式编码的,但是脉冲神经网络这个东西确实也有。

    神经网络的结构

    目前的深度神经网络主要是三种结构,DNN(全连接的),CNN(卷积),RNN(循环)。还有一些很奇怪的,比如说。。。Attention的?不好意思,文章还没看,不敢乱说。。。

    放点图:

    DNN

    640?wx_fmt=png&wxfrom=5&wx_lazy=1

     图片来自:http://t.cn/zRUrcUr

    CNN

    640?wx_fmt=png&wxfrom=5&wx_lazy=1

     图片来自AlexNet

    RNN

    640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

     图片来自:http://t.cn/RyhVmWU

    神经科学里面的网络结构,此处以V1为例:

    640?wx_fmt=png&wxfrom=5&wx_lazy=1

     图片来自:http://t.cn/Ro5Rzev

    640?wx_fmt=png&wxfrom=5&wx_lazy=1

     图片来自:http://t.cn/Ro5RMOV

    感谢知乎网友 @滕建超 提供新的图片,比我之前那个强多了,这张图表达分层结构表达的更好一些。

    和大家想的不同,视觉区分了V1,V2,V3,V4,V5(MT),上面还有FFA,和一些掌管更高级功能的脑区。在这里面每一个小的视皮层里面,并不是纯由神经元互相连接构成的,仍然存在不同的层级结构。这里去google找了一张图,不用管具体的文章,主要说明的是V1的精细结构和连接关系。V1的主要功能是识别点和不同角度的线段(Hubel和W在上世纪50年代在猫上的工作),但是其实不止如此,V1还对颜色有一定的感知。

    如果在这个层面作比较,我自己的理解是,人类神经网络是DNN+CNN+RNN再加上脉冲作为编码方式。层内更像DNN,层间和CNN很类似,在时间上展开就是RNN。

    好,我们继续。

    训练方式

    深度神经网络的训练方式主要是反向传播,从输出层一直反向传播到第一层,每一层不断修正出现的错误。但是大脑里面并没有类似反向传播机制,最简单的解释,神经元信号传递具有方向性,并没机会把信号返回上一层。

    举个例子,我要拿起手边的杯子,视觉发现向右偏移了一点,那我会自然而然的移动整个手臂向左一点,然后试着去重新抓住杯子。好像没人是让手指,手,最后是手臂朝杯子移动,甚至多次才能最后成功吧。在此引用下一篇文章里面的图。

    640?wx_fmt=png&wxfrom=5&wx_lazy=1

    来源文章:https://arxiv.org/abs/1702.07097

    我们的大脑,更像最后DFA的原理。出错了,把误差送到一个更靠近输入的地方,然后重新训练。

    记忆和遗忘

    提到记忆的话,这里主要说的是LSTM,LSTM的记忆储存在每个节点的权重里面,同时有专门的遗忘门控制遗忘速率。这些都是以数字的形式存储的。在神经系统里面,记忆的存储是由一些脑区的突触的形成和消失来存储的。

    其实他们有一个比较共通的地方在于,他们在训练过程中都是渐变的。得益于反向传播机制和神经系统的生物性,他们在训练过程中和在不断的学习过程中都只能以一个相对慢的速度发生改变,从学习速率角度来讲,他们是比较相似的。

    然后我们来说遗忘。遗忘在LSTM里面是通过门来控制的,在神经系统里面,我觉得是和STDP相关的,它的基础是Hebb假说,Fire Together,Wire Together,同步放电的神经元倾向于建立一个更强的连接。STDP拓展了这一点,考虑了两神经元放电的先后顺序带来的影响。

    640?wx_fmt=png&wxfrom=5&wx_lazy=1

     图片来自:http://t.cn/Ro5Rghc

    简单来说,如果突触前神经元放电先于突触后神经元(神经元信号传导具有方向性,从突触前到突触后),这个突触会进入一个LTP长时程增强状态,会对来自突触前的信号有更强的反应。

    反之,如果突触前神经元放电后于突触后,则会进入一个长时程抑制的状态(说明他俩并没有接收到相同来源的信号,信号不相关),一段时间的反应更弱。

    深度神经网络里面门的权重也是反向传播训练出来的,也有渐变的这个性质,当对于快速变化的刺激,有一定的滞后。从这个角度来说,人类神经系统要更灵活一些,可以在很短的时间内完成状态的切换。

    觉得想说的大概就是这些,因为我自己做的研究是视觉注意,更多在人身上做,所以对于中间的环路级别的研究,并不是特别的熟悉。再往上,谈到人类大脑皮层的工作,个人觉得做的十分的有限,对于大部分脑区,我们并不知道他们是怎么工作的,只是能把不同的脑区和不同的功能对应起来(还不一定准。。)。在这个角度上谈他们的异同是不太负责的。。。容易被打脸。

    接下来我会试着邀请几个朋友来说下环路这个级别的事情。。然后会找其他同行帮我挑错和补充。。。。。很多东西都是按照记忆写的。。一些东西不一定准确。。

    最后说下自己的观点吧

    正如在提纲里面提到的。对的答案往往类似,而错误的答案各有不同。地球上这么多高等的生命都有类似的底层网络结构,而其中的一种还发展出了这么伟大的文明,神经网络这个结构,至少已经被我们自己证明是一种有效的形式。但是是不是智能这个形式的全局最优解?我个人持怀疑态度。

    神经网络是一个有效的结构,所以大家用这个结构做出一些很好的结果,我一定都不吃惊。但是如果谈模拟的话,就是尽力要往这个方向靠。这点上,我个人并不是十分看好这种方式。

    我们向蝙蝠学习用声音定位,发展的声呐无论是距离还是效果都远超蝙蝠。我们能超过蝙蝠的原因,第一是我们的技术有拓展性,底层原理共通的情况下,解决工程和机械问题,我们可以不那么轻松但是也做到了探测几千米,甚至几十公里。第二个原因就是我们需要而蝙蝠不需要,他们天天在山洞里面睡觉。。哪用得着探测几十公里的距离,探到了也吃不着。。

    其实人类大脑也很类似,大脑是一个进化的产物。是由环境不断塑造而成的,人为什么没进化出计算机一样的计算能力,因为不需要。但是其实反过来也有一定的共通的地方,大脑里面的一些东西,我们也不需要,我们千百年来忍饥挨饿进化出的对于脂肪摄入的需求,在儿童时期对于糖类摄取的需求。这么说的话,我们对于大脑,同样去其糟粕,取其精华不是更好吗?

    我上面提到的是一个理想的情况,我们对大脑已经了解的比较透彻的,知道该去掉哪,留下哪。。但是现在。。。可能还要走一段模拟的路子。。。。

    大概就是这个观点。总结一下,就是,深度神经网络和大脑皮层有共通的地方,但是并不能算是模拟。只是大家都找到了解题的同一个思路而已。

    感谢阅读,希望大家多提宝贵意见。

    点击左下角“阅读原文”,可以参与更多讨论。

    【完】

    本文作者:Harold Yue
    原文发布时间:2017-06-21
    展开全文
  • 我们都是介绍自己名字,年龄,来自哪里,毕业于什么学校 但我们想要别人快速了解自己 就需要几个关键词或简短句子来描述自己 为自己画一幅"自画像" 这幅"自画像"必须能清晰传达出三个关键信息 ...


    通常情况下

    我们都是介绍自己的名字,年龄,来自哪里,毕业于什么学校

    但我们想要别人快速了解自己

    就需要用几个关键词或简短的句子来描述自己

    为自己画一幅"自画像"

    这幅"自画像"必须能清晰传达出三个关键信息

    以便使用"价值锚点"思维

    在社交网络中找到自我价值的精准定位

    这样自我介绍

    才能让别人记住你。

    展开全文
  • UC浏览器抓包分析

    千次阅读 2017-11-27 17:57:00
    我们都知道,互联网访问肯定是必须有网络数据包。那么新浪网数据从哪里走了呢?经过仔细分析,发现了如下数据包: 访问网站时,客户机往vs15.bjct.u3.ucweb.com:8080发了一个请求,在返回数据包中却发现了...

    我用手机打开新浪新闻,用wireshark抓包发现并没有到sina网站的流量。我们都知道,互联网访问肯定是必须有网络数据包的。那么新浪网的数据从哪里走了呢?经过仔细分析,发现了如下的数据包:

    201705101494396078653397.png

    访问网站时,客户机往vs15.bjct.u3.ucweb.com:8080发了一个请求,在返回的数据包中却发现了sinaimg.cn的数据(应该是来自新浪网的一个图片)。在一次新浪网的访问中,出现了数十个这样的通讯连接。

    这样事情就一目了然了,UC浏览器在打开网站的时候,并没有按常规的方法去访问网站服务器,而是把请求转发到了ucweb.com的8080端口,通过ucweb.com来获取远程网站的数据。ucweb.com在这里起了一个透明代理的作用。

    我们先不去揣测uc浏览器的意图(有可能是好意:比如缓存加速,也有可能是恶意:比如植入广告),对于我们上网行为管理而言,就导致了网站黑名单不起作用。


    本文转自 笨小驴 51CTO博客,原文链接:http://blog.51cto.com/12800391/1924243,如需转载请自行联系原作者

    展开全文
  • 它是一个实体组件系统 (ECS),通常在计算机游戏开发中发现,最近被 Mozill 用作面向数据的网络流、一种新颖的知识包分类帐 (KBL) 和支持去中心化机器学习 (DML) 的规则。 图书馆参考合同是唯一允许的输入,由网络...
  • 我们常提到"在Windows操作系统中安装VMware,运行Linux虚拟机"属于【C】。 A、 存储虚拟化 B、 内存虚拟化 C、 系统虚拟化 D、 网络虚拟化 下列传输介质中,哪种传输介质抗干扰性最好? B (A)双绞线 (B)光缆...
  • 另外,图灵公司论坛上丰富资料和活跃讨论也使我们眼界大开,受益良多。  翻译工作并非阐述自己思想,翻译第一要务是忠实地传达原著者思想。虽然无法自由地表达自己想法,然而,翻译快乐就在于:使...
  • 另外,图灵公司论坛上丰富资料和活跃讨论也使我们眼界大开,受益良多。  翻译工作并非阐述自己思想,翻译第一要务是忠实地传达原著者思想。虽然无法自由地表达自己想法,然而,翻译快乐就在于:使...
  • 在这篇文章中,我们将探讨拖放来自网络的图像转换成一个简单Web应用程序,将阅读,并告诉我们它认为他们。 在本演示中,我们将使用Node.js服务器和jQuery进行AJAX请求相对基本前端。 如果你不强Node.js,...
  • 3.10 如果我不使用表达式值, 我应该++i 或i++ 来自增一个变量 吗? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.11 为什么如下代码int a = 100, b = 100; long int c = a * b;...
  • 你必须知道495个C语言问题(PDF)

    热门讨论 2009-09-15 10:25:47
    3.10 如果我不使用表达式值, 我应该++i 或i++ 来自增一个变量 吗? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.11 为什么如下代码int a = 100, b = 100; long int c = a * b;...
  • 架构师到底要做什么?

    千次阅读 2015-06-17 14:51:07
    我不知道,但是现在的website的爆发式的增长,导致了很多大中型的网络公司对架构师的迫切需求,架构师到底是干吗的呢?这个职位的职责又是什么呢?我们不得而知,充实软件编程这个行业这几年里,我慢慢的发现,有...
  • 说明 由于最开始接触卷积是通过滑窗方式了解卷积计算过程,所以在接触转置卷积时很蒙圈。...(以下很多图片来自网络,忘记是哪里截取了,抱歉不能给出引用链接,如果后续获知,会给补上)。
  • 只要有互联网连接,我们的平台就可以部署灵活电话网络我们的目标是软电话代替台式电话,从而消除了建立支持中心复杂性。 关于CallHippo CallHippo是一家领先VOIP电话号码提供商,于2017年1月成立。...
  • 前言 最近总是有一种感觉,对于知识没有积淀,很多时候都是忘记了哪里就去查...所谓温故而知新,今天把JavaScript相关知识整理下(图片来自网络)。 JavaScript变量 JavaScript数据类型 JavaScript运算...
  • ASP EXCEL导入SQL

    2013-01-23 01:17:24
    今天微软也已经应用REST并且提出把我们现有的网络变成为一个语义网,这种网络将会使得搜索更加智能化。  REST与HTTP协议  REST软件架构是由RoyThomasFielding博士在2000年首次提出的。他为我们描绘了开发基于...
  • 然而请注意,本文并非网络礼节通用指南,而我们通常会拒绝无助于在技术论坛得到有用答案建议)。 在提问之前 在你准备要通过电子邮件、新闻群组或者聊天室提出技术问题前,请先做到以下事情: 尝试在你准备...
  •  下面贴出一个来自于我使用过数据库性能报告中一部分:  Buffer Nowait %: 100.00 Redo NoWait %: 99.99  Buffer Hit %: 66.35 In-memory Sort %: 100.00  Library Hit %: 99.63 Soft Parse %: 96.87  ...
  • Eclipse&Myeclipselanguage

    2009-08-04 18:28:53
    本汉化包汉化文件来自于Babel,eclipse官方汉化网站,经《昶洁网络社区》技术人员修改整理及制作教程,目前测试支持版本适用于Eclipse3.0-3.4(MyEclipse5.0-7.5) MyEclipse7.0以上版本插件使用方法 1.将language...
  •  美国“在线出版协会”主席米歇尔·辛巴里斯特说,“现在,随着使用宽带家庭数量不断增加,我们正在出现一场消费者使用网络方式转变。很明显,网络现在远远不只是一种工具了。它已经成为信息、娱乐和消遣...
  • o 4.10 如果我不使用表达式值, 我应该 ++i 或 i++ 来自增一个变量吗? o 4.11 为什么如下代码 int a = 100, b = 100; long int c = a * b; 不能工作? o 4.12 我需要根据条件把一个复杂表达式赋值给两个...
  • c#学习笔记.txt

    2008-12-15 14:01:21
    有很多人程序来表述爱情,在其中我能看到有Money,有Girl,有一些还涉及到Sex,但是我没有找到Love,我始终相信这世上有一种力量直接来自于爱情,到现在仍然相信。*/ C#(读作C sharp),是Microsoft公司新推出...
  • 网络经验:网络经验:三个效率是不一样,但是我们发现经过SQLServer优化后性能一样。但我们并不能以此推翻前人经验。 执行计划总结 主要图表 检索表所有行,当查询没有使用到索引时,查询所采用形势即为表...

空空如也

空空如也

1 2 3
收藏数 47
精华内容 18
关键字:

我们用的网络来自哪里