精华内容
下载资源
问答
  •  如图1所示为集成运放的表示符号,集成运放通常采用图1所示的电路符号和相应的引出端来表示。  (2)集成运放的引出端  集成运放共有5类引出端。  输人端:即信号输入端,它有两个,通常用“+”表示同相端,...
  • 《让你少奋斗10年的工作经验》引出的思考

    千次阅读 多人点赞 2016-06-21 15:55:56
    这篇文章是单纯的在阅读了《让你少奋斗10年的工作经验》一文后,引出一个思考:技术工程师除了技术,我们是否还需要分配更多的精力在对自身的综合能力的提升上,或者说对自身理想的追求上(追求理想的人会追求自身的...

    从我的经历看来,大多从事互联网工作的技术工程师,都会将技术的提升放在自身发展的第一位,甚至成为一种执著。当然也必定会存在考虑自身综合素质的提升和进行刻意训练的技术人员,意识到自身事业发展并不能仅依靠技术的水平。但是在工作的压力和身边技术氛围的影响下,总会不自觉的、潜意识的将自己大部分的精力都投放在对技术的学习和研究中(本人也属于熬夜看书、写博客的IT屌丝)。

    我一直都认为,技术本身就是一把双刃剑,它能让你拥有一个不错的薪资和体面的工作。而且随这技术和资历的提升,薪资也会自然而然的水涨船高。所以我一直都会说:干技术的人,很单纯,我们攒钱的资本就是学习。但退一步来说,技术又是一个很可怕的东西,它会让你越陷越深。你越是往里钻,钻的越深入,你就越难抽出身来,慢慢的眼中被技术填满,看不清互联网最可贵的东西 —— 互联网思维、机会、游戏规则 。身边留有这些思想和意识的工程师,感觉都跟着创客潮去了。

    当然,这并不是一篇贬低或排斥技术工程师的文章,我本身也是其中之一,文章里所写的每一句也并非绝对,每人都有各自的追求。这篇文章是单纯的在阅读了《让你少奋斗10年的工作经验》一文后,引出一个思考:技术工程师除了技术,我们是否还需要分配更多的精力在对自身的综合能力的提升上,或者说对自身理想的追求上(追求理想的人会追求自身的完善,这群人大多是积极正面的)?

    这是一篇在网络上看见的文章,对其中提到的一些点很赞同。推荐给大家,希望能帮助刚参加工作的小伙伴们。 : -)
    原文点这里

    第一:不要认为停留在心灵的舒适区域内是可以原谅的

    每个人都有一个舒适区域,在这个区域内是很自我的,不愿意被打扰,不愿意被push,不愿意和陌生的面孔交谈,不愿意被人指责,不愿意按照规定的时限做事,不愿意主动的去关心别人,不愿意去思考别人还有什么没有想到。这在学生时代是很容易被理解的,有时候这样的同学还跟“冷酷”“个性”这些字眼沾边,算作是褒义。然而相反,在工作之后,你要极力改变这一现状。否则,你会很快变成鸡尾酒会上唯一没有人理睬的对象,或是很快因为压力而内分泌失调。但是,如果你能很快打破之前学生期所处的舒适区域,比别人更快的处理好业务、人际、舆论之间的关系,那就能很快的脱颖而出。

    在会议上,一个停留在心灵舒适区域的人会消极的听取领导的话语,消极的待命,很死的完成上级交给的事情,但从来不关心此事以外的任何事情,更不会想到多做一步,让接下来的别人的工作更加容易上手。而敢于打破这个舒适区域的人,敢于在适当的时候提出自己的看法和不理解,并在得到上级认可和指点之后把手头的工作尽快的完成,并随时接受别人的批评和调整。(注意:永远不要等待别人把你的想法说出来,这是典型的前者)在工作上,当前者遇到一名新的同事,他会装作没有看见,继续自己的工作。殊不知新来的同事不久就变成了自己的上司。而后者则大方客气的自我介绍,并了解对方和自己的关系。

    在聚会上,前者总是等待别人发言,并喜欢私下里评论对方的言语;如果这个桌子上没有人发言,那直到用餐结束,也没有人认识你。而后者是勇敢的和一同吃饭的开始介绍和闲谈,这看起来很困难,有时候会有失面子,但往往你会发现,对方是多么希望能和你说几句话。

    以上只是很小的几个例子,但是要说明的是,大学生在走出校园的同时就要在工作上把校园中的“随意性”从身边赶走,尽早的冲出自己的舒适区域,开始做好和这个社会交流的准备。

    总做自己力所能及的事情,要怎么突破自己
    这里写图片描述

    第二:不要把“好像”;“有人会……”;“大概”;“晚些时候”;“或者”;“说不定”之类放在嘴边。尤其是和上级谈论工作的时候

    我十分痛恨听到的一句话是:“我晚些时候会把这个文件发给所有的人”;因为这往往预示着我必须时刻提醒他不要忘记。同样,以下这些言辞也会让人觉得厌恶至极:
    “到时候有人会把那些东西都准备好”
    “大概是明天”
    “明天或者后天客户会过来拜访”
    “好像他说……”

    一般是人都会这样说话的,因为这样第一给自己留下了广阔的余地,第二也不会给别人造成很大的压迫感,好像什么事情一定要弄个水落石出似的。说实话大学里面再用功的人都有一半是混的。一个人要么是在课堂上是混的,要么下课之后是混的。两个都没有带有混的色彩的人,要么是超级牛人,要么是神经病。所以,就因为人人都在混的,所以校园是一个浪漫的地方,校园也容易让人单纯。所以学生社团的工作往往是效率很低的,我现在

    回想起学校里做的工作,当时还觉得挺卖力的,但工作了之后才开始感觉到什么是效率。

    当你进入了用金钱计算时间的地方之后,你要尽可能的避免在学校里养成的这种习惯。如果上级问你什么时候能实施你给他的承诺,而你回答“今晚或者明天早上”这样的答案对于他来说完全等同于你没有回答,并且还给他留下了一个坏印象。(当然,这样的回答往往在学校社团,学生会工作中是常见的)

    有一个寓言故事,一只小老鼠刚刚出世不久,老鼠妈妈问小老鼠:你现在能看见了吗? 小老鼠说:能。 老鼠妈妈说:那你能看到那块红薯吗? 小老鼠说:是的。老鼠妈妈说:那是一块石头,这说明你不但还看不见东西,你连嗅觉都还没有。

    似是而非的应答往往一样会暴露出你更多的弱点。可能是以下中的一个或几个:

    你之前没有想到这个工作,或者一直在拖延。
    你没有责任心,认为这些并不重要。
    你应付上级。
    你不敢说真话。
    你喜欢逞能,答应一些做不到的事情。
    你不能独立工作。
    

    当你的上级在以上选项中怀疑的时候,潜意识中你已经同时具备了以上所有的弱点了。

    相反的看来,这样的回答,总是让上司恼火。

    他的问题没有得到回答,只是起到了提醒你的作用。
    他依然需要记住提醒你,因为他不知道你是否真正已经落实了工作。
    他不知道有多少你已经做了的事情中,都是这样没有落实的。(这点非常致命)
    往往因为没有得到满意的答案,上司自己的计划不得不被耽搁或推迟或不能给出明朗的结束时间。
    

    所以———
    甲问:你什么时候能把要这个漏洞修好?
    乙说:我已经通知他们了,他们大概明天就会来修的。
    一天后
    甲问:维修公司什么时候回来,你找的是哪家维修公司?
    乙说:好像他们说安排不出人来,如果可以的话,今天晚上或者明天下午就能过来。
    一天后
    甲问:漏洞怎么还没有修好?
    乙说:我晚点再问问他们。
    甲说:今天下午之前不解决,明天不用来上班了。

    第三:不要拖延工作

    很多人喜欢在学习和玩耍之间先选择后者,然后在最后时间一次性赶工把考试要复习的东西突击完成。但是在工作中请不要养成这样的习惯,因为工作是永远做不完的,容不得你“突击”。又或者,当你在徘徊和彷徨如何实施的时候,你的领导已经看不下去,自己去做了。—-这是一个危险的信号。

    往往我们总是想把事情从头到尾全部想好了,才开始走第一步—–就摔倒了。

    举个例子: 我小学的时候第一次给我一个喜欢的女孩子打电话的时候,想象了各种情况——-1,她接电话的时候在做作业。2,她在做作业,她妈妈接的电话。3.她也很无聊,很想找人说话。4.她正在被父母训斥。 5.她正在想另外一个男孩。6.她父亲接电话。 7.她家正好来了什么亲戚,亲戚接了电话。 8.她接了电话,但父母就在身边,说话不方便。。。。。等等等等。我整整想了一个下午,想好了各种情况的心理准备和应对的策略。然后勇敢的拿起电话机,按下了那几个按钮。结果——-她不在家。

    所以,当你徘徊不前而手足无措的时候,你要意识到你正在拖延工作。徘徊是因为害怕这个事情可能发生的后果需要自己承担或应付。工作的时候需要一种起码的自信,相信自己有能力,不管下一步是什么状况,我都能把它引导到我需要的那条线上去的。另外,告诉自己,不要想太多时间,如果不知道,就赶快求助,或想办法,苦恼和忧虑会给你更多的压力也会把剩下的时间蚕食殆尽。

    另外,警告一下:永远不要想,我知道了,先把上级派的事情放一下,等这集《越狱》看完再说。—-90%的情况下,你会忘记,或者来不及,因为这件事需要比你原先想象要更多的时间。说做就做,一直是很好的习惯。

    第四:不要认为理论上可以实施就大功告成了!

    这点太重要了,往往当真正实施的人开始做了才会发现计划完全等于鬼话。如果不亲自实践,做计划的人会早晚被实施的鄙视。永远需要提升自己的办实事的能力,而不是空谈。

    首先,如果你是做办公室工作的,或者做策划和计划的。请千万不要把你自己都认为不太可能或者很难做到的事情,让别人试试看。比如,用一个下午的时间在人流量很少的地方举办露天歌唱会。这会让执行的人觉得你在玩他,拿他做实验。没错,理论上,在任何地方都能举办歌唱会,但是,在不同的地方,执行的人的心情是不一样的。

    其次,和执行的人讨论你的安排。比如,新来的你的下属,你可以安排她坐在任何地方,但是如果那是一个很难和大家接触的角落,这可能比你什么都不安排更差。的确,理论上一个人要坐下来,需要的只是空间。但事实上远远不止那些。

    再次,不要奢望一切会随着你的计划进行。理论上这个会议会持续两个小时,但是,这是“不考虑在开场后的30分钟全场都在调试话筒”,或者“场下没有提出如此尖锐的问题”的前提下的状态。 大学生已经习惯了把事情做到 “理论上看上去很美”的程度了。 论文,ppt讲演,考试,辩论赛…… 这些校园智商大比拼,都是教我们如何完美的做好“纸上谈兵”的功夫。 你一定要相信自己能“搞定”事情的能力比想象的弱。

    如果你是在学校的学生,测试一下自己,能否能搞定以下这些状况:

    学校要制作一套校服,由你去寻找供应商,砍价,至少有三家公司的报价。
    学校保安抓住一个学生偷窃,怎么处理?
    学校的一个很重要路段的路灯坏了,你能否让它三天内继续亮起来。
    食堂需要请一位专门烧清真菜的厨师,一周内到岗位。
    

    当你开始思考以上这样的问题的时候,你会发现,你的思路和“看过去两年这个公司的业绩趋向,做出一个下个季度的市场策划方案”要相差极大。你会发现后者只要你做到“看上去很完美”,没有人知道按照你这样做结果会怎样。而上述的工作你只要一想,就会体会到不少的压力。因为你不处理好,结果就是明显的失败更大的问题就会相继发生。
    对了,这种感觉就是“工作”给你的感觉!这就是“工作”和“纸上谈兵”的差别!  

    第五:不要让别人等你

    在任何情况下都不要让别人放下手头的工作来等你。在大学中可能只是同寝室的人的几句半开玩笑的抱怨,在工作上很可能导致你的潜在合作伙伴的丢失。

    你在做一个工作的同时要知道别人的进度,而永远不要落后。这不像是在考试,你比别人做的慢,别人可以先交卷,你到时间了做不完你自己承受扣分。在工作中的情况是这样的:这是一场没有人能做完的考试,所有的人,都分配做一张试卷的不同部分,有的人分到的是阅读理解,有的人做的是完形填空,有的人做的是语法…… 然后大家做完了相互抄,这样,所有人都做完了。 如果大家都把各自的部分做完了,而你却还在没有做完,那么做得快的别人会开始做你的那部分题目,然后也是相互抄。慢慢地,大家会发现你的工作量完全可以由另外人来代替,整个团队中可以不需要你,这个时候,没有人从你这里得到试卷的答案,也没有人会给你他们的答案——–很不幸,你已经没有利用价值了。

    请一定记住这个例子。  

    第六:不要认为细节不重要

    在大学里,往往做事粗枝大叶,看看差不多就行了。相反,在企业里管理的精髓就在于将简单的事情做到细节。一个慌忙寻找保险箱钥匙的动作就很有可能丧失你晋升财务主管的机会。

    公司的管理,其实需要的并不是把很难的事情做到90%—-比如,优化管理层的核心工作流程、改变公司在当地政府面前的形象,提高产品质量,改善工作环境…… 而管理要做的是把每个简单的事情做到100%—–比如,把公司的每个人的档案都按照一定的规律整齐的存放起来、在门卫设立一个外来人员的签到台、把会议室多余的椅子拿走、和电视台讲好下个礼拜三来公司做采访、把试用装送到客户手里、在生产的咖啡上加一个口子、给下一期的封面人物拍照……等等如此。 如果你能把所有细节的问题都如实做到,那你才有开口升职的本钱。
    很多人在毕业的时候不知道自己将来要做什么,于是就和自己说:我以后做管理吧!做管理?问一下自己,如果,公司资产被偷窃了,所有员工士气低下,办公室杂乱无章,公司电梯又坏了,打印机没墨了,采购计划超支了,产品滞销了,客户迟到了……你愿意解决这样的问题,并从小事开始做起吗?想好了这些再考虑是否把管理看得太空洞了。

    第七:不要表现得消极,仅仅因为你所做的事情不是你的兴趣所在。

    很显然,在学生时代,当做到自己喜欢的时候,我们会pay200%的精力去创造,但如果是枯燥的事务,我们便懒得理睬,最好能有办法应付过去。但在工作上80%你所做的事情都是繁琐而看似机械的,如果仅仅为此而表现的闷闷不乐,那么你会郁闷更久。要知道你的上司已经为这个项目够烦恼了,你还想让他看到你的表情吗?

    学会喜欢自己的工作,并把注意力放在日常工作能学到些什么上去。如果现在你努力的抱怨工作,那么接下来你就是努力的寻找工作。尽量少用“有趣”,“好奇”之类的词语来描述自己想要的工作,而是“充实”,“有成就感”,“乐意”之类。
    想想以下职位,你会发现生活中很多工作不是在等你有很好的状态下让你做的很有趣的事情:

    高速公路收费口的收费员:一天都是面对一个小窗口,把一张卡片送出去,这样要持续好几年。
    学校食堂厨师:永远在烧大排和鸡腿。烧一年。
    作家:交稿期要到了,我还在孕育灵感,两个星期没吃早饭了。
    外科医生:刚刚睡着,马上叫我做一个3小时的手术。这样至少一周一次。
    门市部销售:产品不好卖,8点上班来就坐在店门口,一个人,坐到晚上6点,今天没有一个人来,和昨天一样。
    公交司机:我开车不用你指挥。这条线路我开了三年了。
    宠物商店店员:生意不好,还要一早就过来听着20条狗的叫声一整天,听一年。
    公司职员:晚上两点下班,第二天还要8点上班。关键是路上还要一小时。这样已经一个月了。
    

    再想想自己是不是只是接触了这个工作一个月或者才碰到没几个困难,这个时候抱怨的声音最大。
    千万不要想着去选择一个有趣的职业,因为没有那样的工作存在。没有哪一“种”行业是开心的,因为如果有,那所有人都去干那个了。最多试着问问自己本身的兴趣吧。self exploration。

    第八:绝对不要把改善工作能力仅寄托在公司培训上

    人绝对不可能经过一次培训就脱胎换骨。相反,集体培训上学到的东西往往是最用不上的信息。 就像食堂烧大锅菜一样,总没有你最想吃的菜,因为这样做容易,并且不容易得罪人。

    很多学生很看重所选的公司有没有培训,这说明,你不但不知道这个公司做什么,你甚至不知道怎样学习这些技能。
    我的感悟是如果你不知道怎么学你想要的知识,也不知道你想要的知识是什么,你只会做出两种行为:1。等待别人来教你,并且等待别人发现你不知道的地方。2.寻找现成的答案并且拷贝。期待公司培训的人,就很大概率上是第一种人(不排除极少真正优秀的公司培训)

    许多的同学有这样的习惯思维:
    因为,这个公司的培训能结束达到多少多少的程度
    又因为,这个程度正好是我想达到的
    所以我尽力进这家公司
    因为我进了这家公司
    所以它自然会使我达到了这个期望的程度。

    我们把参加培训和达到效果很幼稚的画上了等号。其实往往集体培训上所得到的信息是最没有实际操作价值的。永远不要期望单靠听课,靠老师把同样的东西给所有的人,你会得到比别人更多。把更多的心思放在观察和思考自己的需要上,找到问题的所在再通过观察和实践得到的答案才是真正的知识。

    所以,刚刚开始工作,什么都不会,不要认为那样是正常的,因为公司还没有培训过呢!等我接受培训了之后,我就全都会了。如果你一无所知还等待别人会可怜你的无知而施舍你知识,那你会为你的无知而付出更多的智商。

    第九:不要推卸责任

    推卸责任是害怕的条件反射。不要认为别人看不出这点。

    我记得我小学里的一件事情。我一次作业没有带来,老师要训斥我,说:你怎么老是作业不带?
    我当时说:不是。。。。 当我正要支支吾吾时候,老师说:什么不是?你带来了没有?
    我说:没有
    老师说:那不就是没有带!什么不是!就是!
    之后我就发现,我只是害怕承担责任而条件反射似的就说了“不是”,仔细观察一下周围,你会发现,身边有无数的人在用“不是”作为被责问之后的第一反应。
    其实现在很多人面对工作也是这样,当上级责问的时候,很条件反射的就做出了推卸动作,然而这样的动作,接下来往往是无力的辩解,以及一些很粗糙的借口。这样会让上司感到你这个人很难沟通,并且很不真实。
    外一种情况,就是无论什么情况下,我指责一个人,他永远是强调客观。其实这点才是学生最典型的特征。这说明他太容易受到其他事物的影响,并受它们决定。如果你和上司之间会出现以下类型的对话,想想是不是需要改一下你的处事方法。

    甲:为什么到现在还没有给副总看你的报告!
    乙:刚才c在打印,我在等他结束,现在他大概好了吧,我去看看
    乙:还有点东西要修改
    乙:b也要把东西给副总,我因为等他
    乙:a他说我报告不用给副总看(a是乙的同级同事)
    乙:不知道副总在不在哦,他的门关着。
    乙:d他叫我帮他打印文件!怪他!(d是乙的同级同事)
    乙:我的杯子突然找不到了,在找杯子。

    不愿意负责任的人的不利在于他会让上司怀疑他的忠诚程度,因为上司给他的命令往往会因为一个小事情而被搁置或者打折执行,转而被他人的意识所改变。

    第十:不要对自己说“我是大学生”

    这点包涵了很多信息。

    不要认为自己有多清高
    不要仍然以学生的标准要求自己
    不要感觉低人一等
    不要等待别人的关怀
    不要把这个作为犯错误自我安慰的借口
    不要忘记搞清楚,公司究竟给自己的待遇是多少,老练些,这不是在做志愿者。
    

    品格是处理好人际关系的基础,也是确保人际关系质量的关键。除此之外,人际交往的技巧也是尤为重要的。有些人做好事会让人感激一辈子,而有些人帮了别人却可能费力不讨好,不但得不到感激和回报,还让人心存嫉恨。将同样的产品以相同的价格推销给同一个客户,有些业务员可能被粗暴地赶出门,有些业务员却可能签到大单,甚至被客户奉为上宾。
    人际交往的技巧是一个非常庞杂的话题,囿于篇幅,在这里只能结合我的切身体会做一些
    简单的列举,挂一漏万在所难免了。

    多给别人鼓励和表扬,尽量避免批评、指责和抱怨,不要逼别人认错。
    要学会倾听。不要说得太多,想办法让别人多说。
    如果你要加入别人的交谈,先要弄清楚别人究竟在说什么。
    交谈之前尽量保持中立、客观。表明自己的倾向之前先要弄清楚对方真实的倾向。
    注意对方的社交习惯并适当加以模仿。
    不要轻易打断、纠正、补充别人的谈话。
    别人有困难时,主动帮助,多多鼓励。
    不要因为对方是亲朋好友而不注意礼节。
    尽可能谈论别人想要的,教他怎样去得到他想要的。
    始终以微笑待人。
    做一个有幽默感的人。但是在讲笑话的时候千万不要只顾着自己笑。
    做一个脱离低级趣味的人。
    跟别人说话的时候尽量看着对方的眼睛,不管你是在说还是在听。
    转移话题要尽量不着痕迹。
    要学会聆听对方的弦外之音。也要学会通过弦外之音来委婉地表达自己的意思。
    拜访别人一定要事先通知。
    不要在别人可能忙于工作或者休息的时候打电话过去。除非是非常紧急的事情。
    给别人打电话的时候,先问对方是否方便通话。
    一件事情让两个人知道就不再是秘密。
    你在背后说任何人的坏话都迟早有一天传入这个人的耳朵。
    不要说尖酸刻薄的话。
    牢记他人的名字。养成偶尔翻看名片簿、电话本的习惯。
    尝试着跟你讨厌的人交往。
    一定要尊重对方的隐私,不管是朋友还是夫妻。
    很多人在一起的时候,当你与其中某个人交谈,请不要无视其他人的存在。
    要勇于认错。
    以谦卑的姿态面对身边的每一个人。
    给予他人同情和谅解。
    尽可能用“建议”取代“命令”。
    不要轻易做出承诺。承诺的事情就一定要尽可能做到。
    

    微信公众号
    这里写图片描述

    展开全文
  • Python简单抓取原理引出分布式爬虫

    万次阅读 多人点赞 2014-03-16 20:40:56
    其实最理想的是能够通过机器学习,智能的实现反监控对抗,实现不间断地抓取。 下面是本人近期正在设计的一个分布式爬虫架构图,如图1所示: 图1 纯属拙作,初步思路正在实现,正在搭建服务器和客户端...

    转载请注明出处:http://blog.csdn.net/yiliumu/article/details/21335245

    首先,我们先来看看,如果是人正常的行为,是如何获取网页内容的。

    (1)打开浏览器,输入URL,打开源网页
    (2)选取我们想要的内容,包括标题,作者,摘要,正文等信息
    (3)存储到硬盘中

    上面的三个过程,映射到技术层面上,其实就是:网络请求,抓取结构化数据,数据存储。
    我们使用Python写一个简单的程序,实现上面的简单抓取功能。
    #!/usr/bin/python
    #-*- coding: utf-8 -*-
    '''
    Created on 2014-03-16
    
    @author: Kris
    '''
    import urllib2, re, cookielib
    
    def httpCrawler(url):
        '''
        @summary: 网页抓取
        '''
        content = httpRequest(url)
        title = parseHtml(content)
        saveData(title)
    
    def httpRequest(url):
        '''
        @summary: 网络请求
        '''  
        try:
            ret = None
            SockFile = None
            request = urllib2.Request(url)
            request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
            request.add_header('Pragma', 'no-cache')
            opener = urllib2.build_opener()
            SockFile = opener.open(request)
            ret = SockFile.read()
        finally:
            if SockFile:
                SockFile.close()
            
        return ret
    
    def parseHtml(html):
        '''
        @summary: 抓取结构化数据
        '''
        content = None
        pattern = '<title>([^<]*?)</title>'
        temp = re.findall(pattern, html)
        if temp:
            content = temp[0]
        
        return content
        
    def saveData(data):
        '''
        @summary: 数据存储
        '''
        f = open('test', 'wb')
        f.write(data)
        f.close()
        
    if __name__ == '__main__':
        url = 'http://www.baidu.com'
        httpCrawler(url)

    看着很简单,是的,它就是一个爬虫入门的基础程序。当然,在实现一个采集过程,无非就是上面的几个基础步骤。但是实现一个强大的采集过程,你会遇到下面的问题:

    (1)需要带着cookie信息访问,比如大多数的社交化软件,基本上都是需要用户登录之后,才能看到有价值的东西,其实很简单,我们可以使用Python提供的cookielib模块,实现每次访问都带着源网站给的cookie信息去访问,这样只要我们成功模拟了登录,爬虫处于登录状态,那么我们就可以采集到登录用户看到的一切信息了。下面是使用cookie对httpRequest()方法的修改:

    ckjar = cookielib.MozillaCookieJar()
    cookies = urllib2.HTTPCookieProcessor(ckjar)         #定义cookies对象
    def httpRequest(url):
        '''
        @summary: 网络请求
        '''  
        try:
            ret = None
            SockFile = None
            request = urllib2.Request(url)
            request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
            request.add_header('Pragma', 'no-cache')
            opener = urllib2.build_opener(cookies)       #传递cookies对象
            SockFile = opener.open(request)
            ret = SockFile.read()
        finally:
            if SockFile:
                SockFile.close()
            
        return ret

    (2)编码问题。网站目前最多的两种编码:utf-8,或者gbk,当我们采集回来源网站编码和我们数据库存储的编码不一致时,比如,163.com的编码使用的是gbk,而我们需要存储的是utf-8编码的数据,那么我们可以使用Python中提供的encode()和decode()方法进行转换,比如:
    content = content.decode('gbk', 'ignore')      #将gbk编码转为unicode编码
    content = content.encode('utf-8', 'ignore')    #将unicode编码转为utf-8编码
    中间出现了unicode编码,我们需要转为中间编码unicode,才能向gbk或者utf-8转换。

    (3)网页中标签不完整,比如有些源代码中出现了起始标签,但没有结束标签,HTML标签不完整,就会影响我们抓取结构化数据,我们可以通过Python的BeautifulSoup模块,先对源代码进行清洗,再分析获取内容。

    (4)某些网站使用JS来生存网页内容。当我们直接查看源代码的时候,发现是一堆让人头疼的JS代码。可以使用mozilla、webkit等可以解析浏览器的工具包解析js、ajax,虽然速度会稍微慢点。

    (5)图片是flash形式存在的。当图片中的内容是文字或者数字组成的字符,那这个就比较好办,我们只要利用ocr技术,就能实现自动识别了,但是如果是flash链接,我们将整个URL存储起来了。

    (6)一个网页出现多个网页结构的情况,这样我们如果只是一套抓取规则,那肯定不行,所以需要配置多套模拟进行协助配合抓取。

    (7)应对源网站的监控。抓取别人的东西,毕竟是不太好的事情,所以一般网站都会有针对爬虫禁止访问的限制。
    一个好的采集系统,应该是,不管我们的目标数据在何处,只要是用户能够看到的,我们都能采集回来。所见即所得的无阻拦式采集,无论是否需要登录的数据都能够顺利采集。大部分有价值的信息,一般都需要登录才能看到,比如社交网站,为了应对登录的网站要有模拟用户登录的爬虫系统,才能正常获取数据。不过社会化网站都希望自己形成一个闭环,不愿意把数据放到站外,这种系统也不会像新闻等内容那么开放的让人获取。这些社会化网站大部分会采取一些限制防止机器人爬虫系统爬取数据,一般一个账号爬取不了多久就会被检测出来被禁止访问了。那是不是我们就不能爬取这些网站的数据呢?肯定不是这样的,只要社会化网站不关闭网页访问,正常人能够访问的数据,我们也能访问。说到底就是模拟人的正常行为操作,专业一点叫“反监控”。

    源网站一般会有下面几种限制:
    1、一定时间内单个IP访问次数,一个正常用户访问网站,除非是随意的点着玩,否则不会在一段持续时间内过快访问一个网站,持续时间也不会太长。这个问题好办,我们可以采用大量不规则代理IP形成一个代理池,随机从代理池中选择代理,模拟访问。代理IP有两种,透明代理和匿名代理。

    2、一定时间内单个账号访问次数,如果一个人一天24小时都在访问一个数据接口,而且速度非常快,那就有可能是机器人了。我们可以采用大量行为正常的账号,行为正常就是普通人怎么在社交网站上操作,并且单位时间内,访问URL数目尽量减少,可以在每次访问中间间隔一段时间,这个时间间隔可以是一个随机值,即每次访问完一个URL,随机随眠一段时间,再接着访问下一个URL。

    如果能把账号和IP的访问策略控制好了,基本就没什么问题了。当然对方网站也会有运维会调整策略,敌我双方的一场较量,爬虫必须要能感知到对方的反监控将会对我们有影响,通知管理员及时处理。其实最理想的是能够通过机器学习,智能的实现反监控对抗,实现不间断地抓取。

    下面是本人近期正在设计的一个分布式爬虫架构图,如图1所示:


    图1

    纯属拙作,初步思路正在实现,正在搭建服务器和客户端之间的通信,主要使用了Python的Socket模块实现服务器端和客户端的通信。如果有兴趣,可以单独和我联系,共同探讨完成更优的方案。


    展开全文
  • 从一个笑话故事引出的对质量管理的联想(转载)从一个笑话故事引出的对质量管理的联想http://www.quality-world.cn/guanli/2659.html从古至今一直在流传的“三个老汉想象皇帝”的笑话,为什么还有到...

    从一个笑话故事引出的对质量管理的联想(转载)

    从一个笑话故事引出的对质量管理的联想

    http://www.quality-world.cn/guanli/2659.html


    从古至今一直在流传的“三个老汉想象皇帝”的笑话,为什么还有到现在它还有存在的价值;因为它对现实太有讽刺意义了。要了解实际的意义,我们先回顾一下这个笑话。

    话说有三个老汉一天碰到一起了,于是就聊天;聊着聊着就聊到了皇帝身上。

    第一个是个拾粪的老汉说:“如果我当了皇帝,我就下令这条街东面的粪全部归我;谁去拾就有公差来抓”。

    第二个是个砍柴的老汉瞪了第一个老汉一眼说:“你就知道拾粪,皇帝拾粪干啥?如果我当了皇帝,我就打一把金斧头;天天用金斧头去砍柴”。

    第三个是个讨饭的老汉听完后哈哈大笑,眼泪都笑出来了;他说:“你们两个真有意思,都当了皇帝了;还用得着干活吗?要是我当了皇帝,我就天天坐在火炉边吃烤红薯”。

    这些老汉们就是想坏了脑子,也不知道皇帝是如何生活的。

    这个故事对我们从事质量管理和学习质量管理的人倒真能引起深思,我们身边不是经常有这样一些老汉吗?由于质量管理象雾霭的朦胧一样,因而质量管理的海洋既浩瀚又神秘;但同时质量管理又象空气,经常不经意的出现在每个人的身边;结果如同这三个老汉一样对质量管理并不真的知道却敢遐想的人还真不少。

    这种遐想如果是聊天还可以,可怕的是有些遐想质量管理的人却有机会发挥他的遐想;结果用对质量管理的这些遐想来代替实际的质量管理,从而引发了质量管理的危机。

    首先质量管理是什么,质量管理第一是人文科学;因为之所以叫质量管理,其主体对象应该是对“人”的行为才称之为质量管理。“人”是社会时代的体现,不同的时代会产生不同的意识和价值观;所以对“人”的质量管理具有很强的时代气息。

    其次质量管理是按质量目标设计并实施的行为,因而质量管理又与目标形成对应关系。

    第三是行为又与实施的环境紧密相连的,因而质量管理还与实现目标时的环境呈依赖关系。

    这样看来,质量管理应该是一个立体三维体系;更为重要的是“人”和“环境”是一个随时间变化的因素,因而质量管理实际是一个四维坐标的关系图。

    从质量管理的理论构成可知:质量管理是一个创造性的行为,因为它要有与时俱进的艺术行为;所以质量管理成果永远是一个过去式,质量管理的成果始终来源于创新。

    然而在我们的实际生活和工作中,却有一些仅学习了一些质量管理知识的人就敢用书本知识去指导别人的质量管理;把一个四维关系的质量管理理解成为是一个平面的二维关系(行为与结果对应)来进行质量管理应用,结果这种质量管理的曲解只能引发形式主义而无半点作用。

    另外还有一些人因各种原因造就了他的成功,于是为制造光芒而大势自造质量管理理论;同样他们也把自己成功的环境因素和成功时“人”的行为因素全部抛弃,断章取义的选取一些理想行为而以质量管理新理论进行销售推广应用;可惜了哪些梦想成功的人,用这套永远也不可能成功的理论还在那里自欺欺人。

    此外,由于我国是一个经济动荡很大的国家;因而,一些没有任何质量管理底蕴的人也会因种种原因而走上了管理的顶端(企业老板);这些连书本上的平面质量管理知识也没有的人,由于不能屈从下属的知识;结果同样也是用自己对质量管理的想当然来指挥实际的质量管理。

    有人说‘中国的管理不需要职业经理人’,因为一大批具有对质量管理不求甚解的人在质量管理位置上;有人说‘中国的质量管理太落后’,可又有谁知道中国质量管理落后的真正根源呢。

    闲聊时想象不出的遐想是笑话,可质量管理上用想当然来代替质量管理只能使生产力倒退;因为质量管理也是生产力呀。知之为知之,不知为不知;不要用想当然代替知识,更不能用想当然来制造质量管理科学。

    质量管理既是科学,还是艺术;质量管理靠想当然是不行的。成功的质量管理不能复制,质量管理的成功永远来自于创新;而创新是需要知识和艺术的结合。

    清醒吧!不要再亵渎质量管理了。


    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7178747/viewspace-161390/,如需转载,请注明出处,否则将追究法律责任。

    转载于:http://blog.itpub.net/7178747/viewspace-161390/

    展开全文
  • 这一过程暗含了这样的背景:即所有对象都已载入内存,可供程序任意导航,这显然是过于理想化的要求。相较而言,通过关系模型的关系运算直接查找到某一对象要高效的多得多。但如果我们这样做了,我们将不得不失去另外...

          很多优秀的ORM工具只解决了对象模型和关系模型在结构上的不匹配问题,但是在行为层面上,这两种模型也有着各自不同的运作方式,这种不匹配似乎更难以弥合。在一个典型的一对多关联中,如果多方是一个数量巨大的集合,那么几乎在任何情况下,我们都不能直接加载这个集合到内存中,进而也就不会有基于这个集合的任何遍历或过滤操作。这些操作本应是对象模型的一些基本行为模式,而在“巨大数据量”的现实面前变得幼稚而可笑。

          是对像模型错了么?如果我们不映射这个一对多关联又会怎样呢?从对象模型的角度看,关联双方的关联关系往往反映的是业务层面上事物间深刻的内在关系,这种关系本身就是业务逻辑的一部分,去除这种关联,会能让对象模型无法揭示真实的业务逻辑,变得和真实的业务模型渐行渐远,也就失去了建立对象模型的意义。
          因此,关联关系是一定要在模型中做出来的,但在目前这种尴尬的境地下,只有Domain Collection能从一定程度缓和这一矛盾,但也仅限于对集合的遍历操作。至于包含复杂规则的过滤操作,可能需要specification模式的帮助。这一点需要进一步的实践。

          最后接着大集合的这个例子再扩展开来讲,在对象模型中,“定位”某个对象往往是从某一已知对象(往往是聚合根)一步步“导航”得到的。这一过程暗含了这样的背景:即所有对象都已载入内存,可供程序任意导航,这显然是过于理想化的要求。相较而言,通过关系模型的关系运算直接查找到某一对象要高效的多得多。但如果我们这样做了,我们将不得不失去另外一些东西,那就是在对象模型中“导航”的过程既是业务逻辑的体现也是通过对象模型求解的过程。而现在你只能把这些揉碎掺杂到一条SQL中去了。你不能否认的是,在不考虑性能的前提下,通过导航找到一个对象要比一条SQL来得自然的多。这也是我认为OR关系中最难以调和的矛盾。

    展开全文
  • 未来规划之思考 我已经很久没有考虑过未来的规划了,之所以没有规划,是因为我觉得现实是复杂的,我...科研中,做的所有事情都要总结为解决某个科学问题,现实中,做的所有事情都要总结为实现某个理想抱负。 问...
  •  这时标准制定者——他一定是个理想主义者——也不满意,因为用户其实还是在以 HTML 的方式来写 XHTML 的,根本没准备好向 XHTML 进行转变的决心,标准制定者一心领着大家往 Web 美好的未来远航,却发现无论是用户...
  • 开了SELinux和防火墙,没想到引出了vsftp的问题。FTP登录报错:500 OOPS: cannot change directory。下面来看看产生这个问题的原因和对策。 首先,分析一下冲突原因: 1. 为锁定用户在自己的home目录中,在...
  • 由单例模式的优化,引出的java线程数据同步和类加载顺序知识点总结 摘要 几种单例模式的优缺点及其改进优化 DCL失效问题的原因以及解决 java中线程同步关键字final和volatile java内存屏障 java类...
  • 升余弦滚降传输特性

    千次阅读 多人点赞 2020-05-05 11:25:45
    一、“滚降” 系统的引出 理想低通传输系统能够实现无码间干扰传输,而且能够达到最高的频带利用率2Baud/Hz。 然而实际中理想低通滤波器是物理不可实现的,实际中很难设计出边沿如此陡峭的滤波器。而且冲激响应...
  • 如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义);如果结果为负值, 就说明两者是负相关;如果为0,则两者之间没有关系,就是统计上说的“相互独立”。 2、什么是协方差矩阵? SIGMA ...
  • 而乌龟的理论是建立在理想的空间是无限可分的基础上,但事实上因为距离(空间)是有最小值的,当阿喀琉斯与乌龟的距离达到了这个最小值,而这个最小值不可能再分了,那么阿喀琉斯自然就追上了乌龟。  实际上在这个...
  • 收缩类半群、耗散类算子和非理想性超越完备方程,李宗诚,,本文对超越完备微分方程引入收缩类半群 ,并将收缩类半群的无穷小生成元A看作耗散类算子。实际上,在本章之后建立的新物理所引出
  • 今日看点绿城濮园 | 中国居业理想水镇全球发布会圆满落幕。6月20日,在中国桐乡濮院古镇,一场主题为“绿城·濮园成功者的后院”中国居业理想水镇全球发布会举办。本次发布会举办地点选择了正在...
  • 大四的时候,老徐在寝室里面没日没夜地看一部动画片。那段时间,我没事的时候也跟着...理想、希望、勇气、团结贯穿整体;整个故事中具有比较完整的世界观,让观众在理解之后就会迫切地想置身于这个虚构的世界中,同路飞
  • ElasticSearch中文分词,看这一篇就够了

    万次阅读 多人点赞 2020-06-03 16:09:11
    本文我们围绕Elasticsearch的分词器,从内置分词器的局限性出发,引出了中文分词器,然后详细介绍了ik分词器的编译,安装配置和使用。
  • 在这一期,我们将从回归开始,引出一个机器学习中最重要的任务——分类。 还记得我们上一节的课后题吗?其实答案很简单,任意一条线都可以把任意的数据点分为不同的类,也就是有无数个直线方程存在,这种解并没有...
  • 1. 从观察出发——回归问题在统计学中,我们认为一个变量是服从某种理想分布的,称为理想变量。而为了获得理想变量的值,我们需要去观察这个世界,并得到观察数据,称为观察变量。观察变量与理想变量之间的函数关系...
  • Java进阶——Java中的Atomic原子特性

    千次阅读 2018-06-23 18:00:49
    这篇文章从基本概念和例子中入手,首先,从volatile关键字引出原子性的概念和Atomic包,然后,简单的介绍Atomic,介绍Atomic在使用中的用到的CAS技术和会遇到的ABA问题,最后,介绍Atomic的成员和例子 基本概念 ...
  • 漫谈TCP BBR正当时

    千次阅读 2021-03-06 06:52:46
    上周随意发的一篇朋友圈,引出本文: 但凡有信道仲裁的地方就不能用self–clock,这就跟我之前说的很多vpn是半双工处理一样,这是wifi,xG的根本问题,用pacing代替burst,这是创举 自时钟和channel仲裁的冲突,...
  • Java设计模式之代理

    千次阅读 2014-03-11 12:08:01
    摘要:本篇笔记是对Java中很难理解的设计模式——代理模式的学习记录、包括由问题引出代理模式的出现、包括静态代理、和核心的动态代理。至于为什么从最难理解的开始、则是想给自己传达个信念:万事开头难!那就从最...
  • 学习SVM(一) SVM模型训练与分类的OpenCV...学习SVM(五)理解线性SVM的松弛因子先说一个事引出这个博客的内容,我最近投的一篇论文被拒稿,用到的方法使SVM(很惭愧,还在用20年前的算法,当然这并不是重点),审稿
  • 机器学习 Support Vector Machines 1

    千次阅读 2015-06-05 14:08:29
    为了介绍支持向量机,我们先讨论“边界”的概念,接下来,我们将讨论优化的边界分类器,并将引出拉格朗日数乘法。我们还会给出 kernel function 的概念,利用 kernel function,可以有效地处理高维(甚至无限
  • 《逆袭大学》半拉子自序

    千次阅读 2013-07-06 21:57:02
     一个思路,将自己从教经历写一写,以此引出下面的文字。 --------------------------------------------- 今年是我从教的第20个年头。在五年以前,绝对没有想到这一辈子还会写出这样一本书来。在一年之前,将...
  • 这一小节谈谈运放的电源抑制比。在理想运放中,运放的特性不会随电源电压的变化而变化。当然,分析理想运放时,我们使用的电源,也会被假设成理想电源。...这就引出运放的一个重要参数,运放的电源抑制比PSRR。
  • 前言——《逆袭大学》连载

    千次阅读 2019-01-10 11:52:05
    由于心怀着教育的理想,在专业的教学科研之外,免不了多想了些事情,多看了一些书。到课堂上时,说些题外话,给学生做些引导,有时在校园中撞见了学生,也常说点人家爱听或不爱听的话。不少学生知道了这个姓贺的老师...
  • 理想假设:密采样。但与现实不符。 K近邻学习kNN: 一种常用的监督学习方法 特点:没有显式的训练过程,属于懒惰学习。(注:在训练阶段就对样本进行学习处理的方法是急切学习。) 现实情况:高维情形下出现的...
  • 1. ASoC的由来 ASoC--ALSA System on Chip ,是建立在标准ALSA驱动层上,为了更好地支持嵌入式处理器和... Codec驱动与SoC CPU的底层耦合过于紧密,这种不理想会导致代码的重复,例如,仅是wm8731的驱动,当时Lin
  • 这里,我们讨论特征选择和特征提取,前者选取重要的特征子集,后者由原始输入形成较少的新特征,理想情况下,无论是分类还是回归,我们不应该将特征选择或特征提取作为一个单独的进程,分类或者回归方法应该能够利用...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,193
精华内容 4,477
关键字:

引出理想