精华内容
下载资源
问答
  • 利用微信搜索抓取公众号文章

    千次阅读 2017-03-01 10:05:36
    本章节先将怎么利用搜狗微信搜索抓取公众号的文章 请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址 自动收集我关注的微信公众号文章   我的微信里关注了数十个

    我喜欢看微信公众号里的技术文章,但是总是有一些鸡汤文阻碍我的实现,我是怎么让机器帮我自动摆脱鸡汤文的呢?接下来的几个章节讲述我的解决方案,让你感兴趣的文章扑面而来,无关的鸡汤文随风而去。本章节先将怎么利用搜狗微信搜索抓取公众号的文章

    请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址

    自动收集我关注的微信公众号文章

     

    我的微信里关注了数十个有关大数据的公众号,每天都会出现那个小红点让我点进去看,但是点多了就会觉得烦了,所以我要做的第一步就是自动把公众号里的新文章都收集到一块,怎么做呢?scrapy!

    对!scrapy抓取!但是scrapy顺着超链接抓取web网页容易,抓取微信app里的内容就有难度了,暂时还是做不到模拟一个收集app软件。庆幸的是,腾讯和搜狗搜索结婚啦!生出了一个小宝宝:搜狗微信搜索。下面我们就借助搜狗微信搜索来实现我的目的

    举个例子,我关注了一个公众号叫:大数据文摘。打开http://weixin.sogou.com/,输入“大数据文摘”,点“搜公众号”,搜索结果如下:

    点击这个搜索结果,跳到了新页面

    这里面显示的都是最新发布的文章

    好!我们就沿着这条路线来追踪公众号的新文章

    下面我们来分析一下url

    第一个搜索结果页的url是:http://weixin.sogou.com/weixin?type=1&query=%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%96%87%E6%91%98&ie=utf8&_sug_=n&_sug_type_=,我们去掉query以外的参数得到:http://weixin.sogou.com/weixin?query=%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%96%87%E6%91%98,打开之后结果是一样的,ok,这个就作为我们抓取的种子入口,如果搜索其他公众号就把query参数换掉

    下面分析搜索结果里怎么提取第二章页面,也就是公众号profile页的链接,我们看下搜索结果页的部分html如下:

    <div target="_blank" href="http://mp.weixin.qq.com/profile?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQzs47zSEiORN3BOWPNA2R*A==" class="wx-rb bg-blue wx-rb_v1 _item" uigs_exp_id="" onclick="gotourl('http://mp.weixin.qq.com/profile?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQzs47zSEiORN3BOWPNA2R*A==',event,this);return true;" id="sogou_vr_11002301_box_0" uigs="sogou_vr_11002301_box_0">
    <div class="img-box">
    <span class="ico-bg"></span><span class="ico-r"></span><img style="visibility: visible; height: 57px; margin-left: 0px;" src="http://img01.sogoucdn.com/app/a/100520090/oIWsFt58NVJTkYWvPtICKgg8ka60" onload="vrImgLoad(this, 'fit', 57, 57)" onerror="vrImgErr(this, '/wechat/images/account/def56-56.png')" extra="err:'http://img01.sogoucdn.com/net/a/04/link?appid=100520078&amp;url=http://wx.qlogo.cn/mmhead/Q3auHgzwzM46WJlQ8GYRWPhThl25rSKJEYBm408fnEkYS9DUkiaSxGg/0/0'"></div>
    <div class="txt-box">
    <h3><em><!--red_beg-->大数据文摘<!--red_end--></em></h3>
    <h4>
    <span>微信号:<label name="em_weixinhao">BigDataDigest</label></span>
    </h4>
    <p class="s-p3">
    <span class="sp-tit">功能介绍:</span><span class="sp-txt">普及<em><!--red_beg-->数据<!--red_end--></em>思维,传播<em><!--red_beg-->数据<!--red_end--></em>文化</span>
    </p>
    <p class="s-p3">
    <span class="sp-tit"><script>authnamewrite('2')</script>微信认证:</span><span class="sp-txt">深圳大数据文摘科技有限公司</span>
    </p>
    <p class="s-p3">
    <span class="sp-tit">最近文章:</span><span class="sp-txt"><a class="blue" target="_blank" id="sogou_vr_11002301_link_first_0" href="http://mp.weixin.qq.com/s?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=fZ5HsUYiytbTgb8SekmcI3g9oizZncGBgdipWihPFh2pPnAwAwO62nX9iXNILZx0XtQB3R*3PWcgqPh1YWL*LX3qxIOf0ZpkKyhZSUkAgPmH*w71dqIB2*wfNTpVDZx5G3nh31tctf*lNqXlfXzgfPO6E60vqoqB694bPMymy*I=" title="二项式与小苹果——看牛顿如何将灵感火花拓展成知识体系">二项式与小苹果——看牛顿如何将灵感火花拓展成知识体系</a><span class="hui"><script>vrTimeHandle552write('1463440604')</script>46分钟前</span></span>
    </p>
    ……

    看这里关键的href一行:

    <div target="_blank" href="http://mp.weixin.qq.com/profile?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQzs47zSEiORN3BOWPNA2R*A==" class="wx-rb bg-blue wx-rb_v1 _item" uigs_exp_id="" onclick="gotourl('http://mp.weixin.qq.com/profile?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQzs47zSEiORN3BOWPNA2R*A==',event,this);return true;" id="sogou_vr_11002301_box_0" uigs="sogou_vr_11002301_box_0">

    这就是我们要提取的profile页链接,提取方式可以直接通配成:“url里带http://mp.weixin.qq.com/profile?src=的href属性”

     

    ps:找xpath的方便方法是利用浏览器的开发者工具,比如chrome界面如下:

    在Elements的标签处点右键选择:Copy->Copy XPath,就自动把xpath路径拷贝到剪切板了

     

    注意:在这里我突然想到一个问题,每个公众号对应的profile页面是不是永远不变的呢?经过我的实验,这条url里的timestamp参数和signature是有对应关系的,任意一个错了都无法打开,而且每次搜索生成的链接都是不同的,所以我断定在微信搜索内容是动态生成链接的,那么这个动态链接的生命周期就不可预测了,所以为了保险起见,我们每次都从搜索入口追溯,才是万全之策

    下面我们分析profile页里的文章链接,我们看profile页的部分 html如下:

    <h4 class="weui_media_title" hrefs="/s?timestamp=1463443165&amp;src=3&amp;ver=1&amp;signature=dZCo9et5C6nyZfVAQAl416OW-eXJbi0VaS0QPQdvEv1tawqgsjlVYUd0oav0tUHAf38HOGU3Lskd7qqXbFg9D2mP8cv36CZ1dW0bGxbP4YyJcRdy*M*Mow6xD5YWDK8-82r9MX*4WqgbGqo4FAhZeiGTEl27YhIbaIxPiQgMbxc=">代理银行业务:通过监管列表对代理银行客户进行风险评级</h4>
    <p class="weui_media_desc">为了确保银行积极的通过代理银行关系来连接美国金融市场,需要考虑如何根据现有电汇和监管列表信息,来提升可疑行为模型的成熟度。</p>
    <p class="weui_media_extra_info">2016年5月17日</p>

    这里面可以找到文章的内容了链接、标题、摘要、发布时间,简直太完美了

    链接的提取方式可以直接通配成:h4.weui_media_title hrefs

    标题的提取方式可以直接通配成:h4.weui_media_title text

    摘要的提取方式可以直接通配成:p.weui_media_desc

    发布时间的提取方式可以直接通配成:p.weui_media_extra_info

     

    开发我的scrapy爬虫

     

    如果还没有安装scrapy,请见《教你成为全栈工程师(Full Stack Developer) 三十-十分钟掌握最强大的python爬虫

    创建一个scrapy工程

    scrapy startproject weixin

    在weixin/spiders/中创建dashujuwenzhai.py内容如下:

    #!/usr/bin/python
    # -*- coding: utf-8 -*-
    import scrapy
    
    class ShareditorSpider(scrapy.Spider):
        name = "dashujuwenzhai"
        allowed_domains = ["qq.com"]
        start_urls = [
            "http://weixin.sogou.com/weixin?query=大数据文摘"
        ]
    
        def parse(self, response):
            print response.body
            href = response.selector.xpath('//div[@id="sogou_vr_11002301_box_0"]/@href').extract()[0]
            yield scrapy.Request(href, callback=self.parse_profile)
    
        def parse_profile(self, response):
            print response.body
    

     

    执行

    scrapy crawl dashujuwenzhai

    即可以抓到大数据文摘的profile页面内容

    请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址

    接下来来研究profile页,抓回的页面不是普通的html页面,而是通过js渲染出来的,也就是我们看到的每一条文章的标题、摘要等都是通过js计算出来的,代码里有这么一句:

    var msgList = '{&quot;list&quot;:[{&quot;comm_msg_info&quot;:{&quot;id&quot;:410106318,&quot;type&quot;:49,&quot;datetime&quot;:1463528503,&quot;fakeid&quot;:&quot;2391437564&quot;,&quot;status&quot;:2,&quot;content&quot;:&quot;&quot;},&quot;app_msg_ext_info&quot;:{&quot;title&quot;:&quot;机器人前传:达芬奇的机器狮和日耳曼装甲骑士&quot;,&quot;digest&quot;:&quot;这是一篇描述阿尔法狗和Atlas机器人祖先的文章。远在500多年前的达芬奇时代,已经有了不少关于机器人的探索。这个大天才写了大量关于自动机描述,在他的个人笔记中也充斥着各种机械发明的构思,比如弹簧驱动的汽车和机器狮子。&quot;,&quot;content&quot;:&quot;&quot;,&quot;fileid&quot;:504157567,&quot;content_url&quot;:&quot;\\/s?timestamp=1463529354&amp;amp;src=3&amp;amp;ver=1&amp;amp;signature=cG*R8qc-PGKV-aZ4q9IlJQfIHtGp5I3H63xlK-h5mBO0W2FRAzCddav9cPf*GuwUBI4x0zJzmtcoOU7sQQeMf3CfNzaTEIq4C8YwnsZQGnqnauqr2wQYvEFvAooyecPF3H6bg8OiqpSZsd5LnY*fVrZOMINmQwV8Qup*D9qvUkw=&quot;,&quot;source_url&quot;:&quot;https:\\/\\/mp.weixin.qq.com\\/s?__biz=MzA4OTYwNzk0NA==&amp;amp;mid=401744027&amp;amp;idx=1&amp;amp;sn=43699667dca4438a49db51fb3700af4f&amp;amp;scene=1&amp;amp;srcid=0517MRoAk1EzgC5iSMtvoYC5&amp;amp;pass_ticket=06ybKvJknob%2F5%2B%2FAmkUtnjcyCqWcuNxZTJapLW5QZyk7PWh1jD7ubwb5H1zXzMWB#rd&quot;,&quot;cover&quot;:&quot;http:\\/\\/mmbiz.qpic.cn\\/mmbiz\\/wc7YNPm3YxXiajPXq2Y2PWQsic1SmjCxnTicHKtwItmARwkha1RI1gH1WwTfRvEUzauWJibjuJC9oJ8eibeVlDjRkwg\\/0?wx_fmt=jpeg&quot;,&quot;subtype&quot;:0,&quot;is_multi&quot;:1,&quot;multi_app_msg_item_list&quot;:[{&quot;title&quot;:&quot;清华论坛实录|刘瑞宝:洞见数据内涵,提升公共安全研判能力&quot;,&quot;digest&quot;:&quot;本文为刘瑞宝先生于2016年3月24日在RONG—大数据与公共安全专场上所做的题为《洞见数据内涵,提升公共安全研判能力》的演讲实录。&quot;,&quot;content&quot;:&quot;&quot;,&quot;fileid&quot;:504157565,&quot;content_url&quot;:&quot;\\/s?timestamp=1463529354&amp;amp;src=3&amp;amp;ver=1&amp;amp;signature=cG*R8qc-PGKV-aZ4q9IlJQfIHtGp5I3H63xlK-h5mBO0W2FRAzCddav9cPf*GuwUBI4x0zJzmtcoOU7sQQeMf3CfNzaTEIq4C8YwnsZQGnrmdiX-aBZzJtqDGa76CoHH8gL7PEfN3ZQN5lNa4YgJUeUyE*SIna3B7W*zKWYskkU=&quot;,&quot;source_url&quot;:&quot;https:\\/\\/mp.weixin.qq.com\\/s?__biz=MzAxMzA2MDYxMw==&amp;amp;mid=2651555964&amp;amp;idx=2&amp;amp;sn=479aaf7f3b687b973ffa303d3d3be6b9&amp;amp;scene=1&amp;amp;srcid=0517C5DgLArlrdVAlQ9GIHOl&amp;amp;pass_ticket=06ybKvJknob%2F5%2B
    ……

    当然还没有截取全,这就是文章的全部内容,写到了一个js变量里,这样就无法通过scrapy原生的response.xpath拿到,这怎么办呢?

    我们来利用phantomjs来渲染,这是一个强大的工具,它是无界面的浏览器,所以渲染js速度非常快,但是也有一些缺陷,有一些浏览器渲染功能不支持,所以如果再深入可以借助selenium工具,这又是一个强大的工具,它原本是用来做web应用程序自动化测试用的,也就是可以模拟各种点击浏览等动作,那么用他来做爬虫几乎就是一个真人,本节先来研究phantomjs,有关selenium的内容后面有需求了再研究

     

    安装phantomjs

    wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
    tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2
    cd phantomjs-2.1.1-linux-x86_64/
    ./bin/phantomjs examples/netlog.js http://www.shareditor.com/

    以上输出了网路通信日志,说明没有问题

     

    为了方便,可以把./bin/phantomjs拷贝到~/bin下

     

    写一个phantomjs渲染脚本

    var page = require('webpage').create();
    var system = require('system');
    page.open(system.args[1], function(status) {
        var sc = page.evaluate(function() {
            return document.body.innerHTML;
        });
        window.setTimeout(function() {
            console.log(sc);
            phantom.exit();
        }, 100);
    });

    创建phantomjs渲染脚本getBody.js内容如下:

     

    执行

    phantomjs getBody.js 'http://mp.weixin.qq.com/profile?src=3&timestamp=1463529344&ver=1&signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQ7TpyhXFL52e8W929D4nd2g==' > profile.html

    这里的链接可能已经失效,请换成在搜狗微信搜索搜到某个公众号profile页面里的某一篇文章的url

    打开profile.html会发现内容已经被渲染完成了,每篇文章的地方变成了:

                        <div id="WXAPPMSG410106318" class="weui_media_box appmsg" msgid="410106318">
                            <span class="weui_media_hd" style="background-image:url(http://mmbiz.qpic.cn/mmbiz/wc7YNPm3YxXiajPXq2Y2PWQsic1SmjCxnTicHKtwItmARwkha1RI1gH1WwTfRvEUzauWJibjuJC9oJ8eibeVlDjRkwg/0?wx_fmt=jpeg)" data-s="640" data-t="1463528503000" hrefs="/s?timestamp
                            <div class="weui_media_bd">
                                <h4 class="weui_media_title" hrefs="/s?timestamp=1463531541&amp;src=3&amp;ver=1&amp;signature=n187YKNZjqgxyUtJ*yFEQGG7wJOH79RQeRrjQ0RGRdKEiZmR6iM0oNE5P0DPbQEwWTnShlZ4C3JIZr9PYThxbnhuCPl2UTc5NGE0ZkARKXEhTqCe7QvAGFf8vy2QWnPKqA9iSBBgBrocHKLBAuTM
    
                                机器人前传:达芬奇的机器狮和日耳曼装甲骑士
                                </h4>
                                <p class="weui_media_desc">这是一篇描述阿尔法狗和Atlas机器人祖先的文章。远在500多年前的达芬奇时代,已经有了不少关于机器人的探索。这个大天才写了大量关于自动机描述,在他的个人笔记中也充斥着各种机械发明的构思,比如弹簧驱动的汽车和机器狮子。</p>
                                <p class="weui_media_extra_info">2016年5月18日</p>
                            </div>
                        </div>

      ​

    这便可以通过scrapy的request.xpath提取了

     

    重新完善我们的scrapy爬虫脚本

     

    #!/usr/bin/python
    # -*- coding: utf-8 -*-
    import scrapy
    import subprocess
    from scrapy.http import HtmlResponse
    from scrapy.selector import Selector
    
    class ShareditorSpider(scrapy.Spider):
        name = "dashujuwenzhai"
        allowed_domains = ["qq.com"]
        start_urls = [
            "http://weixin.sogou.com/weixin?query=算法与数学之美"
        ]
    
        def parse(self, response):
            href = response.selector.xpath('//div[@id="sogou_vr_11002301_box_0"]/@href').extract()[0]
            cmd="~/bin/phantomjs ./getBody.js '%s'" % href
            stdout, stderr = subprocess.Popen(cmd, shell=True, stdout = subprocess.PIPE, stderr = subprocess.PIPE).communicate()
            response = HtmlResponse(url=href, body=stdout)
    
            for selector in Selector(response=response).xpath('//*[@id="history"]/div/div/div/div'):
                hrefs= selector.xpath('h4/@hrefs').extract()[0].strip()
                title = selector.xpath('h4/text()').extract()[0].strip()
                abstract = selector.xpath('//*[contains(@class, "weui_media_desc")]/text()').extract()[0].strip()
                pubtime = selector.xpath('//*[contains(@class, "weui_media_extra_info")]/text()').extract()[0].strip()
                print hrefs
                print title
                print abstract
                print pubtime
    
        def parse_profile(self, response):
            print response.body
    

    这是一段我用了数天精力创造成功的一段代码,耗费了我很多体力值,所以重点讲解一下

    href = response.selector.xpath('//div[@id="sogou_vr_11002301_box_0"]/@href').extract()[0]

    从公众号搜索结果页里提取profile页面的链接,这个id我怀疑不久后将失效,所以如果想做完美,还得不断完善,有关xpath的使用技巧可以参考http://ejohn.org/blog/xpath-css-selectors/

    cmd="~/bin/phantomjs ./getBody.js '%s'" % href
    stdout, stderr = subprocess.Popen(cmd, shell=True, stdout = subprocess.PIPE, stderr = subprocess.PIPE).communicate()

    加载phantomjs脚本getBody.js来渲染profile页面,把里面的js渲染成html

    response = HtmlResponse(url=href, body=stdout)

    用渲染后的html页面来创建一个HtmlResponse,用于 后面继续xpath提信息

    Selector(response=response).xpath('//*[@id="history"]/div/div/div/div')

    找到每一条文章模块所在的div

     

                hrefs= selector.xpath('//h4/@hrefs').extract()[0].strip()
                title = selector.xpath('h4/text()').extract()[0].strip()
                abstract = selector.xpath('//*[contains(@class, "weui_media_desc")]/text()').extract()[0].strip()
                pubtime = selector.xpath('//*[contains(@class, "weui_media_extra_info")]/text()').extract()[0].strip()

    根据这个div结构提取各个字段

     

    基于这个爬虫脚本,想造就怎样的神奇,就看你之后的想象力了,没有做不到,只有想不到!

    展开全文
  • 一直以来,公众号打开率持续走低几乎成了一个行业共识。但事实上,过去一年微信公众平台的整体流量是上升的。“上升幅度在内部看来还不小。”微信公众平台相关负责人表示。但为什么平摊至每一个个体公众号上,涨粉...

    一直以来,公众号打开率持续走低几乎成了一个行业共识。但事实上,过去一年微信公众平台的整体流量是上升的。

    “上升幅度在内部看来还不小。”微信公众平台相关负责人表示。

    但为什么平摊至每一个个体公众号上,涨粉速度反而变慢了?一个平台层面的原因是,微信是去中心化的,粉丝增长全部来源于社交分享,而不是推荐。

    2e1f23df9fdc7b01df00530caabdf26a.png

    这其中涉及到两个问题:其一,当好友数量增多,社交关系链变得复杂,分享到朋友圈压力变大,导致社交分享动力不足。其二,推荐机制缺失,粉丝增长来源单一。

    推荐、智能排序、付费文章、视频入口、搜索组件、留言互动,微信公众号生态正在用一系列新的能力,平衡原有的平台机制。

    一个系统本真的缺陷,需要另一个系统来抑制。新旧系统之间的碰撞和融合,服务于一个共同的平台目标:让用户看到更多更好看的内容。

    3863709a0e0f992b8c8ed85b05833f43.png

    拓宽内容池,是微信公众平台未来一年最重要的任务,再通过算法,让更多人看到感兴趣的内容。微信相关负责人表示,“把蛋糕变得更大,才能让流量变得更多。”

    1d676a797fb2f8d2ff8970258088e744.png

    我是桔子,专注于公众号排名引流实操经验分享,流量渠道唯一,只专攻公众号排名被动引流截流。

    桔子的微信社群与知识星球同步

    第 2 期桔子公众号引流实战训练营开始预定,目前预定价格是 2499,(名额30位,目前已预定2位)直接进对应星球,正式发文第 2 期训练营时价格将为 2999,不会有任何优惠。

    也可以直接进训练营对应星球,365 一年,截止时间 2021 年 12 月 1 日。星球伙伴加入训练营补差价即可。

    桔子:1264182016 (请备注公众号)

    其他需求

    需要代注册公众号与代办理个体

    可以免费体验的找项目工具怎么领?

    我想学习怎么快速把公众号排名优化到第一名?

    如何确定我选的关键词排名第一后是否有效果?

    我想了解更深的公众号引流经验?

    我想加入社群和更多的优秀公众号项目操盘者一起交流学习分享实操经验?。。。等等

    这些问题与其他和公众号有关的问题,桔子都可以帮到你

    7683908f84839865741e5f34b86d1890.png

    c37838d72f2fa7f1a9ebf7734f86560e.png

    展开全文
  • 本章节先将怎么利用搜狗微信搜索抓取公众号的文章 请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址 自动收集我关注的微信公众号文章   我的微信里关注了数十个有关大数据的公众


    我喜欢看微信公众号里的技术文章,但是总是有一些鸡汤文阻碍我的实现,我是怎么让机器帮我自动摆脱鸡汤文的呢?接下来的几个章节讲述我的解决方案,让你感兴趣的文章扑面而来,无关的鸡汤文随风而去。本章节先将怎么利用搜狗微信搜索抓取公众号的文章

    请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址

    自动收集我关注的微信公众号文章

     

    我的微信里关注了数十个有关大数据的公众号,每天都会出现那个小红点让我点进去看,但是点多了就会觉得烦了,所以我要做的第一步就是自动把公众号里的新文章都收集到一块,怎么做呢?scrapy!

    对!scrapy抓取!但是scrapy顺着超链接抓取web网页容易,抓取微信app里的内容就有难度了,暂时还是做不到模拟一个收集app软件。庆幸的是,腾讯和搜狗搜索结婚啦!生出了一个小宝宝:搜狗微信搜索。下面我们就借助搜狗微信搜索来实现我的目的

    举个例子,我关注了一个公众号叫:大数据文摘。打开http://weixin.sogou.com/,输入“大数据文摘”,点“搜公众号”,搜索结果如下:

    点击这个搜索结果,跳到了新页面

    这里面显示的都是最新发布的文章

    好!我们就沿着这条路线来追踪公众号的新文章

    下面我们来分析一下url

    第一个搜索结果页的url是:http://weixin.sogou.com/weixin?type=1&query=%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%96%87%E6%91%98&ie=utf8&_sug_=n&_sug_type_=,我们去掉query以外的参数得到:http://weixin.sogou.com/weixin?query=%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%96%87%E6%91%98,打开之后结果是一样的,ok,这个就作为我们抓取的种子入口,如果搜索其他公众号就把query参数换掉

    下面分析搜索结果里怎么提取第二章页面,也就是公众号profile页的链接,我们看下搜索结果页的部分html如下:

    <div target="_blank" href="http://mp.weixin.qq.com/profile?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQzs47zSEiORN3BOWPNA2R*A==" class="wx-rb bg-blue wx-rb_v1 _item" uigs_exp_id="" onclick="gotourl('http://mp.weixin.qq.com/profile?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQzs47zSEiORN3BOWPNA2R*A==',event,this);return true;" id="sogou_vr_11002301_box_0" uigs="sogou_vr_11002301_box_0">
    <div class="img-box">
    <span class="ico-bg"></span><span class="ico-r"></span><img style="visibility: visible; height: 57px; margin-left: 0px;" src="http://img01.sogoucdn.com/app/a/100520090/oIWsFt58NVJTkYWvPtICKgg8ka60" onload="vrImgLoad(this, 'fit', 57, 57)" onerror="vrImgErr(this, '/wechat/images/account/def56-56.png')" extra="err:'http://img01.sogoucdn.com/net/a/04/link?appid=100520078&amp;url=http://wx.qlogo.cn/mmhead/Q3auHgzwzM46WJlQ8GYRWPhThl25rSKJEYBm408fnEkYS9DUkiaSxGg/0/0'"></div>
    <div class="txt-box">
    <h3><em><!--red_beg-->大数据文摘<!--red_end--></em></h3>
    <h4>
    <span>微信号:<label name="em_weixinhao">BigDataDigest</label></span>
    </h4>
    <p class="s-p3">
    <span class="sp-tit">功能介绍:</span><span class="sp-txt">普及<em><!--red_beg-->数据<!--red_end--></em>思维,传播<em><!--red_beg-->数据<!--red_end--></em>文化</span>
    </p>
    <p class="s-p3">
    <span class="sp-tit"><script>authnamewrite('2')</script>微信认证:</span><span class="sp-txt">深圳大数据文摘科技有限公司</span>
    </p>
    <p class="s-p3">
    <span class="sp-tit">最近文章:</span><span class="sp-txt"><a class="blue" target="_blank" id="sogou_vr_11002301_link_first_0" href="http://mp.weixin.qq.com/s?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=fZ5HsUYiytbTgb8SekmcI3g9oizZncGBgdipWihPFh2pPnAwAwO62nX9iXNILZx0XtQB3R*3PWcgqPh1YWL*LX3qxIOf0ZpkKyhZSUkAgPmH*w71dqIB2*wfNTpVDZx5G3nh31tctf*lNqXlfXzgfPO6E60vqoqB694bPMymy*I=" title="二项式与小苹果——看牛顿如何将灵感火花拓展成知识体系">二项式与小苹果——看牛顿如何将灵感火花拓展成知识体系</a><span class="hui"><script>vrTimeHandle552write('1463440604')</script>46分钟前</span></span>
    </p>
    ……

    看这里关键的href一行:

    <div target="_blank" href="http://mp.weixin.qq.com/profile?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQzs47zSEiORN3BOWPNA2R*A==" class="wx-rb bg-blue wx-rb_v1 _item" uigs_exp_id="" onclick="gotourl('http://mp.weixin.qq.com/profile?src=3&amp;timestamp=1463443372&amp;ver=1&amp;signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQzs47zSEiORN3BOWPNA2R*A==',event,this);return true;" id="sogou_vr_11002301_box_0" uigs="sogou_vr_11002301_box_0">

    这就是我们要提取的profile页链接,提取方式可以直接通配成:“url里带http://mp.weixin.qq.com/profile?src=的href属性”

     

    ps:找xpath的方便方法是利用浏览器的开发者工具,比如chrome界面如下:

    在Elements的标签处点右键选择:Copy->Copy XPath,就自动把xpath路径拷贝到剪切板了

     

    注意:在这里我突然想到一个问题,每个公众号对应的profile页面是不是永远不变的呢?经过我的实验,这条url里的timestamp参数和signature是有对应关系的,任意一个错了都无法打开,而且每次搜索生成的链接都是不同的,所以我断定在微信搜索内容是动态生成链接的,那么这个动态链接的生命周期就不可预测了,所以为了保险起见,我们每次都从搜索入口追溯,才是万全之策

    下面我们分析profile页里的文章链接,我们看profile页的部分 html如下:

    <h4 class="weui_media_title" hrefs="/s?timestamp=1463443165&amp;src=3&amp;ver=1&amp;signature=dZCo9et5C6nyZfVAQAl416OW-eXJbi0VaS0QPQdvEv1tawqgsjlVYUd0oav0tUHAf38HOGU3Lskd7qqXbFg9D2mP8cv36CZ1dW0bGxbP4YyJcRdy*M*Mow6xD5YWDK8-82r9MX*4WqgbGqo4FAhZeiGTEl27YhIbaIxPiQgMbxc=">代理银行业务:通过监管列表对代理银行客户进行风险评级</h4>
    <p class="weui_media_desc">为了确保银行积极的通过代理银行关系来连接美国金融市场,需要考虑如何根据现有电汇和监管列表信息,来提升可疑行为模型的成熟度。</p>
    <p class="weui_media_extra_info">2016年5月17日</p>

    这里面可以找到文章的内容了链接、标题、摘要、发布时间,简直太完美了

    链接的提取方式可以直接通配成:h4.weui_media_title hrefs

    标题的提取方式可以直接通配成:h4.weui_media_title text

    摘要的提取方式可以直接通配成:p.weui_media_desc

    发布时间的提取方式可以直接通配成:p.weui_media_extra_info

     

    开发我的scrapy爬虫

     

    如果还没有安装scrapy,请见《教你成为全栈工程师(Full Stack Developer) 三十-十分钟掌握最强大的python爬虫

    创建一个scrapy工程

    scrapy startproject weixin

    在weixin/spiders/中创建dashujuwenzhai.py内容如下:

    #!/usr/bin/python
    # -*- coding: utf-8 -*-
    import scrapy
    
    class ShareditorSpider(scrapy.Spider):
        name = "dashujuwenzhai"
        allowed_domains = ["qq.com"]
        start_urls = [
            "http://weixin.sogou.com/weixin?query=大数据文摘"
        ]
    
        def parse(self, response):
            print response.body
            href = response.selector.xpath('//div[@id="sogou_vr_11002301_box_0"]/@href').extract()[0]
            yield scrapy.Request(href, callback=self.parse_profile)
    
        def parse_profile(self, response):
            print response.body
    

     

    执行

    scrapy crawl dashujuwenzhai

    即可以抓到大数据文摘的profile页面内容

    请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址

    接下来来研究profile页,抓回的页面不是普通的html页面,而是通过js渲染出来的,也就是我们看到的每一条文章的标题、摘要等都是通过js计算出来的,代码里有这么一句:

    var msgList = '{&quot;list&quot;:[{&quot;comm_msg_info&quot;:{&quot;id&quot;:410106318,&quot;type&quot;:49,&quot;datetime&quot;:1463528503,&quot;fakeid&quot;:&quot;2391437564&quot;,&quot;status&quot;:2,&quot;content&quot;:&quot;&quot;},&quot;app_msg_ext_info&quot;:{&quot;title&quot;:&quot;机器人前传:达芬奇的机器狮和日耳曼装甲骑士&quot;,&quot;digest&quot;:&quot;这是一篇描述阿尔法狗和Atlas机器人祖先的文章。远在500多年前的达芬奇时代,已经有了不少关于机器人的探索。这个大天才写了大量关于自动机描述,在他的个人笔记中也充斥着各种机械发明的构思,比如弹簧驱动的汽车和机器狮子。&quot;,&quot;content&quot;:&quot;&quot;,&quot;fileid&quot;:504157567,&quot;content_url&quot;:&quot;\\/s?timestamp=1463529354&amp;amp;src=3&amp;amp;ver=1&amp;amp;signature=cG*R8qc-PGKV-aZ4q9IlJQfIHtGp5I3H63xlK-h5mBO0W2FRAzCddav9cPf*GuwUBI4x0zJzmtcoOU7sQQeMf3CfNzaTEIq4C8YwnsZQGnqnauqr2wQYvEFvAooyecPF3H6bg8OiqpSZsd5LnY*fVrZOMINmQwV8Qup*D9qvUkw=&quot;,&quot;source_url&quot;:&quot;https:\\/\\/mp.weixin.qq.com\\/s?__biz=MzA4OTYwNzk0NA==&amp;amp;mid=401744027&amp;amp;idx=1&amp;amp;sn=43699667dca4438a49db51fb3700af4f&amp;amp;scene=1&amp;amp;srcid=0517MRoAk1EzgC5iSMtvoYC5&amp;amp;pass_ticket=06ybKvJknob%2F5%2B%2FAmkUtnjcyCqWcuNxZTJapLW5QZyk7PWh1jD7ubwb5H1zXzMWB#rd&quot;,&quot;cover&quot;:&quot;http:\\/\\/mmbiz.qpic.cn\\/mmbiz\\/wc7YNPm3YxXiajPXq2Y2PWQsic1SmjCxnTicHKtwItmARwkha1RI1gH1WwTfRvEUzauWJibjuJC9oJ8eibeVlDjRkwg\\/0?wx_fmt=jpeg&quot;,&quot;subtype&quot;:0,&quot;is_multi&quot;:1,&quot;multi_app_msg_item_list&quot;:[{&quot;title&quot;:&quot;清华论坛实录|刘瑞宝:洞见数据内涵,提升公共安全研判能力&quot;,&quot;digest&quot;:&quot;本文为刘瑞宝先生于2016年3月24日在RONG—大数据与公共安全专场上所做的题为《洞见数据内涵,提升公共安全研判能力》的演讲实录。&quot;,&quot;content&quot;:&quot;&quot;,&quot;fileid&quot;:504157565,&quot;content_url&quot;:&quot;\\/s?timestamp=1463529354&amp;amp;src=3&amp;amp;ver=1&amp;amp;signature=cG*R8qc-PGKV-aZ4q9IlJQfIHtGp5I3H63xlK-h5mBO0W2FRAzCddav9cPf*GuwUBI4x0zJzmtcoOU7sQQeMf3CfNzaTEIq4C8YwnsZQGnrmdiX-aBZzJtqDGa76CoHH8gL7PEfN3ZQN5lNa4YgJUeUyE*SIna3B7W*zKWYskkU=&quot;,&quot;source_url&quot;:&quot;https:\\/\\/mp.weixin.qq.com\\/s?__biz=MzAxMzA2MDYxMw==&amp;amp;mid=2651555964&amp;amp;idx=2&amp;amp;sn=479aaf7f3b687b973ffa303d3d3be6b9&amp;amp;scene=1&amp;amp;srcid=0517C5DgLArlrdVAlQ9GIHOl&amp;amp;pass_ticket=06ybKvJknob%2F5%2B
    ……

    当然还没有截取全,这就是文章的全部内容,写到了一个js变量里,这样就无法通过scrapy原生的response.xpath拿到,这怎么办呢?

    我们来利用phantomjs来渲染,这是一个强大的工具,它是无界面的浏览器,所以渲染js速度非常快,但是也有一些缺陷,有一些浏览器渲染功能不支持,所以如果再深入可以借助selenium工具,这又是一个强大的工具,它原本是用来做web应用程序自动化测试用的,也就是可以模拟各种点击浏览等动作,那么用他来做爬虫几乎就是一个真人,本节先来研究phantomjs,有关selenium的内容后面有需求了再研究

     

    安装phantomjs

    wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
    tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2
    cd phantomjs-2.1.1-linux-x86_64/
    ./bin/phantomjs examples/netlog.js http://www.shareditor.com/

    以上输出了网路通信日志,说明没有问题

     

    为了方便,可以把./bin/phantomjs拷贝到~/bin下

     

    写一个phantomjs渲染脚本

    var page = require('webpage').create();
    var system = require('system');
    page.open(system.args[1], function(status) {
        var sc = page.evaluate(function() {
            return document.body.innerHTML;
        });
        window.setTimeout(function() {
            console.log(sc);
            phantom.exit();
        }, 100);
    });

    创建phantomjs渲染脚本getBody.js内容如下:

     

    执行

    phantomjs getBody.js 'http://mp.weixin.qq.com/profile?src=3&timestamp=1463529344&ver=1&signature=lNY-ZbjfPHr40G-zyUe*Sdc9HIn2IisEo0vwpKEAV*Z*ALBYuYf2HaMUtEP*15rQ7TpyhXFL52e8W929D4nd2g==' > profile.html

    这里的链接可能已经失效,请换成在搜狗微信搜索搜到某个公众号profile页面里的某一篇文章的url

    打开profile.html会发现内容已经被渲染完成了,每篇文章的地方变成了:

                        <div id="WXAPPMSG410106318" class="weui_media_box appmsg" msgid="410106318">
                            <span class="weui_media_hd" style="background-image:url(http://mmbiz.qpic.cn/mmbiz/wc7YNPm3YxXiajPXq2Y2PWQsic1SmjCxnTicHKtwItmARwkha1RI1gH1WwTfRvEUzauWJibjuJC9oJ8eibeVlDjRkwg/0?wx_fmt=jpeg)" data-s="640" data-t="1463528503000" hrefs="/s?timestamp
                            <div class="weui_media_bd">
                                <h4 class="weui_media_title" hrefs="/s?timestamp=1463531541&amp;src=3&amp;ver=1&amp;signature=n187YKNZjqgxyUtJ*yFEQGG7wJOH79RQeRrjQ0RGRdKEiZmR6iM0oNE5P0DPbQEwWTnShlZ4C3JIZr9PYThxbnhuCPl2UTc5NGE0ZkARKXEhTqCe7QvAGFf8vy2QWnPKqA9iSBBgBrocHKLBAuTM
    
                                机器人前传:达芬奇的机器狮和日耳曼装甲骑士
                                </h4>
                                <p class="weui_media_desc">这是一篇描述阿尔法狗和Atlas机器人祖先的文章。远在500多年前的达芬奇时代,已经有了不少关于机器人的探索。这个大天才写了大量关于自动机描述,在他的个人笔记中也充斥着各种机械发明的构思,比如弹簧驱动的汽车和机器狮子。</p>
                                <p class="weui_media_extra_info">2016年5月18日</p>
                            </div>
                        </div>

      ​

    这便可以通过scrapy的request.xpath提取了

     

    重新完善我们的scrapy爬虫脚本

     

    #!/usr/bin/python
    # -*- coding: utf-8 -*-
    import scrapy
    import subprocess
    from scrapy.http import HtmlResponse
    from scrapy.selector import Selector
    
    class ShareditorSpider(scrapy.Spider):
        name = "dashujuwenzhai"
        allowed_domains = ["qq.com"]
        start_urls = [
            "http://weixin.sogou.com/weixin?query=算法与数学之美"
        ]
    
        def parse(self, response):
            href = response.selector.xpath('//div[@id="sogou_vr_11002301_box_0"]/@href').extract()[0]
            cmd="~/bin/phantomjs ./getBody.js '%s'" % href
            stdout, stderr = subprocess.Popen(cmd, shell=True, stdout = subprocess.PIPE, stderr = subprocess.PIPE).communicate()
            response = HtmlResponse(url=href, body=stdout)
    
            for selector in Selector(response=response).xpath('//*[@id="history"]/div/div/div/div'):
                hrefs= selector.xpath('h4/@hrefs').extract()[0].strip()
                title = selector.xpath('h4/text()').extract()[0].strip()
                abstract = selector.xpath('//*[contains(@class, "weui_media_desc")]/text()').extract()[0].strip()
                pubtime = selector.xpath('//*[contains(@class, "weui_media_extra_info")]/text()').extract()[0].strip()
                print hrefs
                print title
                print abstract
                print pubtime
    
        def parse_profile(self, response):
            print response.body
    

    这是一段我用了数天精力创造成功的一段代码,耗费了我很多体力值,所以重点讲解一下

    href = response.selector.xpath('//div[@id="sogou_vr_11002301_box_0"]/@href').extract()[0]

    从公众号搜索结果页里提取profile页面的链接,这个id我怀疑不久后将失效,所以如果想做完美,还得不断完善,有关xpath的使用技巧可以参考http://ejohn.org/blog/xpath-css-selectors/

    cmd="~/bin/phantomjs ./getBody.js '%s'" % href
    stdout, stderr = subprocess.Popen(cmd, shell=True, stdout = subprocess.PIPE, stderr = subprocess.PIPE).communicate()

    加载phantomjs脚本getBody.js来渲染profile页面,把里面的js渲染成html

    response = HtmlResponse(url=href, body=stdout)

    用渲染后的html页面来创建一个HtmlResponse,用于 后面继续xpath提信息

    Selector(response=response).xpath('//*[@id="history"]/div/div/div/div')

    找到每一条文章模块所在的div

     

                hrefs= selector.xpath('//h4/@hrefs').extract()[0].strip()
                title = selector.xpath('h4/text()').extract()[0].strip()
                abstract = selector.xpath('//*[contains(@class, "weui_media_desc")]/text()').extract()[0].strip()
                pubtime = selector.xpath('//*[contains(@class, "weui_media_extra_info")]/text()').extract()[0].strip()

    根据这个div结构提取各个字段

     

    基于这个爬虫脚本,想造就怎样的神奇,就看你之后的想象力了,没有做不到,只有想不到!


    展开全文
  • 在2012年中国互联网大会上,腾讯公司董事会主席兼首席执行官马化腾表示,微信在去年年初推出,仅仅用了14个月,在今年三月份超过1亿的注册用户,目前微信已经达到2亿用户。微信的火不亚于当年的微博,从微信的特点看...

    如何推广微信公众号

      在2012年中国互联网大会上,腾讯公司董事会主席兼首席执行官马化腾表示,微信在去年年初推出,仅仅用了14个月,在今年三月份超过1亿的注册用户,目前微信已经达到2亿用户。微信的火不亚于当年的微博,从微信的特点看,它重新定义了品牌与用户之间的交流方式。如果将微博看做品牌的广播台,微信则为品牌开通了“电话式”服务。当品牌成功得到关注后,便可以进行到达率几乎为100%的对话,它的维系的能力便远远超过了微博。那么微信作为企业应该如何推广微信公众平台呢?

      一、微信公众平台推广技巧

      1、利用微信发明独有特别网站品牌

      微信中施行交友众多都是搜索,而美貌女子在微信中是最受热烈欢迎的,微信有个比较大的益处就是能够听声响,如果你的网站是地方类型的站点,那末就可以请一名美貌女子客服专门利用微信来为你的站点发明品牌。微信的运用人海众多都是帅哥美貌女子,如果你所请的客服能够坚决保持每日在微信中与人施行沟通交流,那末你的地方站点就能够在瞬息间内取得一定的知名度,当地的帅哥美貌女子会利用上网的机缘莅临你的网站,时间一长你的网站就取得了十分高的进展前景,如果能够将这些个用户把握住,我信任你的站点一定可以变成当地的知名品牌站点。

      2、利用微信做好网站特别服务

      如今的网站基本上都是靠QQ与客户施行沟通交流,而客户在运用QQ已经感受不到新意在这以后,网站来一个暴发奇想的微信特别服务一定能够取得用户的支持与喜欢,经过人性化的会话与客户施行交流,在交流中推广网站的服务内部实质意义,假如你是卖产品的网站,那末你就可以经过微信将产品的独特的地方传布出来。而微信还有一个优势:手机任何时间可以登录。无论在不论什么时刻只要你有支持微信的手机那末就可以结合到微信好友,这么对网站与客户的交流也起到达沟通增进效用。

      3、利用微信制造人民微信站点

      微信的人倍增加带来的是上网人民搜索与“微信”相关的衔接词的热点词显露出来,众多网民在互联网中搜索微信、微信词、微信下载、微信交友等等网站关键词,而私人站长就可以利用微信发明出一个与微信正题相关的微信网站,如微信贴图站、微信交友站点、微信交流论坛、微信下载专栏等等,这种网站最关紧的目标是吸引流量,赢取广告花销。做这品类型的网站有众多种益处,投入小、风险小、收入大是这品类型站点的独特的风格,私人站长可以好好的把握一下子这些个网站。

      微信固然是一个新生进展的事情,不过我想只要私人站长能够在瞬息间内开凿出它的独特的风格与独特的地方,那末一定能够在微信中开凿到一份财富,固然这份财富带来的收入有可能并不是众多,但终归是自个儿的尽力尽量成果,期望各位站长可以思索问题一下子怎么样利用微信做好网站的进展,这比利用博客与微博更加的事实。

      二、微信公众平台如何推广

      微信未来的营销是投递式,不同于微博的广布式,所以微信更需要真实的粉丝,产生真实的反馈。因此注册完三个微信公众号后,我们进行了微信号受众的初定位,然后针对定位精准人群去传播二维码,然后做了以下四步,收效最高的三天过万收听。

      1、以微带信

      利用产品官方微博的原有受众基数,更新微博头像增加头图二维码推广,并发布了全新的关于微信公众号推广的新段子,通过微博大号带动,为微信号带来了第一波受众。

      当然前提是产品的官方网站全新改版,以二维码微信为主流视觉导向,同时开启了短线互动活动,利用赠送产品的契机吸引受众的关注度和参与扫描量。

      2、男人靠摇

      微信成就了大多数宅男的梦想,也因此诞生了摇一摇这种趣味交友的模式。为了成功利用这一部分人好奇心与交友欲,我们规划了美女传播主题计划。通过摇一摇的方式将我们的好奇传递出去,三天共产生了一万两千次摇一摇好友,转化率最高时候超过60%。一场好奇被引导了微信公众号,同时公众号为了留住这一部分人,展开了话题互动和活动推介。

      3、女人靠漂

      一个快消品的受众是不可能完全是男性受众,如果全部是男性受众,这样第二波的口碑力就会自动消弱,为了弥补这个缺失。我们规划了浪漫的漂流瓶活动,一定是要采用传递瓶的模式,这样的影响力大,传播的人群线会更广阔,但是唯一的弱势是漂流瓶的转化周期和转化率并不想微信摇一摇那么乐观。三天内,我们发布近2万漂流瓶,通过漂流瓶关注到我们微信号的受众仅增加了2000多。

      4、无活动不营销

      如果只是单纯的发硬广,我的微信号是:XXX,关注我吧!这样的转化率基本上为零。但是简单的配合一些有新意的活动,那么这就不仅仅是一个广告了,而更像是一次浪漫的交友活动。为了让整个活动向故事一样的传递下去,我们将漂流瓶打造成了了真心话移动站,让受众的故事自己去传递影响力,同时我们会随机赠送小礼品。这个模式我们配备上了设计精美的卡片,接下来的近一万封漂流瓶我们迎来了近5000受众。

      三天的实战测试中,我们发现微信推广并没有想象的那么难,而是找准发力点。比如我们通过对男性的摇一摇发力,通过对女性浪漫因素的刺激,用漂流瓶绑架他们的真心话故事。你站在受众的位置上去想,他们玩微信图的是什么,那就给他们什么。而我们的另一个定位很精准的营销新人公益培训微信号却不乐观,因为无论是摇一摇还是漂流瓶,我们都像是大海捞针一样再寻找可能会喜欢营销的人,其最终的转化甚至不如我们官方网站和博客带来的扫描量大。

      由此可见,微信定位很关键,宣传渠道更关键。你的微信是不是他的菜,直接影响他是否原因为你的二维码抬起手里的手机。

      原文: http://www.imtoday.cn/im/20121202/1157.html
    展开全文
  • 1. 引入模块和函数 from requests_... 温馨提示:最好使用代理IP爬取,否则会有被封ip的可能 点击查看获得更加详细的介绍:基于搜狗微信爬取微信公众号的文章
  • 公司为一个系统提供了微信公众号服务,使用nutz框架自带的微信集成功能,其中可以做一些微信公众后台的一些功能 之前一直在研究除支付功能之外的功能,都弄得差不多的时候,才开始研究微信支付。一开始真的是一脸懵...
  • 步骤一:进入注册公众号官网,直接百度搜索微信公众号平台或者点击下面链接(https://mp.weixin.qq.com) 然后扫码登录自己的公众号 步骤二: 手机扫描下面照片 注册自己查题接口,注册成功后,然后登录进去,在后
  • 进入公众号,选择「关联小程序」后,微信公众号运营者用手机扫码进行认证,并输入小程序的AppID即可。2.腾讯地图+小程序appID:wx7643d5f831302ab03.4.在这里,可以选择是否要把小程序放到公众号资料页,以及是否要...
  • 现在常见的手法是通过在页面复制公众号,然后跳转到微信,然后搜索公众号添加关注。很复杂。 这样繁琐就可能导致广告费付诸东流。 那么,很多人就在想有没有一种方式是可以直接从网页或者app跳转到微信公众号关注...
  • 微信里使用跳转链接:(可直接跳转到关注公众页面) ...这个页面其实就是微信公众号关注页面,或者说是历史发布文章页面 __biz 每个公众都唯一一个 获取 __biz 有二种方式: 1,在电脑上,打开该...
  • 微信搜索”支持搜索微信公众号和微信文章,可以通过关键词搜索相关的微信公众号,或者是微信公众号推送的文章。不仅仅在 PC 端,搜狗的移动搜索客户端同样会进行相关的微信公众号推荐。这应该是微信首次向第三方...
  • 实现效果: 当用户进入公众号h5页面,弹窗提示,是否要关注公众号 流程 1.用户在微信公众号端进入h5...微信用户是否关注公众号,需要咱们去问微信服务器要数据 微信官方文档 获取用户基本信息(包括UnionID机制和用户是
  • 近期有发现越来越多的广告行业的商家都在寻找如何提升公众号/个人微信吸粉的通道,因为成本暴涨,各个广告渠道又不是很稳定,所以很多人都在咨询如何降低成本。如果采用微信的广告渠道,首先限量其次非常贵,所以...
  • 这个项目是通过pywinauto控制windows(win10)上的微信PC客户端来实现公众号文章的抓取。代码分成server和client两部分。server接收client抓取的微信公众号文章,并且保存到数据库。另外server支持简单的搜索和导出...
  • 此文已在本人知乎号上首发:如何利用爬虫爬微信公众号的内容? - DuHeZhe的回答 - 知乎 这里说说我的总结。 如果只是采集公众号文章,要求不是非常严格的话走搜狗就可以了,这种方案成本低也比较简单,但缺点也很...
  • 【欢迎访问 免费微信机器人 平台】 ... 使用之前的准备工作:安装 itchat API easy_install itchat ... 公众号 群聊 itchat为这三种账号都提供了整体获取方法与搜索方法。 而群聊多出获取用户列表方法以及创建群...
  • 大家在营销引流时希望发送邮件给用户,...1、薇搜索天天外链(公众号/小程序) 2、使用微信授权登录(仅获取头像昵称); 3、点击" 创建外链 "开始创建,根据要求创建一个外链; 4、复制外链通过邮件发给对方即可。 ...
  • 今天借贵地分享一款小程序 微信小程序搜索 儿童说古诗 说古诗

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 73,311
精华内容 29,324
关键字:

微信无法搜索公众号