精华内容
下载资源
问答
  • 微信公众号文章采集工具,可采集文章文字内容信息及图片 只能单篇采集,想要批量的不用看了! 可作为微信公众号文章图片采集助手使用! 需知: 1.exe程序运行环境为win7 64位操作系统! 2.部分文章图片采集存在...
  • 微信公众号批量采集工具 设置好关键词后软件会自动采集关键词相关的公众号名称与微信号。 使用方法: 解压软件到任意目录。 运行“微信公众号批量采集工具.exe” 。 选择事先准备好的关键词,一行一个。使用utf-8...
  • 下面拓途数据就和大家一同来看看如何制作微信公众号图文素材,微信公众号采集器好用吗? 微信公众号图文素材 如何制作微信公众号图文素材 首先登陆你的微信公众号管理平台,点击素材管理。若简洁一点的就选择单图文...
    f66968e8452795dc413c8acf4a033c3b.png

    现在有很多人都会通过微信公众号来发布文章、图片,这时候就需要使用一些编辑技巧了。下面拓途数据就和大家一同来看看如何制作微信公众号图文素材,微信公众号采集器好用吗?

    8d38678ca4a6afccb0989f190d82da34.png

    微信公众号图文素材

    如何制作微信公众号图文素材

    首先登陆你的微信公众号管理平台,点击素材管理。若简洁一点的就选择单图文消息。制作图文消息,注意标题,以及上传的图文要有吸引性,而不失自己公众号的主旨。正文部分,就需要好好设计了,用户点击进来,证明对这个公众号感兴趣,想进一步了解。所以进入之后,除了如图中的必要提醒关注公众号之外,更重要重点是体现自己公众号的主旨,相关详细介绍。制作完成之后,点击保存草稿,也可以点击预览一下效果。回到素材管理,可以对保存后的图文消息进行再次编辑。点击标题。可以在电脑上预览图文消息的内容,并可以复制其地址,应用到其它地方进行宣传。

    d5e5d2e66ace70c430c3cbcc88f7436b.png

    微信公众号图文素材

    微信公众号采集器好用吗

    拓途数据微信公众号采集器是一款十分优秀好用的为微信公众号推出的文章采集辅助工具。这款微信公众号文章采集工具功能强大全面,简单易用,使用后可以帮助用户更轻松便捷的进行文章采集操作。软件可以帮助有需要的用户大批量的采集文章里面的内容,图片等等。

    如果大家想要采集公众号的文章,就可以使用微信公众号采集器。大家看了拓途数据的介绍,想必已经知道了怎么制作微信公众号图文素材。

    更多资讯知识点可持续关注,后续还有公众号文章采集器自媒体文章采集平台、公众号素材、采集微信公众号文章微信公众号数据统计等知识点。

    展开全文
  • 去年九月, 写了一篇爬取微信公众号的文章: PHP开发-微信公众号文章采集原理及思路 下文出现的 "那篇文章"就是这个.最近在玩 Python , 就找一些站点学习了一下, 想起之前使用 PHP 爬微信公众号的文章, 就再次看了 PHP...

    去年九月, 写了一篇爬取微信公众号的文章: PHP开发-微信公众号文章采集原理及思路 下文出现的 "那篇文章"就是这个.

    最近在玩 Python , 就找一些站点学习了一下, 想起之前使用 PHP 爬微信公众号的文章, 就再次看了 PHP开发-微信公众号文章采集原理及思路 这篇文章, 发现搜狗有个更新导致那篇文章已经没法爬了..

    1587698357670891.png

    上图是之前那篇文章的, 那篇文章的爬取原理一句话讲完就是, 使用 PHP 爬到了 HTML 内容, 再获取到这个 data-share 属性, 就可以请求 data-share 属性的链接拿到文章内容.

    再来看看现在的搜狗搜索微信文章:

    1587698373825656.png

    可以看到, 搜狗已经把 data-share 属性给去掉了, 只留下了 href 属性. 使用程序请求 href 属性的链接, 会发现被反爬了, 比如使用 Postman 或 PHP 用 file_get_contents 函数请求, 就会看到返回的数据有这么一段:

    1587698390435099.png

    请求的时候使用 curl 并携带 cookie 的话, 就会返回(本文使用 Postman):

    1587698409556717.png

    将返回的字符串进行拼接, 就可以得到一段 URL , 再请求这个 URL 就拿到了文章的 HTML 了, 接下来就不用多说了...

    1587698424332403.png

    上面思路的测试都是使用 Postman 请求, 按理说使用 PHP 或者其他程序请求结果也是一致的, 但是对 cookie 之类的那些操作太麻烦了, 所以使用 Python 重新实现了一遍, 用了 Selenium, 除了爬微信的, 还有一些网站是使用 JS 处理的, 比如阿里的商品详情, 有兴趣的话可以去尝试学习一下, 会发现反爬机制更厉害.

    关于 Selenium 可以百度或者谷歌搜索一下, 大白话的说就是他可以打开一个浏览器的框, 然后执行打开网页之类的操作, 这时候并不需要再伪造 UA 或者另外存 cookie 再进行携带请求的, 因为它本身就是浏览器. 如果有兴趣 还可以搜一下: 模拟浏览器行为

    先是安装 Python 环境, 这个就不多说...

    环境变量简单说一下, 需要设置的环境变量如下图, 一般情况下 Python 默认安装路径是这个: C:\用户\用户名\AppData\Local\Programs\Python\Python38 最后的 Python38 是根据版本而定的.

    1587698484587729.png

    安装 Selenium, 执行命令:pip install selenium

    安装浏览器驱动, 驱动下载: https://chromedriver.storage.googleapis.com/index.html 浏览器驱动和浏览器版本需要对应, 比如:

    1587698520137285.png

    浏览器版本是 81.0.4044.122 就可以下载这些驱动:

    1587698533156885.png

    驱动可以放在某个目录下, 比如 D 盘下的 webdrivers 目录. 执行下面博主写的代码就能运行微信公众号文章的爬取了, 根据自己的需求可以继续编写代码:from selenium import webdriver

    import time

    wd = webdriver.Chrome(r'd:\webdrivers\chromedriver.exe')

    lst_url = []

    page_num = 2 # 想要爬取的页数

    keyword = "百度" # 关键词

    # 以下代码的 11002601 可能会因为搜狗更新而变更 需执行代码前自行查看搜狗搜索结果的 DOM

    def get_article_url():

    article_num = 10; # 定义每页的文章数量

    for i in range(0, article_num):

    url = wd.find_element_by_xpath(f'//*[@id="sogou_vr_11002601_title_{i}"]').get_attribute("href")

    lst_url.append(url)

    wd.get("https://weixin.sogou.com/")

    wd.find_element_by_xpath('//*[@id="query"]').send_keys(keyword)

    wd.find_element_by_xpath('//*[@id="searchForm"]/div/input[3]').click()

    get_article_url()

    if page_num >= 2:

    for x in range(2, page_num + 1):

    wd.find_element_by_xpath(f'//*[@id="sogou_page_{x}"]').click()

    get_article_url()

    for key, url in enumerate(lst_url):

    wd.get(url)

    time.sleep(3)

    title = wd.find_element_by_xpath('//*[@id="activity-name"]').text

    file = open(f"{title} - {key}.html", 'w', encoding = "utf-8")

    #file.write(wd.find_element_by_xpath('//*[@id="js_article"]').get_attribute('innerHTML'))

    file.write(title)

    file.close()

    wd.close()

    如果不会使用上面代码, 可以在桌面创建一个 wx 文件夹, 进入文件夹再创建一个 wx.py 文件并将上面代码复制进去保存, 然后使用 CMD 或者其他命令行工具进入到桌面, 执行命令:python wx.py

    1587698571435948.png

    执行完成后打开桌面的 wx 文件夹:

    1587698586838965.png

    可以看到全部爬取的文件, 最后还是要说一下, 请勿用于非法用途, 本文提供的代码也仅仅作为分享学习使用. 所造成的一切后果请自行承担.

    展开全文
  • 微信公众号文章采集工具,可采集文章文字内容信息及图片 只能单篇采集,想要批量的不用看了! 可作为微信公众号文章图片采集助手使用! 需知: 1.exe程序运行环境为win7 64位操作系统! 2.部分文章图片采集存在BUG,...

    微信公众号文章采集工具,可采集文章文字内容信息及图片

    只能单篇采集,想要批量的不用看了!
    可作为微信公众号文章图片采集助手使用!

    需知:
    1.exe程序运行环境为win7 64位操作系统!
    2.部分文章图片采集存在BUG,望见谅!
    3.工具为python编写,技术渣,只能到这里了!
    在这里插入图片描述

    微信公众号文章采集工具说明:
    1.打开weixincj.exe文件
    2.输入需要采集的微信公众号文章链接地址
    3.回车等待程序运行
    4.采集完毕5s后程序自动退出

    在这里插入图片描述

    采集过程中会自动生成目录 weixin
    采集完毕,采集内容存放于weixin目录下的微信公众号文章标题目录
    内容为图片及txt文档

    在这里插入图片描述

    下载地址
    百度云:
    链接: https://pan.baidu.com/s/1pCqptL6QwnP2eUeyAABnYA 提取码: sxca

    需知:
    exe程序运行环境为win7 64位操作系统!

    提示:
    不一定保证格式内容及图片完整性!

    附上主要python源码:

    #微信文章页采集
    # -*- coding: UTF-8 -*-
    import requests
    import re,time,os
    from bs4 import BeautifulSoup
    from baocun import bctp,bcwb
    from fake_useragent import UserAgent
    
    def ua():
        ua = UserAgent()
        headers = {"User-Agent": ua.random}
        return headers
    
    def get_content(url):
        headers=ua()
        respnese=requests.get(url,headers=headers).text
        soup=BeautifulSoup(respnese,'lxml')
        #获取标题
        h2=soup.find('h2',class_="rich_media_title").get_text()
        h2=h2.replace('\n','')
        h2 = h2.replace(' ', '')
        h2 = re.sub(r'[\|\/\<\>\:\*\?\\\"]', "_", h2)  # 剔除不合法字符
        print(f'微信公众号文章标题:{h2}')
        os.makedirs(f'weixin/{h2}/',exist_ok=True)
        lj =f'weixin/{h2}/'
        ljj=f'weixin/{h2}/{h2}.txt'
        author=soup.find('div',class_="rich_media_meta_list").find('a',id="js_name").get_text()
        author = author.replace('\n', '')
        author = author.replace(' ', '')
        author=f'来源:{author}'
        print(author)
        i=1
        text=''
        ps=soup.find('div',class_="rich_media_content").find_all('p')
        for p in ps:
            if "img" in str(p):
                try:
                    img_url=p.find('img')['data-src']
                    print(img_url)
                    if "jpeg" == img_url[-4:]:
                        img_name=f'{i}.{img_url[-4:]}'
                    else:
                        img_name = f'{i}.{img_url[-3:]}'
                    bctp(lj, img_url, img_name)
                    p_content=img_name
                    i=i+1
                except Exception as e:
                    print(f"获取图片数据失败,错误代码:{e}")
                    pass
            else:
                p_content=p.get_text()
            text = '%s%s%s' % (text, '\n',p_content)
        texts='%s%s%s%s%s'%(h2,'\n',author,'\n',text)
        print(texts)
        bcwb(ljj, texts)
    
    if __name__ == '__main__':
        url=input("请输入要采集的微信公众号文章链接:")
        print(f'爬虫启动中,请稍后......')
        get_content(url)
        print(f'采集完毕,程序5s后自动关闭!')
        time.sleep(5)
    

    附改进 完整内容抓取,无格式

    #微信公众号文章 完整版内容抓取
    def cs(url):
        headers = ua()
        respnese = requests.get(url, headers=headers).text
        soup = BeautifulSoup(respnese, 'lxml')
        get_article(soup)
    
    
    def get_article(soup):
        # 获取标题
        h2 = soup.find('h2', class_="rich_media_title").get_text()
        h2 = h2.replace('\n', '')
        h2 = h2.replace(' ', '')
        h2 = re.sub(r'[\|\/\<\>\:\*\?\\\"]', "_", h2)  # 剔除不合法字符
        print(f'微信公众号文章标题:{h2}')
        os.makedirs(f'weixin/{h2}/', exist_ok=True)
        lj = f'weixin/{h2}/'
        ljj = f'weixin/{h2}/{h2}.txt'
        author = soup.find('div', class_="rich_media_meta_list").find('a', id="js_name").get_text()
        author = author.replace('\n', '')
        author = author.replace(' ', '')
        author = f'来源:{author}'
        print(author)
        # 获取文字内容
        texts = soup.find('div', class_="rich_media_content").get_text()
        texts = '\n'.join(texts.split('。'))  # 以句号 分割文本
        print(texts)
        texts = '%s%s%s%s%s' % (h2, '\n', author, '\n', texts)
        print(texts)
        bcwb(ljj, texts)
        # 获取所有图片
        i = 1
        imgs = soup.find('div', class_="rich_media_content").find_all('img')
        for img in imgs:
            img_url = img['data-src']
            print(img_url)
            if "jpeg" == img_url[-4:]:
                img_name = f'{i}.{img_url[-4:]}'
            else:
                img_name = f'{i}.{img_url[-3:]}'
            bctp(lj, img_url, img_name)
            i = i + 1
    

    源码应用到的保存模块

    #存储内容
    
    import requests
    import time
    from fake_useragent import UserAgent
    
    def ua():
        ua = UserAgent()
        headers = {"User-Agent": ua.random}
        return headers
    
    #下载图片
    def bctp(lj,img_url,img_name):
        print("开始下载图片!")
        try:
            r = requests.get(img_url,headers=ua(),timeout=5)
            with open(f'{lj}/{img_name}', 'wb') as f:
                f.write(r.content)
                print(f'下载{img_name}图片成功!')
                time.sleep(1)
        except Exception as e:
            if "port=443): Read timed out" in str(e):
                time.sleep(2)
                try:
                    r = requests.get(img_url, headers=ua(),timeout=5)
                    with open(f'{lj}/{img_name}', 'wb') as f:
                        f.write(r.content)
                        print(f'下载{img_name}图片成功!')
                except Exception as e:
                    print(f'下载{img_name}图片失败!')
                    print(f'错误代码:{e}')
                    with open(f'{lj}/spider.txt', 'a+', encoding='utf-8') as f:
                        f.write(f'错误代码:{e}---下载 {img_url} 图片失败\n')
            else:
                print(f'下载{img_name}图片失败!')
                print(f'错误代码:{e}')
                with open(f'{lj}/spider.txt', 'a+', encoding='utf-8') as f:
                    f.write(f'错误代码:{e}---下载 {img_url} 图片失败\n')
    
    #保存文本内容
    def bcwb(ljj,texts):
        print("开始保存文本")
        with open(ljj, 'w', encoding='utf-8') as f:
            f.write(texts)
        print(f'保存文本内容成功!')
    
    
    
    
    
    展开全文
  • 获取微信公众号文章插件 可获取微信文章的标题、封面、摘要、发布时间、内容/图片,可本地化、支持多网址采集
  • 易优一键获取微信公众号文章插件,可获取微信文章的标题、封面、摘要、发布时间、内容|图片可本地化、支持多网址采集。 应用场景 用户有时候需要手工把微信文章采集到网站很麻烦,另外微信图片防采集需要一张张...
  • 微信公众号文章采集接口程序

    千次阅读 2016-08-15 23:41:00
    微信公众号文章采集接口程序

    用法:
    http://localhost2/gather.php?dir=gather&url=http%3a%2f%2fmp.weixin.qq.com%2fs%3f__biz%3dMjM5Nzk3NjAxMg%3d%3d%26mid%3d2650417216%26idx%3d2%26sn%3da090a3fa0771d94f9489b6913e4e8616%26scene%3d0%23wechat_redirect

    dir 采集文件的目录
    url 必须是encode编码过的url。

    <?php
    class Gather {
        private $url;
        private $path;
        private function ksort($arr) {
            foreach ( $arr as $value ) {
                $temp [] = $value;
            }
            return $temp;
        }
        public function __construct($url, $path) {
            $this->url = $url;
            $this->path = $path;
            set_time_limit(0);
        }
        public function fetch() {
            return $this->transform ( $this->url, $this->path );
        }
        private function transform($url, $path) {
            if (! file_exists ( $path ))
                mkdir ( $path );
            $data ['url'] = $url;
            $content = file_get_contents ( $url );
            preg_match ( '/<title>(.*)<\/title>/i', $content, $result );
            $data ['title'] = $result [1];
            preg_match( '/var\s+msg_cdn_url\s+=\s+"(ht+p:\/\/[^\s]+\/(?:mmbiz|mmbiz_jpg)\/([^\s]+)\/\d+(?:\?[^s]+))"/', $content, $result );
            $img = file_get_contents ( $result [1] );
            $info = getimagesize ( $result [1] );
            $type = str_replace ( 'image/', '', $info ['mime'] );
            $cfileName = $path . DIRECTORY_SEPARATOR . $result [2] . ".$type";
            $cfileName2 = "/$cfileName";
            file_put_contents ( $cfileName, $img );
            $data ['cover'] = $cfileName2;
            preg_match ( '/<div\s+class="rich_media_content\s*"\s+id="js_content">(.*?)<\/div>/is', $content, $result );
            preg_match_all ( '/data-src="[a-zA-z]+:\/\/[^\s]*[mmbiz|mmbiz_jpg]\/[^\s]*\/\d+\?[^\s"]*=[^\s]*"|data-src="[a-zA-z]+:\/\/[^\s]*[mmbiz|mmbiz_jpg]\/[^\s"]*\/\d+"|background-image\s*:\s*url\s*\(\s*[a-zA-z]+:\/\/[^\s]*mmbiz\/[^\s]*\/\d+|background-image\s*:\s*url\s*\(\s*[a-zA-z]+:\/\/[^\s]*mmbiz\/[^\s]*\/\d+\?[^\s]*=[^\s]*/is', $result [1], $result2 );
    
            foreach ( $result2 [0] as $value ) {
                preg_match ( '/[a-zA-z]+:\/\/[^\s]*\/[mmbiz|mmbiz_jpg]\/([^\s\/]*)\/\d+\?[^\s"]*|[a-zA-z]+:\/\/[^\s]*[mmbiz|mmbiz_jpg]\/([^\s\/]*)\/\d+/', $value, $temp );
                $temp = array_filter ( $temp );
                $temp = $this->ksort ( $temp );
                $urlList [] = $temp [0];
                $nameList [] = $temp [1];
            }
    
            foreach ( $urlList as $value ) {
                $img = file_get_contents ( $value );
                $info = getimagesize ( $value );
                $type = str_replace ( 'image/', '', $info ['mime'] );
                $fileName = $path . DIRECTORY_SEPARATOR . array_shift ( $nameList ) . ".$type";
                $fileName2 = "/$fileName";
                file_put_contents ( $fileName, $img );
                $result [1] = str_replace ( $value, $fileName2, $result [1] );
                $result [1] = str_replace ( "data-src", "src", $result [1] );
            }
    
            $data ['content'] = trim ( $result [1] );
            return $data;
        }
    }
    extract ( $_GET );
    $g = new Gather ( $url, $dir );
    $result = $g->fetch ();
    echo json_encode ( $result );

    效果图:

    展开全文
  • 易优一键获取微信公众号文章插件,可获取微信文章的标题、封面、摘要、发布时间、内容|图片可本地化、支持多网址采集。 应用场景 用户有时候需要手工把微信文章采集到网站很麻烦,另外微信图片防采集需要一张张...
  • 微信公众号数据采集

    千次阅读 2020-10-12 11:15:10
    5.注册一个微信公众号 2.采集文章连接 1.配置config.txt 2.启动程序 二、采集文章详细信息 1.配置detail_config.txt 2.启动程序 三、数据 1.数据库 2.Execl 最近统计感兴趣的公众号的阅读数据,这篇文章就...
  • 1、如果要实现微信公众号文章的自动采集就必须实现微信公众号文章的自动浏览操作; 2、此工程是基于Appium和Java来实现的Android微信客户端自动化浏览的操作,基于微信6.6.7版本,版本的历史文章列表页面入口都是...
  • 微信公众号文章采集思路

    千次阅读 2018-10-15 11:00:21
    微信公众号文章采集思路 一、通过android客户端获取到微信用户登录信息(即小号)。 二、提供微信公众号信息(biz) 三、通过http协议分析文章接口,写微信爬虫程序,需要用到上面两种资源,即小号越多,爬取速度越...
  • 别跑,教你微信公众号采集!作者:keven发布时间:2017/2/24 11:04:2641121 人已阅读摘要:如何轻松采下其他公众号的信息,在这里轻松找到答案近年来,身边做微信公众号的朋友,都开始惶恐,打开率越来越低,还要...
  • 江南鹤微信公众号文章采集器试用说明 1 请先下载 【江南鹤微信公众号文章采集器】https://weixinhook.lanzous.com/inyDnf9hwve 2 需要先安装.net 4.6。以及pc版微信2.8.0.106,如果安装是其他版本请先卸载,再安装...
  • 【微信采集助手】Python Tkinter 微信公众号文章批量采集工具 微信公众号文章采集助手(工具) 可单篇,可多篇采集,仅供学习交流使用 批量采集需提前准备好文章txt文档链接 运行系统推荐:win7 64位 可实现微信...
  • 采集目标: 微信公众号文章的阅读数、在看数、评论数、评论列表,还有微信公众号的账号基本信息。 采集难点: 采集以上数据需要客户端的一些参数,比如 x-wechat-key 、 __biz 、appmsg_token 、pass_ticket等。 ...
  • * 微信公众号文章采集类 */ class DownWxArticle { private $mpwxurl = 'http://mp.weixin.qq.com'; private $wxgzherr= '公众号二维码下载失败=&gt;'; private $wximgerr= '图片下载失败...
  • 公众号名称放在一个文本文件中,软件自动轮流查询公众号是否有更新,可以提醒最新的公众号文章,保存文章记录。
  • 此文已在本人知乎号上首发:微信公众号文章采集的一些基础概念 背景 经常有人问我微信文章采集相关的基础常识问题,对于新手来说,一些概念性的问题确实不太了解。但经常被问得也烦了,所以单独写一篇文章总结一些...
  • 批量公众号采集
  • 本着开源精神和方便用户,现已将"微信公众号文章采集系统"打包成虚拟机,你只需下载安装虚拟机镜像,即可使用。
  • 基于Spring Cloud的全自动化微信公众号消息消息采集系统 文章目录基于Spring Cloud的全自动化微信公众号消息消息采集系统前言一、系统简介二、系统架构技术架构存储缓存代理三、系统优劣性系统优点系统缺点:四、...
  • 微信公众号文章采集浅谈--搜狗APP近一天文章前言分析实现总结 前言 注: 本文主讲一个分析思路,仅用于技术交流分享,有兴趣可以一起交流 q:1095087360。 前段时间由于需要,采集微信公众号上指定关键词的微信文章...
  • 微信公众号文章采集方案

    千次阅读 2018-06-27 09:49:04
    搜狗微信搜索入口进行公众号搜索 选取公众号进入公众号历史文章列表 通过文章列表获取文章链接,通过文章链接获取文章内容 对文章内容进行解析入库   采集过于频繁的话,搜狗搜索和公众号历史文章列表访问都会...
  • 微信公众号文章采集的几种方案

    千次阅读 2019-07-16 09:33:58
    搜狗微信搜索入口进行公众号搜索 选取公众号进入公众号历史文章列表 通过文章列表获取文章链接,通过文章链接获取文章内容 对文章内容进行解析入库 采集过于频繁的话,搜狗搜索和公众号历史文章列表访问都会...
  • 最新微信公众号采集方案详细介绍

    千次阅读 2020-07-16 15:45:23
    个人及小团体对公众号内容获取数量不多的情况下一般都会采用前两种相对简单便捷成本低的方式去获取内容,不差钱的团队肯定就买第三方服务了,靠提供微信公众号采集接口的服务盈利的肯定就是逆向工程了.我介绍第一种...
  • ThinkPHP5.0 微信公众号接入 第一步:准备工作 首先,要有自己的公众号(这句是废话),个人可以申请微信公众号的订阅号,企业才可以申请服务号,其次要有云空间或者服务器,并且将服务器IP添加至微信公众号开发配置...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,551
精华内容 5,420
关键字:

微信公众号内容采集