精华内容
下载资源
问答
  • EXCEL做的网页数据采集工具3.0.xls 采集阿里爸爸网站数据,要多少有多少!
  • 先复制页面表格数据EXCEL中,比如 2012-1-4 52.7 52.7 49 48.83 190007 9506968 2012-1-5 48.86 49.79 45.72 45.6 623252 29890388 2012-1-6 45.71 46.71 44.85 43.71 453108 ...

    先复制页面表格数据到EXCEL中,比如

    2012-1-4 52.7 52.7 49 48.83 190007 9506968
    2012-1-5 48.86 49.79 45.72 45.6 623252 29890388
    2012-1-6 45.71 46.71 44.85 43.71 453108 20183486
    2012-1-9 45.18 45.3 44.79 43.5 757707 33454778
    2012-1-10 44.81 46.71 45.99 44.45 625620 28381340
    2012-1-11 45.55 46.82 44.88 44.61 844306 38555872
    2012-1-12 45.7 46.3 44.47 44.04 650360 29329488
    2012-1-13 44.28 44.47 40.02 40.02 1516461 62606884
    2012-1-16 38.02 40.43 40.02 37.6 697920 27940500

    然后在M1单元中 输入 

    =CONCATENATE("INSERT INTO `300105` VALUES ('",TEXT(E1,"yyyy-mm-dd"),"','",TEXT(ROUND(F1,3),"#.000"),"','",TEXT(ROUND(G1,3),"#.000"),"','",TEXT(ROUND(H1,3),"#.000"),"','",TEXT(ROUND(I1,3),"#.000"),"');")

    然后在MYSQL新建数据库  表名为300105    

    CREATE TABLE `300105` (
    `c_date` varchar(20) NOT NULL,
    `c_kpj` varchar(50) NOT NULL,
    `c_zgj` varchar(50) NOT NULL,
    `c_spj` varchar(50) NOT NULL,
    `c_zdj` varchar(50) NOT NULL,
    PRIMARY KEY (`c_date`)
    ) ENGINE=MyISAM DEFAULT CHARSET=utf8;

    增加对应的项目名称

    其中 TEXT(E1,"yyyy-mm-dd") 将第一列中日期以原来格式保存     TEXT(ROUND(F1,3),"#.000")会将 数值 保留后三位小数 不足以0填充  如例中第一条记录

    INSERT INTO `300105` VALUES ('2012-01-04','52.700','52.700','49.000','48.830');

      做完记录后  将M1列复制到文本并保存.sql文件 用MYSQL导入即可

    转载于:https://www.cnblogs.com/wycc/p/3549204.html

    展开全文
  • EXCEL做的采集工具(采集网页上的数据),非常实用!
  • 网页数据采集 VBA

    2018-11-20 18:04:52
    整理自excelhoom论坛,VBA也可以爬取网页数据,简单高效
  • EXCEL做的工具,非常强大,可以采集阿里爸上面的企业资料包含电话手机等信息,可不同地区及不同关键字.为您带来无穷无尽的目标客户.是业务的好帮手!
  • WPS Excel采集网页的表格数据

    万次阅读 2019-09-25 09:51:18
    微软的Excel支持创建数据查询,链接网页地址,捕捉表格并可刷新。网上说WPS Excel在粘贴表格后可以创建数据查询,但更新到最新版WPS仍然没有此功能。希望金山可以推出此功能。当然,可以用python的BeautifulSoup库...

    方法一:在浏览器中拖拽选中表格,然后复制粘贴到Excel中。

    方法二:F12打开调试器,左上采集工具点击表格快速定位table标签,然后复制粘贴到Excel中。

    更新:上图:

    然后在WPS Excel中直接Ctrl+V即可。

    微软的Excel支持创建数据查询,链接网页地址,捕捉表格并可刷新。网上说WPS Excel在粘贴表格后可以创建数据查询,但更新到最新版WPS仍然没有此功能。希望金山可以推出此功能。当然,可以用python的BeautifulSoup库爬取网页表格数据。可参考我的代码:https://github.com/haoranhaoshi/python/blob/master/untitled/getXuanJiangInfo.py

    展开全文
  • 火车采集器保存为本地word、excel、html、txt文件方法及文件模板_爬虫软件技术与爬虫软件网页数据采集器门户2018 年 10 月 27 日火车采集器如何将采集到的数据发布到本地的文件 TXT 或者CSV 等格式乱码解决办法:...

    火车采集器保存为本地word、excel、html、txt文件方法及文件模板_爬虫软件技术与爬虫软件网页数据采集器门户

    2018 年 10 月 27 日

    火车采集器如何将采集到的数据发布到本地的文件 TXT 或者CSV 等格式乱码

    解决办法:

    模版文件,用txt格式打开,然后 文件—另存为,选择ansi编码 然后发布设置那里 选择GBK 编码,或者

    文件—另存为,选择utf-8编码 然后发布设置那里 选择UTF-8 发布即可

    1、 我们以软件自带的火车采集器采集规则 搜狐新闻 为例子

    5fff9a883a8d90baf582d814f644c272.png

    2、 双击火车采集器采集规则,打开 搜狐新闻 这个规则

    7f53402ba67a78a7b922fef8f6958b14.png

    第三步:发布内容设置勾选 “方式二”的启用保存文件格式(自己可根据需要来选择)

    3、 保存位置,这里就不做说明了,想保存到哪里就保存到哪里你的地盘你自个做主~

    4、 文件模版,简单的说就是你保存到文件的具体模版样式。

    以 “搜狐新闻”为例做txt文件模版

    f71e1df4718a21e9b7a057e1f4fa8f39.png

    有5个标签

    所以txt模版对应写上就可以了

    3dcb4a7d9f1b1ddcbf3186a8e23f45e7.png

    模版会自动提取相应的标签内容。

    Html 模版也是一样的

    2093207a1c2d7a9c56751abed6b4b074.png

    csv模版

    d8faf4c2c18ecda6644f86b7b36f05b2.png

    Word模版亦是如此

    e2aca469a87252ce8f09e4e669f63597.png

    5、 火车采集器文件名格式

    55ca8725e215cdab5ec078fa227462fc.png

    点击这个按钮,可出现一个选择列表,这里可以任意选择匹配,给文件命名。

    6、 火采集器文件编码

    有utf-8和 gb2312 两种。 发布后 如果显示是乱码 ,就可能是你的编码没设置正确,换一种 应该就可以了。

    嗯 就这些了,写的非常的直白,应该都可以看懂~~

    展开全文
  • 转眼间,Excel催化剂推出已经两周年,在此之际,献上数据时代最刚需的网页采集功能,无需苦苦寻觅各种工具,借助Excel催化剂过往数据处理、清洗功能,加上此轮的网页采集功能,一点不输于市...

    转眼间,Excel催化剂推出已经两周年,在此之际,献上数据时代最刚需的网页采集功能,无需苦苦寻觅各种工具,借助Excel催化剂过往数据处理、清洗功能,加上此轮的网页采集功能,一点不输于市面上的各种收费性的工具所能达到的效果。一贯地个人完全免费,欢迎参与转发活动获取使用权。

    主流网页采集工具概述

    可能许多网友们不知道,笔者走向Excel的开发的领域,也是从网抓开始,从一开始的使用VBA简单写几行代码,获取到自己所需的内容,到学习使用了几款网页采集现成工具,到现在终于自己可以出一款亲手打造的最贴心的Excel插件功能。

    在笔者接触过的工具中,有免费的Excel(PowerBI)的PowerQuery和Hack,和收费的火车采集器,火车浏览器,八爪鱼采集器,码栈,后羿采集器等。之前在公司的环境下,也购买过部分产品的付费功能体验过。

    实在话,这些产品做出来,也能有不错的使用体验,特别是付费后全功能解锁后。当然若非企业的行为,单单个人为了一点点日常的便利性操作的小范围的采集工作,而购买一款上述的采集工具,的确有些不划算。

    下图为八爪鱼的收费,按订阅式收费,不买断。年2000+才能真正用到较完整功能。

    下图是火车浏览器的价格,算是买断版的,不过后续亦有服务费的概念。

    不再举例,一句话总结,网页爬虫的领域,的确是众多企业里的刚需,市场上的产品也多数是收费性质,免费的功能被限制得较为厉害。

    同时收费性功能,可能很大部分是指向自动化操作和偏重型的数据直接导入数据库或直接发布到网站这类采集与发布一条龙的功能。

    对于数据分析工作者来说,最要紧的将数据采集到本地作分析,或一般性用户对企业内业务系统或第3方数据平台数据采集整合等功能,不见得非常贴合。

    敢于打破信息不对称,接受横向测评的Excel催化剂网页内容采集功能

    对网页采集方面的功能有兴趣的朋友们,可以结合上述提及的主流的采集工具,对其有一定的认识后,再回来看Excel催化剂的功能,有对比更有说服力。

    能够将网页采集功能做到极致化,并且完全无任何功能限制,免费开放的,只Excel催化剂一家。最要紧的是,人人都可使用的低门槛保证。

    五大网页采集功能全覆盖,远胜主流网页采集工具的单一性功能。

    一、模拟浏览器访问方式采集,满足任何挑剔的反爬虫策略网站需求

    在笔者开发过程中,已经陆续给大家演示过几大公认最难爬取平台的数据采集,如淘宝搜索页面采集,公众号后台数据采集等。

    这些互联网数据大户,也是众多价值数据的来源地,对爬虫的爬取操作防范也是最为严苛的,各种异步加载技术,javaScript响应跳转及需登录访问等措施,在模拟浏览器方式来访问,都可逐一攻破,因模拟浏览器访问,已经十分接近人工打开网页的操作,没有人敢给人工访问轻易设防,增加访问难道,降低用户体验度的。

    以下视频中,演示微信公众号自动化下载文件。

    如下图,简单配置采集页,滚动屏数、间隔时长及采集内容信息,即可顺利采集到淘宝搜索的数据。

    下图所示:淘宝搜索页中的关键信息,结构下呈现。

    好几大主流采集工具,亦是顺势而为,采用此种方式来采集数据,但此种方式,采集效率不高是它的一大瓶颈,测试时感觉良好,但真正采集过程中,速度慢,不稳定是一大痛点。**

    二、使用Http直接提交方式采集,满足一般性网页采集的需求

    任何事务总是两面性,前面提及的各大工具的傻瓜式操作低门槛的代价是应用面的不广,就如同样一台相机,傻瓜相机拍照肯定比单反相机简单太多,但深入使用时,单反式的手动调节就显得非常必要。

    在网页采集方面亦是如此,高级点的用户,可以自行抓包获取实际数据网址并批量构造类似网址进行访问。一次性直达目标,减少干扰。

    Http的提交方式,是最为直接,最为快速的网页采集手段,但对用户要求也会有所提升。高级用户更为喜爱。同样地,局限性在于网站主的各种防范和封锁,能够有机会用到时最好,效率最高。

    对标主流的采集工具,只剩下火车采集器和火车浏览器可满足,当然免费的PowerQuery和Hack也可以,不过门槛偏高,特别是要考虑到登录状态下的采集。

    Excel催化剂在支持Http的方式访问,提供了极其丰富的功能辅助,不止于在提交网址访问的那一刻的提交信息的灵活配置,更有网址数据的批量生成,采集内容后的数据清洗如文本处理提取或删除指定内容,二次再提取(非常人性化地提取内容的同时,可将采集网页全或部分内容做保存,使用自定义函数的方式再提取)

    三、强大的文件下载功能

    数据除仅显示在网页上供采集外,另有大量的数据是直接通过下载的方式提供,这在各种管理后台、数据平台上尤为常见,如内部系统的提交相应条件后下载文件和微信、淘宝等数据后台上提供的详尽数据分析所需要的底层明细数据,都是通过下载的方式提供的。

    数据下载功能,从最为简单的提供网址即可,到需要登录状态下才能下载,再到更复杂的大文件下载稳定性保障等,在Excel催化剂上都能一一解决。使用Http提交方式下载及使用模拟浏览器Chrome的方式,足于满足任何挑剔的下载任务,同时也兼顾了下载的性能及稳定性要求。

    相较迅雷等工具批量下载,使用Excel催化剂可以下载同时按映射关系改名,下载链接的构造在Excel环境下大量的函数、填充及Excel催化剂已开发的替换功能,笛卡尔积等操作,使用体验超极棒。

    四、独有的网页另存为功能,满足采集排版后的网页二次加工使用需求

    众多的网页采集工具,仅限于采集网页上的内容,将其结构化为数据表结构的数据,有跟踪Excel催化剂过往推文的都知道,Excel催化剂将自身公众号的推文全部整理成册,变为PDF和Word版本的,放到百度云盘中供下载。

    此类的需求,用于满足对现有网络世界的碎片化信息的整理,如公众号文章采集或其他一些仅发布在网络上的书籍连载,主题连载等内容。

    原有网页上的排版样式通过网页另存为的方式得到固化,无需采集回来重新加工排版,方便人的阅读。并且可满足采集过程中,将干扰内容进行剪切删除,留下干净的内部部分。

    如下图是原网页的展示

    经过剪切后,将无用信息及广告去除,最后再转换为PDF格式,方便离线阅读和整体连贯性阅读。

    五、将网页转换为PDF或图片,满足离线阅读需求及查阅

    将网页转换为PDF或图片,技术要点在第四点已有讲述。相对其他直接转换的方案,使用第四点的功能将其离线化到本地的html文件,再转PDF,更为灵活方便,特别是对长网页和有异步加载的页面,更能保障采集到的内容完整性。

    当然也同样支持直接使用网址转换成PDF或图片。转换过程,更是能够多个网页合并为一个文件,灵活配置,非常好用。

    极度友好体验支持上述五大功能实现

    一、所有配置工作在Excel工作表环境完成

    纵观绝大部分的采集工具,就算有再强大的采集能力和防反爬能力,用户在配置自己想采集的页面及配置一些文件映射关系和时间延时等操作,不可避免在一些窗体、界面上作配置,其使用效果远远不及在Excel上的体验。

    退一步来说,就算提供了导入文件的方式导入数据,也需来回在Excel上加工好数据再返回软件工具操作界面操作,繁琐在所难免。

    如下图中左侧的网址配置及右侧的采集内容配置区,非常友好方便的Excel使用体验。

    二、采集规则模板化,极大方便复用

    在第一点工作表环境的配置基础上,所做的一切配置,都可固化下来,供下次使用。

    最要紧的是当同类型的模板再次使用时,复制工作表、单元格的操作将可说是最完美的使用体验,没有之一。

    三、支持xpath和CssSelector双模式内容匹配,并可分步化进行,降低匹配逻辑的书写难度。

    一般性的采集工具,虽然有那么丁点的智能识别内容,但面对稍复杂的页面,还是要有相应的xpath或CssSelector的知识。

    在Excel催化剂的方案中,xpath有比网络上经常提及的xpath helper或fire path更优的方案,让用户更低门槛写出自己所需的xpath或CssSelector表达式。

    同时兼容两种表达式的匹配,熟悉哪个用哪个,非常好用。

    四、只需关注一或多的数据结构,极大简化数据采集的页面结构分析

    在其他采集工具中,需要考虑不同页面不同的应对策略,如详情页、列表页、搜索页、首页等,不同页面不同的规则适配。

    在Excel催化剂的解决方案中,只需关注所需的内容归属一端还是多端,类似日常面对订单表和订单明细表的关系,一端的数据生成一行记录,多端的数据生成多行记录,任何页面规则适用,极大简化了页面匹配规则的编写。

    通过手动调节的操作,不同页面的采集工作分步进行,充分利用好Excel极度友好的操作界面,复杂事物分解操作,是解决问题的首先之道!

    下图中展示了Excel催化剂规则匹配的灵活之处,字段新增,字段类型分析,元素定位方式等,都能满足复杂的现实网页采集的需要。

    五、全新的匹配规则分解操作及提供可变的自定义函数方式提取网页片段核心信息

    在第四点的理念下,将复杂的多端或一端的大片段网页进行拆解,使最终提取的内容在相对简单的Html代码基础上进行提取,如下图中,多端的关系中,将整个列表页的一个单元的InnerHtml文本进行存储。

    使用分而治之的理念,在小片段中通过自定义函数,进行所需信息的提取。

    一整套的html的DOM对象模型的数据提取函数,整装待发,应对不种复杂的提取逻辑,相比普通的文本处理函数和正则处理方式,强大太多。

    六、无需数据导入导出的繁琐操作,所有操作在Excel中完成。

    所有的配置信息在Excel中完成,并且数据采集结果,亦可在Excel工作表中完成,单个工作表数据量高达几十万条记录,一点问题都没有。再多数据,多开工作表,数据采集、处理、分析,主战场Excel中无需更改。

    许多人还停留在Excel只能处理少量数据的认识上,Excel在新版本中,集成BI模块,轻松应对千万级数据,性能优越!跟着Excel催化剂走下去,眼界大开。

    如此强大的网页采集功能,谁人能驾驭掌握之?

    工具越强大,越需要学习成本去掌握它,Excel催化剂的网页采集功能,要想将其完整掌握并应用出它的威力,需要有基本的html网页知识,xpath表达式或CssSelector表达式知识,最好能掌握点正则表达式知识,同时兼顾有网页加载原理,网页数据抓包知识。

    上述这些能力,是每个网页采集工具能够用好的必需知识,但Excel催化剂能够将之门槛拉到最低,对其所需的掌握程度要求最低,即能驾驭住Excel催化剂的网页采集功能。

    因涉及的知识面过广,同时文字教程较为难以理解掌握,Excel催化剂会在后续同步推出网页采集功能的视频教程,在教程中将爬虫知识和插件的使用结合一起,给大家最低学习成本,产生最大化的产出收益,敬请期待。

    视频讲解知识点大纲一览,最大程度不卖弄知识,只讲最有应用价值的二八原则下最刚需实用的知识。

    如此强大的网页采集功能,如何可获取它?

    Excel催化剂的老朋友都知道,Excel催化剂曾经的承诺,个人用户全功能永久性免费使用。这样的口号一百年不变。

    作为一款每个功能都可做到极致化的优秀作品,只需您真诚地认可,并投之真心的喜爱,现在的时代是最好的时代也是最坏的时代。大量的优秀的东西免费甚至开源化,但同时也大量的垃圾信息充斥着大家的视野,以致使发现优秀的东西成为一个门槛,成为一种信息不对称。

    Excel催化剂非常愿意将沉淀多年,花费巨大精力开发完成的功能免费化,同时也呼吁关注优秀作品的你加入到传播的行列。

    转发此文到朋友圈,并附上您真诚的对此功能的点评与期待,调动您的热情,让朋友圈为您点赞,完成66个赞,即可免费获取本功能的激活码及配置文件,获得使用权。

    因视频教程成本巨高,无法免费的形式供大家观看,购买视频教程的用户,可豁免转发朋友圈积赞的门槛,直接可获得本次网页采集功能的激活码及配置文件,获得使用权。

    展开全文
  • 特性爬山虎采集器是一款全新的网页数据采集工具。作为一款工具软件,我们:放弃了花哨的界面,换之以快速流畅的体验。放弃了复杂的规则配置,开发了智能的自动提取算法。在基于浏览器的可视化操作上,同时保留了快速...
  • 网页自动操作通用工具系列软件支持从网页采集任意位置数据,并可批量采集保存为csv表格文件。 保存的csv表格文件,可以用记事本正常打开。因网页编码差异,如用excel打开出现乱码,按以下方法可以解决。CSV是...
  • 使用Excel功能抓取网页表格数据

    万次阅读 2020-10-21 18:22:40
    这上面这个表格之中,如果我采用复制,网页的表格然后粘贴在了Excel由于数据量过大,显的十分麻烦,下面我们简单介绍一个神奇当然就是Excel,注意是微软的版本,目前wps目前还没有当前这个功能。 ...
  • excel抓取网页表格数据

    万次阅读 2018-01-27 10:59:29
    采用word可以抓取网页上静态的表格(非图片),简单来讲,采用excel能显示的表格基本都能抓取,不废话,下面上实例:   1新建excel 2 准备好要抓取的页面,这里以国家统计局最新发布的一篇文章为例: 献上网址...
  • APP数据采集 / 网站页面数据采集 / 小程序数据抓取定制软件采集数据服务 【服务介绍】 对国内外APP、网站、小程序数据进行采集,并可以按照您的要求把采集好的数据整理成需要的格式(txt/excel/sql/pdf), 从事...
  • java采集网页数据。获取html文本节点 有几种办法。 第一种: 采用HttpURLConnection packagecom.yjf.util; importjava.io.BufferedReader; importjava.io.IOException; importjava.io.Inp...
  • Python网络爬虫数据采集实战:同花顺动态网页爬取

    千次阅读 多人点赞 2020-03-09 12:42:31
    之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页,获取个股相关信息。 目录 一、Ajax理论 1.Ajax简介 2.Ajax分析 3.Ajax提取 二...
  • 如何采集网页中的表格数据到Excel中1、打开excel表格2、打开菜单“数据”->入外部数据”->“ Web 查询”,在“新建 Web 查询”...6、数据导入完成即可。怎么把网页数据导入到excel表格中将网上数据导wps表格中...
  • 本地采集数据如有采到重复数据。将在点击“导出数据”后提示是否去除重复,可选将全部数据导出也可选去重后导出。本地数据在导出后不会自动清除,下次可以再次导出,或清除数据。云采集数据如有采到重复数据,将在...
  • 网页可分为信息提供和业务操作类,信息提供如新闻、股票行情之类的网站。业务操作如网上营业厅、OA之类的。当然,也有很多网站同时具有这两种性质,像微博、豆瓣、淘宝这类网站,既提供信息,也实现某些业务。普通...
  • 可以获取网页表格内的内容并保存到excel表格中
  • 1、多任务、多线程的网页数据采集; 2、支持cookie、post方式; 3、采集数据具备任务临时保存功能,保障数据采集的有效性;临时数据保持为xml文件; 4、采集数据支持导出,可导出Excel及文本文件; 5、采集任务支持...
  • 网络数据采集 ----> 爬虫(2) 练习:获取搜狐首页的新闻标题和链接 通过CSS选择器获取页面元素 首先安装pip install BeautifulSoup4 BeautifulSoup ----> select/ select_one import requests # 导入bs4 import...
  • 最近一直在做数据采集的事情,目的是使用java开发一套分析指定采集规则,模拟用户动作做数据提取。因此定义了一套动作脚本,open,click,get,list,opentab,closetab。。。java解析脚本,调用phantomjs做数据提取...
  • 蓝天采集器是一款免费的数据采集发布软件,可部署在云端服务器,几乎能采集所有类型的网页,无缝耦合各类CMS建站程序,免登陆实时发布数据,软件实现定时定量全自动采集发布,无需人工干预!是大数据、云时代网站...
  • 蓝天采集器是一款免费的数据采集发布软件,可部署在云端服务器,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登陆实时发布数据,软件实现定时定量全自动采集发布,无需人工干预!是大数据、云时代网站...
  • 前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码。之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集...
  • 前言 文的文字及图片来源于网络,仅供...pd.DataFrame(houseinfor) df.to_excel("huaibei_house.xlsx",index=False) 实现效果 最终顺利爬取数据至本地excel.很方便之后利用pandas,numpy读取,并进行数据清洗,分析统计。
  • 自动将Excel中一列数据一个一个的在指定的网页中搜索并获取相应的数据,最后自动生成一个新的Excel文档。(可看到进度条以及完成采集的预估时间)此文件为已转化的exe压缩包,若需要源代码或者更改网页之类的定制,...
  • 数据采集工具:八爪鱼

    千次阅读 2019-03-29 23:06:00
    八爪鱼是一款通用的网页数据采集器,能够采集98%的网页。 可简单快速地将网页数据转化为结构化数据,存储为EXCEL或数据库等多种形式,并且提供基于云计算的大数据云采集解决方案。 八爪鱼作...
  • 简介数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等...
  • ForeSpider数据采集系统

    千次阅读 2016-03-31 14:37:49
    前嗅ForeSpider数据采集系统是一款通用性互联网数据采集软件。软件具备全面的采集范围、精准的数据精度、绝佳的抓取性能、简易的可视化操作、智能的自动化采集,使企业能够以很少的人工成本,快速获取互联网中结构化...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,702
精华内容 1,480
关键字:

excel网页数据采集