精华内容
下载资源
问答
  • 从网页抓取数据的一般方法 首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的...
    从网页抓取数据的一般方法  
    <script src="http://blog.csdn.net/count.aspx?ID=1996163&Type=Rank" type="text/javascript"></script>
    

    首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。

    httplook和httpwacth网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个比较好用。这两个工具可以到我上传在csdn的资源中下载,地址为

    http://download.csdn.net/user/jinjazz

    这里简单给出一段可以抓取数据的c#代码,比如登录某个网站,获取登录成功后的html代码,供数据分析使用。

    private void login()
            
    {
                System.Net.WebClient wb 
    = new System.Net.WebClient();

                System.Collections.Specialized.NameValueCollection header 
    = new System.Collections.Specialized.NameValueCollection();
                header.Add(
    "Cookie""czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd");
                header.Add(
    "Referer"@"http://www.test_by_jinjazz.com.cn/bbs/login.php");
                wb.Headers.Add(header);
                System.Collections.Specialized.NameValueCollection data 
    = new System.Collections.Specialized.NameValueCollection();
                data.Add(
    "formhash""ebd2faac");
                data.Add(
    "referer""http://www.test_by_jinjazz.com.cn/bbs/search.php");
                data.Add(
    "loginfield""username");
                data.Add(
    "username""jinjazz");
                data.Add(
    "password""999");
                data.Add(
    "questionid""0");
                data.Add(
    "answer""");
                data.Add(
    "cookietime""2592000");
                data.Add(
    "loginmode""");
                data.Add(
    "styleid""");
                data.Add(
    "loginsubmit""提交");

                
    byte[] b = wb.UploadValues("http://www.test_by_jinjazz.com.cn/bbs/login.php""Post", data);
                
    string strData = System.Text.Encoding.Default.GetString(b);
                Console.WriteLine(strData);
            }

    以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。 

    展开全文
  • 首先要了解对方网页的运行机制,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂。这里就不再介绍了。主要关注内容是header和post内容。一般会包括cookie,...

    首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。

    httplook和httpwacth 网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个比较好用。这两个工具可以到我上传在csdn的资源中下载,地址为

    http://download.csdn.net/user/jinjazz

    这里简单给出一段可以抓取数据的c#代码,比如登录某个网站,获取登录成功后的html代码,供数据分析使用。

    private   void  login()
              {
                 System.Net.WebClient wb  =   new  System.Net.WebClient();
     
                 System.Collections.Specialized.NameValueCollection header  =   new  System.Collections.Specialized.NameValueCollection();
                 header.Add( " Cookie " ,  " czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd " );
                 header.Add( " Referer " ,  @" http://hovertree.net/bbs/login.php " );
                 wb.Headers.Add(header);
                 System.Collections.Specialized.NameValueCollection data  =   new  System.Collections.Specialized.NameValueCollection();
                 data.Add( " formhash " ,  " ebd2faac " );
                 data.Add( " referer " ,  " http://hovertree.net/bbs/search.php " );
                 data.Add( " loginfield " ,  " username " );
                 data.Add( " username " ,  " jinjazz " );
                 data.Add( " password " ,  " 999 " );
                 data.Add( " questionid " ,  " 0 " );
                 data.Add( " answer " ,  "" );
                 data.Add( " cookietime " ,  " 2592000 " );
                 data.Add( " loginmode " ,  "" );
                 data.Add( " styleid " ,  "" );
                 data.Add( " loginsubmit " ,  " 提交 " );
     
                  byte [] b  =  wb.UploadValues( " http://hovertree.net/bbs/login.php " ,  " Post " , data);
                  string  strData  =  System.Text.Encoding.Default.GetString(b);
                 Console.WriteLine(strData);
             }

    以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。

    转载于:https://www.cnblogs.com/roucheng/p/csharpfetch.html

    展开全文
  • 转]从网页抓取数据的一般方法Submitted by 浪淘沙 on 2007, December 28, 11:14 AM. asp.net原文地址:http://blog.csdn.net/jinjazz/archive/2007/12/28/1996163.aspx 首先要了解对方网页的运行机制 ,这可以用...
    转]从网页抓取数据的一般方法
    
    

    原文地址:http://blog.csdn.net/jinjazz/archive/2007/12/28/1996163.aspx

     

    首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。

    httplook和httpwacth网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个比较好用。这两个工具可以到我上传在csdn的资源中下载,地址为

    http://download.csdn.net/user/jinjazz

    这里简单给出一段可以抓取数据的c#代码,比如登录某个网站,获取登录成功后的html代码,供数据分析使用。

    private void login()
            
    {
                System.Net.WebClient wb 
    = new System.Net.WebClient();

                System.Collections.Specialized.NameValueCollection header 
    = new System.Collections.Specialized.NameValueCollection();
                header.Add(
    "Cookie""czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd");
                header.Add(
    "Referer"@"http://www.test_by_jinjazz.com.cn/bbs/login.php");
                wb.Headers.Add(header);
                System.Collections.Specialized.NameValueCollection data 
    = new System.Collections.Specialized.NameValueCollection();
                data.Add(
    "formhash""ebd2faac");
                data.Add(
    "referer""http://www.test_by_jinjazz.com.cn/bbs/search.php");
                data.Add(
    "loginfield""username");
                data.Add(
    "username""jinjazz");
                data.Add(
    "password""999");
                data.Add(
    "questionid""0");
                data.Add(
    "answer""");
                data.Add(
    "cookietime""2592000");
                data.Add(
    "loginmode""");
                data.Add(
    "styleid""");
                data.Add(
    "loginsubmit""提交");

                
    byte[] b = wb.UploadValues("http://www.test_by_jinjazz.com.cn/bbs/login.php""Post", data);
                
    string strData = System.Text.Encoding.Default.GetString(b);
                Console.WriteLine(strData);
            }

    以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。

     
    展开全文
  • 首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂。这里就不再介绍了。主要关注内容是header和post内容。一般会包括cookie,...
     

    首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。

    httplook和httpwacth网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个比较好用。这两个工具可以到我上传在csdn的资源中下载,地址为

    http://download.csdn.net/user/jinjazz

    这里简单给出一段可以抓取数据的c#代码,比如登录某个网站,获取登录成功后的html代码,供数据分析使用。

    private voidlogin()
            
    {
                 System.Net.WebClient wb
    = newSystem.Net.WebClient();

                 System.Collections.Specialized.NameValueCollection header
    = new System.Collections.Specialized.NameValueCollection();
                 header.Add(
    " Cookie " , "czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd" );
                 header.Add(
    " Referer " , @"http://www.test_by_jinjazz.com.cn/bbs/login.php" );
                 wb.Headers.Add(header);
                 System.Collections.Specialized.NameValueCollection data
    = new System.Collections.Specialized.NameValueCollection();
                 data.Add(
    " formhash " , "ebd2faac " );
                 data.Add(
    " referer " , "http://www.test_by_jinjazz.com.cn/bbs/search.php" );
                 data.Add(
    " loginfield" , "username " );
                 data.Add(
    " username " , "jinjazz " );
                 data.Add(
    " password " , "999 " );
                 data.Add(
    " questionid" , "0 " );
                 data.Add(
    " answer " , "");
                 data.Add(
    " cookietime" , "2592000 " );
                 data.Add(
    " loginmode" , "");
                 data.Add(
    " styleid " , "");
                 data.Add(
    " loginsubmit" , "提交 " );

                
    byte [] b = wb.UploadValues(" http://www.test_by_jinjazz.com.cn/bbs/login.php" , "Post ", data);
                
    string strData= System.Text.Encoding.Default.GetString(b);
                 Console.WriteLine(strData);
             }

    以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。

     

    展开全文
  • 本节书摘来自华章社区《Clojure数据分析秘笈》一书中第1章,第1.9节从网页抓取文本数据,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.9 从网页抓取文本数据网页中...
  • 介绍:所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,...
  • 我希望能够从网页上, 比如气象局数据, 财经数据等等, 我看到官方提供的数据都比较混乱, 有是一个php文件, 有是一个文本, 有干脆不提供数据, 我想问, Mac上, 用什么工具去抓数据, 以及处理这些数据大神们一般用...
  • 最近由于学习内容要求,需要从网页抓取一些数据来做分析报告,在看了python爬虫一些基础知识之后就直接上手去网站上爬数据了。作为新手踩坑是无法避免,最近就遇到了一个比较难问题: 一般情况下,要抓去...
  • 抓取网页数据的思路有好多种,一般有:直接代码请求http、模拟浏览器请求数据(通常需要登录验证)、控制浏览器实现数据抓取等。这篇不考虑复杂情况,放一个读取简单网页数据的小例子: 目标数据 将ittf网站上这个...
  • 抓取第三方网站数据

    千次阅读 2016-02-06 22:36:33
    最近需要把某网站统计数据聚合到我们...另一种前端是静态页面,通过ajax到后台取数据后端渲染这种网页抓取起来比较麻烦,因为结构不标准,需要DOM里把需要的数据抠出来。node平台我推荐使用cheerio,API类似jque
  • 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,...
  • 今天是第二天,花了很多时间去搜索网页爬虫资料,具体有几种方法,要考虑到不同的网页抓取有不同的方法一般的方法有requests,下面话一种方法是使用bs4BeautifulSoup,另外一种方法需要找到我们要爬取...
  • @[toc]Scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。...抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是当前页面获取到这些URL...
  • Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。...抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是当前页面获取到这些URL加
  • scrapy框架爬取京东商城商品评论

    千次阅读 2017-04-12 10:27:22
    一、Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。...抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是当前页面获取到这些URL加

空空如也

空空如也

1 2 3 4 5
收藏数 94
精华内容 37
关键字:

从网页抓取数据的一般方法