精华内容
下载资源
问答
  • 总第64篇01|明确本次爬虫以及目的:我是想看看太原的房地产情况,包括楼盘名称、价格、所处区域、评论数(一定程度上可以反映出该楼盘受欢迎程度)。明确了目的以后就该去寻找这些数据的出处,也...


    总第64篇

    01|明确本次爬虫以及目的:


    我是想看看太原的房地产情况,包括楼盘名称、价格、所处区域、评论数(一定程度上可以反映出该楼盘受欢迎程度)。

    明确了目的以后就该去寻找这些数据的出处,也就是网站,由于太原互联网环境欠发达,所以好多房产APP上都没有太原,有的APP有,但是也只有几十家楼盘,最后在搜索的过程中锁定了房天下。这个楼盘数量还是可以的,也有我们需要的数据,所以就他了。

    02|目标网页分析:

    通过查看网页,我们知道目标数据存储在17页中,这就不是普通的静态网页爬取,这种需要翻页的数据爬取,我们一般有两种方法:一是通过修改url参数进行网页的切换,二是通过调用selenium模拟浏览器进行下一页的点击。


    上面两个截图一个是17页,一个是9页对应的url,我们发现在参数上并没有明确的规律,看来利用修改参数的方法是行不通了,只能使用selenium,在使用selenium实现的过程中,我无意间发现了事情:

    在进行元素审查时,我发现页面对应的href,即链接网站是有规律的,而且不是那么杂乱无章的,我就把href里面的对应链接粘贴到搜索框,发现真能跳转到相应的页面,看来是不需要使用selenium了,用修改参数的方法进行循环即可。

    03|数据的抓取:

    #导入常用的库
    import random
    import requests
    import pandas as pd
    from bs4 import BeautifulSoup
    
    #建立a,b,c,d四个空列表用来存放一会抓取到的数据
    a_name=[]
    b_adress=[]
    c_price=[]
    d_comment_value=[]
    
    #开始url参数循环,即网页的循环
    for i in range(1,18):
        url="http://newhouse.taiyuan.fang.com/house/s/b9"+str(i)+"/"
        html=requests.get(url)
        html.encoding="GBK"#解决中文乱码问题
        soup = BeautifulSoup(html.text, 'lxml')#使用lxml解析方式
        
        #开始抓取楼盘名称的循环
        first=soup. find_all(class_='nlcd_name')#抓取class属性为=“nlcd_name”对应的内容
        for name in first:#依次取出first里面的每一条内容
            name1=name.find_all("a")#把从first里面取出来的内容进行再次查找其中a标签的内容
            for name2 in name1:#依次取出name1里面的每一条内容name2
                a_name.append(name2.get_text().strip())#通过get_text()获取name2的内容,并添加到a_name列表里面。
         print (i,len(a_name))#打印出每一次循环以后a_name列表的长度,每一次循环对应一页的内容,该长度代表每一页抓取到的数量
        
         #开始抓取楼盘地处区域的循环
         Adress=soup. find_all(class_="address")     
         for adress in Adress:        
             for adress1 in adress.select("a"):#通过select选择器选择adress里面的a标签。
                 b_adress.append(adress1.text.strip()[0:5].strip())     print (i,len(b_adress))   
        
         #开始抓取楼盘价格的循环,循环注释与前面类似
         Price=soup. find_all(class_="nhouse_price")     
         for price in Price:         
             for price1 in price.select("span"):
                 c_price.append(price1.get_text())             
         print (i,len(c_price))    
         
         #开始抓取楼盘对应评论数量的循环,循环注释与前面类似
         value_num=soup. find_all(class_='value_num')     
         for num1 in value_num:
            d_comment_value.append(num1.get_text()[1:-4]) 
         print (i,len(d_comment_value))
    页数获取数据个数
    120
    120
    119
    120
    ————
    9180
    9180
    9179
    9178
    ————
    9180
    9180
    9179
    9178
    ————
    17334
    17334
    17330
    17328

    上述表格为部分页数对应的数据个数,按理来说,每一页不同的指标之间的个数是相同的,而实际是不同的,说明每一页抓取到的个别指标有缺失。我们具体去看看有缺失的页数。

    通过观察发现,第一页中确实有一个楼盘的价格缺失。我们需要对缺失值进行填充处理。因为必须保证楼盘、区域、价格、评论数一一对应,所以我们采取向指定的确实位置插入值。

    #向c_price列表中指定位置插入值c_price.insert(0,"价格待定")
    c_price.insert(252,"价格待定")
    c_price.insert(253,"价格待定")
    c_price.insert(254,"价格待定")
    
    #向d_comment_value列表中指定位置插入值
    d_comment_value.insert(167,"0")
    d_comment_value.insert(174,"0")
    d_comment_value.insert(259,"0")
    d_comment_value.insert(260,"0")
    d_comment_value.insert(316,"0")
    d_comment_value.insert(317,"0")

    04|数据分析:

    DataFrame表生成

    data={"name":a_name,"adress":b_adress,"price":c_price,"comment_num":d_comment_value}#生成字典
    house=pd.DataFrame(data)#创建DataFrame对象
    house.head(5)

    数据预处理

    #值替换,将汉字替换成拼音便于后续处理
    house.replace(["[万柏林]","[小店]","[尖草坪]","[晋源]"],
                  ["wanbailin","xiaodian","jiancaoping","jinyuan"],inplace=True)
    house.replace(["[杏花岭]","[迎泽]"],
                  ["xinghualing","yingze"],inplace=True)
    house.replace(["[榆次]","晋中","[阳曲]","马来西亚柔"],"other",inplace=True)
    house.replace("价格待定",0,inplace=True)
    
    #值类型转换,便于进行数值运算
    house.comment_num=house.comment_num.astype(int)
    house.price=house.price.astype(float)

    数据分析

    adress分析

    house.groupby("adress").count()["name"]/334*100#将数据按楼盘所处位置进行分组#绘制各地区楼盘占比的饼图
    labels = 'xiao_dian', 'wan_bai_lin','xing_hua_ling', 'jian_cao_ping', 'ying_ze','jin_yuan','other'
    sizes = [34.73, 20.96, 10.78, 8.98,8.98,8.68,6.89]
    colors = ['yellowgreen', 'gold', 'lightskyblue', 'lightcoral','red','pink','blue']
    plt.pie(sizes,labels=labels,colors=colors,
            autopct='%1.1f%%', shadow=True, startangle=90)

    代号地区
    xiao_dian小店区
    wan_bai_lin万柏林区
    xing_hua_ling杏花岭区
    jian_cao_ping尖草坪区
    ying_ze迎泽区
    jin_yuan晋源区
    other清徐、古交、娄烦


    通过数据可以发现,小店区的楼盘数量占比最多为34.7%,其次依次为:万柏林区、杏花岭区、尖草坪区、迎泽区、晋源区、其他

    comment_num分析

    house.sort_index(by="comment_num",ascending=False).head(10)#按评论数进行排序,挑选出评论数前十的楼盘

    评论数量一定程度上可以说明该楼盘的受欢迎程度,上图表为太原市热评前十的楼盘。

    price分析

    house.sort_index(by="price",ascending=False).head(10)#按价格进行排序,挑选出价格前十的楼盘

    (太原市价格排名前十的楼盘)

    house.sort_index(by="price",ascending=False)[:196].price.mean()#计算价格均值
    house.sort_index(by="price",ascending=False)[:196].price.std()#计算价格的标准差
    new_price=house.sort_index(by="price",ascending=False)[:196].price
    bins=[0,6000,7000,8000,9000,10000,2000000]
    cats=pd.cut(new_price,bins)
    price_cut=pd.value_counts(cats)
    price_cut.plot(kind="bar",color="grey")
    plt.xlabel('price')
    plt.ylabel('num')

    通过计算结果可得:

    • 太原市楼盘的均价为:10592元/平方米。

    • 太原市楼盘的标准差为:9876元。

    • 太原市的楼盘中价格大于10000的楼盘数量最多,其次是(8000-9000),楼盘数量最少对应的价格是(9000-10000)。

    • 太原市楼盘中价格最高的为恒大滨河左岸,一平米价格为12.5万,真实大开眼界,太原还有这么贵的楼盘哈。


    展开全文
  • 由于论文需要,想要爬取房天下的二手房,于是修改简书上竹间为简的租房代码进行爬取。 修改后的代码为 ``` from bs4 import BeautifulSoup import urllib import gzip import inspect import re ...
  • 乐行天下激光雷达数据口测试

    千次阅读 2016-11-11 16:04:02
    乐行天下激光雷达各个数据口测试说明,以便于发现和排查问题。

    乐行天下激光雷达各个数据口测试说明,以便于发现和排查问题。

    准备工具:乐行天下激光雷达一只,micro usb 线一条,usb转串口模块至少一只。

    雷达示意图:


    具体电路图我就不去对应了。这里我们约定。几个口从上到下依次是

            --> 雷达串口

            --> 底盘串口

            --> 虚拟串口(在android系统下同时也是usb otg,linux系统下暂时未测试)

            --> 调试串口

            --> HDMI显示接口

            --> USB HOST

     

    我们取发现雷达问题主要是排查这三个口的数据是否正常。


    雷达串口检验:

        雷达串口检验主要是检验是否有雷达数据输出,这个口在套件中是没什么用处的,和算法版按照官方的说法是有冲突的,也就是说,在测试雷达串口的时候应当抠掉算法板(当然,我一般测试是不扣掉的,这样似乎没啥大问提,由于算法版和雷达这边是四根小针连接的,扣来扣去也不好)。在这里,我建议测试的时候还是带上算法板先测试,没得到数据的情况下再扣掉算法板测试,这样既可以发现问题也可以有效的保护雷达。

        至于检测,插上串口线,拨动雷达,雷达每转一圈将会有千把个字节输出。一下是我测试雷达串口的截图。


    看到上面的数据,证明雷达输出数据是没问题的。

    如果要进一步测试雷达数据的准确性,那就要使用乐行的专门测试雷达数据的上位机了。当然也可以使用本人提供的山寨版上位机。界面有点丑,望轻喷。

     

    底盘串口检验:

            底盘串口检验是检验和底盘的数据交互。这个也很好检验,正常情况下,这款雷达运行起来之后,底盘会以一定频率向算法板上传状态数据,同时,算法版会以一定的频率向底盘发送速度控制,所以只要验证两者的数据即可。

            但是,要说明的是,算法板对底盘的控制只在底盘上报了至少一帧完整的数据之后才会进行。那么问题来了,我们并没有底盘或者不自信自己的底盘一定能够和算法板通信的情况下怎么去验证呢?

            其实这里的解决办法也很简单,我们使用我给出来的一帧完整数据包用串口调试助手发下去,两边如果通讯正常,那就会在串口调试助手中以一定频率收到很多来自算法板的控制数据。测试帧如下:

    AA  AA  12  83  00  00  2A  00  00  00  FF  FF  FF  FF  FF  FF  FF  FF  FF  FF  FF  FF  FF  FF  FF  FF  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  00  AF  55  55

            将串口线插到底盘串口上,发送模拟的底盘状态数据上传,串口调试助手的输出如下:


     

    有上面的输出,便可以说明底盘和算法版的输出也是没有什么问题的。

     

    虚拟串口检验:

    虚拟串口在产品的设计中是直接和上位机相连接的,随谈提供了网络接口连接,但网络接口事实上更多的作为一个调试工具,方便开发人员开发。

    至于虚拟串口的检验,标准就严格了点。

    目前有两种方式:

    1、使用android设备(自己定制过系统和驱动,一般的手机恐怕是不行的),这个android设备要有对虚拟串口的支持,在我们的雷达设备接入到主机android系统之后,在主机android系统的/dev/目录会产生一个ttyACMX节点,通过android demo可以使用串口的方式打开通讯。如果连接成功并收到了诸如地图数据,雷达数据则表明通讯成功。再此不做截图,和手机通过wifi相连的结果是一致的。只是打开方式不一样。通过android上位机无论是wifi方式还是串口凡是均能检测雷达数据是否正常。

    2、使用windows上位机,这个上位机有点简陋,但是各种功能还是都有的。要着重说明的是,虚拟串口只在win10设备下才有的支持,低于win10的系统将不能正确的识别出来此设备。将设备插入到win10系统后,将会有产生一个类似下图的设备


    也就是一个串口设备,使用串口调试助手打开这个设备肯定是可以受到数据的。在这里我们不做说明,直接使用windows调试上位机来看结果。


    勾掉USE_TCP之后输入串口号就可以链接了。红色点点代表雷达数据,此上位机同时也可以用来检测雷达输出是否正常。

    关于此windows上位机。将会以附件的形式长传,不出意外只能在win10系统下运行。


    如有疑问可以联系作者:小康 

    联系邮箱459502076@qq.com

    展开全文
  • Python: 房天下小区数据爬取

    千次阅读 2019-09-20 12:02:16
    前言:之前是写了链家的爬虫,但是实际看下来数据质量不是特别好,所以想把房天下的小区数据也爬下来看看怎么样,但是实际爬取中,发现房天下的反爬技术要稍高一点,目前碰到的有: 1、自动检测ip地址,在正常网页中...

    前言:之前是写了链家的爬虫,但是实际看下来数据质量不是特别好,所以想把房天下的小区数据也爬下来看看怎么样,但是实际爬取中,发现房天下的反爬技术要稍高一点,目前碰到的有:
    1、自动检测ip地址,在正常网页中会跳转到新地址,request没办法,不过可以解析新地址并返回后重新连接,问题不大;
    2、不同页面的布局也会不一样,这个目前没有好的解决办法,我目前是用try except来判断;
    3、如果速度太快的话会ban ip,这个通过分布式爬虫或者自动换ip可以解决,不过我这次的代码里还没改;

    import requests
    from bs4 import BeautifulSoup
    import re
    import openpyxl
    from math import radians, cos, sin, asin, sqrt
    import pandas as pd
    import numpy as np
    import json
    import math
    from urllib.request import urlopen, quote
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
        'cookie': 'global_cookie=ndhzo4i3v9myct7aqau6zp6si10k0ncoeps; __utmz=147393320.1568695301.1.1.utmcsr=shbbs.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/esf~-1/538150834_538150842.htm; __utma=147393320.1476417876.1568695301.1568695301.1568771948.2; __utmc=147393320; Captcha=434D58793841766F7637624862786B682B684D4B454431767946477634343578436B6978474361474C45335739576D5139355553557463676C6150554F45377962612B456F624974536F383D; newhouse_user_guid=35B671E8-BF35-888C-AC78-ED09FB6489C8; newhouse_chat_guid=3262F18D-7EFB-AE4D-CC6E-D47888369019; g_sourcepage=esf_xq%5Elb_pc; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; unique_cookie=U_7eu0ocfmua6k7nyn858kd6mb727k0omb896*20; __utmb=147393320.60.10.1568771948'
    }
    
    '''第一步:爬取小区信息'''
    def export_communityInfo(xiaoquInfo_dict):
        '''导出小区信息'''
        with open('浦东地区小区信息.txt', 'a', encoding='utf-8') as file:
            file.write('||'.join(xiaoquInfo_dict.values()))
            file.write('\n')
    
    def get_true_url(old_url):
        '''获得正确的url'''
        # print(old_url)
        r = requests.get(url=old_url, headers=headers)
        if r'<title>跳转...</title>' in r.text:
            soup = BeautifulSoup(r.text, 'lxml')
            new_url = soup.find(name='a', attrs={'class': 'btn-redir'}).attrs['href']
            return new_url
        return old_url
    
    # print(get_true_url('https://liananxilu35nong.fang.com'))
    
    def get_region_dict():
        '''获得浦东地区不同区域的url和名称,以字典形式输出'''
        url = r"https://sh.esf.fang.com/housing/25__0_0_0_0_1_0_0_0/"
        true_url = get_true_url(url)
        r = requests.get(url=true_url, headers=headers)
        soup = BeautifulSoup(r.text, 'lxml')
        a = soup.find(name='p', attrs={'id': 'shangQuancontain', 'class': 'contain'})
        pudong_dict = {}
        for i in a.find_all(name='a'):
            if i.string != '不限':
                pudong_dict[i.string] = r"https://sh.esf.fang.com" + i.attrs['href']
        return pudong_dict
    
    def get_region_url(old_url):
        '''获得这个区域的其它page_url'''
        # url = r'https://sh.esf.fang.com/housing/25_1646_0_0_0_0_1_0_0_0/'
        true_url = get_true_url(old_url)
        r = requests.get(url=true_url, headers=headers)
        soup = BeautifulSoup(r.text, 'lxml')
        page_url = soup.find(name='div', attrs={'class': 'fanye gray6'})
        page_url_list = []
        page_url_list.append(old_url)
        for j in page_url.find_all(name='a'):
            if 'href' in j.attrs:
                temp_url = r'https://sh.esf.fang.com/' + j.attrs['href'][1:]
                page_url_list.append(temp_url)
        page_urls = set(page_url_list)
        return page_urls
    
    def get_xiaoqu_url(old_url):
        '''获得某区域某一页的小区信息和url'''
        # old_url = r'https://sh.esf.fang.com/housing/25_5920_0_0_0_0_1_0_0_0/'
        true_url = get_true_url(old_url)
        r = requests.get(url=true_url, headers=headers)
        soup = BeautifulSoup(r.text, 'lxml')
        xiaoqu_url_dict = {}
        for i in soup.find_all(name='a', attrs={'class': 'plotTit', 'target': '_blank'}):
            xiaoqu_name = i.string
            xiaoqu_url = 'https:/' + i.attrs['href'][1:]
            xiaoqu_url_dict[xiaoqu_name] = xiaoqu_url
            # print('{}的url是{}'.format(xiaoqu_name, xiaoqu_url))
        return xiaoqu_url_dict
    
    def get_xiaoqu_info(key, xiaoqu_name, old_url):
        '''获得小区的有用信息'''
        useful_dict = {'地区': '', '小区名称': '', '均价': '', '建筑年代': '', '建筑类型': '', '房屋总数': '', '小区位置': '', '楼栋总数': '', '物业公司': '', '开发商': ''}
        # old_url = r'https://jinqinyuan.fang.com/'
        try:
            true_url = get_true_url(old_url)
            r = requests.get(url=true_url, headers=headers)
            r.encoding = 'gb2312'
            soup = BeautifulSoup(r.text, 'lxml')
            xiaoqu_price = soup.find(name='span', attrs={'class': 'prib'}).string
            useful_dict['地区'] = key
            useful_dict['小区名称'] = xiaoqu_name
            if xiaoqu_price == '暂无均价':
                print('{}无均价数据'.format(xiaoqu_name))
                return 0
            useful_dict['均价'] = xiaoqu_price
            xiaoqu_info = soup.find(name='div', attrs={'class': 'Rinfolist'})
            for info in xiaoqu_info.select('li'):
                info = str(info)
                if re.search('''<li.*?b>(.*?)<.*?/b>(.*?)</.*?''', info):
                    infos = re.search('''<li.*?b>(.*?)<.*?/b>(.*?)</.*?''', info)
                    temp_key = infos.group(1)
                    temp_value = infos.group(2)
                    if temp_key in useful_dict.keys():
                        useful_dict[temp_key] = temp_value
            print('{}的信息已爬取'.format(xiaoqu_name))
            return useful_dict
        except:
            return 0
    
    def xiaoqu_pachong():
        '''获取所有小区名字和链接'''
        # 首先获取浦东地区所有区域的名称和url,比如:惠南: url1
        pudong_dict = get_region_dict()
        # print(pudong_dict)
        #遍历每个分区
        for key, value in pudong_dict.items():
            print('开始{}的爬取:'.format(key))
            region_urls = get_region_url(value) #先获得每个分区的所有子url
            for page_url in region_urls:
                xiaoqu_url_dict = get_xiaoqu_url(page_url) #获得每个页面的所有小区名称和url
                for xiaoqu_name, xiaoqu_url in xiaoqu_url_dict.items():
                    # print(xiaoqu_name, xiaoqu_url)
                    useful_dict = get_xiaoqu_info(key, xiaoqu_name, xiaoqu_url)
                    if useful_dict:
                        export_communityInfo(useful_dict)
            print('{}已爬取完毕'.format(key))
            print('--------------------------------------------------------------------')
    
    xiaoqu_pachong()
    
    展开全文
  • 本示例主要用到requests库和bs4库,requests库用来获取网页内容,bs4库则是解析网页内容,获取有用数据。 代码中url可切换当地房天下网址。 # -*- coding:utf-8 -*- # author:zhoulong ''' 房天下天水新房信息 ''...

    最近想熟悉一下爬虫,所以记录实战爬虫,首先以此为开篇。

    本示例主要用到requests库bs4库requests库用来获取网页内容,bs4库则是解析网页内容,获取有用数据。

    代码中url可切换当地房天下网址

    # -*- coding:utf-8 -*-
    # author:zhoulong
    '''
    房天下天水新房信息
    '''
    import requests
    from bs4 import BeautifulSoup
    import numpy as np
    import re
    URL = 'http://newhouse.tianshui.fang.com/house/s/b91/'
    HTML = requests.get(URL)
    SOUP = BeautifulSoup(HTML.content, 'html.parser', from_encoding='gb18030')
    last_page = SOUP.select('.last')
    page_number = int(last_page[0]['href'].split('/')[3].split('9')[1])#根据尾页划分页码
    url_demo = 'http://newhouse.tianshui.fang.com/house/s/b9{}/'#i+1,name.text.strip(),
    #房价价格
    house_price_list=[]
    for i in range(1,(page_number+1)):
        url = url_demo.format(i)
        html = requests.get(url)
        soup = BeautifulSoup(html.content,'html.parser',from_encoding='gb18030')
        names = soup.select('.nlcd_name a')#class定位组合查找
        adresses = soup.select('.address a')#查找地址
        all_type = soup.findAll(name="span", attrs={"class": re.compile(r"forSale|inSale|outSale|zusale|zushou")})#出售
        all_money = soup.findAll(name="div", attrs={"class": re.compile(r"nhouse_price|kanesf")})#价格
        for i,name in enumerate(names):
            print(i+1,' name:'+name.text.strip(),'  address:'+''.join(re.split(r'\s+', adresses[i].text.replace('\n','').replace('',''))),
                  all_type[i].text,' house_price: '+all_money[i].text.replace('\n',''))
            house_price_list.append(re.findall('\d+',all_money[i].text.replace('\n','')))
    house_price_list=[int(i[0]) for i in house_price_list if i]
    print('*'*80)
    print('* '+' 房价均价:'+str(np.mean(house_price_list))+' '*60+'*')
    print('* '+' 房价最高价:'+str(np.max(house_price_list))+' '*60+'*')
    print('* '+' 房价最低价:'+str(np.min(house_price_list))+' '*61+'*')
    print('*'*80)

    展开全文
  • java 爬取房天下房源数据

    千次阅读 2016-12-26 11:09:42
    笔者说明~~~!!!... 一、分析页面,确定需要爬取数据  如下图页面,每一页的url需要得到,同时需要得到该房源详细信息以及对应经纪人信息   二、由此创建如下类: /** * 房源信息 * @autho
  • 本次通过爬取房天下中烟台二手房房价数据,使用线性回归进行简单预测。 具体代码如下: 1.从房天下爬取烟台二手房数据信息 from selenium import webdriver from bs4 import BeautifulSoup from selenium.webdriver....
  • Python爬虫获取“房天下“房价数据(上)

    千次阅读 多人点赞 2021-01-28 15:24:00
    上期博客我们通过Python爬虫获取了京东商城的手机价格及其详细配置数据, 这期我们试着通过爬虫在房天下(房天下乌鲁木齐网址)上获取乌鲁木齐的二手房信息, 同时利用之前已经测试过的坐标查询代码来获得每一个二手房的...
  • 上期文章讲到了通过requests、BeautifulSoup库搭建简单的爬虫来获取“房天下”的基础房价数据. 如果你没有看上期, 请务必先阅读上期内容(传送门), 基础房价数据中我们只获取到了[“户型”, “面积”, “楼层”, ...
  • 利用Python Scrapy框架爬取“房天下”网站房源数据

    千次阅读 热门讨论 2019-06-19 12:50:19
    “房天下”网站首页 由于数据量较大,本次只获取如下图热门城市房源数据 点击上图中的热门城市入口会进入该城市的首页,该网页下存放着新房、二手房以及租房的url链接。 以上海为例:url=https://sh.fang.com/ : ...
  • phantomjs 抓天下三藏宝阁数据

    千次阅读 2018-07-29 16:13:05
    var page = require('webpage').create(); page.viewportSize = {width: 1200,height: 1500}; page.settings.userAgent='Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:48.0) Gecko/20100101 Firefox/48.0';...
  • Selenium+Python爬取房天下二手房数据

    千次阅读 2018-11-16 12:07:49
    #保存爬取数据 def save_file(title,data_div): path='E:/fcwdata1' if os.path.exists(path): pass else: os.mkdir(path) path_file_name =str(path +'/'+ title + '.csv') file=pd.DataFrame(data_div,...
  • Python:利用python编程将上海十六区,2020年5月份房价实时地图(数据来源房天下)进行柱状图、热图可视化 目录 上海十六区,2020年5月份房价实时地图(数据来源房天下)可视化 雷达图、柱状图可视化 热图可视化...
  • 打开房天下数据表,其中包括了房天下网站从2009年1月到2010年12月的各大城市房屋销售数据。 要求: 使用所学知识,使用EXCEL数据透视表功能,从数据源中筛选出2009年第2季度北上广三个城市的销售数量总和,将结果...
  • 大数据时代,没有做不到的只有想不到的,我们利用数据挖掘分析顾客消费行为开启智能化个性化服务、我们通过大数据分析出更深层次的问题,并预测未来……大数据彻彻底底改变了商业模式、政府治理和社会的运转。...
  • 数据治理系列2:元数据管理—企业数据治理的基础

    万次阅读 多人点赞 2019-05-13 20:11:04
    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统...
  • 前几年大数据时代到来的时候,大家都说“得数据者得天下”。去年,微软的沈向洋博士曾经说过“懂语言者得天下”。而我曾经论述过,机器要懂语言,背景知识不可或缺。因此,在这个意义下,将是“ 得知识者得天下 ”。...
  • scrapy-redis,手机网页,房天下租房信息,分布式,代理ip
  • 浅谈数据监控&数据分析

    千次阅读 2019-07-12 17:21:06
    从广义来讲,数据是反映产品和用户状态最真实的一种方式,通过数据指导运营决策、驱动业务增长。数据可分为2种情况:数据监控和数据分析。 什么是数据监控? 数据监控是及时、有效的反馈出数据异常的一种手段,通过...
  • 数据挖掘与数据建模步骤

    千次阅读 2014-11-14 15:20:24
    数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下...
  • 这两年的大数据热潮带火了数据分析这个职业,很多人想转行干数据分析,但是又不知道现在这个行业的求职环境和前景如何,动了心却不敢贸然行动。 前两天有个干运营的妹子找我聊天,也是问我数据分析岗位前景的问题,...
  • 饭不食,水不饮,题必须刷 还不会C语言,和我一起打卡! 《光天化日学C语言》 LeetCode 太难?... } ( 1 ) (1) (1) 由于这题数据量较大,所有数据都需要用64位无符号整型。ull作为unsigned long long的别名; ( 2 ) (2...
  • # 散点数据 genPoint  pdataldata$Value,"up","down")),Value=array(ldata$ma20))  pdata }
  • 认识数据地图

    千次阅读 2012-01-16 20:53:06
    认识数据地图 话说当年,刘备带着兄弟出来打天下,屡战屡败。后经高人指点,放下皇叔身段,三顾茅庐请诸葛亮出山。诸葛亮拿出一幅早已准备好的地图挂到墙上,指点江山,侃侃而谈,从北方到江东,从荆州到益州,再到...
  • 案例上手 Python 数据可视化

    万次阅读 多人点赞 2019-02-27 23:30:05
    课程亮点 ...数据可视化是数据分析和机器学习的重要环节,比如数据清洗、特征工程、机器学习、数据分析(特别是报告)、评估等环节都会用到“数据可视化”技术。 数据可视化同时还广泛存在于各...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 70,528
精华内容 28,211
关键字:

天下数据