精华内容
下载资源
问答
  • 企查查爬虫

    2020-07-17 14:10:45
    企查查网站爬取 输入数据为企业名称的csv文件,输出为对应企业的名称、资金、地址、专利、范围、行业范围、股东、软著等信息的csv文件 # -*- coding: utf-8 -*- from selenium import webdriver import time import ...

    企查查网站爬取

    输入数据为企业名称的csv文件,输出为对应企业的名称、资金、地址、专利、范围、行业范围、股东、软著等信息的csv文件

    # -*- coding: utf-8 -*-
    from selenium import webdriver
    import time
    import sys,os
    import imp
    import csv
    import pandas as pd
    import re
    from PIL import Image
    from time import sleep
    from io import BytesIO
    from selenium.webdriver.common.action_chains import ActionChains
    import time,random
    imp.reload(sys)
    options = webdriver.ChromeOptions()
    options.add_experimental_option("excludeSwitches", ["enable-automation"])
    options.add_experimental_option('useAutomationExtension', False)
    driver = webdriver.Chrome(options=options)
    driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
      "source": """
        Object.defineProperty(navigator, 'webdriver', {
          get: () => undefined
        })
      """
    })
    driver.get('https://www.qichacha.com/user_login')
    def qichacha(inc_list,outputfile,city,username,password) :
            tag = driver.find_element_by_xpath('//*[@id="normalLogin"]')  #登录
            tag.click()
            tag = driver.find_element_by_xpath('//*[@class="btn-weibo m-l-xs"]') #微博登录
            tag.click()       
            # 将用户名、密码注入
            driver.find_element_by_id('userId').send_keys(username)  #账号
            driver.find_element_by_id('passwd').send_keys(password)  #密码
            time.sleep(3)  # 休眠,人工完成验证步骤,等待程序单击“登录”
            btn = driver.find_element_by_xpath('//*[@id="outer"]/div/div[2]/form/div/div[2]/div/p/a[1]').click()  # 微博二维码扫描登录
            time.sleep(5) 
            count = 0
    #################################################
            for i in range(len(inc_list)):
                fid = inc_list["FID"][i]
                txt = inc_list["name"][i]
                if city in txt:
                    txts = txt
                else:
                    txts = city+txt
                time.sleep(2)
                try:
                    if i==0:
                        driver.find_element_by_id('searchkey').send_keys(txts)  #向搜索框注入文字
                        srh_btn = driver.find_element_by_xpath('//*[@id="indexSearchForm"]/div/span/input').click()    #单击搜索按钮
                    else:
                        try:
                            clear_btn = driver.find_element_by_xpath('//*[@id="clearSearchkey"]').click()     #清空搜索栏 
                            driver.find_element_by_id('headerKey').send_keys(txts)     #向搜索框注入下一个公司地址
                            srh_btn = driver.find_element_by_xpath('/html/body/header/div/form/div/div/span/button').click()#搜索
                        except:
                            
                            driver.find_element_by_id('searchkey').send_keys(txts)
                            srh_btn = driver.find_element_by_xpath('//*[@id="indexSearchForm"]/div/span/input').click()
     
                    inc_full = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/a').text.strip()
                    print(inc_full)#企业名称
                    try:
                        addr = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[3]').text.strip()
                        # print(addr)  #地址
                    except:
                        addr =None
    
                    try:
                        inner = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/a').get_attribute("href")
                        driver.get(inner)
                        try:  
                            money = driver.find_element_by_xpath('//*[@id="Cominfo"]/table/tbody/tr[2]/td[2]').get_attribute('innerText').strip()
                            money_c = re.findall("\d+",money)[0]
                            money_u = "".join(re.findall('[^0-9]',money))
                            # print(money_c,money_u)  #资金单位
                        except: 
                            money = None
                        
                        try:
                            hangye = driver.find_element_by_xpath('//*[@id="Cominfo"]/table/tbody/tr[4]/td[6]').get_attribute('innerText').strip()
                            # print(hangye)  #行业
                        except: 
                            hangye = None
                        try:
                            fanwei = driver.find_element_by_xpath('//*[@id="Cominfo"]/table/tbody/tr[9]/td[2]').get_attribute('innerText').strip()
                            # print(fanwei)  #范围
                        except:
                            fanwei = None
                    except:
                        money_c = None
                        money_u = None
                        hangye = None
                        fanwei = None
                    try:     #股东信息
                        gd_count = driver.find_element_by_xpath('//*[@id="partnerslist"]/div[1]/span').get_attribute('innerText').strip()
                        gudong=[]
                        if int(gd_count)>0:
                            for i in range(int(gd_count)):
                                gd_name = driver.find_element_by_xpath('//*[@id="partnerslist"]/table/tbody/tr['+str(i+2)+']/td[2]/table/tbody/tr/td[2]/a/h3').get_attribute('innerText').strip()
                                gd_bili = driver.find_element_by_xpath('//*[@id="partnerslist"]/table/tbody/tr['+str(i+2)+']/td[3]').get_attribute('innerText').strip()
                                gd_money =  driver.find_element_by_xpath('//*[@id="partnerslist"]/table/tbody/tr['+str(i+2)+']/td[4]').get_attribute('innerText').strip()
                                gudong_dict = "{0},{1},{2}".format(gd_name,gd_bili,gd_money+'万元')
                                gudong.append(gudong_dict) 
                        else:
                            gudong = None
                        # print(gudong)
                        
                    except:
                        pass
                    try:
           
                         zl_count = driver.find_element_by_xpath('//*[@id="assets_title"]')
                         zl_count.click()
                         time.sleep(2)
                         inner1 = driver.find_element_by_xpath('//*[@id="assets_title"]').get_attribute("href")
                         driver.get(inner1)
                         zl = driver.find_element_by_xpath('//*[@id="assets_div"]/section[1]/div/a[2]').get_attribute('innerText').strip()
                         zl_count = re.findall("\d+",zl)[0]
                         # print(zl_count)
                         zhuanli = []
                         if int(zl_count)>0:
                             for i in range(int(zl_count)):
                                  zl_name = driver.find_element_by_xpath('//*[@id="zhuanlilist"]/table/tbody/tr['+str(i+2)+']/td[5]/a').get_attribute('innerText').strip()
                                  zhuanli.append(zl_name)
                         else:
                             zhuanli = None
                         # print(zhuanli)
                         rz = driver.find_element_by_xpath('//*[@id="assets_div"]/section[1]/div/a[5]').get_attribute('innerText').strip()
                         rz_count = re.findall("\d+",rz)[0]
                         # print(rz_count)
                         ruanzhu = []
                         if int(rz_count)>0:
                             for i in range(int(rz_count)):
                                  rz_name = driver.find_element_by_xpath('//*[@id="rjzzqlist"]/table/tbody/tr['+str(i+2)+']/td[2]').get_attribute('innerText').strip()
                                  ruanzhu.append(rz_name)
                         else:
                             ruanzhu = None
                         # print(ruanzhu)
                                              
                    except:
                        pass
                    
                    with open( outputfile, 'a',newline = '') as csv_file:#避免覆盖,用a
                                    writer = csv.writer(csv_file)
                                    writer.writerow([fid,txt,inc_full,money_c,money_u,addr,hangye,fanwei,gudong,zl_count,zhuanli,rz_count,ruanzhu])
                    try:
                        driver.find_element_by_xpath('//*[@id="firstcaseModal"]/div/div/div[2]/button').click()
                    except:
                        pass
    #############################################################################################
                except:
                    
                    inc_full=None
                    money_c =None
                    money_u =None
                    addr =None
                    hangye = None
                    fanwei = None
                    gudong= None
                    zl_count = None
                    zhuanli = None
                    rz_count = None
                    ruanzhu = None
                    count+=1
                    currentPageUrl = driver.current_url
                    title = driver.title
                    print(title)
                    if title=='用户验证-企查查':
                        
                        os.system("pause")
                  
                        i = i-1
                    else:
                        with open( outputfile, 'a',newline = '') as csv_file:#避免覆盖,用a
                                    writer = csv.writer(csv_file)
                                    writer.writerow([fid,txt,inc_full,money_c,money_u,addr,hangye,fanwei,gudong,zl_count,zhuanli,rz_count,ruanzhu])
                with open(outputfile1, 'w',newline = '') as csv_file:#避免覆盖,用a
                                writer = csv.writer(csv_file)
                                writer.writerow([zongnum,i+1,count,i+1-count])
                
                
          
    
    展开全文
  • 企查查爬虫demo

    2019-09-18 12:00:22
    利用urllib etree爬取企查查企业信息,其中还有很多需要优化的地方只是,时间有限先功能实现再说
  • 6.requests编写企查查爬虫 (为编写完善能拿下来数据) 企查查代码数据如下: 1 #encoding:utf-8 2 import requests 3 from lxml import etree 4 import random 5 import re 6 #目标...

    (为编写完善能拿下来数据)

    企查查代码数据如下:

     1 #encoding:utf-8
     2 import requests
     3 from lxml import etree
     4 import random
     5 import re
     6 #目标采集地址
     7 base_url1='http://m.qichacha.com'
     8 base_url='https://m.qichacha.com/search?key='
     9 
    10 user_agent=[
    11     "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko",
    12     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",
    13     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
    14     "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER) ",
    15     "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
    16     "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
    17     "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E) ",
    18     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0",
    19     "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0) ",
    20     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36",
    21     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36",
    22 ]
    23 cookie=[
    24 'UM_distinctid=16518280d1e3e5-00788a93df88f7-5b193413-1fa400-16518280d1f949; zg_did=%7B%22did%22%3A%20%2216518280dd3b45-0da4e4ab13f793-5b193413-1fa400-16518280dd51f6%22%7D; acw_tc=7b81f49815356947470295339e1fc37a590000ea6190b3cf75ab42853b; PHPSESSID=4l787fmr2v90mh2khj8n6n64l5; CNZZDATA1254842228=226405416-1535690886-null%7C1535690886; Hm_lvt_3456bee468c83cc63fb5147f119f1075=1535595956,1535618789,1535618810,1535694746; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201535694746927%2C%22updated%22%3A%201535695379242%2C%22info%22%3A%201535595953976%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22m.baidu.com%22%2C%22cuid%22%3A%20%227d775544e16a1cc0d0ab63b42b4b8aef%22%7D; Hm_lpvt_3456bee468c83cc63fb5147f119f1075=1535695379',
    25 'UM_distinctid=16518280d1e3e5-00788a93df88f7-5b193413-1fa400-16518280d1f949; zg_did=%7B%22did%22%3A%20%2216518280dd3b45-0da4e4ab13f793-5b193413-1fa400-16518280dd51f6%22%7D; acw_tc=7b81f49815356947470295339e1fc37a590000ea6190b3cf75ab42853b; PHPSESSID=4l787fmr2v90mh2khj8n6n64l5; CNZZDATA1254842228=226405416-1535690886-null%7C1535690886; Hm_lvt_3456bee468c83cc63fb5147f119f1075=1535595956,1535618789,1535618810,1535694746; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201535694746927%2C%22updated%22%3A%201535695791508%2C%22info%22%3A%201535595953976%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22m.baidu.com%22%2C%22cuid%22%3A%20%227d775544e16a1cc0d0ab63b42b4b8aef%22%7D; Hm_lpvt_3456bee468c83cc63fb5147f119f1075=1535695792',
    26 'UM_distinctid=16518280d1e3e5-00788a93df88f7-5b193413-1fa400-16518280d1f949; zg_did=%7B%22did%22%3A%20%2216518280dd3b45-0da4e4ab13f793-5b193413-1fa400-16518280dd51f6%22%7D; acw_tc=7b81f49815356947470295339e1fc37a590000ea6190b3cf75ab42853b; PHPSESSID=4l787fmr2v90mh2khj8n6n64l5; CNZZDATA1254842228=226405416-1535690886-null%7C1535690886; Hm_lvt_3456bee468c83cc63fb5147f119f1075=1535595956,1535618789,1535618810,1535694746; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201535694746927%2C%22updated%22%3A%201535695924595%2C%22info%22%3A%201535595953976%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22m.baidu.com%22%2C%22cuid%22%3A%20%227d775544e16a1cc0d0ab63b42b4b8aef%22%7D; Hm_lpvt_3456bee468c83cc63fb5147f119f1075=1535695925',
    27 'UM_distinctid=16518280d1e3e5-00788a93df88f7-5b193413-1fa400-16518280d1f949; zg_did=%7B%22did%22%3A%20%2216518280dd3b45-0da4e4ab13f793-5b193413-1fa400-16518280dd51f6%22%7D; acw_tc=7b81f49815356947470295339e1fc37a590000ea6190b3cf75ab42853b; PHPSESSID=4l787fmr2v90mh2khj8n6n64l5; CNZZDATA1254842228=226405416-1535690886-null%7C1535690886; Hm_lvt_3456bee468c83cc63fb5147f119f1075=1535595956,1535618789,1535618810,1535694746; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201535694746927%2C%22updated%22%3A%201535696003819%2C%22info%22%3A%201535595953976%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22m.baidu.com%22%2C%22cuid%22%3A%20%227d775544e16a1cc0d0ab63b42b4b8aef%22%7D; Hm_lpvt_3456bee468c83cc63fb5147f119f1075=1535696005'
    28 ]
    29 # 请求头设置
    30 headers={
    31     'User-agent': random.choice(user_agent),
    32     'cookie': random.choice(cookie)
    33 }
    34 
    35 name_list=['成都创信广告有限公司']
    36 
    37 for name in name_list:
    38     start_url=base_url+str(name)
    39     print(start_url)
    40     response = requests.get(start_url, headers=headers)
    41     _response=response.text
    42     # print(_response)
    43     # content = etree.HTML(_response)
    44     # print(content)
    45     #获取筛选信息链接
    46     search_url=re.findall('</div> <a href="(.*?)" class="a-decoration"> <div class="list-item"> <div class="list-item-top">',_response)
    47     url=base_url1+search_url[0]
    48     # print(url)
    49     # print('*'*100)
    50     response1 = requests.get(url,headers=headers)
    51     _response1=response1.text
    52     #公司名称
    53     company_name=re.findall('<div class="company-name">(.*?)<',_response1)[0]
    54     print('公司名称:'+company_name)
    55     #法人
    56     legal_person=re.findall('<a class="oper" href=".*?">(.*?)</a>',_response1)[0]
    57     print('法人:'+legal_person)
    58     #电话
    59     telephone=re.findall('<a href="tel:.*?" class="phone a-decoration">(.*?)</a>',_response1)[0]
    60     print('电话:'+telephone)
    61     # #地址
    62     # address=re.findall('</div> <div class="address">(.*?)</div> </div>',_response1)[0]
    63     # print(address)
    64     # # print('地址:'+address)
    65 
    66     # #注册号
    67     # registration_number=re.findall('</div><div class="basic-item-right">(.*?)</div>',_response1)
    68     # print(registration_number)

     


    执行结果如下图:

     

    posted on 2018-09-04 15:16 五杀摇滚小拉夫 阅读(...) 评论(...) 编辑 收藏

    转载于:https://www.cnblogs.com/lvjing/p/9584597.html

    展开全文
  • 链接:https://pan.baidu.com/s/14OMqMjZPeMum8JKfajXZZA 提取码:ma5v伸手党的福利,这...下面是爬虫的相关背景以及思路介绍:同学在证券公司上班,需要企查查的一些信息,他给了我一个公司名称的表格,找我帮忙做...

    链接:https://pan.baidu.com/s/14OMqMjZPeMum8JKfajXZZA

    提取码:ma5v

    伸手党的福利,这是爬虫的文件,运行qcc.py,另个py文件是用来拖动验证码的。程序需要输入的是一个公司名称的列表文件,由于我也是初学,所以程序写的一般,大家凑合看吧。

    下面是爬虫的相关背景以及思路介绍:

    同学在证券公司上班,需要企查查的一些信息,他给了我一个公司名称的表格,找我帮忙做一个公司信息的表格,我觉得可以用爬虫解决这个问题,就写了这个程序。

    爬虫首先就是看一下网站的结构,随便打开一个企业详情:

    aa7723cb5ac0e3be5fd2934bde3bcdd2.png

    电脑端网页

    华为技术有限公司

    电话和邮箱信息都被隐藏了,必须登录才能展示,于是乎,我用Python+selenium写了很多模拟登录的代码,各种跳转,最后使用微博登录(很多爬虫都是这么干的)。写完了发给同学,账号登录就算登录上也不稳定,在我电脑上没毛病的,到他那一堆毛病。电话和邮箱依旧不好使。

    此事搁置了许久。。。

    直到有一天我发现了新大陆。

    http://m.qichacha.com/

    这是企查查的手机端网页。目前电脑端的反爬虫已经很完善了,手机端的网页稍弱些,很多网站都有自己的手机端网页,我成功爬取的有:美团、携程、京东。手机端网页的url获取的问题,你直接在手机的浏览器里百度搜索,相关网站,点进去就是网址了。

    ced9e4d8af60aaebf33511fc2d45f6c5.png

    手机端网页

    华为技术有限公司(手机端网页)

    你没有看错直接进来所有的信息都在这呢。

    你以为你用requests就可以了?,url是啥http://m.qichacha.com/firm_6b242b475738f45a4dd180564d029aa9.shtml

    后面的这一大串应该是MD5的加密代码,有js基础的同学可以尝试去网页里面弄一个加密代码出来,如果你和我一样是个js代码的小白,只能靠Python+selenium了

    看一下上一级的页面:

    a6e5db84cb9ac3978b0a451037fa73d7.png

    手机端搜索网页

    搜索页面

    看下urlhttp://m.qichacha.com/search?key=%E5%8D%8E%E4%B8%BA%E6%8A%80%E6%9C%AF%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8

    这一长串是个啥?

    d35afdbd9da0e24bbc616fde8331df82.png

    url在线解码网站

    python内置的库也可以解决这个问题

    from urllibimport parse

    id = parse.quote(ID)#可以把汉字转化成网页加密的url,https://www.cnblogs.com/lisa2016/p/11474061.html#参考下大佬的文章

    之后你使用get是不是就可以让浏览器访问了?

    并不行,会出现404,为啥大概是因为cookies吧

    那咋办呢?在访问你的网页前先访问一下企查查主页:http://m.qichacha.com/

    一次就好,剩下的你只需要把你要访问的公司名称编码以后一直访问搜索页面然后选择第一个点进去就好了。

    好了?万恶的反爬虫又来了。

    当你访问了十几个地址之后,就访问不出内容了。太难了。

    然后我们怎么做。跳回企查查主页点击主页下方推荐的第一个公司,会出来验证码,验证过后就可以继续爬取了,此处的验证码文件我使用的是,网上一位大佬的,略作改进(增加了拖动时的上下抖动,原有程序拖动距离计算不准确),大概拖动三次以内就可以通过了。

    之后就可以快乐的爬虫了。

    展开全文
  • 企查查爬取企业信息,如果没有登录直接检索,邮箱、电话都被隐藏了 点击详情,部分信息同样会被隐藏 毕竟只是打工的,没钱不能任性!想要查看更完整的企业信息,只有登录了。 但登录需要滑块验证,有时可能还会有...

    7d8150adbf7a862862be46abc1812f37.gif

    从企查查爬取企业信息,如果没有登录直接检索,邮箱、电话都被隐藏了

    d19f07aa961420d3802da83c3542945d.png

    点击详情,部分信息同样会被隐藏

    0afa909bb775cb26b69db170d9cdf366.png

    a92485b86f412888fcf8e6f0545f8358.png

    毕竟只是打工的,没钱不能任性!

    想要查看更完整的企业信息,只有登录了。

    c3c38f0934ec849d3beb03db171343d1.png

    但登录需要滑块验证,有时可能还会有图片验证码

    8b4a1bc6016e77972e1284272fb54577.png

    但我干不过他们,老大不提供资金支持,那就只能另辟蹊径了。

    突然看到右下角有三小只,不禁有点想法了

    是不是可以通过授权的形式进行登录呢,那就开始吧

    5e22e076b44500573e94aaf578e5ac5b.png

    那就拿三小只试试:

    84e6b26d80099ed25d86515655532efa.png

    364226ee2d66f12984f3e11f48ee8ee6.png

    首先通过微博登录,将该绑定的绑定,该授权的授权,避免登录后让验证

    (微博授权 + 手机号绑定 + 竟然还让关注了公众号)

    账号准备完毕,上代码

    from selenium import webdriver

    import time

    import xlwt

    import sys

    import imp

    imp.reload(sys)

    # 伪装成浏览器,防止被识破

    option = webdriver.ChromeOptions()

    option.add_argument(

    '--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"')

    driver = webdriver.Chrome(chrome_options=option)

    # 打开登录页面

    driver.get('https://www.qichacha.com/user_login')

    # 单击用户名密码登录的标签

    tag = driver.find_element_by_xpath('//*[@id="normalLogin"]')

    tag.click()

    tag = driver.find_element_by_xpath('//*[@class="btn-weibo m-l-xs"]')

    tag.click()

    # 将用户名、密码注入

    driver.find_element_by_id('userId').send_keys('微博账号')

    driver.find_element_by_id('passwd').send_keys('微博密码')

    time.sleep(3) # 休眠,人工完成验证步骤,等待程序单击“登录”

    # 单击登录按钮

    btn = driver.find_element_by_xpath('//*[@id="outer"]/div/div[2]/form/div/div[2]/div/p/a[1]')

    btn.click()

    time.sleep(10)

    # inc_list = ['阿里巴巴', '腾讯', '今日头条', '滴滴', '美团']

    # inc_len = len(inc_list)

    driver.find_element_by_id('searchkey').send_keys("腾讯")

    # 单击搜索按钮

    srh_btn = driver.find_element_by_xpath('//*[@id="indexSearchForm"]/div/span/input')

    srh_btn.click()

    # 获取首个企业文本

    inc_full = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/a').text

    print(inc_full)

    money = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[1]/span[1]').text

    print(money)

    date = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[1]/span[2]').text

    print(date)

    mail_phone = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[2]').text

    print(mail_phone)

    addr = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[3]').text

    print(addr)

    try:

    stock_or_others = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/p[4]').text

    print(stock_or_others)

    except:

    pass

    # 获取网页地址,进入

    inner = driver.find_element_by_xpath('//*[@id="search-result"]/tr[1]/td[3]/a').get_attribute("href")

    driver.get(inner)

    # 单击进入后 官网 通过href属性获得:

    inc_web = driver.find_element_by_xpath(

    '//*[@id="company-top"]/div[2]/div[2]/div[3]/div[1]/span[3]/a').get_attribute("href")

    print("官网:" + inc_web)

    print(' ')

    driver.close()

    信息获取完整,ok

    539e0adf62f3d911a2351230c5a4fed7.png

    8c2f7576deff18a2269d77d51df10bf2.png

    55af46af2761871c85ea0dd5a00807fe.gif

    展开全文
  • 企查查sign 算法分析 目前知道他和时间戳、设备id关,所以经过研究 放出如下接口这是sign 接口 返回数据如下, { "device_id": "Xd7qAkniMtkDAAzJ2FsQ2MYR", "sign": "650dccbc6cfb435b0147f2402b9d96d041ab45c7", ...
  • 企查查、天眼查、企业信息,企业目录公开数据爬虫】 高级查询界面 限制条件 突破思路 结果展示 高级查询界面 限制条件 即使VIP,对单个筛选条件下的查询数据也只能有前5000条。并且有导出次数限制 突破思路 1、将...
  • 企查查python爬虫实例

    千次阅读 2020-03-11 14:54:22
    企查查python爬虫实例 前些日子尝试给朋友写了一个查询大批公司的统一社会信用码的爬虫程序,借助了很多网上的帖子,学习很多,现在也分享一下我用的python程序。 准备python库文件(python 3.7) import ...
  • 无限制企查查爬虫 ​通过网上爬虫获取了全国所有企业,然后就需要补充企业信息,首先想到的就是企查查,启信宝等专业网站,最终选择了企查查,尝试了多种方法: 1、selenium爬虫,绕过企查查的登录验证,但账号和...
  • Python爬虫企查查

    2019-09-18 11:50:03
    #爬取企查查公司的网址和名字 Cookie为你登录企查查官网后的, 程序运行后输入需要搜索的字段即可湖区相关企业信息 eg:游戏,餐饮等字眼 import time import urllib from urllib import request from lxml import ...
  • 爬虫-企查查

    2020-09-15 18:04:35
    爬取企查查相关信息 绕过selenium滑块拖动问题 爬取vip更多法人手机号 根据数据库公司名称查取信息,最终插库 # coding:utf-8 import lxml.html, queue, logging, time, json, datetime, requests, re, lxml.html ...
  • 爬虫绕开验证,从企查查获取企业信息
  • 所以目光锁定企查查数据,废话不多说,开干! #-*- coding-8 -*- import requests import lxml import sys from bs4 import BeautifulSoup import xlwt import time import urllib def ...
  • Python爬虫爬取企查查数据

    万次阅读 热门讨论 2019-06-02 16:51:18
    sheet1 = workbook.add_sheet('企查查数据', cell_overwrite_ok=True) #---设置excel样式--- #初始化样式 style = xlwt.XFStyle() #创建字体样式 font = xlwt.Font() font.name = '仿宋' # font.bold = True ...
  • 程序实现了对企查查最新数据的爬虫,在10S内稳定爬取到企查查更新的最新企业,并写入表格中。 程序运行截图 以获取医院类型的企业数据为例: 使用selenium+requests来完成登录、获取数据、滑动验证码。 1、 登录并...
  • 企查查爬取企业信息,如果没有登录直接检索,邮箱、电话都被隐藏了点击详情,部分信息同样会被隐藏毕竟只是打工的,没钱不能任性!想要查看更完整的企业信息,只有登录了。但登录需要滑块验证,有时可能还会有图片...
  • 爬取企查查网站上公司的工商信息,路径大家根据自己情况自行修改,然后再在工程路径下创建个company.txt,里面输入想要爬取的公司名,就会生成该公司的工商信息网页。
  • by_xpath('//div[@class="bindwx"]/button/span[1]').click() 大致说一下代码逻辑,遍历公司,单个公司判断是否包含法律风险,判断数据源(企查查有三个数据大类,自身风险、关联风险、提示信息),单类数据判断分类...
  • 企查查爬取企业信息,如果没有登录直接检索,邮箱、电话都被隐藏了点击详情,部分信息同样会被隐藏毕竟只是打工的,没钱不能任性!想要查看更完整的企业信息,只有登录了。但登录需要滑块验证,有时可能还会有图片...

空空如也

空空如也

1 2 3 4 5
收藏数 99
精华内容 39
关键字:

企查查爬虫

爬虫 订阅