精华内容
下载资源
问答
  • selenium获得ul标签下的多li标签并存进列表 使用google浏览器在要抓取li的界面按下快捷键Ctrl+Shift+I弹出抓包工具,这里以京东为例 使用鼠标快速定位到元素 先点击1箭头,然后点2,看源代码就定位到了一a...

    selenium获得ul标签下的多个li标签并存进列表

    1. 使用google浏览器在要抓取li的界面按下快捷键Ctrl+Shift+I弹出抓包工具,这里以京东为例
      在这里插入图片描述
    2. 使用鼠标快速定位到元素

      先点击1箭头,然后点2,看源代码就定位到了一个a标签,网上找到li标签,再向上找到ul
    3. 鼠标移动到ul源代码的位置,右键鼠标,鼠标移动到COPY,然后点击Copy Xpath
    4. 通过find_element_by_xpath()方法找到ul,因为只有一个ul,所以用的element
    ul = bro.find_element_by_xpath('//*[@id="J_cate"]/ul')
    
    1. 找到该ul下所有的li标签
    li_list = ul.find_elements_by_xpath('li')
    

    注意:这里用的是find_elements_by_xpath(),而不是find_element_by_xpath(),否则只能返回一个元素

    展开全文
  • //5 map = new HashMap, Object>(); map.put("left1", "工作:"); map.put("center1", "请选择"); map.put("star1", "*"); map.put("left2", "移动电话1:"); map.put("center2", ...

    可以用来参考:

     

     

     

    java代码:

    展开全文
  • 所要爬取的内容 一共爬取的是6字段 1 招聘岗位 2 招聘城市 3 招聘公司 4 招聘薪资 5 招聘日期 6 招聘来源网站 用的是selenium + beautifulsoup + mongodb + re 模块进行爬取的内容总体上难度不是很大,内容清除...

    爬取的内容为百度招聘页面下的python 杭州地区

    所要爬取的内容

    这里写图片描述

    一共爬取的是6个字段
    1 招聘岗位 2 招聘城市 3 招聘公司 4 招聘薪资 5 招聘日期 6 招聘来源网站

    用的是selenium + beautifulsoup + mongodb + re 模块进行爬取的内容

    总体上难度不是很大,内容清除也不是很完整,记不住的或者没有记牢固的一边百度,一边加深印象。总体来说还是爬取出来了了

    问题总结: 不知道是不是多进程结合selenium 爬取是不是不行,然后试着用了,我也不知道里面的原理是怎么回事,这次是自己初次入门,能力还是不足,mongodb使用的时候也不知道为什么开启了服务,但是插入数据老是插不进去,可能是被锁住了,但是删除锁之后还是会出现问题,也不知道后来问题是怎么解决的,也就那样好的吧。


    在使用selenium 跳转到下一页的时候,根据get_element_byxpath(xxx) 里面的id 会根据页面的变化而变化的。如下图,可以自己亲测一下

    这里写图片描述

    总的值有1,2,3 昨晚弄的也是有点急什么的,不过最后爬取出来

    看下爬取成果,总共586条,确实对应上了第一张图片上的586,
    没有重复度。
    这里写图片描述


    最后贴上源代码:

    # encoding=utf8
    import re
    import time
    
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    from selenium.webdriver.common.action_chains import ActionChains
    
    from bs4 import BeautifulSoup
    
    import pymongo
    
    # 多进程
    from multiprocessing import Pool
    
    # 1 打开数据库连接,mongodb默认端口为27017
    conn = pymongo.MongoClient(host='localhost',port=27017)
    # 2 选择或创建数据库
    jobdata = conn['baidujobs']
    # 3 选择或创建数据集合
    ver_job = jobdata['verjob']
    
    baidu_baseurl = 'http://zhaopin.baidu.com/quanzhi?tid=4139&ie=utf8&oe=utf8&query=python%E6%9D%AD%E5%B7%9E&city_sug=%E6%9D%AD%E5%B7%9E'
    def set_winscroll(driver):
        time.sleep(2)
        driver.execute_script('window.scrollBy(0,2000)')
        time.sleep(3)
        driver.execute_script('window.scrollBy(0,3000)')
        time.sleep(3)
    
    
    # 1 初始化driver
    driver = webdriver.PhantomJS()
    # 2 调用get方法
    driver.get(baidu_baseurl)
    # 3 进入网页
    set_winscroll(driver)
    
    # 4 获取资源(第一页的数据)
    we_data = driver.page_source
    # print('first_we_data ' + we_data)
    
    
    def parse_html(html):
        soup = BeautifulSoup(html, 'lxml')
        item_url = soup.findAll('a', {'class': 'clearfix item line-bottom'})
        # for item in zip(item_url):
        #     print(item.get('href'))
    
        # 职位信息
        jobs = soup.findAll('div', {'class': 'title-h3 line-clamp1'})
        # for job in jobs:
        # print(job.string) # 职位信息
        # 地址 + 公司名
        compy = soup.findAll('p', {'class': 'area line-clamp1'})
        # for com in compy:
        #     print(com.string)
    
        # 薪资
        salarys = soup.findAll('p', {'class': 'salary'})
        # for salary in salarys:
        #     print(salary.string)
        # 发布时间跟发布来源网站
        addresss = soup.findAll('div', {'class': 'right time'})
        # print(addresss)
        reg = r'<p>(.*?)</p>'
        regx = re.compile(reg)
        ads = re.findall(regx, str(addresss))
        # print(ads)
        # for adds in ads:
        #     data = adds.split('|')
        #     print(data)
        for itm_url, job_detail, ver_compny, ver_salary, ver_addres in zip(item_url, jobs, compy, salarys, ads):
            data = {
                'itme_url': 'http://zhaopin.baidu.com'+itm_url.get('href'),
                'job_detail': job_detail.string,
                'ver_compny': str(ver_compny.string),
                'ver_salary': ver_salary.string,
                'ver_addres': str(ver_addres).split('|'),
            }
            print(data)
            # 插入数据库
            ver_job.insert_one(data) # 插入数据库失败
            f.write(str(data))
    
    
    def get_page_source(page_num):
        time.sleep(2)
        driver.find_element_by_xpath('//*[@id="pagination"]/p/span/a[%s]' % page_num).click()
        # //*[@id="pagination"]/p/span/a[1]  为在第一页的按钮
        # //*[@id="pagination"]/p/span/a[2]  为第二页的按钮
        set_winscroll(driver)
        we_data = driver.page_source
        return we_data
    
    f = open('百度招聘前30页杭州.txt', 'a',encoding='utf-8')
    # 首页的数据
    def getBaiduHangZhouJob(we_data):
        parse_html(we_data)
        for i in range(1, 50):
            if i==1:
                we_data = get_page_source(1)
                parse_html(we_data)
            elif i<=5:
                we_data = get_page_source(str(2))
                parse_html(we_data)
            else:
                we_data = get_page_source(str(3))
                parse_html(we_data)
        f.close()
    
    
    if __name__ == '__main__':
        getBaiduHangZhouJob(we_data)
        # pool = Pool(processes=10)
        # pool.map_async(getBaiduHangZhouJob(we_data))
        # pool.close()
        # f.close()

    这里也使用了存入道txt文件中的方法,两个方法都有用到。

    这次是第二次自己单独做练习selenium + mongodb

    对于分布式爬虫scraper框架,需要进行开始的学习了,一开始对mongodb , selenium 也是有抵触,惧怕心理,不过下来之后却也是差不多的感觉,这次是入门了吧。慢慢的了解,熟悉,练习,回头过来你会发现也就是那么回事,加油

    下次, scraper分布式爬虫的练习 ,对于python开发岗位,自己也要学会Django的学习开发,路子还有很长,需要自己静下心来摸索。

    展开全文
  • 5. 在JS中将JSON的字符串解析成JSON数据格式,一般有两种方式: 1.一种为使用eval()函数。 2. 第二种解析方式就是使用Function对象来完成,它的典型应用就是在JQUERY中的AJAX方法下的success等对于返回数据 data...
    <!DOCTYPE html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>Document</title>
    </head>
    <body>
        <div id="box">
            <input type="text">
            <input type="text">
            <input type="text">
            <input type="text">
            <input type="button" id="btn" onclick="Total()" value="转化为数组">
        </div>
        <script src="这里是jquery文件路径"></script>
        <script>
        function Total() {
            var numArr = []; // 定义一个空数组
            var txt = $('#box').find(':text'); // 获取所有文本框
            for (var i = 0; i < txt.length; i  ) {
                numArr.push(txt.eq(i).val()); // 将文本框的值添加到数组中
            }
            console.info(numArr);
        }
        </script>
    </body>
    </html>

    2.

    3. stringify()函数

    stringify()用于从一个对象解析出字符串,如

    var a = {a:1,b:2}

    结果:

    JSON.stringify(a)

    "{"a":1,"b":2}"

    4.

     

    5. 在JS中将JSON的字符串解析成JSON数据格式,一般有两种方式:

    1.一种为使用eval()函数。

    2. 第二种解析方式就是使用Function对象来完成,它的典型应用就是在JQUERY中的AJAX方法下的success等对于返回数据 data的解析。

    dateType:json; 在php controller返回  exit(json_encode(array('code'=>0,'msg'=>'交易流水号错误'))); 最好使用ajax自带的dateType:json;

     


    更多专业前端知识,请上 【猿2048】www.mk2048.com
    展开全文
  • 利用Python爬取网页多页面的表格数据并存到已有的excel中 1、具体要求 获取牛客网->题库->在线编程->剑指Offer网页,获取表格中的全部题目,保存到本地excel中 2、技术要求 利用Selenium+...
  • 经过前面四篇的铺垫,终于轮到我们的主角dva了,就是下面这美女: 先擦一擦哈喇子,我们来介绍一下,dva出自于暴雪出品的一款游戏《守望先锋》,援引官方的角色介绍: D.Va拥有一部强大的机甲,它具有两台全自动...
  • 刚学python不久,写了一自己认为还比较简单易懂“爬取图片的方式,并保存本地指定路径下”。我爬取的内容是“Yestone邑石网”的部分图片链接如下,https://www.yestone.com/gallery/1501754333627 爬取的页面如图1...
  • python3爬取微博评论并存为xlsx

    千次阅读 2019-05-12 21:18:46
    python3爬取微博评论并存为xlsx ** 由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/ 一、访问微博网站,找到热门推荐链接 我们打开微博网站后看见热门页,按F12...
  • 总结:虽然是第二次爬取,但是多多少少还是遇到一些坑,总的结果还是...1,抓取的内容主要爬取了:文件名,文件链接,文件类型,文件大小,文件浏览量,文件收录时间一,scrapy中item.py代码# -*- coding: utf-8 -*-# D
  • 可以获取到数据库数据的对象,但是具体的显示时为空 ...总共有两文件: 1、app\models下的test.php namespace app\models; use yii\db\ActiveRecord; //1、文件名必须和类名一致 //2、文件名必须为表名 //
  • 这篇文章主要给大家介绍了在CentOS 6.5下安装Python 3.5.2的方法教程,安装后的python3与Python2并存,文中分享了详细的方法步骤,对大家具有一定的参考学习价值,下面来一起看看吧。 本文主要给大家介绍了关于...
  • 本文实例讲述了PHP实现上传文件并存进数据库的方法。分享给大家供大家参考。具体如下: show_add.php文件如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 ...
  • Web API应用架构在Winform混合框架中的应用(5)--系统级别字典和公司级别字典并存的处理方式 在我这系列中,我主要以我正在开发的云会员管理系统为例进行介绍Web API的应用,由于云会员的数据设计是支持多...
  • Win10与Ubuntu 20.04 LTS并存安装

    千次阅读 2020-06-16 14:18:48
    5)选择安装类型 手动分区(重点) 6)选择时区 7)创建用户名 8)安装系统软件 三、安装完成后的优化工作 1.更换软件源 一、准备工作 注:本篇文章以 Ubuntu18.04.1 的安装为例。 准备工作在其他系统上进行,我这里在...
  • 场景 使用Docker Registry提供的Insecure Registry方式,可以避开...一般来说一台机器只是设定一Registry,但是有时有需要设定多的情况,比如: 参考文章 https://docs.docker.com/engine/reference/comma...
  • 国产FPGA芯片,机遇与挑战并存

    千次阅读 2019-08-13 00:15:45
    AI场景中FPGA市场规模2023年有望达52亿美元,未来年复合增速达38.4%。 FPGA由于其灵活性及高速运算能力,在AI加速卡领域应用广泛,根据 Semico Research的数据,AI领域FPGA市场规模2023年有望达52亿美元,相比于...
  • 简单的记录一小demo,利用中国天气网文字版本获取全国城市编码并存入mysql数据库中。 分析 首先观察发现,中国天气网文字版按地区分成8部分。 对应的url简单的用缩写表示:‘hb’, ‘db’, ‘hd’, ‘hz’,...
  • python抓取网页上的数字并存入excel

    千次阅读 2017-12-27 19:26:53
    最近在做一项网关跑分测试,通过刷新网页去得到测试结果(测试结果在网页上面),这样每统计一次结果都要刷新一下页面,然后在包...1:首先将网页内容抓取出来,保存到一文件中 import urllib2def saveHtml(file_nam
  • 爬取京东某商品评论并存入csv

    千次阅读 2019-01-12 16:14:33
    __jdv=122270672|baidu-pinzhuan|t_288551095_baidupinzhuan|cpc|0f3d30c8dba7459bb52f2eb5eba8ac7d_0_55963436def64e659d5de48416dfeaff|1545980984854; 3AB9D23F7A4B3C9B=OA3G4SO3KYLQB6H3AIX36QQAW34BF376WJN66...
  • 1.问题解读:在这网站上爬取一条音乐 代码: import requests resource=requests.get(“https://static.pandateacher.com/Over%20The%20Rainbow.mp3”) file= open(“mage.mp3”, “wb”) file.write(resource.
  • 知识付费迎来大浪淘沙,机遇和挑战并存,副业建议你这么做!知识付费市场初始阶段,用户的尝鲜意愿较强,随着市场竞争加剧,各种名目的知识付费产品快速增多,当行业供需变化时,必然要面临用户时间和优质内容生产者...
  • 我(liigo)对爱可视70的综合评价:满足与遗憾并存。先说遗憾甚至不满的地方:1、屏幕上字体显示很模糊;2、256M的ROM太小;3、部分按键接口设置不合理。满足的地方:系统运行流畅,软件兼容性好,视频兼容性好。本文...
  • 中国医大CT-YOUNG 闪讯和深澜并存的验证机制研究 闪讯登陆,闪讯加密方式破解,闪讯路由器破解,辽宁电信的CT-Young的登陆,深澜网页认证的剖析.
  • python 网页爬取数据并存到数据库中

    千次阅读 2015-12-16 14:31:44
    CO, NO2, O3, O3_8h, PM10, PM2_5, PM2_5_24h, SO2) VALUES ('河北', '石家庄', '发觉县', '观测站', 'a001', 212, 212, 21, '有', 12, 21, 21, 21, 21, 21, 21, 12) ''' for pointer in pointers: Province ...
  • 在jsp页面使用java代码,获取html页面中所有script标签里面的src 路径,并存到本地的文件夹中![图片说明](https://img-ask.csdn.net/upload/201712/28/1514439010_76292.jpg)
  • scrapy中有自带的pipeline工具,ImagesPipeline,可以专门用来储存图片到本地。 但默认储存地址无法配置,所以我们需要写一自己的pipeline用于储存图片。 先分析一下我们的需求: 1.修改图片路径,路径根据...
  • 利用Python爬取网页表格数据并存到excel 1、具体要求: 读取教务系统上自己的成绩单,并保存到本地的excel中 2、技术要求: 利用Selenium+Python获取网页,自动登陆并操作到成绩单页面 通过xlwt模块,将表格保存...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 30,685
精华内容 12,274
关键字:

五个并存内容