精华内容
下载资源
问答
  • 爬虫软科,最好大学

    2020-12-12 23:19:13
    request爬取软科,最好大学网,源码+详细注释
  • 使用requests库和BeautifulSoup库实现对最好大学大学排名信息爬取 链接:http://www.zuihaodaxue.com/Greater_China_Ranking2019_0.html 代码: import requests from bs4 import BeautifulSoup import bs4 #从网络...
  • 上一篇文章,和大家分享的是如何获取信息标记的知识,这篇文章,小编要和大家分享的是使用Python网络爬虫技术来获取大学排名!当我们想要了解大学排名时,如何在杂乱的网页信息上,快速获取我们想要的大学排名信息了...

    上一篇文章,和大家分享的是如何获取信息标记的知识,这篇文章,小编要和大家分享的是使用Python网络爬虫技术来获取大学排名!

    当我们想要了解大学排名时,如何在杂乱的网页信息上,快速获取我们想要的大学排名信息了!

    这里就需要用到Python网络爬虫提取信息的技术了!

    大学排名的程序代码如下:

    u=500733347,508113924&fm=173&app=49&f=JPEG?w=640&h=427&s=CFB327C14443274D0698C89403005090清华大学

    #CrawUnivRankingB.py

    import requests

    from bs4 import BeautifulSoup import bs4

    def getHTMLText(url):

    try:

    r = requests.get(url, timeout=30)

    r.raise_for_status()

    r.encoding = r.apparent_encoding

    return r.text

    except: return "" def fillUnivList(ulist, html):

    soup = BeautifulSoup(html, "html.parser")

    for tr in soup.find('tbody').children:

    if isinstance(tr, bs4.element.Tag):

    tds = tr('td')

    ulist.append([tds[0].string, tds[1].string, tds[3].string])

    def printUnivList(ulist, num): tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

    print(tplt.format("排名","学校名称","总分",chr(12288)))

    for i in range(num): u=ulist[i] print(tplt.format(u[0],u[1],u[2],chr(12288)))

    def main(): uinfo = []

    url = 'https://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'

    html = getHTMLText(url)

    fillUnivList(uinfo, html)

    printUnivList(uinfo, 20) # 20 univs main()

    u=1904295834,1158596653&fm=173&app=49&f=JPEG?w=640&h=480&s=CA110DC0972E2AAE1AC8F103030070C0北京大学

    通过运行这段程序代码,小编得到的结果是清华大学排第一!

    运用好网络爬虫方便我们快速了解信息!

    u=1803932779,2460969079&fm=173&app=49&f=JPEG?w=552&h=320&s=65F2AA624BA19AD846D4291E010080C1爬虫技术

    今天小编知识分享就到这里,就结束了!明天同一时间为大家分享更精彩的知识!请大家多多点赞支持,多多关注和收藏,同时祝大家新年快乐!

    展开全文
  • 大学计算机爬虫报告

    2018-05-15 16:38:00
    大学计算机爬虫报告大学计算机爬虫报告大学计算机爬虫报告大学计算机爬虫报告
  • 爬虫爬取最好大学排名

    千次阅读 2020-02-11 12:52:41
    最近跟着北京理工大学的网课 学习了爬虫的知识,看了老师讲的爬虫爬取最好大学排名。下面让我们来看一下爬虫是如何爬取网页上的信息的。 爬取网页:最好大学网 学习来源:哔哩哔哩-【Python网络爬虫与信息提取】....

    ☞☞☞点击查看更多优秀Python博客☜☜☜

    最近跟着北京理工大学的网课 学习了爬虫的知识,看了老师讲的爬虫爬取最好大学排名。下面让我们来看一下爬虫是如何爬取网页上的信息的。
    爬取网页:最好大学网
    学习来源:哔哩哔哩-【Python网络爬虫与信息提取】.MOOC. 北京理工大学
    首先我们打开网页查看网页源代码,寻找自己所需信息所在区域,截如下:
    在这里插入图片描述
    这样我们就成功地找到了所需要的信息,下面的工作就是通过程序找到以上信息并输出出来,下面直接上代码:

    程序设计思路:

    1. 首先我们需要得到网页源代码,可以使用两种方法获得,一种是使用requests库进行得到
    2. 对源代码进行处理可以使用BeautifulSoup库函数进行修饰
    3. 得到修饰后的源代码后我们就可以进行提取了
    4. 最后我们进行格式化输出
    5. 编写程序将以上函数进行运行顺序的匹配

    代码如下:

    
    #-*- coding:utf-8 -*-
    #-Author-= JamesBen
     #Email: 1597757775@qq.com
    
    import  requests
    from bs4 import  BeautifulSoup
    import bs4
    
    #定义第一个函数得到网页源代码,并且可以进行稳定的运行
    def  Get_HTML(url):
        try :
            use = {'User-Agent': 'Mozilla/5.0'}  #此行代码骗过服务器我们是使用浏览器进行访问的,防止有些网站对我们进行拦截
            r = requests.get(url, timeout = 30,headers = use)
            r.raise_for_status()      #如果状态不是200引发HTTPError异常
            r.encoding = r.apparent_encoding  #将文本的编辑方式传给头,防止造成编码错路出现乱码
            return  r.text
        except :
                return "产生异常"
    
    #定义一个函数得到特定的tr标签
    def  U_list(ulist,html):
        soup = BeautifulSoup(html,"html.parser")
        for tr in soup.find("tbody").children:
            if  isinstance(tr,bs4.element.Tag):  #筛选tr标签的类型,如果不是Tag定义的类型将过滤掉
                tds = tr("td")
                ulist.append([tds[0].string,tds[1].string,tds[3].string])
        pass
    
    #格式化输出函数
    def print_Univlist(ulist,num):
        tplt="{0:^10}\t{1:{3}^10}\t{2:^10}"
        print(tplt.format("排名","学校名称","总分",chr(12288)))
        for i in range(num):
            u=ulist[i]
            print(tplt.format(u[0],u[1],u[2],chr(12288)))
        print("Suc"+str(num))
    
    def main():
        uinfo = []
        url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
        html = Get_HTML(url)
        U_list( uinfo,html)
        print_Univlist( uinfo,20)
    
    
    if __name__ == "__main__":
        main()
    
    

    代码如上,运行结果如下:
    在这里插入图片描述
    以上就是全部的代码内容,希望对你的学习有帮助。

    代码细节分析

    得到源代码函数分析

    def  Get_HTML(url):
        try :
            use = {'User-Agent': 'Mozilla/5.0'}  #此行代码骗过服务器我们是使用浏览器进行访问的,防止有些网站对我们进行拦截
            r = requests.get(url, timeout = 30,headers = use)
            r.raise_for_status()      #如果状态不是200引发HTTPError异常
            r.encoding = r.apparent_encoding  #将文本的编辑方式传给头,防止造成编码错路出现乱码
            return  r.text
        except :
                return "产生异常"
    

    首先函数使用了try. …except…进行确保程序的稳定运行,在函数中首先在头文件中加入User-Agent的信息用于骗过服务器,让服务器误认为是浏览器操作。

    第二句是GET到网页源代码并将刚才的header加入到程序中

    r.raise_for_status() 确保程序的正常运行,若返回值不是200,则程序会运行except并返回"产生异常"

    得到特定的tr标签函数分析

    def  U_list(ulist,html):
        soup = BeautifulSoup(html,"html.parser")
        for tr in soup.find("tbody").children:
            if  isinstance(tr,bs4.element.Tag):  #筛选tr标签的类型,如果不是Tag定义的类型将过滤掉
                tds = tr("td")
                ulist.append([tds[0].string,tds[1].string,tds[3].string])
        pass
    

    首先我们将得到的源码传给soup,使用BeautifulSoup库函数,具体使用在上文中有讲解。
    下面一个for循环是为了在tbody中找出所有的儿子节点并给tr
    在if中筛选出符合要求的标签
    最后进行格式化输出

    以上即为两个重要函数的讲解,希望对你的学习有所帮助!

    **文章导航:**

    零基础学Python教程

    在这里插入图片描述

    展开全文
  • 简单的python爬虫小案例,爬取了最好大学大学排名信息,并存入mysql数据库,制作地区大学分布数量柱状图,词云。可用作大作业参考使用,内附带文档、源码、注释
  • 关于最好大学网的爬虫 暑期在家看了慕课的爬虫视频,然后练练手这是我的关于最好大学网的一次爬虫。新手上路,错误难免。 下面是我对这次爬虫的理解 一:关于最好大学最好大学网 二:下面代码 // Auther Dath //...

    关于最好大学网的爬虫

    暑期在家看了慕课的爬虫视频,然后练练手这是我的关于最好大学网的一次爬虫。新手上路,错误难免。
    下面是我对这次爬虫的理解

    一:关于最好大学网

    最好大学网

    在这里插入图片描述

    二:下面代码

    // Auther Dath
    // 2019/7/23
    
    import requests
    import lxml
    from bs4 import BeautifulSoup
    import bs4
    import pandas as pd
    
    
    def GetHtmlText(url,headers):
        try:
            r = requests.get(url, headers)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return r.text
        except:
            return "访问异常错误"
    
    def GetUniverList(ulist,html):
        soup = BeautifulSoup(html,'lxml')
        for tr in soup.find('tbody').children:
            if isinstance(tr, bs4.element.Tag):  #筛选出bs4.element.Tag的类型
                tds = tr('td')
                ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string, tds[4].string, tds[5].string, tds[6].string, tds[7].string, tds[8].string, tds[9].string,
                              tds[10].string, tds[11].string, tds[12].string, tds[13].string])
    
    
    
        def WriteToFile(ulist):
        name = ['排名', '学校名称', '省市', '总分', '生源质量(新生高考成绩得分)', '培养结果(毕业生就业率)', '社会声誉(社会捐赠收入千元)',
                '科研规模(论文数量篇)','科研质量(论文质量FWC)','顶尖成果(高被引论文篇)', '顶尖人才(高被引学者人)', '科技服务(企业科研经费千元)',
                '成果转化(技术转让收入千元)', '学生国际化(留学生比例)']
        test = pd.DataFrame(columns=name, data=ulist)
    
        test.to_csv(r'C:\Users\Administrator\Desktop\最好大学网2019大学排名.csv', index=0)
    
    def main():
        uinfo = []
        url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like G'
                                 'ecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3704.400 QQBrowser/10.4.3587.400'}
        html = GetHtmlText(url,headers)
        GetUniverList(uinfo,html)
        WriteToFile(uinfo)
    
    main()
    
    

    三:代码结果

    在这里插入图片描述
    此次一共有549所大学

    四:代码思路

    	本次一共使用了三个函数GetHtmlText()
    

    第一个函数GetHtmlText()函数获取网页的text信息
    在这里插入图片描述
    第二个函数GetUniverList()将需要的内容加入到一个二维列表中

    在这里插入图片描述

    第三个函数WriteToFile()将列表中的 内容写入csv文件
    利用pandas库比较简单

    // A code block
        test.to_csv(r'C:\Users\Administrator\Desktop\最好大学网2019大学排名.csv', index=0)
    

    主函数main() 反应了代码的主要思路
    其中 requests.get(url,headers)加入headers为了模拟浏览器上网

    五:总结

    第一次用csdn写博客,捣鼓了好久才写好,结果点错了没了,重新写了一份。搞得心态有点炸,没有刚开始的热情写了,所以布局啥的不大好勿怪

    如果有更好的建议可以联系我,谢谢

    下面是本次代码的结果csv文件 百度网盘分享
    链接:https://pan.baidu.com/s/1eI9fi0U9d4i-CWOJImhUMA
    提取码:y8df

    展开全文
  • #最好大学网无robots协议 #2017/4/28函数过于简单,不再赘述 import requests from bs4 import BeautifulSoup import bs4def getHTMLText(url): try: r = requests.get(url,timeout = 30) r.ra
    #爬虫代码由北京理工课程内容课程所书写
    #最好大学网无robots协议
    #2017/4/28函数过于简单,不再赘述
    import requests
    from  bs4 import BeautifulSoup
    import bs4
    
    def getHTMLText(url):
        try:
            r = requests.get(url,timeout = 30)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return r.text
        except:
            print('get wrong!')
    
    def fillunivlist(ulist,html):
        soup = BeautifulSoup(html,'html.parser')
        for tr in soup.find('tbody').children:
            if isinstance(tr,bs4.element.Tag):
                tds = tr('td')
                ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])
    
    def PrintUnivlist(ulist,num):
        tclt = '{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}'
        print(tclt.format('数字','学校名称','省份','分数',chr(12288)))
        for i in range(num):
            u = ulist[i]
            print(tclt.format(u[0], u[1], u[2],u[3],chr(12288)))
    
    def themain():
        uinfo = []
        url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html"
        html = getHTMLText(url)
        fillunivlist(uinfo,html)
        PrintUnivlist(uinfo,30)
    
    if __name__ == '__main__':
        themain()
    展开全文
  • 大学排名爬虫

    2019-02-01 21:06:17
    简单的爬虫实例,爬取了大学排名的相关信息,适合爬虫入门
  • 爬虫目的 抓取专项学科获取该学科在全国各高校的排名情况 获取该学科所在高校在全国的综合排名情况 获取该学科全国范围博士点的数量 获取该学科的重点学科院校情况 根据网址爬取网页 使用最基本的网页爬取通用框架:...
  • 中国大学排名爬虫

    2018-01-14 16:12:45
    中国mooc中网中 python网页爬虫课程 关于定向爬取中国大学排名的网页爬虫
  • print( "{0:^10}\t{1:{3}^10}\t{2:^10}".format("排名","大学名字","分数",chr(12288))) for i in range(516): u = ulist[i] print(tplp.format(u[0],u[1],u[3],chr(12288))) print("Success")
  • 整理于北京理工大学-嵩天老师的爬虫mooc 包括了爬虫程序和对中文字符居中问题的解决 程序:  import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): //获取HTML的内容 try: r =...
  • 上海交通大学设计了一个“最好大学网”,上面列出了当前的大学排名。我们要设计爬虫程序,爬取大学排名信息。 爬虫功能要求: 输入:大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)工具:...
  • 最好大学排名http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 功能描述:输入大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests-bs4 定向爬虫:仅对输入URL...
  • 功能描述输入:大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)技术路线:requests‐bs4定向爬虫:仅对输入URL进行爬取,不扩展爬取定向爬虫可行性在最好大学网点击右键,查看源代码,Ctrl...
  • 获取内容: 招生计划(专业名称,学科门类,计划招生,学制) 专业分数线(专业名称,录取批次,平均分最低分/最低位次) 每年的分数线(年份,录取批次,招生类型,最低分/最低位次,省控线) 学校基本信息(学校id,名字 ,...
  • 实例1–2019中国最好大学排名定向爬虫 参考博客开始学习:https://www.cnblogs.com/Jerry-Dong/p/7647850.html 增加了一些简单功能 可以选择年份 Year = '2018' url = '...
  • 【MOOC】Python网络爬虫与信息提取 import requests from bs4 import BeautifulSoup import bs4 # 获取网页内容 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status
  • python爬虫 2021中国大学排名定向爬虫

    千次阅读 多人点赞 2021-04-28 16:07:24
    最近的几篇博客来源是...最好大学网:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requestsbs4 定向爬.
  • 背景:由上海软科高等教育评价,每年对会进行最好大学最好学科等排名 功能描述: 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests‐bs4 定向爬虫:仅对输入URL...
  • 基于requests库,2020年中国大学排名网络爬虫,中国大学排名网站的标签和标签内容一直在更改,之前的爬虫已经不能爬去到目标信息。
  • 软科大学排名爬虫

    2018-10-28 00:32:11
    爬虫用于爬取最好大学网(即软科)上的中国大学排名并存储到excel表格中
  • 学习前福利 微信公众号-西红柿的自我修养 程序员天天只顾写生活琐事的文章可就太对不起其他的程序员们了,某大佬给我在线寄了一张刀片的图片...爬取最好大学网的大学高校排名并输出到csv文件中。还是那句话...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 20,647
精华内容 8,258
关键字:

最好大学爬虫

爬虫 订阅