精华内容
下载资源
问答
  • 中国知网爬虫

    万次阅读 多人点赞 2019-11-21 14:51:25
    中国知网爬虫 一、知网介绍 提起中国知网,如果你曾经写过论文,那么基本上都会与中国知网打交道,因为写一篇论文必然面临着各种查重,当然翟博士除外。但是,本次重点不在于写论文跟查重上,而在于我们要爬取知...

    中国知网爬虫

    一、知网介绍

    提起中国知网,如果你曾经写过论文,那么基本上都会与中国知网打交道,因为写一篇论文必然面临着各种查重,当然翟博士除外。但是,本次重点不在于写论文跟查重上,而在于我们要爬取知网上一些论文的数据,什么样的数据呢?我们举一个例子来说,在知网上,搜索论文的方式有很多种,但是对于专业人士来说,一般都会使用高级检索,因为直接去查找作者的话,容易查找到很多重名作者,所以我们本次的爬虫也是使用了高级检索(泛称)的爬虫,再具体就是专业检索,有助于我们唯一定位到作者。

    二、常规步骤—页面分析

    1.来到高级检索页面,以【AU=王长峰 AND FU=71271031】为例检索,结果如下:

    2.利用Xpath语法尝试获取这些数据,却发现一无所获。

    3.按照常理来说,即使是动态网页也可以利用Xpath语法提取到数据,只是在Python里面获取不到而已,所以在这里存在我们所不知道的问题。

    三、知网反爬虫机制

    常见的反爬虫机制一般有两种:

    第一种是请求头反爬虫,这个也是最简单的,如果你不给定请求头,对方服务器就不会理你。需要设置的参数有User-Agent、Referer和Cookie。

    第二种是动态网页,利用Ajax技术使用js接口来传递数据。

    毫无疑问,对于数据非常金贵的中国知网来说,肯定使用了以上两种反爬方式,并且中国知网的js接口非常复杂,虽说复杂,但是只要你的内功要是足够强的话,还是能够分析得出来,但是对于不懂js以及web开发的朋友来说,这将是一个非常困难的事情,所以使用selenium来进行爬虫将是一件相对来说比较容易的事情。

    另外,知网也不是仅仅只有这两层反爬虫机制,还有第三层,那就是iframe,由于很多朋友并没有做过网站开发,所以不太清楚了这是什么东西,导致即使发现自己的Xpath语法正确,也无法正确获取数据,从而怀疑人生,实际上,iframe比较常见的一种反爬虫机制,不过,如果你不知道这个东西,那么你就基本上无缘爬取中国知网了。

    四、什么是iframe?

    了解iframe前,你首先得知道一个网页是什么,没错,一个网页就是一个html页面。接下来我们从感性和源码两个方面来认识一下iframe.

    1.感性认知。

    一句话:一个完整的网页内部又嵌套了多个完整的网页,嵌套的页面就叫做iframe。

    2.网页源码认识。

    比如一个非常简单的html页面(如下图所示),一个html页面是拥有一个完整的html标签的,也就是起始html【<html>】和闭合html【</html>】,而iframe则是在这一个完整的html标签里面又嵌套了一个完整的html标签。

    <html>
    <body>
    
    <p>Python伊甸园</p>
    
    </body>
    </html>

    3.看一下中国知网的源码,发现果然存在一个iframe,所以这个就是中国知网的第三种反爬虫机制。

    五、最后给出中国知网的爬虫

    1.ways.py

    import pandas as pd
    #AU=王长峰 AND FU=71271031
    def get_data():
        data_list = pd.read_excel(r"C:\Users\wwb\Desktop\科学基金.xls",
                                  encoding='utf8')
        leaders = data_list.leader.values.tolist()
        codes = data_list.code.tolist()
        results = []
        for leader,code in zip(leaders,codes):
            result = "AU={} AND FU={}".format(leader,code)
            results.append(result)
        return results
    
    #results = get_data()
    #print(results)
    

    2.main.py

    from selenium import webdriver
    from lxml import etree
    import time
    from ways import get_data
    import random
    
    def pasre_page(driver):
        html = etree.HTML(driver.page_source)
        trs = html.xpath('//tr[@bgcolor]')
        for tr in trs:
            title = tr.xpath('./td//a[@class="fz14"]/text()')[0]
            authors = tr.xpath('./td[@class="author_flag"]/a[@class="KnowledgeNetLink"]//text()')
            authors = "|".join(authors)
            source = tr.xpath('./td//a[@target="_blank"]/text()')[1]
            times = tr.xpath('./td[@align="center"]/text()')[0].strip()
            database = tr.xpath('./td[@align="center"]/text()')[1].strip()
            counted = tr.xpath('./td//span[@class="KnowledgeNetcont"]/a/text()')
            if len(counted) == 0:
                counted = 0
            else:
                counted = counted[0]
            downloadCount = tr.xpath('./td//span[@class="downloadCount"]/a/text()')
            if len(downloadCount) == 0:
                downloadCount = 0
            else:
                downloadCount = downloadCount[0]
            data = {
                    "title":title,
                    "authors":authors,
                    "source":source,
                    "times":times,
                    "database":database,
                    "counted":counted,
                    "downloadCount":downloadCount,
                    }
            datas.append(data)
            print(title)
        time.sleep(random.uniform(2,4))
        driver.switch_to.parent_frame()
        search_win = driver.find_element_by_id('expertvalue')
        search_win.clear()
        time.sleep(random.uniform(2,4))
        
    
    driver_path = r"C:\Users\wwb\Desktop\chromedriver.exe"
    driver = webdriver.Chrome(executable_path=driver_path)
    url = "https://www.cnki.net/"
    driver.get(url)
    
    home_page = driver.find_element_by_id('highSearch')
    home_page.click()
    driver.switch_to_window(driver.window_handles[1])
    search_page = driver.find_element_by_id('1_3')
    search_page.click()
    datas = []
    results = get_data()
    for result in results:
        search_win = driver.find_element_by_id('expertvalue')
        search_win.send_keys(result)
        search_btn = driver.find_element_by_id('btnSearch')
        search_btn.click()
        iframe = driver.find_element_by_id('iframeResult')
        driver.switch_to.frame(iframe) 
        time.sleep(random.uniform(2,4))
        pasre_page(driver)

    3.部分结果展示:


    扫描二维码即可参与该课程,解锁更多爬虫知识:

     

     

     

    展开全文
  • 论文帮手中国知网万方维普论文查重检测系统拥有海量的文献比对库和算法库,采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,采用云计算
  • endnote x4 中国知网中国知网过滤器和万方数据库的endnote导入 ,有详细文档,个人实践通过 。软件下载在文档里提供链接。
  • 破译中国知网

    千次阅读 2019-04-12 11:12:19
    破解中国知网 对于研究生来说,中国知网是常用的下载论文的网站,一般来说我们在相应的IP地址内可以免费下载到文献全文,但有时候也会遇到无权下载的情况! 比如下载以下博士论文, 当点击整本下载的时候偶尔会出现...

    破解中国知网
    对于研究生来说,中国知网是常用的下载论文的网站,一般来说我们在相应的IP地址内可以免费下载到文献全文,但有时候也会遇到无权下载的情况!

    比如下载以下博士论文,

    当点击整本下载的时候偶尔会出现‘’产品不再有效期范围之内“或者‘’未知错误‘’的时候,这说明我们无权下载该篇论文!
    接下来我们就得采取其他方式来索取。在此,大家可以尝试使用:iData, 该网址是全球最大的知网镜像网站,界面非常简洁。网址为:https://www.cn-ki.net

    打开之后界面为:

    此时,你只需注册一个 iData 账号,然后输入你想下载的期刊,硕博论文名字,即可


    作者:Care07
    来源:CSDN
    原文:https://blog.csdn.net/weixin_42013009/article/details/81063347
    版权声明:本文为博主原创文章,转载请附上博文链接!

    欢迎使用Markdown编辑器

    你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

    新的改变

    我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

    1. 全新的界面设计 ,将会带来全新的写作体验;
    2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
    3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
    4. 全新的 KaTeX数学公式 语法;
    5. 增加了支持甘特图的mermaid语法1 功能;
    6. 增加了 多屏幕编辑 Markdown文章功能;
    7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
    8. 增加了 检查列表 功能。

    功能快捷键

    撤销:Ctrl/Command + Z
    重做:Ctrl/Command + Y
    加粗:Ctrl/Command + B
    斜体:Ctrl/Command + I
    标题:Ctrl/Command + Shift + H
    无序列表:Ctrl/Command + Shift + U
    有序列表:Ctrl/Command + Shift + O
    检查列表:Ctrl/Command + Shift + C
    插入代码:Ctrl/Command + Shift + K
    插入链接:Ctrl/Command + Shift + L
    插入图片:Ctrl/Command + Shift + G

    合理的创建标题,有助于目录的生成

    直接输入1次#,并按下space后,将生成1级标题。
    输入2次#,并按下space后,将生成2级标题。
    以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

    如何改变文本的样式

    强调文本 强调文本

    加粗文本 加粗文本

    标记文本

    删除文本

    引用文本

    H2O is是液体。

    210 运算结果是 1024.

    插入链接与图片

    链接: link.

    图片: Alt

    带尺寸的图片: Alt

    居中的图片: Alt

    居中并且带尺寸的图片: Alt

    当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

    如何插入一段漂亮的代码片

    博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

    // An highlighted block
    var foo = 'bar';
    

    生成一个适合你的列表

    • 项目
      • 项目
        • 项目
    1. 项目1
    2. 项目2
    3. 项目3
    • 计划任务
    • 完成任务

    创建一个表格

    一个简单的表格是这么创建的:

    项目 Value
    电脑 $1600
    手机 $12
    导管 $1

    设定内容居中、居左、居右

    使用:---------:居中
    使用:----------居左
    使用----------:居右

    第一列 第二列 第三列
    第一列文本居中 第二列文本居右 第三列文本居左

    SmartyPants

    SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

    TYPE ASCII HTML
    Single backticks 'Isn't this fun?' ‘Isn’t this fun?’
    Quotes "Isn't this fun?" “Isn’t this fun?”
    Dashes -- is en-dash, --- is em-dash – is en-dash, — is em-dash

    创建一个自定义列表

    Markdown
    Text-to-HTML conversion tool
    Authors
    John
    Luke

    如何创建一个注脚

    一个具有注脚的文本。2

    注释也是必不可少的

    Markdown将文本转换为 HTML

    KaTeX数学公式

    您可以使用渲染LaTeX数学表达式 KaTeX:

    Gamma公式展示 Γ(n)=(n1)!nN\Gamma(n) = (n-1)!\quad\forall n\in\mathbb N 是通过欧拉积分

    Γ(z)=0tz1etdt&ThinSpace;. \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.

    你可以找到更多关于的信息 LaTeX 数学表达式here.

    新的甘特图功能,丰富你的文章

    Mon 06Mon 13Mon 20已完成 进行中 计划一 计划二 现有任务Adding GANTT diagram functionality to mermaid
    • 关于 甘特图 语法,参考 这儿,

    UML 图表

    可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图::

    张三李四王五你好!李四, 最近怎么样?你最近怎么样,王五?我很好,谢谢!我很好,谢谢!李四想了很长时间,文字太长了不适合放在一行.打量着王五...很好... 王五, 你怎么样?张三李四王五

    这将产生一个流程图。:

    链接
    长方形
    圆角长方形
    菱形
    • 关于 Mermaid 语法,参考 这儿,

    FLowchart流程图

    我们依旧会支持flowchart的流程图:

    Created with Raphaël 2.2.0开始我的操作确认?结束yesno
    • 关于 Flowchart流程图 语法,参考 这儿.

    导出与导入

    导出

    如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

    导入

    如果你想加载一篇你写过的.md文件或者.html文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
    继续你的创作。


    1. mermaid语法说明 ↩︎

    2. 注脚的解释 ↩︎

    展开全文
  • Python爬中国知网

    千次阅读 2020-06-18 17:25:18
    1.爬中国知网官网

    1.爬中国知网官网,需要最基本的文献信息(标题、发布时间、作者、作者单位、摘要等);如图所示:根据分类采集在房这里插入图片描述
    2.scrapy部分代码如下:

        def parse(self, response):
    
            item = {}
    
            # with open("aaa.html", "wb") as f:
            #     f.write(response.text.encode("utf-8"))
            # print(response.text)
    
            total_data = json.loads(response.text)
    
            data = total_data["rows"]
    
            for row in data:
    
                # 标题
                item["title"] = row["Title"]
                # print(row["Title"])
    
                # 作者
                item['author'] = row["Author"]
    
                # 内容
                item["summary"] = row["Summary"]
    
                # 关键字
                item["keyword"] = row["Keyword"]
    
                # 发布时间
                item["publicationtime"] = row["PublicationTime"]
    
                # 作者发布机构
                item["authorinstitution"] = row["AuthorInstitution"]
    
                # 二级分类
                item["sort"] = "互联网技术"
    
                print(item)
    
    1. 抓下来数据如下图所示:
      代码抓取如下:
      在这里插入图片描述
      在这里插入图片描述
      4.如果需要完整数据可以加我qq763073105.
    展开全文
  • 中国知网采集下来的数据,进行sql整理,有截取字段,建表语句等
  • 中国知网免费入口

    2013-07-08 11:32:08
    中国知网免费入口登入工具,可以免费下载任意中英文文献。
  • 中国知网(cnki)上caj格式转pdf的方法

    万次阅读 多人点赞 2018-12-29 16:22:14
    知网上很多比较长的学位论文通常是只有caj格式,而这种格式只能通过知网自家的CAJViewer才能打开。 但是!!! CAJViewer没有linux版,这给平常使用linux的小伙伴带来了很多不方便。 解决方法: 第一种: ...

    知网上很多比较长的学位论文通常是只有caj格式,而这种格式只能通过知网自家的CAJViewer才能打开。
    但是!!!
    在这里插入图片描述
    CAJViewer没有linux版,这给平常使用linux的小伙伴带来了很多不方便。

    解决方法:

    第一种:

    http://app.xunjiepdf.com/caj2pdf
    这个网站可以提供在线caj转pdf的功能,但是如果不用vip只能转2MB以下的文件。较为不方便。

    第二种:

    在海外版知网上大部分文章都有pdf版本。。。。。
    (来源于https://github.com/JeziL/caj2pdf/issues/27这个issue中 Zhao-Hui-Huang 小伙伴的comment)
    海外版知网:
    http://eng.oversea.cnki.net
    试了一下,亲测可行,下到了pdf版本的某硕士学位论文。
    中国知网结果还是海外版的更方便。。。无言以对。。。

    展开全文
  • 中国知网CNKI数据库的使用ppt课件.ppt
  • 中国知网论文下载

    2019-12-27 12:05:30
    中国知网知识发现网络平台—面向海内外读者提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源统一检索、统一导航、在线阅读和下载服务。 但是有一个特点**–贼贵–**,我听到很多人说,...
  • 中国知网CNKI入口免费助手是一款最新的中国知网免费入口登入工具,整合了最新的2015中国知网免费入口。方便写论文的你进行文献搜索,为你提供海量的学术资源。 功能介绍 中国知网CNKI入口免费助手整合和中国知网的...
  • CAJ阅读器 中国知网

    2012-05-15 12:17:12
    中国知网,中国学术期刊阅读器,CAJ阅读器
  • Python中国知网输入关键词后搜索文章,获取文章信息
  • 春节马上就要结束了,年后的新学期很多大四大学生就要开始写论文来,在完成毕业论文之后,一般都会选择知网查重系统进行论文检测,下面我们就来了解一下,最新中国知网本科论文检测攻略。希望对第一次论文检测的毕业...
  • 中国知网CAJ阅读器

    2013-01-06 18:21:35
    中国知网官方下载,可打开pdf等多种格式的文档。是写论文查资料的好助手
  • 中国知网免费登录入口工具,可能拿自己的论文登录知网进行比对,参考优秀论文等
  • 一键下载中国知网硕博士论文pdf格式的脚本插件,有了这款插件,用户可以下载中国知网pdf论文格式,非常实用,需要的朋友欢迎前来下载!
  • 中国知网CNKI数据库使用介绍,很详细的。。
  • 中国知网如何下载pdf格式的文献

    万次阅读 2019-04-03 15:14:44
    中国知网上下载的都是caj格式的文章,十分的不方便,那么有...中国知网海外版本就可以,网址如下: http://new.oversea.cnki.net/index/ 下面这个是旧版本,比上面这个更好用 http://eng.oversea.cnki.net/kns55/ ...
  • 中国知网查重方法有哪些

    千次阅读 2019-03-11 15:08:11
    最近有很多即将毕业的大学同学们问小编中国知网查重方法有哪些,小编接下去就和同学们探讨一下吧。 中国知网查重方法有哪些 中国知网查重方法其实就两种,一种是利用学校的知网账号进行知网论文查重,一就是去和知.....
  • CNKI中国知网免费下载入口【已验证】【超有用2012年最新】
  • 这个工具是中国知网免费入口登入工具,可以免费静茹登陆
  • <div><p>在中国知网添加文献时,部分文献会提示抓取失败。经过我的观察,是url参数的顺序问题。 大部分时候,在知网搜索,并点击结果,url的参数顺序为: ...
  • 一、参考资料 citavi6 无法阅读caj文件怎么破解 caj 添加到citavi 二、步骤 ...中国知网首页,进入英文版本界面,搜索同样的题目,硕博论文 就可以下pdf版本 方法一 CNKI海外平台(青岛) ...
  • 基于 S1000D 的交互式电子技术手册研制前在《中国知网》参考了大量
  • 中国知网知识发现网络平台—面向海内外读者提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源统一检索、统一导航、在线阅读和下载服务。 对于每一位大学生而言,中国知网是最重要的论文...
  • 中国知网论文检测系统如何进行论文检测的介绍
  • 中国知网直接入口 知网镜像,有人 数限制!

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,106
精华内容 442
关键字:

中国知网