精华内容
下载资源
问答
  • 大学生如何登陆使用web of science

    万次阅读 2020-04-20 14:44:40
    第一步,登录web of science的网址,此时我们看到机构登录的选项,选择CHINA CERNET Fderation选项 选择好之后点击下面的转到,在新的页面中选择你的大学,然后如下图所示输入账号密码 就可以正常使用了 ...

    第一步,登录web of science的网址,此时我们看到机构登录的选项,选择CHINA CERNET Fderation选项
    在这里插入图片描述
    选择好之后点击下面的转到,在新的页面中选择你的大学,然后如下图所示输入账号密码
    在这里插入图片描述
    就可以正常使用了
    在这里插入图片描述

    展开全文
  • 在家也能查sci--漫游登陆web of science

    万次阅读 2019-02-09 12:14:46
    使用researcherID的账号密码登录web of science 一到寒暑假,回到家的小伙伴们就用不了校园网的各种福利了,而其中最重要的就是学校的网上图书馆。这篇博客就是教大家漫游登陆web of scienc...


    一到寒暑假,回到家的小伙伴们就用不了校园网的各种福利了,而其中最重要的就是学校的网上图书馆。这篇博客就是教大家漫游登陆web of science,在家也能查sci。

    step1. 注册ResearcherID

    首先进入右边的链接注册一个ResearcherID https://www.researcherid.com/SelfRegistration.action
    在这里插入图片描述

    这个ResearcherID和web of science属于同一个机构Clarivate Analytics,账号密码可以共用:
    在这里插入图片描述

    注册完之后,还不能登陆web of science,官网提示你要先用校园网登录一次:
    在这里插入图片描述

    step2. 连上校园网,通过网上图书馆进入web of science

    在这里插入图片描述

    step3. 使用researcherID的账号密码登录web of science

    在这里插入图片描述
    现在可以断开校园网,使用自己的手机热点等进行登录了。

    喜欢就点个赞吧。

    展开全文
  • 我是目录Web of Science中国知网 最近又做了爬取知网以及web of science的工作,因此记录在这里。(话说这几天简直是要类吐血,之前看的论文累得全忘光光了,还得捡一下) 本期教程以关键词摘要的爬取为例。 Web of ...

    最近又做了爬取知网以及web of science的工作,因此记录在这里。(话说这几天简直是要类吐血,之前看的论文累得全忘光光了,还得捡一下)
    本期教程以关键词摘要的爬取为例。

    Web of Science

    首先爬这个你得需要有WOS的账号,不然就可以放弃了,试试去爬开源的学术资源,比如Aminer,谷歌学术啥的吧。因为疫情在家,使用必须输入学校的账号才可以登录,因此在爬取的时候Keep alive并且保存Cookie很重要。当然,爬数据的时候也不能漫无目的地爬,因此需要整一个检索的公式。我就以高级检索为例子了。
    在这里插入图片描述
    然后点击检索,发现居然还有几百条返回结果????fxxk这个词真的适合学术论文吗?点击那个362的< a>标签:
    在这里插入图片描述
    在这里插入图片描述
    由于WOS是不通过更改状态栏的URL进行的js请求,因此还需要解析网络情求,在浏览器里右键->检查就可以了(我用的是Google),这样request Header里的东西就是你需要在爬虫里填充的了:
    在这里插入图片描述
    然后再往下翻翻,能看到一堆请求参数(激活windows请忽略哈)。其中最重要的是SID参数,这个东西在cookies里也可以见到,可能是Search ID的缩写?俺也不太清楚。
    在这里插入图片描述
    好接下来就是紧张刺激的爬虫编写阶段了。其中几个变量需要额外注意:params,这个就是上个图中params的字典。Header,实际操作中发现Reference并没有啥用,就注释掉了,注意Cookies改成当前的。然后page是返回结果的分页数,每页默认10条论文数据。然后就可以使用bs4解析获取到的页面了。当然,有时候WOS会封禁你的IP,导致大量的数据爬去失败,所以尽量做一个能接着上次爬的程序:

    def get_papers(pages, Ts, wf):
        docs = range(1,11)
        for page in [pages]:
            for doc in docs:
                try:
                    params = {'product': 'UA',
                              'search_mode': 'AdvancedSearch',
                              'qid': '1',
                              'SID': '6BEGcONYvx9UwsFqcjJ',
                              'page': page,
                              'doc': doc+10*page}
                    headers = {'Connection': 'keep-alive',
                               'Cache-Control': 'max-age=0',
                               'Upgrade-Insecure-Requests': '1',
                               'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36',
                               'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
                               'Sec-Fetch-Site': 'same-origin',
                               'Sec-Fetch-Mode': 'navigate',
                               'Sec-Fetch-User': '?1',
                               'Sec-Fetch-Dest': 'document',
                               # 'Referer': 'https://vpns.jlu.edu.cn/http/77726476706e69737468656265737421f1e7518f69276d52710e82a297422f30a0c6fa320a29ae/summary.do?product=UA&doc=1&qid=1&SID=5DBpNAh2XO1RiRuktE5&search_mode=AdvancedSearch&update_back2search_link_param=yes',
                               'Accept-Language': 'zh-CN,zh;q=0.9',
                               'Cookie': 'remember_token=cGomHwzZHlXaNRRaojffCTmArGaQSybzZmZmgbwMRHwdDFZcsgQLPPfyvXWGGoWX; wengine_vpn_ticket=b96dc49f3eda90d9; refresh=0'}
    
                    url = 'https://vpns.jlu.edu.cn/http/77726476706e69737468656265737421f1e7518f69276d52710e82a297422f30a0c6fa320a29ae/full_record.do'
                    htm1 = requests.get(url, headers=headers, params=params, verify=False)
                    soup = BeautifulSoup(htm1.text, 'html.parser')
                    title = soup.find('div', attrs={'class':'title'}).text
                    if title not in Ts:  # 已经爬取过的文章跳过
                        abstract = soup.find('div', text='摘要').find_next().text
                        keywords = soup.find('div', text='关键词').find_next().text
                        journal = soup.find('span', attrs={'class':'hitHilite'}).text
                        print(page, doc, title, sep='    ')
                        wf.write("<Inner>".join([title, abstract, keywords, journal]).replace('\n','')+'\n')
                except:
                    traceback.print_exc()
                    time.sleep(3)
                    continue
    

    get_paper是获取论文标题摘要和关键词的数据,并要写入txt文件。为了防止因为网络原因中断,所以除了pages参数外,还有Ts(所有已经爬取的论文数),wf需要写入的文件,在写的时候判断是否已经爬过这个数据了,如果爬过就跳过。
    然后接下来得读取Ts呀,很简单的读取方法:

    def check_titles():    # 判断当前爬取的论文是否已经存在,存在则跳过
        Ts = []
        files = os.listdir('Results')
        for file in files:
            with open('Results/'+file, 'r', encoding='utf-8') as rf:
                Ts.extend([line.strip().split('<Inner>')[0] for line in rf.readlines()])
        print('已经爬取:', len(Ts))
        return Ts
    

    然后为了加速,做了一个简单的多线程,但是线程太多就会被封IP,大家自己调一调哦,封了IP等一会就好了(6个没啥问题吧)。其中,每个线程调用一个不同的get_papers方法,爬取不同page的数据。

    if __name__ == '__main__':
        id = 7
        # genarate_command(id)
        Ts = check_titles()
        threads = []    # 存放多线程
        all_pages = int(2933/10) + 1
        wf = open('Results/{}.txt'.format('journal'+str(id+1)), 'a', encoding='utf-8')
        for i in range(100, all_pages):
            threads.append(threading.Thread(target=get_papers, args=(i,Ts,wf)))
        num = 0
        while num <= len(threads):
            if threading.activeCount() <= 6:   # 最大线程数小于6
                threads[num].start()
                num += 1
            else:
                time.sleep(10)    # 否则我休眠一百秒去执行线程
    

    当然,实在是经常被封IP还可以用下一个策略:Selenium。这个就是实打实的浏览器访问,因此不会被封,但是十分之慢…因此就不介绍了

    中国知网

    我贼喜欢中国知网,因为数据太好爬了。但是大家爬数据要秉着学术研究的目的,别做别的,爬虫学得好,牢饭吃到饱。
    这次我以期刊为范围,进行期刊的爬取。比如“管理世界”,知网中的期刊对应了不同的缩写,比如管理世界就是“GLSJ”,而且显示地出现在URL里了,也不用我额外去解析:http://navi.cnki.net/KNavi/JournalDetail?pcode=CJFD&pykm=GLSJ
    然后我在期刊内检索关键词“创新创业”:
    在这里插入图片描述
    然后还是找到response对应的请求头,咱一个一个解析参数:
    在这里插入图片描述

    参数 含义
    pcode 我也不是很清楚啊哈哈
    baseId 期刊名字
    where 检索字段,应该表示主题
    searchText 检索框内输入的关键词
    orderby RT,看起来是根据相关性的排序
    ordertype DESC,熟悉MySQL的同学应该都知道,倒序排序嘛,ASC正序
    pageIndex 0,检索返回结果的第一页
    pageSize 50,每页50条记录

    其中,%28SU%25%27%7B0%7D%27%29应该是被编码的检索字段,随便找个在线解码器看看,这个SU应该是知网中表示主题的代码;%E5%88%9B%E6%96%B0%E5%88%9B%E4%B8%9A解码就是对应创新创业这个检索词了。
    在这里插入图片描述
    然后,再看看request URL:
    在这里插入图片描述
    这样完全就可以根据参数自己编写请求头了。接下来还是直接看代码。首先,我要抓取检索结果中的所有论文的URL,因为知网的检索结果论文每个都有固定的id,不像是WOS返回的连接是动态生成的…把每个结果paper的link存起来:

    header={'Connection':'Keep-Alive',
                     'Accept':'text/html,*/*',
                     'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36',
            'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
            # 'Referer':'http://navi.cnki.net/KNavi/JournalDetail?pcode=CJFD&pykm=GLSJ',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
            # 'Cookie': 'Ecp_ClientId=2200210174601303834; RsPerPage=20; cnkiUserKey=814a1a67-effa-b5af-9db6-3b38894d2622; Ecp_IpLoginFail=200602125.223.253.2; ASP.NET_SessionId=qudz13gpalld1xpiq2antz3w; SID_kns=123105; SID_klogin=125143; SID_crrs=125132; KNS_SortType=; _pk_ref=%5B%22%22%2C%22%22%2C1591103026%2C%22https%3A%2F%2Fwww.cnki.net%2F%22%5D; _pk_ses=*; SID_krsnew=125134; SID_kns_new=kns123117'
            }
    params = {
        'pcode': 'CJFD',
        'baseId': 'GLSJ',   # 需要根据期刊修改
        'where': '%28SU%25%27%7B0%7D%27%29',   # 不要修改
        'searchText': '创业研究',   # 根据检索关键词修改
        'condition':'',
        'orderby': 'RT',
        'ordertype': 'DESC',
        'scope':'',
        'pageIndex': 0,   # 在遍历的时候修改,0表示第一页
        'pageSize': 50   #
    }
    def get_search_page_link():
        with open('./links.txt', 'a', encoding='utf-8') as wf:
            for journal in journal_code:
                print(journal)
                for keyword in keywords:
                    print(keyword)
                    params['baseId'] = journal
                    params['searchText'] = keyword
                    path = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleDataXsltByInternalSearch'
                    print(path)
                    htm1 = requests.get(path, headers=header, params=params)
                    soup = BeautifulSoup(htm1.text, 'html.parser')
                    links = soup.find_all('td', attrs={'class':'name'})
                    for link in links:
                        href = link.find('a')
                        if href:
                            href = href['href']
                            wf.write(href.strip()+'\n')
                            wf.flush()
                            print(href.strip())
                    time.sleep(0.5)
                time.sleep(2)
    get_search_page_link()
    

    可以看看paper的href:Common/RedirectPage?sfield=FN&dbCode=CJFD&fileName=GLSJ202005008&tableName=CJFDAUTO&url=
    其中,GLSJ202005008就是论文的id咯。然后我们把这个id替换到具体的检索论文的URL中:
    https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&fileName=GLSJ202005008
    就可以跳转到论文的详细信息页了。get_papers用于获取论文的具体信息,注意写入文件的时候需要flush,不然数据就在缓冲区中并没有真正写入。

    def get_papers():
        file = open('./papers.txt', 'a', encoding='utf-8')
        with open('./links.txt', 'r', encoding='utf-8') as rf:
            for line in rf.readlines():
                name = re.findall('&fileName=.+?&', line.strip())[0]
                url = 'https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD'+name[:-1]
                print(url)
                htm1 = requests.get(url)
                soup = BeautifulSoup(htm1.text, 'html.parser')
                title = soup.find('title').text.strip()
                abstract = soup.find('span', attrs={'id':'ChDivSummary'})
                if abstract is None:
                    abstract = ''
                else:
                    abstract = abstract.text.strip()
                keyword = soup.find('label', attrs={'id':'catalog_KEYWORD'})
                ks = []
                if keyword is not None:
                    keyword = keyword.parent.find_all('a')
                    for word in keyword:
                        ks.append(word.text.strip())
                    ks = ''.join(ks)
                else:
                    ks = ""   # 没有关键词
                print(title, url)
                file.write('<Inner>'.join([title,abstract,ks])+'\n')
                file.flush()
                time.sleep(0.5)
        file.close()
    get_papers()
    

    看看结果:
    在这里插入图片描述

    展开全文
  • SCI查索引号,SCI登录不了 有没有别的办法? 答案就是注册publons 因为可以直接使用wos账号登陆,我这里就不用注册了,直接登陆: 登陆之后左边有个publication: 点击之后: 同步选择确定自己的论文之后下面就...

    我的目的是查索引号,也就是wos的入藏号
    网上的教程很多,但是都需要能登陆wos
    学习笔记102—如何查询SCI检索号?
    SCI查索引号,SCI登录不了
    在这里插入图片描述
    有没有别的办法?
    答案就是注册publons
    在这里插入图片描述
    因为可以直接使用wos账号登陆,我这里就不用注册了,直接登陆:

    在这里插入图片描述
    登陆之后左边有个publication:
    在这里插入图片描述
    点击之后:
    在这里插入图片描述
    同步选择确定自己的论文之后下面就会有数据:
    在这里插入图片描述
    点击对应的Title之后:
    在这里插入图片描述
    继续点击titile所指的地方,就会直接出现相关的wos信息:
    直接翻到最下面点击
    在这里插入图片描述

    就会出现入藏号:
    在这里插入图片描述
    至此,拿到索引号。

    展开全文
  • 什么是SCI1955年,原美国情报信息研究所(ISI)的尤金•加菲尔德博士Science 期刊发表论文提出将引文索引(Citation Index)作为一种新的文献检索与分类工具。...检索方法1)登录Web Of Science网站如下图所示: www.web...
  • SCI,SSCI,核心翻译润色、发表指导什么是SCI1955年,原美国情报信息研究所(ISI)的尤金•加菲尔德博士Science 期刊发表论文提出将引文索引(Citation Index)作为一种新的文献检索与分类工具。... 登录Web Of S...
  • 自研·学术·文献查找

    2020-08-10 12:41:53
    这里主要说明一下,在校外如何使用Web of science登录和查询相关文献: 登录 (1)打开Web of science网站。在机构登录下,选择机构CHINA CERNET Federation,点击转到按钮。 (2)进入CERNET同意认证与资源共享...
  • 关于SCI期刊影响因子的查询最权威的必须是以ISI Web of Knowledge作为检索平台的Web of Science数据库。接下来为大家介绍如何使用该网站平台进行SCI期刊影响因子的查询。 01. 在平常查询浏览SCI文章的时候,可以...
  • 1.登录web of science 网站 www.webofknowledge.com 2.选择Journal Citation Reports web
  • WOS(SCI)爬虫案例

    2020-10-14 14:08:30
    web of Science(SCI): 需要账号认证后可检索。 解决方法: 通过三方平台提供的入口进行模拟登录 http://www.xuezhuanwang.cn/ (账号:9101741523928,密码:329872) 登录后获取搜索接口需要的用户身份认证参数...
  • 查询期刊是不是SCI或EI

    万次阅读 2016-07-14 10:35:58
    查询SCI检索期刊: ...1.登录Web of Science:http://apps.webofknowledge.com 2.点击上方Journal Citation Reports  3.在新窗口Go to Journal Profile空白栏里输入期刊名称即可查询 方法二:http:
  • 第一步:登录web of science看看论文是否查询到SCI论文检索证明开具,要建立在SCI论文成功检索的基础上。检索是SCI论文发表的最后一个步骤,大概是在论文见刊后1-2个月左右,具体方法是登录web of science看看是否...
  • SCI 论文检索

    2021-03-12 14:04:16
    1.登录web of science网站 www.webofknowledge.com 2.选择数据库 Web of Science 核心文集 3.选择 Science Citation Index Expanded (SCI-EXPANDED) 4.这样输入要检索的内容,点击检索,看到的结果就都是...
  • 导入Web of Science的参考文献 首先是进入Web of Science首页,这里顺带提供一个外网访问的方法。使用机构登陆,选择中科院CAS。 原理是中科院集成在WOS的机构用户登录中,是机构用户登录中唯一一个国内授权账号...
  • 发表的文章,要选择期刊,期刊等级不同,文章等级也不同,可能是sci论文,也可能是其他,比如省级论文、国家级论文、国内核心论文等。即不是所有发表的文章...首先,文章若是sci,我们可以登录web of science网站去...
  • 经过大家的努力,小编于7月9日1点左右,重新登录Web of Science数据库进行数据检索,发现原来重复的C1和EM字段已经不再重复,因此,广大读者朋友可以正常地下载数据,并导入VOSviewer、Bibexcel、CiteSpace等软
  • web of science网站上集聚了多个期刊上的关于复杂网络上的论文,于arxiv的区别是,这里的论文通常是已发表的影响力较高的论文。(这个需要用校园网登录,普通网络无法访问) arxiv上是学者将未发表的论文提前发表...
  • 如何查询期刊论文影响力——JCR

    千次阅读 2020-06-09 23:22:27
    1、搜索并打开网址:Web Of Science 在主页查找Journal Citation Report: ⚠️需要登录 一般学校会统一购买账号 界面如下图所示: 2、输入想要查询的期刊名称,以我想查询的《IEEE Transactions on Intelligent ...
  • 如何阅读英文文献

    千次阅读 2018-05-14 21:58:21
    3.登录网页Web of Science(可以选择页面显示语言为中文);4.根据关键词搜索进行条件搜索;5.根据搜索出的文献列表,看每一篇;6.对于每一篇文献,点开摘要,将文献题目与摘要(abstract)复制到谷歌翻译(推荐谷歌,百度...
  • 如题,我做了一个网站,如下代码,现在的问题是网站可以修改,但是一旦刷新或重新登录后又恢复原状了。 请问改写什么代码才能保存网页修改的信息? ``` *" contentType="text/html; charset=utf-8" ...

空空如也

空空如也

1 2
收藏数 21
精华内容 8
关键字:

ofscience登录web