-
大学生如何登陆使用web of science
2020-04-20 14:44:40第一步,登录web of science的网址,此时我们看到机构登录的选项,选择CHINA CERNET Fderation选项 选择好之后点击下面的转到,在新的页面中选择你的大学,然后如下图所示输入账号密码 就可以正常使用了 ...第一步,登录web of science的网址,此时我们看到机构登录的选项,选择CHINA CERNET Fderation选项
选择好之后点击下面的转到,在新的页面中选择你的大学,然后如下图所示输入账号密码
就可以正常使用了
-
在家也能查sci--漫游登陆web of science
2019-02-09 12:14:46使用researcherID的账号密码登录web of science 一到寒暑假,回到家的小伙伴们就用不了校园网的各种福利了,而其中最重要的就是学校的网上图书馆。这篇博客就是教大家漫游登陆web of scienc...在家也能查sci--漫游登陆web of science
一到寒暑假,回到家的小伙伴们就用不了校园网的各种福利了,而其中最重要的就是学校的网上图书馆。这篇博客就是教大家漫游登陆web of science,在家也能查sci。step1. 注册ResearcherID
首先进入右边的链接注册一个ResearcherID https://www.researcherid.com/SelfRegistration.action:
这个ResearcherID和web of science属于同一个机构Clarivate Analytics,账号密码可以共用:
注册完之后,还不能登陆web of science,官网提示你要先用校园网登录一次:
step2. 连上校园网,通过网上图书馆进入web of science
step3. 使用researcherID的账号密码登录web of science
现在可以断开校园网,使用自己的手机热点等进行登录了。喜欢就点个赞吧。
-
Web of science以及中国知网学术论文爬取教程(附代码)
2020-06-06 20:57:35我是目录Web of Science中国知网 最近又做了爬取知网以及web of science的工作,因此记录在这里。(话说这几天简直是要类吐血,之前看的论文累得全忘光光了,还得捡一下) 本期教程以关键词摘要的爬取为例。 Web of ...最近又做了爬取知网以及web of science的工作,因此记录在这里。(话说这几天简直是要类吐血,之前看的论文累得全忘光光了,还得捡一下)
本期教程以关键词摘要的爬取为例。Web of Science
首先爬这个你得需要有WOS的账号,不然就可以放弃了,试试去爬开源的学术资源,比如Aminer,谷歌学术啥的吧。因为疫情在家,使用必须输入学校的账号才可以登录,因此在爬取的时候Keep alive并且保存Cookie很重要。当然,爬数据的时候也不能漫无目的地爬,因此需要整一个检索的公式。我就以高级检索为例子了。
然后点击检索,发现居然还有几百条返回结果????fxxk这个词真的适合学术论文吗?点击那个362的< a>标签:
由于WOS是不通过更改状态栏的URL进行的js请求,因此还需要解析网络情求,在浏览器里右键->检查就可以了(我用的是Google),这样request Header里的东西就是你需要在爬虫里填充的了:
然后再往下翻翻,能看到一堆请求参数(激活windows请忽略哈)。其中最重要的是SID参数,这个东西在cookies里也可以见到,可能是Search ID的缩写?俺也不太清楚。
好接下来就是紧张刺激的爬虫编写阶段了。其中几个变量需要额外注意:params,这个就是上个图中params的字典。Header,实际操作中发现Reference并没有啥用,就注释掉了,注意Cookies改成当前的。然后page是返回结果的分页数,每页默认10条论文数据。然后就可以使用bs4解析获取到的页面了。当然,有时候WOS会封禁你的IP,导致大量的数据爬去失败,所以尽量做一个能接着上次爬的程序:def get_papers(pages, Ts, wf): docs = range(1,11) for page in [pages]: for doc in docs: try: params = {'product': 'UA', 'search_mode': 'AdvancedSearch', 'qid': '1', 'SID': '6BEGcONYvx9UwsFqcjJ', 'page': page, 'doc': doc+10*page} headers = {'Connection': 'keep-alive', 'Cache-Control': 'max-age=0', 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9', 'Sec-Fetch-Site': 'same-origin', 'Sec-Fetch-Mode': 'navigate', 'Sec-Fetch-User': '?1', 'Sec-Fetch-Dest': 'document', # 'Referer': 'https://vpns.jlu.edu.cn/http/77726476706e69737468656265737421f1e7518f69276d52710e82a297422f30a0c6fa320a29ae/summary.do?product=UA&doc=1&qid=1&SID=5DBpNAh2XO1RiRuktE5&search_mode=AdvancedSearch&update_back2search_link_param=yes', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Cookie': 'remember_token=cGomHwzZHlXaNRRaojffCTmArGaQSybzZmZmgbwMRHwdDFZcsgQLPPfyvXWGGoWX; wengine_vpn_ticket=b96dc49f3eda90d9; refresh=0'} url = 'https://vpns.jlu.edu.cn/http/77726476706e69737468656265737421f1e7518f69276d52710e82a297422f30a0c6fa320a29ae/full_record.do' htm1 = requests.get(url, headers=headers, params=params, verify=False) soup = BeautifulSoup(htm1.text, 'html.parser') title = soup.find('div', attrs={'class':'title'}).text if title not in Ts: # 已经爬取过的文章跳过 abstract = soup.find('div', text='摘要').find_next().text keywords = soup.find('div', text='关键词').find_next().text journal = soup.find('span', attrs={'class':'hitHilite'}).text print(page, doc, title, sep=' ') wf.write("<Inner>".join([title, abstract, keywords, journal]).replace('\n','')+'\n') except: traceback.print_exc() time.sleep(3) continue
get_paper是获取论文标题摘要和关键词的数据,并要写入txt文件。为了防止因为网络原因中断,所以除了pages参数外,还有Ts(所有已经爬取的论文数),wf需要写入的文件,在写的时候判断是否已经爬过这个数据了,如果爬过就跳过。
然后接下来得读取Ts呀,很简单的读取方法:def check_titles(): # 判断当前爬取的论文是否已经存在,存在则跳过 Ts = [] files = os.listdir('Results') for file in files: with open('Results/'+file, 'r', encoding='utf-8') as rf: Ts.extend([line.strip().split('<Inner>')[0] for line in rf.readlines()]) print('已经爬取:', len(Ts)) return Ts
然后为了加速,做了一个简单的多线程,但是线程太多就会被封IP,大家自己调一调哦,封了IP等一会就好了(6个没啥问题吧)。其中,每个线程调用一个不同的get_papers方法,爬取不同page的数据。
if __name__ == '__main__': id = 7 # genarate_command(id) Ts = check_titles() threads = [] # 存放多线程 all_pages = int(2933/10) + 1 wf = open('Results/{}.txt'.format('journal'+str(id+1)), 'a', encoding='utf-8') for i in range(100, all_pages): threads.append(threading.Thread(target=get_papers, args=(i,Ts,wf))) num = 0 while num <= len(threads): if threading.activeCount() <= 6: # 最大线程数小于6 threads[num].start() num += 1 else: time.sleep(10) # 否则我休眠一百秒去执行线程
当然,实在是经常被封IP还可以用下一个策略:Selenium。这个就是实打实的浏览器访问,因此不会被封,但是十分之慢…因此就不介绍了
中国知网
我贼喜欢中国知网,因为数据太好爬了。但是大家爬数据要秉着学术研究的目的,别做别的,爬虫学得好,牢饭吃到饱。
这次我以期刊为范围,进行期刊的爬取。比如“管理世界”,知网中的期刊对应了不同的缩写,比如管理世界就是“GLSJ”,而且显示地出现在URL里了,也不用我额外去解析:http://navi.cnki.net/KNavi/JournalDetail?pcode=CJFD&pykm=GLSJ
然后我在期刊内检索关键词“创新创业”:
然后还是找到response对应的请求头,咱一个一个解析参数:
参数 含义 pcode 我也不是很清楚啊哈哈 baseId 期刊名字 where 检索字段,应该表示主题 searchText 检索框内输入的关键词 orderby RT,看起来是根据相关性的排序 ordertype DESC,熟悉MySQL的同学应该都知道,倒序排序嘛,ASC正序 pageIndex 0,检索返回结果的第一页 pageSize 50,每页50条记录 其中,%28SU%25%27%7B0%7D%27%29应该是被编码的检索字段,随便找个在线解码器看看,这个SU应该是知网中表示主题的代码;%E5%88%9B%E6%96%B0%E5%88%9B%E4%B8%9A解码就是对应创新创业这个检索词了。
然后,再看看request URL:
这样完全就可以根据参数自己编写请求头了。接下来还是直接看代码。首先,我要抓取检索结果中的所有论文的URL,因为知网的检索结果论文每个都有固定的id,不像是WOS返回的连接是动态生成的…把每个结果paper的link存起来:header={'Connection':'Keep-Alive', 'Accept':'text/html,*/*', 'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36', 'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8', # 'Referer':'http://navi.cnki.net/KNavi/JournalDetail?pcode=CJFD&pykm=GLSJ', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36' # 'Cookie': 'Ecp_ClientId=2200210174601303834; RsPerPage=20; cnkiUserKey=814a1a67-effa-b5af-9db6-3b38894d2622; Ecp_IpLoginFail=200602125.223.253.2; ASP.NET_SessionId=qudz13gpalld1xpiq2antz3w; SID_kns=123105; SID_klogin=125143; SID_crrs=125132; KNS_SortType=; _pk_ref=%5B%22%22%2C%22%22%2C1591103026%2C%22https%3A%2F%2Fwww.cnki.net%2F%22%5D; _pk_ses=*; SID_krsnew=125134; SID_kns_new=kns123117' } params = { 'pcode': 'CJFD', 'baseId': 'GLSJ', # 需要根据期刊修改 'where': '%28SU%25%27%7B0%7D%27%29', # 不要修改 'searchText': '创业研究', # 根据检索关键词修改 'condition':'', 'orderby': 'RT', 'ordertype': 'DESC', 'scope':'', 'pageIndex': 0, # 在遍历的时候修改,0表示第一页 'pageSize': 50 # } def get_search_page_link(): with open('./links.txt', 'a', encoding='utf-8') as wf: for journal in journal_code: print(journal) for keyword in keywords: print(keyword) params['baseId'] = journal params['searchText'] = keyword path = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleDataXsltByInternalSearch' print(path) htm1 = requests.get(path, headers=header, params=params) soup = BeautifulSoup(htm1.text, 'html.parser') links = soup.find_all('td', attrs={'class':'name'}) for link in links: href = link.find('a') if href: href = href['href'] wf.write(href.strip()+'\n') wf.flush() print(href.strip()) time.sleep(0.5) time.sleep(2) get_search_page_link()
可以看看paper的href:Common/RedirectPage?sfield=FN&dbCode=CJFD&fileName=GLSJ202005008&tableName=CJFDAUTO&url=
其中,GLSJ202005008就是论文的id咯。然后我们把这个id替换到具体的检索论文的URL中:
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&fileName=GLSJ202005008
就可以跳转到论文的详细信息页了。get_papers用于获取论文的具体信息,注意写入文件的时候需要flush,不然数据就在缓冲区中并没有真正写入。def get_papers(): file = open('./papers.txt', 'a', encoding='utf-8') with open('./links.txt', 'r', encoding='utf-8') as rf: for line in rf.readlines(): name = re.findall('&fileName=.+?&', line.strip())[0] url = 'https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD'+name[:-1] print(url) htm1 = requests.get(url) soup = BeautifulSoup(htm1.text, 'html.parser') title = soup.find('title').text.strip() abstract = soup.find('span', attrs={'id':'ChDivSummary'}) if abstract is None: abstract = '' else: abstract = abstract.text.strip() keyword = soup.find('label', attrs={'id':'catalog_KEYWORD'}) ks = [] if keyword is not None: keyword = keyword.parent.find_all('a') for word in keyword: ks.append(word.text.strip()) ks = ''.join(ks) else: ks = "" # 没有关键词 print(title, url) file.write('<Inner>'.join([title,abstract,ks])+'\n') file.flush() time.sleep(0.5) file.close() get_papers()
看看结果:
-
您的 “漫游“ 权限已过期。若要重新激活,请于您的机构处登录 Web of Science
2020-08-18 10:02:57SCI查索引号,SCI登录不了 有没有别的办法? 答案就是注册publons 因为可以直接使用wos账号登陆,我这里就不用注册了,直接登陆: 登陆之后左边有个publication: 点击之后: 同步选择确定自己的论文之后下面就...我的目的是查索引号,也就是wos的入藏号
网上的教程很多,但是都需要能登陆wos
学习笔记102—如何查询SCI检索号?
SCI查索引号,SCI登录不了
有没有别的办法?
答案就是注册publons
因为可以直接使用wos账号登陆,我这里就不用注册了,直接登陆:
登陆之后左边有个publication:
点击之后:
同步选择确定自己的论文之后下面就会有数据:
点击对应的Title之后:
继续点击titile所指的地方,就会直接出现相关的wos信息:
直接翻到最下面点击
就会出现入藏号:
至此,拿到索引号。 -
of python检索文献 science web_查SCI文献,不知道检索方法怎么行!
2020-12-12 09:50:39什么是SCI1955年,原美国情报信息研究所(ISI)的尤金•加菲尔德博士Science 期刊发表论文提出将引文索引(Citation Index)作为一种新的文献检索与分类工具。...检索方法1)登录Web Of Science网站如下图所示: www.web... -
of python检索文献 science web_查SCI文献,不知道怎么检索那可不行
2020-12-12 09:50:40SCI,SSCI,核心翻译润色、发表指导什么是SCI1955年,原美国情报信息研究所(ISI)的尤金•加菲尔德博士Science 期刊发表论文提出将引文索引(Citation Index)作为一种新的文献检索与分类工具。... 登录Web Of S... -
自研·学术·文献查找
2020-08-10 12:41:53这里主要说明一下,在校外如何使用Web of science来登录和查询相关文献: 登录 (1)打开Web of science网站。在机构登录下,选择机构CHINA CERNET Federation,点击转到按钮。 (2)进入CERNET同意认证与资源共享... -
【学术】SCI期刊影响因子查询方式
2019-12-02 11:07:28关于SCI期刊影响因子的查询最权威的必须是以ISI Web of Knowledge作为检索平台的Web of Science数据库。接下来为大家介绍如何使用该网站平台进行SCI期刊影响因子的查询。 01. 在平常查询浏览SCI文章的时候,可以... -
检索某一领域的SCI期刊
2021-03-12 14:15:271.登录web of science 网站 www.webofknowledge.com 2.选择Journal Citation Reports web -
WOS(SCI)爬虫案例
2020-10-14 14:08:30web of Science(SCI): 需要账号认证后可检索。 解决方法: 通过三方平台提供的入口进行模拟登录 http://www.xuezhuanwang.cn/ (账号:9101741523928,密码:329872) 登录后获取搜索接口需要的用户身份认证参数... -
查询期刊是不是SCI或EI
2016-07-14 10:35:58查询SCI检索期刊: ...1.登录Web of Science:http://apps.webofknowledge.com 2.点击上方Journal Citation Reports 3.在新窗口Go to Journal Profile空白栏里输入期刊名称即可查询 方法二:http: -
中文论文检索证明怎么开_SCI论文检索证明怎么开
2020-12-12 09:50:36第一步:登录web of science看看论文是否查询到SCI论文检索证明开具,要建立在SCI论文成功检索的基础上。检索是SCI论文发表的最后一个步骤,大概是在论文见刊后1-2个月左右,具体方法是登录web of science看看是否... -
SCI 论文检索
2021-03-12 14:04:161.登录web of science网站 www.webofknowledge.com 2.选择数据库 Web of Science 核心文集 3.选择 Science Citation Index Expanded (SCI-EXPANDED) 4.这样输入要检索的内容,点击检索,看到的结果就都是... -
科研狗的——EndNote 使用技巧小记
2019-02-13 17:17:27导入Web of Science的参考文献 首先是进入Web of Science首页,这里顺带提供一个外网访问的方法。使用机构登陆,选择中科院CAS。 原理是中科院集成在WOS的机构用户登录中,是机构用户登录中唯一一个国内授权账号... -
华为路由器怎么看是不是公网_怎么看文章是不是sci
2020-12-12 09:50:38发表的文章,要选择期刊,期刊等级不同,文章等级也不同,可能是sci论文,也可能是其他,比如省级论文、国家级论文、国内核心论文等。即不是所有发表的文章...首先,文章若是sci,我们可以登录web of science网站去... -
『喜报』WoS数据C1和EM字段不再重复
2020-07-09 01:26:02经过大家的努力,小编于7月9日1点左右,重新登录Web of Science数据库进行数据检索,发现原来重复的C1和EM字段已经不再重复,因此,广大读者朋友可以正常地下载数据,并导入VOSviewer、Bibexcel、CiteSpace等软 -
复杂网络——常见的论文下载和真实数据集下载网站
2020-08-13 13:50:37web of science网站上集聚了多个期刊上的关于复杂网络上的论文,于arxiv的区别是,这里的论文通常是已发表的影响力较高的论文。(这个需要用校园网登录,普通网络无法访问) arxiv上是学者将未发表的论文提前发表... -
如何查询期刊论文影响力——JCR
2020-06-09 23:22:271、搜索并打开网址:Web Of Science 在主页查找Journal Citation Report: ⚠️需要登录 一般学校会统一购买账号 界面如下图所示: 2、输入想要查询的期刊名称,以我想查询的《IEEE Transactions on Intelligent ... -
如何阅读英文文献
2018-05-14 21:58:213.登录网页Web of Science(可以选择页面显示语言为中文);4.根据关键词搜索进行条件搜索;5.根据搜索出的文献列表,看每一篇;6.对于每一篇文献,点开摘要,将文献题目与摘要(abstract)复制到谷歌翻译(推荐谷歌,百度... -
Java新人求解答:用js实现关闭或刷新页面时如何保存更改信息?
2016-03-14 08:02:33如题,我做了一个网站,如下代码,现在的问题是网站可以修改,但是一旦刷新或重新登录后又恢复原状了。 请问改写什么代码才能保存网页修改的信息? ``` *" contentType="text/html; charset=utf-8" ...