精华内容
下载资源
问答
  • 每日股票公告信息,一览无遗,同花顺数据,利好公告信息
  • 爬取同花顺网站中上市公司财务报表数据(可用)
  • 今天带大家爬取雪球平台的股票数据, 并且实现数据可视化 先看下效果图 基本环境配置 python 3.6 pycharm requests csv time 目标地址 https://xueqiu.com/hq 爬虫代码 请求网页 import requests url = '...
  • 尝试爬取,目前只提取了一部分数据。在数据存储上还是有问题,还未体现Python的间接性质。如果你有好的建议请留言或私信,谢谢。 下面的程序仅做参考,如果有时间再优化吧。 # -- coding: utf-8 -*- """ Created on ...

    尝试爬取,目前只提取了一部分数据。在数据存储上还是有问题,还未体现Python的间接性质。如果你有好的建议请留言或私信,谢谢。
    下面的程序仅做参考,如果有时间再优化吧。

    # -- coding: utf-8 -*-
    """
    Created on Fri Oct 30 13:18:23 2020
    
    @author: YuDi
    """
    
    import requests
    from lxml import etree
    import xlwt
    headers = {
         'User-Agent':'Mozilla/5.0'}
    url = "http://q.10jqka.com.cn/"
    response = requests.get(url,headers=headers)
    content = response.content.decode('GBK')
    html = etree.HTML(content)
    result = []
    res = html.xpath('//div[@id="maincont"]')
    for re in res:
        names = re.xpath('.//table/tbody/tr/td/a/text()')
        nums = re.xpath('.//tbody/tr/td/text()')
    #上面已经完成数据的提取
    #下面就是数据的存储了,
    workbook = xlwt.Workbook()
    sheet = workbook.add_sheet("Agushit")
    sheet.write(0,0,"代码")
    sheet.write(0,1,"名称")
    sheet.write(0,2,"序号")
    sheet.write(0,3,"现价")
    sheet.write(0,4,"涨跌幅")
    sheet.write(0,5,"涨跌")    
    sheet.write(0,6,"涨速")
    sheet.write(0,7,"换手")
    sheet.write(0,8,"量比")
    sheet.write(0,9,"振幅")
    sheet.write(0,10,"成交额")
    sheet.write(0,11,"流通股")
    sheet.write(0,12,"流通市值")
    sheet.write(0,13,"市盈率")
    for i in range(20):
        sheet.write(i+1,0,names[0])
        sheet.write(i+1,1,names[1])
        sheet.write(i+1,2,nums[0])
        sheet.write(i+1,3,nums[1])
        sheet.write(i+1,4,nums[2])
        sheet.write(i+1,5,nums[3])
        sheet.write(i+1,6,nums[4])
        sheet.write(i+1,7,nums[5])
        sheet.write(i+1,8,nums[6])
        sheet.write(i+1,9,nums[7])
        sheet.write(i+1,10,nums[8])
        sheet.write(i+1,11,nums[9])
        sheet.write(i+1,12,nums[10])
        sheet.write(i+1,13,nums[11])
        del names[0:2]
        del nums[0:12]
    workbook.save('{}.xls'.format("A股"))
    

    没有翻页所以数据,额有点少,没有任何的参考价值。

    在这里插入图片描述
    仅做参考,如果你有好的建议或者相关资料请留言或私信。

    展开全文
  • 学习爬取同花顺行情中心股票信息。
    • 学习爬取同花顺行情中心股票信息,分析如下:

    1、打开http://http://www.10jqka.com.cn/
    2、按F12,选择“Network–>XHR”,进入“行情中心”,网址无变化,表示不是普通的静态html,是动态加载数据。

    3、进入第2页、第3、4、5页,连续出现“1/”,应该是我需要的真实网址,点击进一步分析。
    4、分析“Request URL: “http://q.10jqka.com.cn/index/index/board/all/field/zdf/order/desc/page/2/ajax/1/”,是GET请求,先打开该网址,发现正是需要的行情数据。

    5、进一步分析发现,第1-5页网址中,除了“page/*/”由1至5变化,其他不变,这就是要找的页码了,只要设置页码就能实现翻页:共计188页,拟使用for i in range(1,189),设置page_id = str(i)。

    6、打开新网址,查看源代码,股票行情信息处于“ ”标签下,每一个“”就是一支股票信息,“”的文本就是具体的数据:代码、名称、现价、涨跌幅(%)、 涨跌、涨速(%)、换手(%)、量比、振幅(%)、成交额、流通股、流通市值、市盈率。

    7、使用XPath语法或bs4可以很方便的提取我需要的数据,就用新学习的bs4:
    soup=BeautifulSoup(text, ‘lxml’)
    trs = soup.select(‘tbody tr’)
    再用循环语句提取里的代码、名称等字段文本信息
    8、个股详情链接:经分析,真实网址为”http://d.10jqka.com.cn/v2/realhead/hs_603335/last.js“,其中603335为股票代码,只要替换它就能获取不同股票的数据为json格式(本次只取部分数据,要获取其他数据方法是一样的。
    如下是一获取"天华超净"的一部分数据,也可以多增加网址”http://…js"以“.js结尾获取更多数据:
    {
    5: “300390” 代码
    6: “8.20” 昨收
    7: “8.23” 今开
    8: “9.02” 最高
    9: “8.23” 最低
    10: “9.02” 现价
    12: “1”
    13: “22511127.00” 成交量
    14: “11645775.00” 外盘
    15: “9663852.00” 内盘
    17: “30300.00”
    19: “198465440.00” 成交额
    22: “”
    23: “”
    24: “9.02” 买一价
    25: “7306365.00” 买一量
    30: “” 卖一价
    31: “0.00” 卖一量
    . 37: “-1”
    38: “-1”
    39: “-1”
    49: “2500.00” 现手
    51: “”
    66: “”
    69: “9.02” 涨停
    70: “7.38” 跌停
    74: “”
    75: “”
    85: “”
    90: “”
    92: “”
    95: “”
    96: “”
    127: “”
    223: “27520620.00” 大单流入
    224: “13492643.00” 大单流出
    225: “30066935.00”
    226: “13791431.00”
    237: “25665770.00” 小单流入
    238: “28728570.00” 小单流出
    254: “”
    259: “32501083.00” 中单流入
    260: “26670430.00” 中单流出
    271: “-1”
    273: “-1”
    274: “”
    276: “”
    277: “”
    278: “”
    402: “551276000.00”
    407: “338655776.00”
    2942: “79.189” 市盈率(动)
    134152: “79.189” 市盈率(动)
    199112: “10.00” 涨幅
    264648: “0.820” 上涨金额
    395720: “7495865.000” 委差
    461256: “100.000” 委比
    526792: “9.634” 振幅
    527198: “10865352.000”
    592920: “5.638” 市净率
    1378761: “8.816”
    1771976: “2.540”
    1968584: “6.647” 换手
    2034120: “79.189” 市盈率(动)
    3475914: “3054675100.000” 流通市值
    3541450: “4972509500.000” 总市值
    stop: 0
    time: “2020-04-01 11:17:24 北京时间”
    name: “天华超净” 股票名称
    marketType: “”
    stockStatus: “连续竞价”
    marketid: “33”
    updateTime: “2020-04-01 11:17”
    }

    • 本次作业拟创建一个类来完成。
    完整代码如下:
    #!/usr/bin/env python3
    # -*- encoding: utf-8 -*-
    
    import requests
    import time
    import random
    import json
    from bs4 import BeautifulSoup
    import pandas as pd
    
    
    class Tonghuashun:
        """采集同花顺股票信息作业实例"""
    
        def __init__(self):
            self.page_id = ''
            self.headers = {
                'Host': 'q.10jqka.com.cn',
                'Referer': 'http://q.10jqka.com.cn/',
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',
                'X-Requested-With': 'XMLHttpRequest'
            }
            # 定义代理字典
            self.proxy = [
                {'http://': '113.194.30.241:9999'},
                {'https://': '113.194.30.241:9999'},
                {'http://': '122.4.50.55:9999'},
                {'http:s//': '122.4.50.55:9999'},
                {'http://': '120.83.97.234:9999'},
                {'http:s//': '120.83.97.234:9999'},
                {'http://': '183.166.102.204:9999'},
                {'https://': '112.85.150.220:9999'},
                {'http://': '163.204.242.99:9999'},
                {'http://': '123.54.40.102:9999'},
                {'https://': '123.54.40.102:9999'}
            ]
            # self.run()
    
        def get_html_list(self, url):
            """请求服务器,获取源代码函数"""
            # 请求响应
            response = requests.get(url, headers=self.headers,
                                    proxies=random.choice(self.proxy))
            # 选择'gbk'码显示中文
            response.encoding = 'gbk'
            return response.text
    
        def get_stock_details(self, url):
            """获取个股详情"""
            response = requests.get(url, headers=self.headers, proxies=random.choice(self.proxy))
            # 选择'gbk'码显示中文
            response.encoding = 'gbk'
            # 返回的是JSON格式数据
            json_str = response.text
            json_str = json_str[json_str.find('{'):-1]
            data_json = json.loads(json_str)
            # print(data_json)
            stock_details = {
                '今开价': data_json['items']['7'],
                '成交量': str(round(float(data_json['items']['13'])/10000,2))+'万',
                '最高价': data_json['items']['8'],
                '最低价': data_json['items']['9'],
                '昨收价': data_json['items']['6'],
                '总市值': str(round(float(data_json['items']['3541450'])/100000000,2))+'亿',
                '市净率': data_json['items']['592920']
            }
            # print(stock_details)
            return stock_details
    
        def get_data(self, text):
            """解析网页,按需抽取股票数据函数"""
            soup = BeautifulSoup(text, 'lxml')
            trs = soup.find_all('tr')[1:]  # 第一个ul不是想要的内容,从第2个开始
            stock_infos = []
            for tr in trs:
                # print(tr)
                stock_dict = {}
                tds = tr.find_all('td')  # 获取td标签所有文本内容
                # print(tds)
                a_href = tr.find('a')   # 获取包含个股详情a标签
                # 动态网页获取数据失败,此url不是真实地址
                # print(a_href['href'])
                # 经分析,以下为真实地址
                url = f'http://d.10jqka.com.cn/v2/realhead/hs_{tds[1].get_text()}/last.js'
                info = self.get_stock_details(url)
    
                # 将股票信息写入字典
                stock_dict['股票代码'] = tds[1].get_text()
                stock_dict['股票名称'] = tds[2].get_text()
                stock_dict['现价'] = tds[3].get_text()
                stock_dict['今开价'] = info['今开价']
                stock_dict['最高价'] = info['最高价']
                stock_dict['最低价'] = info['最低价']
                stock_dict['昨收价'] = info['昨收价']
                stock_dict['涨跌幅'] = tds[4].get_text()
                stock_dict['涨跌额'] = tds[5].get_text()
                stock_dict['涨速'] = tds[6].get_text()
                stock_dict['换手'] = tds[7].get_text()
                stock_dict['量比'] = tds[8].get_text()
                stock_dict['振幅'] = tds[9].get_text()
                stock_dict['成交额'] = tds[10].get_text()
                stock_dict['成交量'] = info['成交量']
                stock_dict['市净率'] = info['市净率']
                stock_dict['流通股'] = tds[11].get_text()
                stock_dict['流通市值'] = tds[12].get_text()
                stock_dict['总市值'] = info['总市值']
                stock_dict['市盈率'] = tds[13].get_text()
                stock_dict['个股链接'] = a_href['href']
    
                stock_infos.append(stock_dict)  # 将字典写入列表中
                # print(stock_infos)
            # 每一页都保存一次数据
            self.save_data(stock_infos)
    
        def save_data(self, stock_infos):
            """保存股票数据到本地函数"""
            stock_json = json.dumps(stock_infos)    # 使用json格式不用每次都写入表头
            with open('webscraping/requests_learn/tonghushun.json', 'w') as f:
                f.write(stock_json)
            with open('webscraping/requests_learn/tonghushun.json', 'r') as f:
                stock_data = f.read()
            stock_data = json.loads(stock_data)
            # 定义表头
            cols_list = [
                '股票代码', '股票名称', '现价', '今开价', '最高价', '最低价', '昨收价', '涨跌幅', '涨跌额', '涨速', '换手', '量比', '振幅', '成交额', '成交量', '市净率','流通股', '流通市值', '总市值', '市盈率', '个股链接'
            ]
            # 使用pandas保存到excel文件
            df_stock = pd.DataFrame(stock_data, columns=cols_list)
            df_stock.to_csv('webscraping/requests_learn/tonghushun.csv', mode='a')
            # print(df_stock)
    
        def run(self):
            """主运行函数"""
            print('开始采集股票数据,祝好运!')
            for i in range(1, 189):
                self.page_id = str(i)    # 设置页码
                url = f'http://q.10jqka.com.cn/index/index/board/all/field/zdf/order/desc/page/{self.page_id}/ajax/1/'
                text = self.get_html_list(url)
                self.get_data(text)
                print('', end='')
                time.sleep(random.randint(1, 10))  # 设置1-10秒睡眠
                print('\r'+'数据采集完成进度-->%.2f%%' % (i/188*100), end='')
            print('\n已成功收集所需股票数据,恭喜发财!!!')
    
    
    if __name__ == "__main__":
    
        """测试代码"""
        myApp = Tonghuashun()
        myApp.run()
    

    新手练习,中间有缺页,找不到原因,恳请大佬指点,不胜感激!

    Python3爬虫编程学习笔记(六)BeautifulSoup库入门学习

    展开全文
  • Python网络爬虫数据采集实战:同花顺动态网页爬取

    千次阅读 多人点赞 2020-03-09 12:42:31
    之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页,获取个股相关信息。 目录 一、Ajax理论 1.Ajax简介 2.Ajax分析 3.Ajax提取 二...

        前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码。之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页,获取个股相关信息。

    目录

    一、Ajax理论

        1.Ajax简介

        2.Ajax分析

        3.Ajax提取

    二、网页分析

        1.网页概览

        2.Ajax判别

        3.Ajax提取

    三、爬虫实战

        1.网页获取

        2.信息提取

        3.保存数据

        4.循环结构


     

    一、Ajax理论

        1.Ajax简介

        Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式快速动态网页应用的网页开发技术,无需重新加载整个网页的情况下,能够更新部分网页的技术。通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。

        2.Ajax分析

        微博网站就是一个比较容易识别的带有Ajax的动态网页,首先打开Dectools工具(调至XHR一栏)和中南财经政法大学的官微网站(https://m.weibo.cn/u/1216903164),这里选用的是移动端微博,之后选择清空所有内容。

        接下来滚动滑轮将页面向下拉,直至清空的XHR一栏出现新的item,点开这个item并选择Preview栏即可发现这里对应的相应内容即为页面新出现的微博,而反观上方网页链接却没有变,此时我们即可判定这是一个经过Ajax请求之后的网页。

        3.Ajax提取

        还是选择同样的条目进入Headers进一步查看信息,可以发现这是一个GET类型的请求,请求url为:https://m.weibo.cn/api/container/getIndex?type=uid&value=1216903164&containerid=1076031216903164&since_id=4479891116113956,即请求的参数有四个:typevaluecontaineridsince_id,随后接着翻页发现除since_id变化外,其余都不变化,这里可知since_id即为翻页方式

        接下来进一步观察since_id发现上下请求之间的since_id无明显规律,进一步查找可知下一页的since_id在上一页响应中的cardListInfo里,因此可以建立循环联系进一步将动态url循环加至爬虫里。

        发起请求获取响应之后进一步分析,可知响应格式为json,因此进一步对json进行处理即可得最终数据!

    二、网页分析

        1.网页概览

        有了上文分析之后我们将通过同花顺网页数据采集实战进行实例验证。首先打开网页:http://q.10jqka.com.cn/,如下图:

        进一步按F12键打开Devtools后台源代码,鼠标放至第一条目右键检查可展现出源代码中所在位置。

        2.Ajax判别

        接下来我们通过点击网页下方的下一页,发现网页url没有发生任何变化!此时基本可以判定此网页属于Ajax动态网页。

        进一步我们清空Network中所有内容,继续点击下一页至第五页,发现连续弹出三条Name相同内容,可通过General栏获取到请求的url以及请求头的具体内容。

        因此我们将此请求url复制放至浏览器中打开,响应内容果然为标准化表格数据,这正是我们想要的内容。

        3.Ajax提取

        接着我们同样打开源代码,发现为html文档,表明响应内容为网页形式,这与上文微博响应json格式不同,因此之后可以通过网页解析形式获取数据。

    三、爬虫实战

        1.网页获取

        在经过第一部分的理论介绍和第二部分的网页分析之后我们就可以开始编写爬虫代码了,首先导入库,并定义请求头。需要注意一点的是此处的请求头除User-Agent外还需要hostRefererX-Requested-With参数,要区分与静态网页爬取。

    # 导入库import timeimport jsonimport randomimport requestsimport pandas as pdfrom bs4 import BeautifulSoupheaders = {  'host':'q.10jqka.com.cn',  'Referer':'http://q.10jqka.com.cn/',  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36',  'X-Requested-With':'XMLHttpRequest'}url = 'http://q.10jqka.com.cn/index/index/board/all/field/zdf/order/desc/page/%s/ajax/1/' % page_idres = requests.get(url,headers=headers)res.encoding = 'GBK'

        2.信息提取

        之后就是上文解析库中的内容,此处采用BaetifulSoup库更易于理解。先将上文html转化为BeautifulSoup对象,之后通过对象的select选择器选择响应tr标签内的数据,并进一步解析每一条tr标签的内容即可得到以下相应信息。

    # 获取单页数据def get_html(page_id):  headers = {    'host':'q.10jqka.com.cn',    'Referer':'http://q.10jqka.com.cn/',    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36',    'X-Requested-With':'XMLHttpRequest'  }  url = 'http://q.10jqka.com.cn/index/index/board/all/field/zdf/order/desc/page/%s/ajax/1/' % page_id  res = requests.get(url,headers=headers)  res.encoding = 'GBK'  soup = BeautifulSoup(res.text,'lxml')  tr_list = soup.select('tbody tr')  # print(tr_list)  stocks = []  for each_tr in tr_list:    td_list = each_tr.select('td')    data = {    '股票代码':td_list[1].text,    '股票简称':td_list[2].text,    '股票链接':each_tr.a['href'],    '现价':td_list[3].text,    '涨幅':td_list[4].text,    '涨跌':td_list[5].text,    '涨速':td_list[6].text,    '换手':td_list[7].text,    '量比':td_list[8].text,    '振幅':td_list[9].text,    '成交额':td_list[10].text,    '流通股':td_list[11].text,    '流通市值':td_list[12].text,    '市盈率':td_list[13].text,    }    stocks.append(data)  return stocks

        3.保存数据

        定义write2excel函数将数据保存至stocks.xlsx文件中。

    # 保存数据def write2excel(result):  json_result = json.dumps(result)  with open('stocks.json','w') as f:    f.write(json_result)  with open('stocks.json','r') as f:    data = f.read()  data = json.loads(data)  df = pd.DataFrame(data,columns=['股票代码','股票简称','股票链接','现价','涨幅','涨跌','涨速','换手','量比','振幅','成交额',  '流通股','流通市值','市盈率'])  df.to_excel('stocks.xlsx',index=False)

        4.循环结构

        考虑到同花顺多页结构,同时存在反爬,此处同样采用字符串拼接和循环结构遍历多页股票信息,同时通过random库中randint方法和time库的sleep方法间断一定时长再进行爬取。

    def get_pages(page_n):  stocks_n = []  for page_id in range(1,page_n+1):    page = get_html(page_id)    stocks_n.extend(page)    time.sleep(random.randint(1,10))  return stocks_n

        最终的爬取结果如下:

        至此同花顺动态网页的爬取完成,再通过此爬虫总结一下:首先我们通过浏览网页结构和翻页对比XHR栏对改网页进行Ajax判定,如果网页url不变且XHR会刷新内容则基本表明为动态网页,此时我们进一步查看多页间url请求的异同并找寻规律,规律找到之后即可建立多页请求流程。之后对单独一个响应内容进行处理(具体看响应内容的格式),最后建立起整个循环爬虫结构即可自动化爬取想要的信息。

        爬虫完整代码可以在公众号中回复同花顺获得。下文将进一步对浏览器模拟行为进行讲解和实战,前文涉及的基础知识可参考下面链接:

    Python网络爬虫数据采集实战:基础知识

    Python网络爬虫数据采集实战:Requests和Re库

    Python网络爬虫数据采集实战:豆瓣电影top250爬取

    Python网络爬虫数据采集实战:网页解析库

     

     

     

     

    展开全文
  • 按红色标记,找到数据请求地址url, 这是请求 Headers 通过requests get方法抓取网页 requests.get(url=url, headers=headers) get成功后,对网页进行解析,使用BeautifulSoup抓取想要的信息 soup = ...

    chrome浏览器,输入网址后,F12

    按红色标记,找到数据请求地址url,

     这是请求 Headers

     

    通过requests get方法抓取网页
    requests.get(url=url, headers=headers)

    get成功后,对网页进行解析,使用BeautifulSoup抓取想要的信息

    soup = BeautifulSoup(req.text, 'html.parser')

    ---------------------------------------------------------------------------------------------

    学习了几个函数使用方法

    res = ['1','2','3']

    1.将列表里的字符串转换为int类型的值,可以使用map(int, res );

    2.使用正则表达式,将字符串中的汉字去掉,只保留数字列表,可以用正则表达式处理:

    pattern = re.compile(r'\d+') # 查找数字

    result1 = pattern.findall(con7.text)

    展开全文
  • 使用Python抓取同花顺资金流数据

    千次阅读 2020-02-16 10:28:06
    今天我们通过一个例子来介绍python爬取数据的一般步骤,用到的工具包括python的经典模块requests和BeautifulSoup,另外结合刚学习的任务流工具TaskFlow来完成代码开发。 我们先来看一下要爬取的数据,网址是...
  • python开头,它告诉计算机想让Python来执行这个程序。(我没带这行试了试,也可以,可能这是一种规范吧) 1.从sys.argv读取命令行参数:打开一个新的文件编辑器窗口,输入下面的代码,将其保存为map.py。 2.读取剪贴...
  • 写这篇文章之前我用python爬取了东方财富网上市公司的利润报表,闲来蛋疼我又写了一个爬同花顺官网上面的上市公司利润报表,这次我用的是requests包,下面碰到一些问题记录一下,发送请求前要构造请求头部信息: ...
  • 前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码。之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集...
  • 本人在爬取同花顺F10内容时,想爬取行业排名,如下图: <p><a href="http://basic.10jqka.com.cn/300033/index.html">http://basic.10jqka.com.cn/300033/</a></p> ... 打开F12,...
  • python爬虫实战-抓取同花顺股票信息

    万次阅读 多人点赞 2018-12-09 22:25:59
    同花顺股票网站具有很好的反扒能力,因此,需要增加一部分功能来应对这部分问题。在简单怕爬虫的基础上需要增加,改变请求头和增加代理的功能,因此整个函数的模块划分如下: (1)代理获取模块 (2)url构建...
  • 转自微信公众号-----数据观察 沪、深证券交易所自1990年成立以来,已伴随中国经济发展将近30年了。在这将近30年里,沪、深股市起起落落...为进一步了解沪深股市目前现状,这里使用python爬取同花顺网上所有沪深上...
  • 看了半天帖子都是都是通过selenium破解js加密的,个人感觉用selenium破解js加密效率太低,而且繁琐,根据目前业务需求就自己研究了一下同花顺的js加密。
  • 开发一个工具,从同花顺交易看盘软件爬取level2的数据,并做一些统计工作,这样的事会侵权么? 注:爬出来的level2数据不落地,不保存,只做统计使用。
  • 目录一、环境搭建二、网络爬取数据以txt格式保存数据(一)爬取入门(二)教程示例三、生成词云图片 一、环境搭建 pip install requests pip install bs4 pip install wordcloud pip install jieba pip install cv2 ...
  • 爬取东方财富十大股东及题材/同花顺、参股控股公司及题材东方财富网同花顺 待抓取网站及数据内容如下 : 东方财富网 http://emweb.securities.eastmoney.com/CoreConception/Index?type=web&amp;amp;amp;code=sh...
  • 获取动态基金的数据代码方式如下,首先打开同花顺爱基金网址: 比如我用的(000001),打开之后右击检查: 点击network: 快捷键ctrl+r: 选择如图所示,获取: 最后就是爬虫代码的编写;下文已经编写好: ...
  • 股票查询、股票价格实时查询股票查询、股票价格实时查询股票查询、股票价格实时查询股票查询、股票价格实时查询
  • 人生苦短,我用 Python如果我的文章对您有帮助,请关注支持下作者的公众号:极客挖掘机,您的关注,是对小编坚持原创的最大鼓励:)前文传送门:小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本...
  • 同花顺问财选股python源码

    千次阅读 热门讨论 2020-11-22 11:21:26
    提示:同花顺网js加密动态生成请求中所需要的cookie 提示:以下是本篇文章正文内容,下面案例可供参考 一、使用步骤 1.引入库 import execjs import requests import json 2.完整代码 代码如下(示例): import ...
  • 最近试图从财经网站上积累数据,选中了同花顺财经的数据中心的数据。 插一句话,个人认为同花顺可能是目前财经领域掌握着最先进的机器学习技巧与人工智能算法的网站了。我自己最近也在做金融领域的问答与对话系统,...
  • Python爬取大量数据时防止被封IP

    万次阅读 2018-08-03 10:09:58
    https://www.jianshu.com/p/074c36a7948c Scrapy: 针对特定响应状态码,使用代理重新请求:http://www.cnblogs.com/my8100/p/scrapy_middleware_autoproxy.html Python爬虫技巧---设置代理IP:...
  • 准备工作: 一、安装chrome浏览器(自行百度)。 二、下载chrome浏览器对应的... open_file("同花顺利空公告.txt", driver, "利空公告") 最后:希望有更简单方法爬取数据的大佬可以把方法告诉我,本人定虚心请教。
  • 目录前言准备工作json包的抓取获取其他页数的数据查询股价接口代码编写遍历爬取所有问询函查询被发函公司发函日(第T日)后3天的股价导出与导入导出导入 前言 最近实习需要做一些关于问询函的研究,但手工整理相关信息...
  • IHO在新浪财经爬取 上证50在东方财富网爬取 另外两个上证ETF基金编号分别为510100, 510050在同花顺爬取 这些网站的图表数据都是通过json传递的 所以找到对应的api即可抓取数据 以下是单纯分析上证50的源代码 ...

空空如也

空空如也

1 2 3 4 5 ... 12
收藏数 228
精华内容 91
关键字:

python爬取同花顺数据

python 订阅