精华内容
下载资源
问答
  • )',re.S) #正则表达式提取数据 def fun(url): #表示请求网站,得到页面源代码 #下方是头部文件,根据自己的计算机进行添加 head = { "User-Agent": "*************************************", "Cookie": "**********...

    本次目标网站为   http://q.10jqka.com.cn/gn/detail/code/301558/  首先分析网站,该网站 属于动态网站,其次根据开发者工具,每次经行翻页,去观察发送哪些请求。最后找到数据,开始观察参数,发现规律以后开始做。

    本网站我认为最有意思的就是反爬机制,每次获取网站数据的时候,必须用浏览器将该网页打开,所以就需要调运  ” webbrowser “ 库,最终得到想要的数据。

    最后代码如下:

    #
    
    import requests
    import re
    import time
    import xlwt
    import webbrowser
    
    def main():     #主函数
        for i in range(1,11):
            url=f'http://q.10jqka.com.cn/gn/detail/field/264648/order/desc/page/{i}/ajax/3/code/301558'
            fun(url)
            #print(url)
    
    lis=[]
    lis1=[]
    lis2=[]
    lis4=[]
    
    name1=re.compile(r'<td><a href="http://stockpage.10jqka.com.cn/.*?" target="_blank">(?P<bb>.*?)</a></td>',re.S)   #正则表达式提取数据
    
    def fun(url):                #表示请求网站,得到页面源代码
    
    
    
        #下方是头部文件,根据自己的计算机进行添加
    
        head = {
            "User-Agent": "*************************************",
            "Cookie": "******************************************",
             "Referer": "*****************************************",
             "hexin-v": "****************************************",
             "Host": "*************************************",
             "Pragma": "***************************"
        }
        html = requests.get(url, headers=head).text
        while True:
            if html[0:12] == '<html><body>':
                webbrowser.open(url)
                time.sleep(4)
                html = requests.get(url, headers=head).text
                pass
            else:
                #print(1)
                break
        fun1(html)
        #print(html)
    
    def fun1(html):
        aa=name1.finditer(html)
        for i in aa:
            print(i.group('bb'))
            lis.append(i.group('bb'))
    
    
    def fun2(lis):                        #数据处理
        for i in range(len(lis)):
            if i==0:
                lis2.append(lis[i])
                pass
            elif i%2==1:
                lis1.append(lis[i])
            else:
                lis2.append(lis[i])
        for i in range(len(lis1)):
            lis3=[]
            lis3.append(lis2[i])
            lis3.append(lis1[i])
            lis4.append(lis3)
    
    
    def fun3(lis4):   #数据保存
        book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建"workbook"对象
        sheet = book.add_sheet("数据", cell_overwrite_ok=True)  # 创建工作表
        col = ["代码", "名称"]
        for i in range(0, len(col)):
            sheet.write(0, i, col[i])  # 列名
        for i in range(1, len(lis4)):
            print('已经存储', i - 1, '行数据')
            for j in range(0, len(lis4[i])):
                sheet.write(i, j, lis4[i - 1][j])
                book.save("数据3.xls")
    
    if __name__ == '__main__':
        main()
        fun2(lis)
        for i in lis4:
            print(i)
        fun3(lis4)

    最终获取出来的数据是:

     

    以上为部分你数据

    感谢观看!

    展开全文
  • 批量爬取股票评论文本数据,包含大量的情感数据,以共分析
  • 小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装 小白学 Python 爬虫(7):HTTP 基础 小白学 Python 爬虫(8):网页基础 小白学 Python 爬虫(9):爬虫基础 小白学 Python 爬虫(10):Session
  • Python:3.8(32bit) IDE:Pycharm OS:win10 访问网页数:996 运行时间:约600s 程序运行截图: 本地文件保存部分效果图: 股票列表网页源码: 包钢股份(600010) 网页信息源码: 昨 收:1145.00 今 开:1139...
  • 今天为大家整理了23个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快1、WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信...

    今天为大家整理了23个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快

    1、WechatSogou [1]– 微信公众号爬虫。

    基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。

    2、DouBanSpider [2]– 豆瓣读书爬虫。

    可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。

    3、zhihu_spider [3]– 知乎爬虫。

    此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo

    4、bilibili-user [4]– Bilibili用户爬虫。

    总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。

    5、SinaSpider [5]– 新浪微博爬虫。

    主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。

    6、distribute_crawler [6]– 小说下载分布式爬虫。

    使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。

    7、CnkiSpider [7]– 中国知网爬虫。

    设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。

    8、LianJiaSpider [8]– 链家网爬虫。

    爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。

    9、scrapy_jingdong [9]– 京东爬虫。

    基于scrapy的京东网站爬虫,保存格式为csv。

    10、QQ-Groups-Spider [10]– QQ 群爬虫。

    批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。

    11、wooyun_public[11]-乌云爬虫。

    乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。

    12、spider[12]– hao123网站爬虫。

    以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右

    13、findtrip [13]– 机票爬虫(去哪儿和携程网)。

    Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。

    14、163spider [14] – 基于requests、MySQLdb、torndb的网易客户端内容爬虫

    15、doubanspiders[15]– 豆瓣电影、书籍、小组、相册、东西等爬虫集

    16、QQSpider [16]– QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。

    17、baidu-music-spider [17]– 百度mp3全站爬虫,使用redis支持断点续传。

    18、tbcrawler[18]– 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb。

    stockholm [19]– 一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓19、取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。

    20、BaiduyunSpider[20]-百度云盘爬虫。

    21、Spider[21]-社交数据爬虫。支持微博,知乎,豆瓣。

    22、proxy pool[22]-Python爬虫代理IP池(proxy pool)。

    23、music-163[23]-爬取网易云音乐所有歌曲的评论。

    来源:全球人工智能

    作者:SFLYQ

    展开全文
  • Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储,很有参考借鉴意义
  • 目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间。 一、创建Scrapy项目 scrapy startproject Tencent 命令执行后,会创建一个Tencent文件夹,...
  • Python爬虫获取股票信息代码分享

    千次阅读 2019-02-15 17:15:18
    通过该程序会在桌面上生成每日最新的股票信息,非常实用的一个小程序 具体代码如下 # -*- coding: utf-8 -*- import requests import traceback import re import os from bs4 import BeautifulSoup # 获取网页...

    通过该程序会在桌面上生成每日最新的股票信息,非常实用的一个小程序
    在这里插入图片描述
    具体代码如下

    # -*- coding: utf-8 -*-
    
    import requests
    import traceback
    import re
    import os
    from bs4 import BeautifulSoup
    
    
    # 获取网页内容
    def get_html_text(url):
        try:
            r = requests.get(url)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return r.text
        except:
            return ''
    
    
    # 获取股票代码列表
    def get_stock_list(url):
        # 获取股票列表网页
        html = get_html_text(url)
        # 解析
        soup = BeautifulSoup(html, 'html.parser')
        # 获取所有超链接a标签
        a = soup.find_all('a')
        # 提取a标签中的股票代码
        lst = []
        for i in a:
            try:
                href = i.attrs['href']
                # 捕捉股票代码
                lst.append(re.findall(r'[s][hz]\d{6}', href)[0])
            except:
                continue
        return lst
    
    
    # 获取并写入每只个股的信息
    def get_and_write_stock_info(lst):
        desktop = os.path.join(os.path.expanduser("~"), 'Desktop')
        # 获取每只股票的信息
        for i, stock in enumerate(lst):
            try:
                url = STOCK_URL + stock + '.html'
                html = get_html_text(url)
                if html == '':
                    continue
                soup = BeautifulSoup(html, 'html.parser')
                stock_info = soup.find('div', attrs={'class': 'stock-bets'})
                info_dict = {}
                # 获取股票名称
                info_dict.update({'股票代码': stock})
                name = stock_info.find_all(attrs={'class': 'bets-name'})[0]
                info_dict.update({'股票名称': name.text.split()[0]})
                # 获取其他股票信息
                key_list = stock_info.find_all('dt')
                value_list = stock_info.find_all('dd')
                if len(key_list) == 0:
                    continue
                for k, v in zip(key_list, value_list):
                    info_dict[k.text] = v.text
                # 每只个股的信息写入文件
                with open(desktop + '\\' + SAVE_FILE_PATH, 'a', encoding='utf-8') as f:
                    f.write(str(info_dict) + '\n')
                    print("\r当前进度: {:.2f}%".format(i * 100 / len(lst)), end="")
            except:
                continue
    
    
    # 主函数
    if __name__ == '__main__':
        # 东方财富网股票代码链接
        STOCK_LIST_URL = 'http://quote.eastmoney.com/stocklist.html'
        # 百度股票的每只个股的信息
        STOCK_URL = 'https://gupiao.baidu.com/stock/'
        # 保存路径
        SAVE_FILE_PATH = '股票信息.txt'
        # 获取股票代码列表
        stock_list = get_stock_list(STOCK_LIST_URL)
        get_and_write_stock_info(stock_list)
    
    
    展开全文
  • 今天为大家整理了23个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快1、WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信...

    今天为大家整理了23个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快

    1、WechatSogou [1]– 微信公众号爬虫。

    基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。

    2、DouBanSpider [2]– 豆瓣读书爬虫。

    可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。

    3、zhihu_spider [3]– 知乎爬虫。

    此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo

    4、bilibili-user [4]– Bilibili用户爬虫。

    总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。

    5、SinaSpider [5]– 新浪微博爬虫。

    主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。

    6、distribute_crawler [6]– 小说下载分布式爬虫。

    使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。

    7、CnkiSpider [7]– 中国知网爬虫。

    设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。

    8、LianJiaSpider [8]– 链家网爬虫。

    爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。

    9、scrapy_jingdong [9]– 京东爬虫。

    基于scrapy的京东网站爬虫,保存格式为csv。

    10、QQ-Groups-Spider [10]– QQ 群爬虫。

    批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。

    11、wooyun_public[11]-乌云爬虫。

    乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。

    12、spider[12]– hao123网站爬虫。

    以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右

    13、findtrip [13]– 机票爬虫(去哪儿和携程网)。

    Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。

    14、163spider [14] – 基于requests、MySQLdb、torndb的网易客户端内容爬虫

    15、doubanspiders[15]– 豆瓣电影、书籍、小组、相册、东西等爬虫集

    16、QQSpider [16]– QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。

    17、baidu-music-spider [17]– 百度mp3全站爬虫,使用redis支持断点续传。

    18、tbcrawler[18]– 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb。

    stockholm [19]– 一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓19、取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。

    20、BaiduyunSpider[20]-百度云盘爬虫。

    21、Spider[21]-社交数据爬虫。支持微博,知乎,豆瓣。

    22、proxy pool[22]-Python爬虫代理IP池(proxy pool)。

    23、music-163[23]-爬取网易云音乐所有歌曲的评论。

    来源:全球人工智能

    作者:SFLYQ

    展开全文
  • Python爬虫股票评论

    2018-03-17 20:37:39
    股民是网络用户的一大群体,他们的网络情绪在一定程度上反映了该股票的情况,也反映了股市市场的波动情况。作为一只时间充裕的研究僧,我课余时间准备写个小代码get一下股民的评论数据,分析以下用户情绪的走势。
  • python爬虫可视化开发,保存至MySQL数据库进行可视化展示
  • 采用Scrapy框架爬取股票信息 思路 step1 : 建立工程和Spider模板 step2 : 编写Spider step3 : 编写ITEM,Pipelines ...设置start_url为上海深圳股票代码一览表 生成个股网址: def parse(self, response): for h
  • Python爬虫股票数据爬取

    万次阅读 多人点赞 2019-02-20 16:13:19
    一、爬取个股列表 目标页面:http://quote.eastmoney.com/stocklist.html,爬取个股名称和代码 ...个股的代码以0或3或6开头然后把信息写入csv中: import requests from fake_useragent import UserA...
  • 包含近一年股票卖方研报列表信息,信息包含研报名称,机构名称,研究员,...包含资源数据包及python抓取代码,sql建表数据,excel格式导出数据。可以根据研报信息自行筛选缩小选择范围,再针对性的寻找研报进行研究。
  • WechatSogou[1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。[1]: https://github.com/Chyroc/WechatSogouDouBanSpider...
  • 今天博主给大家带来了一份大礼,100个Python爬虫开源项目代码分享,都是完整的项目源码!!! 本文下面所有的爬虫项目都有详细的配套教程以及源码,都已经打包好上传到百度云了,百度云下载链接在文章结尾处! ...
  • 本文主要记录关于慕课网上的课程练习,由于时间已久,百度股票网已经不能再用了,因此参考[1]使用的股票网址股城网。 法1 采用requests库 思路:从初始网页获取个股代码,然后获取个股的交易信息,为了方便起见,我...
  • 这篇文章主要介绍了基于Python爬取股票数据过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 基本环境配置 python 3.6 pycharm requests csv time...
  • 给大家整理了23个Python爬虫项目,所有链接指向GitHub。 1、WechatSogou – 微信公众号爬虫 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典...
  • 通过在b站上学习”志斌的python学习笔记“的一篇文章——手把手教你从东方财富网上获取股票数据,再借鉴了相关的代码,对爬虫多少有了一些了解。 在东方财富网上,选择沪深个股,可以看到下面各种各样的股票的一个...
  • 通过证券之星网站获取股票的名字及代码(主要是代码),然后再通过其对应的超链接进行详细信息的获取,本来可以直接获取的,这里为了练习爬取多个网页就姑且这么做了 代码如下 # 所有的信息整合到了一个网址里,那么只...
  • python爬虫教程代码示例经典例子菜鸟怎么学

    千次阅读 多人点赞 2020-01-25 14:37:46
    实例3–股票数据定向爬虫 程序结构如下: 1.先从网站中获取股票代号列表(requests库,re库) 2.遍历每一只股票,从股票信息网站中获得详细信息 3.使用字典的数据结构,写入文本文件中 更多的内容学习 点我 ...
  • 手把手教你利用 python 爬虫分析基金、股票

    万次阅读 多人点赞 2021-02-16 22:43:28
    手把手教你利用 python 爬虫分析基金、股票 文章目录手把手教你利用 python 爬虫分析基金、股票第一步:基金数据爬取第二步:股票增持计算第三步:好股基金选取 从前大家朋友圈都在晒美食,晒旅游,晒玩乐,现在翻...
  • spider.py: 包括股票名的爬取和网页的爬取 stoke_h.py: 存入Excel文件 stoke_sql.py: 存入数据库 plot.py: 制图及存储图像 stoke_gui.py: GUI界面 运行: python stoke_gui.py
  • import urllib.request import urllib.parse import re import os #添加header,其中Referer是必须的,否则会返回403错误,User-Agent是必须的,这样才可以伪装成浏览器进行访问 header=\ { 'User-Agent': 'Mozilla/...
  • 我用python爬去了起点中文网的一些信息,并且存储到excel中,现在想要实现数据可视化怎么写应该 import requests from lxml import etree from openpyxl import Workbook class Book(): def __init__(p): ...
  • 3、爬虫requests请求库、xpath获取数据、代理服务器; 4、selenium用法:无头浏览器、元素定位、显式等待、数据获取; 5、python操作mongodb 02 网站分析 代码和数据我们到后面再贴上,先来分析下目标网站,...
  • 网址:平安银行(000001)资金流向 _ 数据中心 _ 东方财富网、 ...所以获取源代码: 再将内容转化为字典,提取字典中的'klines',将数据转换为list 将数据切片,将例如2021-05-19,-5004505.0,-37477279.0,424
  • python爬虫第八课:爬取深交所股票数据。

    万次阅读 多人点赞 2019-01-11 16:40:31
    由于股票的数据在很多网站上都有,但考虑到爬取的难易程度,所以选择在东方财富网上先找到上市公司编号,然后再到百度股票网站提取详细信息。 先定义一个发送请求的函数 def get_page(url): try: ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,617
精华内容 1,446
关键字:

python爬虫股票代码

python 订阅
爬虫 订阅