精华内容
下载资源
问答
  • python爬虫爬取股票评论, 调用百度AI进行语义分析, matlab数据处理, excel作图 股票涨跌和评论的关系
  • 前言:编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中系统环境:64位win10系统,64位python3.6,IDE位pycharm预备知识:...

    前言:

    编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中

    系统环境:

    64位win10系统,64位python3.6,IDE位pycharm

    预备知识:

    BeautifulSoup的基本知识,re正则表达式的基本知识

    代码:

    代码解释:

    第一个getHTMLText函数的作用是获得所需的网页源代码

    第二个getStockList函数的作用是获得东方财富网上面上海股票的全部代码,查看网页源代码可知,股票代码的数据放在'a'标签里面,如下图所示:

    因此,首先用find_all方法遍历所有'a'标签,然后在'a'标签里面提取出href部分信息,在提取出来的href信息里面,用正则表达式匹配所需的信息,“sh\d{6}”,即徐亚匹配例如sh200010的信息

    第三个函数需要根据第二个函数得到的股票代码,拼接出一个url,在这个特定的url的网页里,使用第一个函数解析网页,首先加一个判断,如果遇到html为空,那么要继续执行下去,同样,我们也需要再加一个判断(关键之处),遇到网页不存在,

    但html源代码仍然是存在的,因此接下去这个命令

    stockInfo = soup.find('div',attrs = {'class':'stock-bets'})

    可能为空,如果不加判断,程序执行到这里就会报错而无法继续执行,因此添加:

    if stockInfo == None:

    continue

    展开全文
  • 项目介绍可查看作者MLDan写的文章:作为一个程序员,总喜欢在股市里面晃荡,无奈总是当成韭菜收割了。每一次都是卖涨买跌,处处碰壁。但是作为一个有一定阅历的...于是,开始编写了爬取股票数据并进行数据分析的程序。
  • 利用python编写了一个爬虫代码,爬取雅虎财经股票交易数据,可以更改URL,爬取其他网站数据
  • 通过A股API接口爬取19年股票交易信息,包括开盘收盘最高最低等指标,并利用python对其进行数据可视化,进行股票技术分析。可视化内容包括了k线图、均线图、MACD、RSI、和相关系数。用到的库有numpy、matplotlib、...
  • 3、爬虫requests请求库、xpath获取数据、代理服务器; 4、selenium用法:无头浏览器、元素定位、显式等待、数据获取; 5、python操作mongodb 02 网站分析 代码和数据我们到后面再贴上,先来分析下目标网站,...

    01

    本文涉及到的知识点

    1、python字符串:分割、拼接、中文字符判断;

    2、python正则表达式;

    3、爬虫requests请求库、xpath获取数据、代理服务器;

    4、selenium用法:无头浏览器、元素定位、显式等待、数据获取;

    5、python操作mongodb

    02

    网站分析

    代码和数据我们到后面再贴上,先来分析下目标网站,这样有利于我们爬取过程更加清晰

    目标网站:开放式基金排行 _ 天天基金网

    我们爬取的就是【开放式基金】里的数据:

    图片

    我们随便点开一个基金,就可以进入其详情页面,不知道你发现没有,该基金详情页面的url就是首页该基金的基金代码和 http://fund.eastmoney.com/ 的一个组合

    比如:

    040011 --- 华安核心优选混合的url:华安核心优选混合(040011)基金净值_估值_行情走势-天天基金网

    005660 --- 嘉实资源精选股票A的url:嘉实资源精选股票A(005660)基金净值_估值_行情走势-天天基金网

    ok,好,我们在基金详情页面往下拉就可以找到该基金的股票持仓信息,也就是该基金买了哪些股票:</

    展开全文
  • 通过在b站上学习”志斌的python学习笔记“的一篇文章——手把手教你从东方财富网上获取股票数据,再借鉴了相关的代码,对爬虫多少有了一些了解。 在东方财富网上,选择沪深个股,可以看到下面各种各样的股票的一个...

    1.首先要导入几个模块

    import requests
    import pandas as pd
    import re
    import time
    import random
    from sqlalchemy import create_engine

    2.要想爬取一个网页之前要先了解这个网页的源代码,按F12进入开发者工具,得到如下界面:

    找到要爬取的网页的真实页面,可以看到要爬取的数据就在里面。点开Headers可以看到Request URL,所以这个网址就是要爬取的数据的网址。同时pn也代表页数,所以如果想要获取多页的数据,可以写一个for循环。

    3.下面就开始进行数据的爬取。

    #构造请求头,这里在爬虫中添加字典类型的请求头headers的目的是为了将python伪装成一个真实的浏览器,进而促使被访问的网站将python当作一个正常的访问用户。代码如下

    headers={
    'Accept': '*/*',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' 
    }

    #生成需要抓取的链接,代码如下

    urls=[]
    for pz in range(1,50):
        urls.append('http://data.eastmoney.com/zjlx/detail.html')

    #循环并通过正则匹配获取相关数据

    info=[]
    for url in urls:
        seconds=random.randint(3,6)
        response=requests.get(url,headers=headers).text
        a=re.findall("f12:'(.*?)'",response)
        b=re.findall("f14:'(.*?)'",response)
        c=re.findall("f2:'(.*?)'",response)
        d=re.findall("f3:(.*?)",response)
        e=re.findall("f62:'(.*?)',",response)
        f=re.findall("f184:'(.*?),'",response)
        g=re.findall("f66:'(.*?)',",response)
        h=re.findall("f69:'(.*?)',",response)
        i=re.findall("f72:'(.*?)',",response)
        j=re.findall("f75:'(.*?)',",response)
        k=re.findall("f78:'(.*?)',",response)
        l=re.findall("f81:'(.*?)',",response)
        m=re.findall("f84:'(.*?)',",response)
        n=re.findall("f87:'(.*?)',",response)
        info.append(pd.DataFrame({'代码':a,'名称':b,'最新价':c,'涨跌幅':d,'主力净流入-净额':e,
                                  '主力净流入-净占比':f,'超大单净流入-净额':g,'超大单净流入-净占比':h,
                                  '大单净流入-净额':i,'大单净流入-净占比':j,'中单净流入-净额':k,
                                  '中单净流入-净占比':l,'小单净流入-净额':m,'小单净流入-净占比':n}))
        time.sleep(seconds)
    这里设置在爬虫的循环中随机停顿几秒,目的是为了减轻被访问网站的流量压力,否则单机在一秒内访问对方十几次甚至上百次,会消耗对方很多资源。也为了防止被访问的网站对爬虫代码实施反爬举措。

    #将存储的所有股票数据进行合并,生成数据表格

    eastmoney=pd.concat(info)

    #最后将数据写到mysql数据库中

    connect=create_engine('mysql+pymysql://root:root@localhost:3306/test?charset=utf-8')
    pd.io.sql.to_sql(eastmoney,connect,schema='test',if_exists='append')

     

     

    展开全文
  • 本网站我认为最有意思的就是反爬机制,每次获取网站数据的时候,必须用浏览器将该网页打开,所以就需要调运 ” webbrowser “ 库,最终得到想要的数据。 最后代码如下: # import requests import re import time...

    本次目标网站为   http://q.10jqka.com.cn/gn/detail/code/301558/  首先分析网站,该网站 属于动态网站,其次根据开发者工具,每次经行翻页,去观察发送哪些请求。最后找到数据,开始观察参数,发现规律以后开始做。

    本网站我认为最有意思的就是反爬机制,每次获取网站数据的时候,必须用浏览器将该网页打开,所以就需要调运  ” webbrowser “ 库,最终得到想要的数据。

    最后代码如下:

    #
    
    import requests
    import re
    import time
    import xlwt
    import webbrowser
    
    def main():     #主函数
        for i in range(1,11):
            url=f'http://q.10jqka.com.cn/gn/detail/field/264648/order/desc/page/{i}/ajax/3/code/301558'
            fun(url)
            #print(url)
    
    lis=[]
    lis1=[]
    lis2=[]
    lis4=[]
    
    name1=re.compile(r'<td><a href="http://stockpage.10jqka.com.cn/.*?" target="_blank">(?P<bb>.*?)</a></td>',re.S)   #正则表达式提取数据
    
    def fun(url):                #表示请求网站,得到页面源代码
    
    
    
        #下方是头部文件,根据自己的计算机进行添加
    
        head = {
            "User-Agent": "*************************************",
            "Cookie": "******************************************",
             "Referer": "*****************************************",
             "hexin-v": "****************************************",
             "Host": "*************************************",
             "Pragma": "***************************"
        }
        html = requests.get(url, headers=head).text
        while True:
            if html[0:12] == '<html><body>':
                webbrowser.open(url)
                time.sleep(4)
                html = requests.get(url, headers=head).text
                pass
            else:
                #print(1)
                break
        fun1(html)
        #print(html)
    
    def fun1(html):
        aa=name1.finditer(html)
        for i in aa:
            print(i.group('bb'))
            lis.append(i.group('bb'))
    
    
    def fun2(lis):                        #数据处理
        for i in range(len(lis)):
            if i==0:
                lis2.append(lis[i])
                pass
            elif i%2==1:
                lis1.append(lis[i])
            else:
                lis2.append(lis[i])
        for i in range(len(lis1)):
            lis3=[]
            lis3.append(lis2[i])
            lis3.append(lis1[i])
            lis4.append(lis3)
    
    
    def fun3(lis4):   #数据保存
        book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建"workbook"对象
        sheet = book.add_sheet("数据", cell_overwrite_ok=True)  # 创建工作表
        col = ["代码", "名称"]
        for i in range(0, len(col)):
            sheet.write(0, i, col[i])  # 列名
        for i in range(1, len(lis4)):
            print('已经存储', i - 1, '行数据')
            for j in range(0, len(lis4[i])):
                sheet.write(i, j, lis4[i - 1][j])
                book.save("数据3.xls")
    
    if __name__ == '__main__':
        main()
        fun2(lis)
        for i in lis4:
            print(i)
        fun3(lis4)

    最终获取出来的数据是:

     

    以上为部分你数据

    感谢观看!

    展开全文
  • python 3.6 pycharm requests csv time 相关模块pip安装即可 目标网页 分析网页 一切的一切都在图里 找到数据了,直接请求网页,解析数据,保存数据 请求网页 import requests url = '...
  • 主要介绍了Python爬取股票信息,并可视化数据的示例,帮助大家更好的理解和使用python爬虫,感兴趣的朋友可以了解下
  • 内容导航:Q1:怎么学python爬取财经信息本程序使用Python 2.7.6编写,扩展了Python自带的HTMLParser,自动根据预设的股票代码列表,从Yahoo Finance抓取列表中的数据日期、股票名称、实时报价、当日变化率、当日...
  • python爬虫】用python爬取股票数据

    千次阅读 2020-05-22 13:41:59
    这几天把学习通的 ...所以这篇文章以笔记的形式,记录一下另一种爬取股票数据的操作 需求分析 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests & re & panda
  • 这篇文章主要介绍了基于Python爬取股票数据过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 基本环境配置 python 3.6 pycharm requests csv time...
  • 需修改output_file变量 东方财富网 + 腾讯证券 import re import requests import traceback from bs4 import BeautifulSoup def getHtmlText(url): try: r = requests.get(url, timeout = 30) ...
  • 股票的评论 1、 http://guba.eastmoney.com/list,600570_2.html 在这里点击进入一个评论帖子, http://guba.eastmoney.com/news,600570,810797250.html主要是爬下来 这里面的评论区,标题没有爬。 需要两层...
  • Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储,很有参考借鉴意义
  • python爬取股票数据

    2021-02-05 11:31:35
    87.49而标普500指数ETF(SPY)...具体来说就是先继承HTMLParser,然后在自定义的子类中重载handle_data(self, data)方法,查找包含相应id字符串(例如实时报价的id字符串为"yfs_l84_"+股票代码)的HTML标记,并输出这个...
  • Python爬虫股票数据爬取

    万次阅读 多人点赞 2019-02-20 16:13:19
    一、爬取个股列表 目标页面:http://quote.eastmoney.com/stocklist.html,爬取个股名称和代码 相关信息位于li标签中的a标签中,可以通过正则表达式或beautifulsoup获取,以下皆采用正则的方式。个股的代码以0或...
  • 自己做的一个课程设计。含源码,含实验报告! 能够爬取网站的股票信息, 列成一张信息表,保存到txt文件,也可以保存到excel表 虽然感觉有点low,我也是新手,学习中! 精心设计,求好评!
  • 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中 系统环境: 64位win10系统,64位python3.6,IDE位pycharm 预备知识: ...
  • TuShare是实现对股票/期货等金融数据从**数据采集**、**清洗加工** 到 **数据存储**过程的工具
  • Q1:如何用python 爬虫抓取金融数据获取数据数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一。...一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以...
  • 上个学年学习了Python语言,Python给我的第一感觉就是简洁。实现同样的功能,相比之下比Java或者C++的代码量要少得很多。...本篇文章主要讲解如何使用python爬虫爬取JS的动态网页。以某股票网站为例。
  • 前言本文的文字及图片来源于网络,仅供学习...以下文章来源于IT信息教室,作者:M先森看世界数据爬取我们以上证50的股票为例,首先需要找到一个网站包含这五十只股票股票代码,例如这里我们使用搜狐证券提供的列表。...
  • python网络爬虫股票数据定向爬取

    千次阅读 2018-07-21 00:32:03
    百度股票(https://gupiao.baidu.com/stock/)属于静态网页数据,适合定向数据爬取;新浪股票(http://finance.sina.com.cn/stock/)数据存取在js文件中,属于动态数据,不适合定向爬取,所以选择百度股票...
  • python爬虫爬取股票信息 话不多说,直接上代码: import requests import re import json from pyquery import PyQuery import pymysql # 数据库连接 def connect(): conn = pymysql.connect(host='localhost', ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,976
精华内容 1,190
关键字:

python爬虫爬取股票数据

python 订阅
爬虫 订阅