精华内容
下载资源
问答
  • 写在前面今天和朋友唠嗑,说...于是就想着用python来试试爬取B站弹幕和三连了代码不废话了,先上代码:# 爬取B站弹幕import requestsimport timeimport jsonfrom lxml import etree# 放入要爬的url# 弹幕apiurl_b = ...

    写在前面

    今天和朋友唠嗑,说着说着说到了爬取B站弹幕和三连的事情。于是就想着用python来试试爬取B站的弹幕和三连了

    代码

    不废话了,先上代码:

    # 爬取B站弹幕

    import requests

    import time

    import json

    from lxml import etree

    # 放入要爬的url

    # 弹幕api

    url_b = "https://api.bilibili.com/x/v1/dm/list.so?oid=186339235"

    # 三连api

    url_state = "https://api.bilibili.com/x/web-interface/archive/stat?aid=925611776"

    # 设置header

    header = {"user-agent": "Mozilla/5.0 (Linux; Android 8.0.0; Pixel 2 XL Build/OPD1.170816.004) "

    + "AppleWebKit/537.36 (KHTML, like Gecko)"

    + " Chrome/80.0.3987.116 Mobile Safari/537.36"}

    # 获取信息

    try:

    # 延时操作,防止爬的太快

    time.sleep(0.5)

    response = requests.get(url_b, headers=header)

    except Exception as e:

    print(e)

    else:

    if response.status_code == 200:

    # 下载xml文件

    with open("bilibili.xml", 'wb') as f:

    f.write(response.content)

    # 解析网页

    time.sleep(1)

    # 文件路径,html解析器

    html = etree.parse('bilibili.xml', etree.HTMLParser())

    # xpath解析,获取当前所有的d标签

    results = html.xpath('//d//text()')

    i = 0

    sum_self = 0

    for result in results:

    sum_self = sum_self + 1

    if result.find("飞"):

    i = i+1

    print("总数为: %d 包含飞字的弹幕为:%d" % (sum_self, i))

    data_get = requests.get(url_state, headers=header)

    data_san = json.loads(data_get.content.decode())

    print("硬币为:%d" % data_san['data']['coin'])

    print("转发为: %d" % data_san['data']['share'])

    print("点赞为:%d" % data_san['data']['like'])

    这里关于找api的操作,可以自行用火狐或者谷歌的开发者模式去寻找。

    在这里由于B站的弹幕是用xml存的,且最大弹幕量是1000,即只爬了一千条弹幕。

    思路分析

    首先找一个B站视频,然后寻找弹幕和三连的API:

    1805770-20200520095606519-310273807.png

    首先发现了这个,阅读英文后发现明显就是三连的英文。

    就是简单的json格式,关于json格式的处理已经练习过嘞

    然后找弹幕,发现是xml文件:

    1805770-20200520095729656-1688094931.png

    观察结构可以发现弹幕都是在d标签里的。上次爬取论文的时候也用了类似的操作,我们直接读取d标签的内容即可。

    这里我们就用xpath来很方便的找到。关于xpath的语法等有空再开个博客写一写。

    结果

    1805770-20200520095833613-1968952181.png

    可以看到爬取B站弹幕和三连非常方便,也体会到了python在某些领域的优势。

    展开全文
  • 爬取b站弹幕

    千次阅读 2020-02-08 21:59:18
    爬取b站弹幕 前段时间爬取了b弹幕,现在记录一下心得体会 前期准备 HTML解析 找到弹幕所在的json响应文件,发现里面有1000多条实时弹幕 分析参数: 只有视频的主键标识 oid 变法找到 oid 抓取下来(我是想着...

    爬取b站弹幕

    前段时间爬取了b站的弹幕,现在记录一下心得体会
    视频展示:https://www.bilibili.com/video/av90844407?from=search&seid=10052208744177748724

    前期准备

    HTML解析

    在这里插入图片描述
    在这里插入图片描述
    找到弹幕所在的json响应文件,发现里面有1000多条实时弹幕
    分析参数:
    在这里插入图片描述
    只有视频的主键标识 oid
    变法找到 oid 抓取下来(我是想着抓取一个up主的所有视频,所以要抓取全部的oid)
    看到每个视频的url是固定的格式:https://www.bilibili.com/video/av+vid
    从主界面抓取了所有的vid,然后通过xpath抓取了所有的oid
    至此,所有的oid抓取完毕

    下面进入代码抓取弹幕,解析数据

    先进行一个小测试,测试下抓取单个视频的弹幕:

    url="https://api.bilibili.com/x/v1/dm/list.so?oid=144896116"
    headers={
            "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0"
             }
    # query_list={"oid":"144896116"}
    response=requests.get(url,headers=headers)
    html_str=response.content
    html=etree.HTML(html_str)
    d_list=html.xpath('//d')
    content_list=[]
    
    a=d_list[0].xpath('//text()')
    items={}
    items["danmu"]=a
    content_list.append(items)
    with open("blbl.txt","w",encoding="utf-8") as f:
        for content in content_list:
            f.write(json.dumps(content,ensure_ascii=False))
            f.write("\n")
    

    果然抓取成功

    然后抓取全部的弹幕,解析,存入数据库

    import pymysql
    import json
    import io
    import sys
    
    con = pymysql.connect(
    
        host='127.0.0.1',
    
        port=3306,
    
        user='root',
    
        password='root',
    
        db='test',
    
        charset='utf8mb4'
    
    )
    cur = con.cursor()
    cur.execute("insert into danmu(dm) value('测试')")
    con.commit()
    sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')
    with open("danmu.json", "r", encoding="utf-8") as f:
        danmu_str = json.load(f)
        # print(danmu_str["dm"][0]["danmu"])
        j = 0
        for j in range(0, 1002):
            for item in danmu_str["dm"][j]["danmu"]:
    
                # sql_str="insert into danmu(dm) value( \""+item+"\")"
    
                for stuff in dirty_stuff:
                    item = item.replace(stuff, "")
                print(item)
                length = item.__len__()
               
                for l in range(1, length - 1):
                    if (item_list[0]==item_list[l]):
                        item=item_list[0]
                sql_str = "insert into danmu(dm) value( \"" + item + "\")"
                cur.execute(sql_str)
                con.commit()
    
    
    

    在这里插入图片描述
    解析数据,进行弹幕排行:

    
    select count(*) as count,dm as danmu
    from danmu
    group by dm
    order by count desc;
    
    

    排行结果:
    在这里插入图片描述
    我是抓去了敬汉卿的100万条弹幕,排行结果优点意外,什么0 啊,f啊,一啊的…

    展开全文
  • 一、写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样一个简单的尝试,从搭建环境到跑通demo,不懂语法,不知含义,装好环境,查到API,跑通Demo,就是目标!...

    一、写在前面

    之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样一个简单的尝试,从搭建环境到跑通demo,不懂语法,不知含义,装好环境,查到API,跑通Demo,就是目标!纯零基础萌新!

    关于环境的安装及调试过程中遇到的问题记录请移步

    二、Python爬取B站弹幕

    环境说明

    步骤说明

    安装python3.6

    安装scrapy1.4

    建立scrapy demo

    跑通demo遇到问题、解决问题

    更改demo为B站弹幕爬取demo

    我这边是按照参考文档中 scrapy爬虫框架入门实例这个demo来做的,这个文章里面无论是介绍还是scrapy的入门都非常详细,建议大家按照- 这个来入门,但是由于慕课网的结构样式以及更改了,所以demo是跑不起来的,因此我换成了爬取B站的弹幕demo。截止2017年9月2日亲测可跑通。

    Demo说明

    1. 安装scrapy成功之后建立项目scrapytest

    scrapy startproject scrapytest

    2. demo目录

    本demo目录仅保留当前demo可用的文件,且文件名字不同于scrapy自动生成的文件名字,对于未涉及到的文件进行了删除

    │ scrapy.cfg//项目的配置文件

    └─scrapytest

    │ CourseItems.py//定义一个容器保存要爬取的数据

    │ MyPipelines.py//项目中的pipelines文件.

    │ settings.py//项目中的设置文件.

    ├─spiders

    │ │ data.json//爬取数据生成的文件

    │ └─ Myspider.py//爬虫主代码

    3. demo代码

    创建CourseItems.py文件

    定义一个容器保存要爬取的数据。为了定义常用的输出数据,Scrapy提供了Item类。Item对象是种简单的容器,保存了爬取到得数据。 其提供了 类似于词典(dictionary-like)的API以及用于声明可用字段的简单语法。由于最后输出的只要弹幕的内容,所以容器中只定义了弹幕的内容

    #引入文件

    import scrapy

    class CourseItem(scrapy.Item):

    #弹幕内容

    content = scrapy.Field()

    编写爬取代码Myspider.py

    bilibili的弹幕是在xml文件里,每个视频都有其对应的cid和aid,我们取到cid中的数字放入http://comment.bilibili.com/+cid+.xml,即可得到该视频对应的cid。

    cid取法:cid在源码中是没有找到的,目前我的做法是在页面上F12,然后查找cid,该cid即为弹幕页的标识,如果有可以通过代码查到的方法,还请告知。目前例子中的cid有1000多条弹幕,建议大家换个少的进行测试。

    1240

    弹幕的xml文件结构非常简单,所以通过Xpath简单解析即可

    1240

    import scrapy

    #引入容器

    from scrapytest.CourseItems import CourseItem

    class Myspider(scrapy.Spider):

    #设置name

    name = "Myspider" //启动项目时所用name

    #设定域名

    allowed_domains = ["bilibili.com"]

    #填写爬取地址

    start_urls = ["http://comment.bilibili.com/2015358.xml"]

    #编写爬取方法

    def parse(self, response):

    #实例一个容器保存爬取的信息

    item = CourseItem()

    #这部分是爬取部分,使用xpath的方式选择信息,具体方法根据网页结构而定

    #直接爬取弹幕内容

    str0 = ''

    for box in response.xpath('/i/d/text()'):

    #获取每一条弹幕内容

    str0 += box.extract()+',';

    #返回信息

    item['content'] = str0;//最后输出的结构是值:字符串的结构,详细见输出图

    yield item

    编写MyPipelines.py处理数据

    当成功获取信息后,要进行信息的验证、储存等工作,这里只进行简单的将数据存储在json中的操作。

    #引入文件

    from scrapy.exceptions import DropItem

    import json

    class MyPipeline(object):

    def __init__(self):

    #打开文件

    self.file = open('data.json', 'w', encoding='utf-8')

    #该方法用于处理数据

    def process_item(self, item, spider):

    #读取item中的数据

    line = json.dumps(dict(item), ensure_ascii=False) + "\n"

    #写入文件

    self.file.write(line)

    #返回item

    return item

    #该方法在spider被开启时被调用。

    def open_spider(self, spider):

    pass

    #该方法在spider被关闭时被调用。

    def close_spider(self, spider):

    pass

    注册Pipeline

    找到settings.py文件,这个文件时爬虫的配置文件,在其中添加

    ITEM_PIPELINES = {

    'scrapytest.MyPipelines.MyPipeline': 300,

    }

    上面的代码用于注册Pipeline,其中scrapytest.MyPipelines.MyPipeline为你要注册的类,右侧的’300’为该Pipeline的优先级,范围1~1000,越小越先执行。(ps:这个并没有详细了解)

    4. 运行demo

    在Myspider.py的同级下执行cmd控制台,运行一下命令。

    scrapy crawl MySpider

    5. 运行结果

    这是一个json的文件,json文件的输出结构更改在Myspider.py中,我改成这种通过逗号来连接每一条弹幕时是为了之后方便分词。大家也可以把代码改了改成另一种展示方式

    1240

    (便于分词的展示方式)

    1240

    (另一种方式)

    到此python爬取B站弹幕demo结束,接下来我们通过拿到的json文件去R语言中进行分词。

    三、R语言分词实例

    环境说明

    步骤说明

    安装R、Rstudio、jiebaR、rJSON

    引入JSON文件

    分词处理

    停止词处理

    过滤数字及字母

    产生数据

    调用wordcloud2绘制词云

    关于jiebaR分词基本是按照R语言中文分司包jiabaR这个博客的demo来进行的。该博文中对于jiebaR的各种函数介绍的非常全面,因此下面demo将不对代码内容进行详细介绍。demo中的各种路径请自行更改。

    demo说明

    只有一个jiebaR.R文件即完成了分词和绘制词云,代码如下:

    #调入分词的库

    library("jiebaR")

    library("rjson")

    #这里读取的`python`爬取的`json`文件,拿道了对象中`content`键的值,该值是一长串字符串,在爬虫输出的时候通过逗号来连接字符串,因此分词时是通过逗号进行的分词

    myfile<-fromJSON(file = "F:/gitlab/py/scrapytest/scrapytest/spiders/data.json")$content

    #预处理,这步可以将读入的文本转换为可以分词的字符,本demo通过逗号进行分词

    myfile.res<-myfile[myfile!=","]

    #调用分词引擎worker函数 stop_word为停止词设置

    wk = worker(stop_word ='F:/R/stopw.txt')

    #segment为分词结果

    segment = wk[myfile.res]

    #对于分词结果进行正则过滤,去掉数字及字母

    segment = gsub("[a-zA-Z\\/\\.0-9]+","",segment)

    #计算词频,该data即为传入词云的数据

    data <- freq(segment)

    #引入wordcloud2,在引入之前请先安装

    library(wordcloud2)

    #调用wordcloud2函数绘制词云,该函数参数在github已有介绍

    wordcloud2(data,size = 1, fontFamily = "微软雅黑",color = "random-light"")

    1240

    (计算词频后的结果)

    1240

    (我一开始万万没有想到我分出来会这么丑)

    问题说明

    1.计算词频

    由于弹幕的条数比较多,分词过滤后的词频很多,没有细查找如何再进一步的排序过滤筛选词,所以导致词云的结果并不是很好

    2. 关键词提取

    个人认为通过关键字提取出的词云会更好一旦,jiabaR提供了关键字提取的方法及提取的结果,结果上面是词语出现频率。

    #提取150个关键字

    keys = worker("keywords",topn=150)

    #关键字结果

    re = vector_keywords(segment,keys)

    1240

    (提取出的关键字结果)

    从图上可以看出这个关键词比较适合用来做词云,但是这里遇到了问题,关键字的结果时vector类型,并不能直接作为wordcloud的参数,从测试结果上来看wordcloud的参数接收data.frame类型,且要有词的内容和词频,当我通过如下代码将vector类型转换为data.frame时,并将结果输出到了csv的文件后发现,输出的内容并没有词频。没有词频就无法通过wordcloud来进行绘制!!!,求指教如何将关键词放入wordcloud进行绘制!!!

    #re为调用vector_keywords产生的结果

    data.frame(re);

    #将结果输出到文件中

    write.csv(data.frame(re),"F:/R/2345.csv",row.names = T)

    1240

    (通过调用关键词函数vector_keywords产生的结果)

    3. 提出出的词语如何能文字更多

    在做词库处理时,我这边用了搜狗的词库替换了jiabaR的原来词库,因此可以出现类似于神罗天征这样的四字词语,在原来的词库里,连宇智波都是被分开的!但是如何把很短的一句话也提取出来呢,从最开始的弹幕可以看到,原文件中是有大量的重复的一句话,除了自己在搜狗词包之外设置固定的词语短句,不知道还有没有别的方法,欢迎指导。

    最后的那个图被我做的太丑了,简直影响观看,我如果一开始能预料到分出来会这么丑……我万万不会去分的,而且现在做云文字的网站都自带分词好像是,所以……所以我也不知道我这是在干嘛……。如有错误还请指教!

    四、代码结构截图

    项目代码结构截图

    hXcFOA6Dqfz63ep1ME4.png

    spiders文件夹截图

    FAHLhstyyj02Mssih7a.png

    萌新学习Python爬取B站弹幕+R语言分词demo说明

    注:本文著作权归作者,由demo大师代发,拒绝转载,转载需要作者授权

    展开全文
  • 前言主要记录自己完成爬虫的思路:从how to do到what to do这是一个拿 python 练手的项目,虽说是入门级,... 弹幕究竟是什么玩意首先,让我们看看B站客户端是如何接收到弹幕的这就需要让我们看看网页的源代码了随便...

    前言

    主要记录自己完成爬虫的思路:从how to do到what to do这是一个拿 python 练手的项目,虽说是入门级,但其余爬虫也万变不离其宗 ̄へ ̄

    [源代码地址 Github:bili-danmu](https://github.com/regaliastar/bili-danmu)4aa545dccf7de8d4a93c2b2b8e3265ac0a26d216.png

    过程

    1. 弹幕究竟是什么玩意

    首先,让我们看看B站客户端是如何接收到弹幕的

    这就需要让我们看看网页的源代码了

    随便打开一个视频网页如下:89427639d0a794d0368b4490faf91d665ebead71.png

    那么,弹幕是怎么加载进网页面的呢?

    接下来让我们回忆一下http请求的过程:

    0. 3次握手建立TCP连接

    1. 浏览器得到页面,也就是html文件

    2. 根据html文件里如

    可以想象,弹幕文件应该是在浏览器得到页面后像服务器请求得来的,也就是说,它隐藏在浏览器下载的文件中!不妨先假想一下:弹幕文件应该是一个JSON格式或者是XML格式的文件 这样才方便应用与管理

    右键`审查元素`,打开网络面板,分析浏览器抓取下来的包,其中有一个文件引起了我们的注意:

    9054f9d09ca615a2b446783ffa4b3e84923474cb.png

    这是一个xml文件,也是我们猜测的弹幕格式之一,查看它的内容:

    0fa35247749465b03c33575a0b16d389e69febc2.png

    很惊喜的发现,这不正是弹幕文件吗!  ̄へ ̄

    4aa545dccf7de8d4a93c2b2b8e3265ac0a26d216.png

    2. 如何得到弹幕文件

    查看弹幕文件的文件名:864a5751ba602041a056e28a620f8f1a9679cd77.png

    全称`http://comment.bilibili.com/6154070.xml` 且看资源标识符`6154070.xml` 这应该便是唯一标志弹幕文件的文件名了

    关于`6154070.xml` 这个文件名是如何来的?这只有在网页源代码中一探究竟。右键查看网页源代码,查找与`6154070.xml` 有关的字段:

    194f9bf51763ce1d01a9309525de6efb4bffec8e.png

    但现在我们还是不能放心,对比其他视频后才终于发现,原来正是这个`

    分析完毕,接下来就是最快的编码工作了  ̄へ ̄

    如何编写爬虫

    其实分析到了这里,代码编写也是水到渠成的事了我选择了 requests 与 lxml 这种轻量级的库来编写

    Talk is cheap. Show me the code. 废话不多说,完整代码请看

    [Github:bili-danmu](https://github.com/regaliastar/bili-danmu)4aa545dccf7de8d4a93c2b2b8e3265ac0a26d216.png

    结语

    对于爬虫来说,往往分析页面花费的时间大于编写代码的时间。总而言之,大概就是这么个流程,依葫芦画瓢也能搞定大部分网站内容的爬取  ̄へ ̄

    展开全文
  • 目录SRE实战 互联网时代...爬取弹幕1. 从手机端口进入网页爬取找到接口2.代码import requestsfrom lxml import etreeimport numpy as npurl='https://api.bilibili.com/x/v1/dm/list.so?oid=198835779'headers= {...
  • 我们会发现,弹幕列表一栏对应的网页结构并不是我们想抓取的弹幕文件,那么弹幕文件在哪那?很简单,由于弹幕是滚动播放的,所以有一个快速找到弹幕文件的方法。在开发者工具中点击network。重新...
  • 爬取B站弹幕

    千次阅读 2019-01-18 16:59:51
    最近几天学习爬虫,便爬取B站弹幕,本篇博文记录的是爬取弹幕的方法一,近期会更新方法二。 下面是流程: 1.随意打开一个B站视频,按F12,点开network按键,在左上方的输入区输入 list 便可找到相应的弹幕...
  • 【kimol君的无聊小发明】—用python爬取B站弹幕(无数量限制)前言一、弹幕抓取(有数量限制)二、弹幕抓取(无数量限制)写在最后 前言 某个夜深人静的夜晚,夜微凉风微扬,月光照进我的书房~ 当我打开文件夹以...
  • 先Po效果图,这是去年9月某期逗鱼时刻的弹幕词频分析,就是吾王巨经典的“我给XXX做牛做马”体刚刚兴起的那阵做的词云。这个程序在我去年9月份左右的时候就写好了,时隔半年威力依旧不减当年,现在回头看这段代码...
  • 卧槽!原来爬取B站弹幕这么简单

    万次阅读 多人点赞 2020-11-07 11:58:00
    公众号后台回复“图书“,了解更多号主新书内容作者:叶庭云,https://blog.csdn.net/fyfugoyfa一、分析网页二、获取弹幕数据三、绘制词云图视频链接:https:...
  • 参考代码如下,将弹幕按照日期保存为单个文件...因为太多了...importrequestsimportreimporttime""" 爬取哔哩哔哩视频弹幕信息"""# 2043618 是视频的弹幕标号,这个地址会返回时间列表# ......
  • Python爬取B站弹幕方法介绍

    千次阅读 多人点赞 2020-08-04 21:47:46
    文章目录Python爬取B站弹幕方法介绍前言寻找弹幕数据编写爬虫B站弹幕数量新技术介绍参考文章 前言 最近同学要做东西,需要用 B 的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 视频的弹幕数据。 对于爬虫而言...
  • 使用Python爬取B站弹幕

    2019-09-15 11:58:51
    爬取B站弹幕说着简单实现难,你不仅仅要找到弹幕视频的api接口 还要掌握一系列的表达式及编程语法 但是 我并不慌,身为一名没多少进ICU的996患者(误) 让我们开始coding吧! 使用语言:...
  • python爬取b站弹幕并进行数据可视化

    千次阅读 多人点赞 2019-11-22 19:19:21
    python爬取b站弹幕并进行数据可视化 1.第一步,爬取b站弹幕 我们随便打开一个b视频 打开开发者模式,在network下搜索list,可以找到该视频的弹幕文件 打开之后是这个样子的 结构还是比较简单的,我们后续爬取...
  • 一个B站账号,需要先登录,否则不能查看历史弹幕记录联网的电脑和顺手的浏览器,我用的ChromePython3环境以及request模块,安装使用命令,换源比较快:pip3 install request -i http://pypi.douban.com/simple爬取步骤:...
  • 最近有朋友在群上面说做个b站某视频的弹幕统计列表,筛选出弹幕最多的那条!那么如何解决这个问题呢?首先肯定是要获取弹幕的列表吧,然后再进行分析吧。筛选出弹幕最多的那条,这个好办用collections可以解决,那么...
  • 一个B站账号,需要先登录,否则不能查看历史弹幕记录联网的电脑和顺手的浏览器,我用的ChromePython3环境以及request模块,安装使用命令,换源比较快:pip3 install request -i http://pypi.douban.com/simple爬取步骤:...
  • 分析网页视频地址:https://www.bilibili.com/video/BV19E411W7BE本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀。这次我选取的是自己唯一的爆款视频。就是下面这个。希望大家...
  • Python爬取B站弹幕数据并获取弹幕数量最多数据网站分析最终代码 我们以郑老师申论课为例子进行分析 网站分析 郑老师的申论课的网址为 https://www.bilibili.com/video/BV1W7411t7fy 我们爬取106节课程并存储弹幕到...
  • Java爬取B站弹幕 弹幕的存储位置 如何通过B视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号,cid=14295428 弹幕存放...
  • 感谢原理概念cid: 爬取弹幕需要的id号,可以由BV号通过API接口获得步骤BV转cid浏览器输入:https://api.bilibili.com/x/player/pagelist?bvid=BV1x54y1e7zf&jsonp=jsonpcid=226204073由cid得到当日条数小于1000的...
  • 大家好,我是天空之城,今天给大家带来,爬取B站弹幕制作词云图。 以下内容部分来自公众号数据分析与统计学之美,号主是大牛,有需要的加他。 首先打开一个b视频https://www.bilibili.com/video/BV1PK4y1b7dt?t=1...
  • 用宋浩老师的视频爬取弹幕数据,然后做成词云显示
  • 在简书发现一篇有趣的文章:爬虫,走起,用Excel实现5min抓取B站弹幕及初步处理讲到了如何根据开发者工具,获得B站视频的弹幕信息,不过有个不足就是手动保存弹幕信息。而通过python我们可以轻松地自动存储。很容易...
  • 用Python爬取B站弹幕并做成词云 一、获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的“开发者工具”: 进入Search后输入cid获得视频的cid号。 2.爬视频的弹幕 #爬数据正文 def get_data(cid): # 分析网页,...
  • 前言关于这个小项目的由来。最开始是想要利用b站弹幕进行...开码一丶利用 POST 方式获取 B 直播弹幕参考:【python】b站直播弹幕获取首先,随便打开一个b站的直播页面,按F12打开控制台,点进“网络(Network...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,195
精华内容 878
关键字:

爬取b站弹幕