您現(xiàn)在所在的位置:首頁 >關(guān)于奇酷 > 行業(yè)動態(tài) > 實戰(zhàn)丨你永遠不知道多少人在嗶哩嗶哩彈幕,但Python知道!

實戰(zhàn)丨你永遠不知道多少人在嗶哩嗶哩彈幕,但Python知道!

來源:奇酷教育 發(fā)表于:

Python爬蟲爬取Bilibili彈幕實戰(zhàn)。

  聚合了海量先鋒年輕人的B站,月均活躍用戶達到1.1億。
 
  提到B站,你會想到什么?
 
  二次元?鬼畜?看番?diss?還是——彈幕?
 
  曾經(jīng)錯位時空不同的人,在同一個視頻下用彈幕進行了交流。
 
  而發(fā)這條彈幕的人,可能甚至是五六年前發(fā)的。
 
  你永遠不知道年輕人有多少梗,不知道有多少人在彈幕,但是——
 
  Python知道。
 
  Python爬蟲爬取Bilibili彈幕
 
  這是Python爬蟲爬取Bilibili彈幕實戰(zhàn)。
 
  有人說,B站因彈幕的體驗感而一騎絕塵。
 
  飛逝的彈幕仿佛能溝通一切。
 
  那么,B站上一個視頻的彈幕最多會有多少?
 
  2000條?還是更多?
 
  這么多數(shù)據(jù),B站肯定是不會直接把彈幕和這個視頻綁在一起的。
 
  也就是說,有一個視頻地址為https://www.bilibili.com/video/av67946325,你如果直接去requests.get這個地址,里面是不會有彈幕的,因為B站的彈幕是先加載當(dāng)前視頻的界面,然后再異步填充彈幕的。
 
  接下來我們可以打開火狐瀏覽器(平常可以火狐谷歌控制臺都使用,因為谷歌里面因為插件被攔截下來的包在火狐可以抓到,同理谷歌也是)的控制臺來觀察網(wǎng)絡(luò)請求了。
 
  經(jīng)過仔細排查之后,找到了一個請求xml的,它后面跟了一個oid,查看它的響應(yīng)內(nèi)容之后可以發(fā)現(xiàn)它就是彈幕文件。
  它的響應(yīng)時間98毫秒,遠超其它幾個響應(yīng),所以說如果把彈幕直接放在視頻頁面,用戶體驗一定會很差。
  找到彈幕了,爬取它很容易,但是我們想要是爬取固定av號視頻的彈幕,而不是說隨意去找一個oid來爬取彈幕,這樣我們都不知道爬下來的彈幕是哪個視頻的。
 
  接下來我們就可以復(fù)制oid的117784982值,去視頻頁面搜索看看了,通過視頻來獲得它的oid再來爬xml彈幕就很方便了。
 
  這次用了谷歌瀏覽器,在里面通過搜索oid果然搜索到相關(guān)的數(shù)據(jù)了。
  其中cid是彈幕對應(yīng)的id,aid對應(yīng)視頻av號。
 
  先把這個頁面爬取下來。
 
 
  正則表達式最簡單的使用方式其實就是直接match。拿到了內(nèi)容我們就要從中解析彈幕id了,對于這種規(guī)則紊亂的網(wǎng)頁,我們就不能用上一篇中Bs4解析了,而是使用正則表達式。
 
 
  觀察這里的內(nèi)容,我們大致的匹配規(guī)則就有了。
 
  cid={目標(biāo)}&aid=av號
 
  117784982就是我們的目標(biāo)。
 
  先根據(jù)av號拿到視頻頁面,然后解析視頻頁面拿到oid,最后用oid去請求xml彈幕文件。
 
  這樣我們就完成B站彈幕爬蟲了。
 
  Python,好絕一鬼才!
主站蜘蛛池模板: 狠狠色噜噜色狠狠狠综合久久| 国产精品激情综合久久| 欧美综合欧美视频| 99热婷婷国产精品综合| 亚洲综合在线视频| 99热婷婷国产精品综合| 99久久国产综合精品网成人影院 | 亚洲 自拍 另类小说综合图区| 国产欧美日韩综合AⅤ天堂| 国产综合精品女在线观看| 观看 亚洲欧美日韩综合在线一区| 国产精品激情综合久久| 亚洲伊人成无码综合网| 九九久久99综合一区二区| 欧美日韩国产综合一区二区三区| 亚洲综合图色40p| 亚洲国产成人久久综合区| 亚州欧州一本综合天堂网| 天天爽天天狠久久久综合麻豆| 亚洲精品第一国产综合境外资源 | 欧美久久天天综合香蕉伊| 日韩综合无码一区二区| 精品国产第一国产综合精品| 亚洲亚洲人成综合网络| 亚洲欧美另类成人综合图片| 亚洲色偷偷偷鲁综合| 亚洲欧美乱综合图片区小说区 | 狠狠狠色丁香婷婷综合久久五月| 亚洲AV人无码综合在线观看| 亚洲欧美国产日韩综合久久| 狠狠色丁香婷婷久久综合不卡| 91精品欧美综合在线观看| 综合自拍亚洲综合图不卡区| 狠狠综合久久综合中文88| 日韩欧美色综合网站| 亚洲av伊人久久综合密臀性色| 亚洲综合无码精品一区二区三区| 国产在线一区二区综合免费视频| 久久综合给合久久狠狠狠97色| 狠狠综合久久综合88亚洲| 久久久亚洲裙底偷窥综合|