貝索斯的技術(shù)員編寫的是一種純自動化的爬蟲腳本。
在互聯(lián)網(wǎng)時代,一切講究的是效率和速度,但是有時候,單純的效率會催生出巨大的隱患。
任何網(wǎng)站的負(fù)載都是有限的,如果一個網(wǎng)站的登陸訪問請求超過某個上限值,比如一秒鐘幾萬次的登陸請求,那么整個網(wǎng)站都會宕機(jī),數(shù)據(jù)量再加大的話,服務(wù)器甚至有可能燒。
而黑客最常用的攻擊方式,就是寫一個自動化的登陸腳本去不斷的請求登陸。
為了防黑客,一些程序員大佬發(fā)明了一種驗證人機(jī)的辦法——驗證碼!
沒錯,大家最討厭的驗證碼,其實是為了防黑客的!
因為驗證碼是動態(tài)變化的,每一次都不一樣,黑客編寫的純自動化腳本沒辦法識別。
貝索斯的技術(shù)團(tuán)隊開發(fā)的這種純自動化爬蟲腳本,就類似于黑客的那種腳本。
它可以做到一秒鐘采集10萬次數(shù)據(jù)!
而掏寶的服務(wù)器是能夠承載千萬人同時在線流量的“怪物”,這點(diǎn)數(shù)據(jù)采集數(shù)量,根本不會引起掏寶的懷疑。
1秒鐘10萬次,貝索斯甚至可以在半小時內(nèi)把淘寶網(wǎng)的所有頁面數(shù)據(jù)全部采集完!
到了凌晨12點(diǎn)的時候。
喬恩興奮的找到眼圈發(fā)黑的貝索斯,激動的道:“boss,我們的爬蟲已經(jīng)開始爬數(shù)據(jù)了,爬完數(shù)據(jù)后,技術(shù)團(tuán)隊會把數(shù)據(jù)上傳到咱們自己的數(shù)據(jù)庫!”
“嘿嘿,陳默肯定不知道,掏寶斥巨資辛辛苦苦搞的數(shù)千萬的賣家頁面數(shù)據(jù),咱們爬蟲爬了半個小時就能爬完。這給咱們省了一大筆錢呢!”
貝索斯立刻起身,開心道:“nice!告訴技術(shù)團(tuán)隊,這件事搞定以后,我給他們發(fā)獎金!”
頓了頓,貝索斯又道:“對了,ip一定要勤換著點(diǎn),在爬完數(shù)據(jù)之前,千萬別被對方的程序大牛給逮到!”
喬恩立刻點(diǎn)了點(diǎn)頭:“好!我這就去吩咐!”
自動更換ip功能很好做,甚至有現(xiàn)成的軟件,不需要技術(shù)員現(xiàn)場編寫,直接下載一個拿過來用就是了。
12點(diǎn)5分,貝索斯的爬蟲正式出動對掏寶的頁面數(shù)據(jù)進(jìn)行大量的采集。
此刻,馬福報正在掏寶親自坐鎮(zhèn)加班。
雖然反作弊功能和水印logo功能都可以自動開啟。
但是為了能竊取樂掏一部分流量,馬福報讓技術(shù)員暫時關(guān)閉了這倆功能,聽從他的指揮。
只要馬福報一聲令下,這兩個功能就能瞬間開啟,把所有被爬蟲爬走的數(shù)據(jù)變成臟數(shù)據(jù)!
當(dāng)樂掏的爬蟲開始肆無忌憚的采集掏寶數(shù)據(jù)時,掏寶的技術(shù)員早就發(fā)現(xiàn)了異常!
“馬總,對方行動了!而且爬蟲的速度非??欤挥冒胄r就能爬走咱們?nèi)康臄?shù)據(jù)!”
技術(shù)總監(jiān)說道。