貝索斯的技術(shù)員編寫的是一種純自動化的爬蟲腳本。
在互聯(lián)網(wǎng)時(shí)代,一切講究的是效率和速度,但是有時(shí)候,單純的效率會催生出巨大的隱患。
任何網(wǎng)站的負(fù)載都是有限的,如果一個(gè)網(wǎng)站的登陸訪問請求超過某個(gè)上限值,比如一秒鐘幾萬次的登陸請求,那么整個(gè)網(wǎng)站都會宕機(jī),數(shù)據(jù)量再加大的話,服務(wù)器甚至有可能燒。
而黑客最常用的攻擊方式,就是寫一個(gè)自動化的登陸腳本去不斷的請求登陸。
為了防黑客,一些程序員大佬發(fā)明了一種驗(yàn)證人機(jī)的辦法——驗(yàn)證碼!
沒錯(cuò),大家最討厭的驗(yàn)證碼,其實(shí)是為了防黑客的!
因?yàn)轵?yàn)證碼是動態(tài)變化的,每一次都不一樣,黑客編寫的純自動化腳本沒辦法識別。
貝索斯的技術(shù)團(tuán)隊(duì)開發(fā)的這種純自動化爬蟲腳本,就類似于黑客的那種腳本。
它可以做到一秒鐘采集10萬次數(shù)據(jù)!
而掏寶的服務(wù)器是能夠承載千萬人同時(shí)在線流量的“怪物”,這點(diǎn)數(shù)據(jù)采集數(shù)量,根本不會引起掏寶的懷疑。
1秒鐘10萬次,貝索斯甚至可以在半小時(shí)內(nèi)把淘寶網(wǎng)的所有頁面數(shù)據(jù)全部采集完!
到了凌晨12點(diǎn)的時(shí)候。
喬恩興奮的找到眼圈發(fā)黑的貝索斯,激動的道:“boss,我們的爬蟲已經(jīng)開始爬數(shù)據(jù)了,爬完數(shù)據(jù)后,技術(shù)團(tuán)隊(duì)會把數(shù)據(jù)上傳到咱們自己的數(shù)據(jù)庫!”
“嘿嘿,陳默肯定不知道,掏寶斥巨資辛辛苦苦搞的數(shù)千萬的賣家頁面數(shù)據(jù),咱們爬蟲爬了半個(gè)小時(shí)就能爬完。這給咱們省了一大筆錢呢!”
貝索斯立刻起身,開心道:“nice!告訴技術(shù)團(tuán)隊(duì),這件事搞定以后,我給他們發(fā)獎金!”
頓了頓,貝索斯又道:“對了,ip一定要勤換著點(diǎn),在爬完數(shù)據(jù)之前,千萬別被對方的程序大牛給逮到!”
喬恩立刻點(diǎn)了點(diǎn)頭:“好!我這就去吩咐!”
自動更換ip功能很好做,甚至有現(xiàn)成的軟件,不需要技術(shù)員現(xiàn)場編寫,直接下載一個(gè)拿過來用就是了。
12點(diǎn)5分,貝索斯的爬蟲正式出動對掏寶的頁面數(shù)據(jù)進(jìn)行大量的采集。
此刻,馬福報(bào)正在掏寶親自坐鎮(zhèn)加班。
雖然反作弊功能和水印logo功能都可以自動開啟。
但是為了能竊取樂掏一部分流量,馬福報(bào)讓技術(shù)員暫時(shí)關(guān)閉了這倆功能,聽從他的指揮。
只要馬福報(bào)一聲令下,這兩個(gè)功能就能瞬間開啟,把所有被爬蟲爬走的數(shù)據(jù)變成臟數(shù)據(jù)!
當(dāng)樂掏的爬蟲開始肆無忌憚的采集掏寶數(shù)據(jù)時(shí),掏寶的技術(shù)員早就發(fā)現(xiàn)了異常!
“馬總,對方行動了!而且爬蟲的速度非常快,不用半小時(shí)就能爬走咱們?nèi)康臄?shù)據(jù)!”
技術(shù)總監(jiān)說道。