貝索斯的技術(shù)員編寫的是一種純自動(dòng)化的爬蟲(chóng)腳本。
在互聯(lián)網(wǎng)時(shí)代,一切講究的是效率和速度,但是有時(shí)候,單純的效率會(huì)催生出巨大的隱患。
任何網(wǎng)站的負(fù)載都是有限的,如果一個(gè)網(wǎng)站的登陸訪問(wèn)請(qǐng)求超過(guò)某個(gè)上限值,比如一秒鐘幾萬(wàn)次的登陸請(qǐng)求,那么整個(gè)網(wǎng)站都會(huì)宕機(jī),數(shù)據(jù)量再加大的話,服務(wù)器甚至有可能燒。
而黑客最常用的攻擊方式,就是寫一個(gè)自動(dòng)化的登陸腳本去不斷的請(qǐng)求登陸。
為了防黑客,一些程序員大佬發(fā)明了一種驗(yàn)證人機(jī)的辦法——驗(yàn)證碼!
沒(méi)錯(cuò),大家最討厭的驗(yàn)證碼,其實(shí)是為了防黑客的!
因?yàn)轵?yàn)證碼是動(dòng)態(tài)變化的,每一次都不一樣,黑客編寫的純自動(dòng)化腳本沒(méi)辦法識(shí)別。
貝索斯的技術(shù)團(tuán)隊(duì)開(kāi)發(fā)的這種純自動(dòng)化爬蟲(chóng)腳本,就類似于黑客的那種腳本。
它可以做到一秒鐘采集10萬(wàn)次數(shù)據(jù)!
而掏寶的服務(wù)器是能夠承載千萬(wàn)人同時(shí)在線流量的“怪物”,這點(diǎn)數(shù)據(jù)采集數(shù)量,根本不會(huì)引起掏寶的懷疑。
1秒鐘10萬(wàn)次,貝索斯甚至可以在半小時(shí)內(nèi)把淘寶網(wǎng)的所有頁(yè)面數(shù)據(jù)全部采集完!
到了凌晨12點(diǎn)的時(shí)候。
喬恩興奮的找到眼圈發(fā)黑的貝索斯,激動(dòng)的道:“boss,我們的爬蟲(chóng)已經(jīng)開(kāi)始爬數(shù)據(jù)了,爬完數(shù)據(jù)后,技術(shù)團(tuán)隊(duì)會(huì)把數(shù)據(jù)上傳到咱們自己的數(shù)據(jù)庫(kù)!”
“嘿嘿,陳默肯定不知道,掏寶斥巨資辛辛苦苦搞的數(shù)千萬(wàn)的賣家頁(yè)面數(shù)據(jù),咱們爬蟲(chóng)爬了半個(gè)小時(shí)就能爬完。這給咱們省了一大筆錢呢!”
貝索斯立刻起身,開(kāi)心道:“nice!告訴技術(shù)團(tuán)隊(duì),這件事搞定以后,我給他們發(fā)獎(jiǎng)金!”
頓了頓,貝索斯又道:“對(duì)了,ip一定要勤換著點(diǎn),在爬完數(shù)據(jù)之前,千萬(wàn)別被對(duì)方的程序大牛給逮到!”
喬恩立刻點(diǎn)了點(diǎn)頭:“好!我這就去吩咐!”
自動(dòng)更換ip功能很好做,甚至有現(xiàn)成的軟件,不需要技術(shù)員現(xiàn)場(chǎng)編寫,直接下載一個(gè)拿過(guò)來(lái)用就是了。
12點(diǎn)5分,貝索斯的爬蟲(chóng)正式出動(dòng)對(duì)掏寶的頁(yè)面數(shù)據(jù)進(jìn)行大量的采集。
此刻,馬福報(bào)正在掏寶親自坐鎮(zhèn)加班。
雖然反作弊功能和水印logo功能都可以自動(dòng)開(kāi)啟。
但是為了能竊取樂(lè)掏一部分流量,馬福報(bào)讓技術(shù)員暫時(shí)關(guān)閉了這倆功能,聽(tīng)從他的指揮。
只要馬福報(bào)一聲令下,這兩個(gè)功能就能瞬間開(kāi)啟,把所有被爬蟲(chóng)爬走的數(shù)據(jù)變成臟數(shù)據(jù)!
當(dāng)樂(lè)掏的爬蟲(chóng)開(kāi)始肆無(wú)忌憚的采集掏寶數(shù)據(jù)時(shí),掏寶的技術(shù)員早就發(fā)現(xiàn)了異常!
“馬總,對(duì)方行動(dòng)了!而且爬蟲(chóng)的速度非??欤挥冒胄r(shí)就能爬走咱們?nèi)康臄?shù)據(jù)!”
技術(shù)總監(jiān)說(shuō)道。