第768章 爬蟲(2/2)
這技術好像是不太難。
因為大四寫論文,可用谷歌、百度、微點等搜尋引擎,卻搜不到別人寫的相關論文。怎麼辦?就有計算機系的學生,自己寫了段爬蟲算法。
然後成功的爬取到了幾百篇相關論文。
接下來就好辦了,摘抄、重組、整合。
如果查重不過關,也簡單,用谷歌翻譯,先漢譯英、再英譯漢。再人工地把句子整理通順,查重就順利通過。
可能是北科的創業環境被周不器給帶起來了,那倆大學生就有了通過技術牟利的心思,玩起了幫同學寫論文的生意。
被發現後,倆人都被開除了。
要不是周不器出面力保,上繳了非法所得,並安排到了校內網工作,他倆說不定就要蹲監獄了,前程就全毀了。
王小船接著說:「這是靜態網站的爬取,如果是優酷、朋友網的這種動態頁面,算法會相對複雜。可不管怎樣,這都是很基礎的工具。我們做搜尋引擎,難點已經從複雜性變為規模量了。」
周不器皺皺眉,「老馬……就是阿里的那位。他跟我說,要屏蔽百度對淘寶的爬蟲,怎麼回事?」
王小船笑道:「這事也簡單,爬蟲和網站之間有一個爬取協議,業內叫Robot協議。這個協議會聲明,該網站的哪些內容可以爬取,哪些內容不能爬取,並規定白名單里的爬蟲可以爬取主頁內容。淘寶如果要屏蔽百度,只需要把百度的爬蟲加到黑名單里就行了。」
「嗯!」
周不器點了點頭。
這就是他想要的答案。
爬蟲黑名單!
王小船似乎看出了什麼,試探著說:「老闆,你……你要對百度下手嗎?」
周不器道:「我看了一下微知網的數據,過去3個月,有超過1.1億的訪問量,是來自百度。」
王小船沒有驚喜,深吸了口氣,憂心忡忡的說:「微知的訪問量本來就不高,如果屏蔽了百度,流量就更低了。」
周不器並不在乎,「微知不需要流量,微知需要的是優質內容。你都說了,百度的算法不如谷歌,很難通過簡單的數據處理完成對一些有深度內容的檢索,來爬取微知的內容,是簡潔途徑。有不少用戶都是通過百度來訪問微知,我們要斷了這條線!」
王小船眨眨眼,「真要屏蔽嗎?」
「當然。」
「可Robot協議沒有法律效力。」
「啥?」
「這個協議,是一種行業約束,君子協定,不是法律條文。如果百度真想爬取微知的內容,完全可以通過技術手段跳過協議,強行爬取。」
周不器若有所思,「君子協定啊……如果強行爬取,有違商業道德?」
王小船點了點頭,「可以這麼理解。」
心中深深的不以為然。
商業道德?
這東西是一層窗戶紙,一捅就破。
「如果違反了怎麼辦?」
「國外有過類似的案子,違反了協議,也被處罰了。因為法官認為這個協議雖不是法律條文,但作為廣泛被接受的行業規則,就應該被遵守。不過國內好像不太行。就像RSS聚合器似的,可以去各個網站上訂閱信息。網站拒絕了RSS訂閱,依舊可以通過技術手段強行訂閱。」
周不器想了一下,語氣輕鬆,笑著說:「沒事,百度在美國上市,不敢玩的太出格。先這麼做吧,第一步,微知網屏蔽百度的爬蟲。你這邊也做準備,我打算一步步的、全面徹底的跟百度切割。」
王小船睜大眼睛,「全都切割?」
周不器淡淡地道:「對!」
「這行嗎?」
「你覺得切割了,對誰的危害更大?」
「這……」
王小船有些猶豫,不太好說。
周不器冷冷的道:「紫微星不主動欺負別人,卻也不會任人欺負。百度從校內網挖了十幾個人,把一個滿建制的小組都給挖走了。不亮亮肌肉,李大老闆以為我脾氣好,好說話呢!」
都屏蔽了,當然對微點搜索最有利。
可王小船格局沒這么小,不認為這是個好主意,好心的提示一句,「咱們自身的利益也會受損。百度是最大的搜尋引擎,是流量分發平台。」
周不器卻很有信心,「平台的優勢是輕量級,劣勢是容易被人卡脖子。聯想電腦品牌這麼響,你知道聯想最怕什麼嗎?最怕微軟的系統授權和英特爾的晶片斷供。每一次發生分歧,都要支付一大筆錢。如果把百度比作聯想電腦,紫微星就需要成為最大的零配件供應商。微知、朋友網、校內網,接下來,我們還會有今日頭條和微博。比比看!」