這個不講“道德”的網(wǎng)站 成了千萬網(wǎng)友最愛的白嫖工具
老差友應(yīng)該都知道互聯(lián)網(wǎng)檔案館(下稱 archive.org ),咱介紹好幾次了。
還不知道的兄弟自己找找原因,是不是不夠帥,沒早關(guān)注帥逼公眾號:差評。
archive.org 由 Brewster Kahle 創(chuàng)辦,是一個非營利性的數(shù)字圖書館。
從 1996 年起,它每隔一會就會抓取各種各樣的網(wǎng)頁、視頻、圖片等資料,保存在 “ 圖書館 ” 。
目前圖書館里存了 8660 億個網(wǎng)頁,1200 萬個視頻,490 萬張圖片和 110 萬個軟件程序。
點進(jìn)網(wǎng)站,從 MJ 演唱會視頻,到 1999 年測試版的 Google 搜索頁面,再到你多年前送給鳳姐的表白,都會重新進(jìn)入你的世界。
不過,今天故事的主角不是這位,而是另一個檔案館 archive.today (今日檔案 )。
archive.today 于 2012 年創(chuàng)辦。從名字和功能上看,它類似于archive.org ,可以備份網(wǎng)頁。
但它倆之間還是有個很大區(qū)別——
archive.org 類似于搜索引擎,絕大多數(shù)資料都是爬蟲自動抓取的。所以一直以來他們都遵守 robot.txt 。
robot.txt 是互聯(lián)網(wǎng)里通行的一個君子協(xié)議。通過它,網(wǎng)站可以告訴搜索引擎,哪些東西它不能抓。百度里搜不到微信文章和淘寶商品,就是因為 robot.txt 。
但 archive.today 不遵守這個協(xié)議,即便網(wǎng)站不讓它存,它也會霸王硬上弓。
不過,這也不能說 archive.today 缺德。
因為它并非自動抓取別人的網(wǎng)站,只有用戶上傳某個網(wǎng)頁時,它才會抓取。
存檔 ing..... ▼
目前,archive.today 已經(jīng)存儲了 5 億個網(wǎng)頁。雖然遠(yuǎn)不及 archive.org ,但這種大家主動尋求備份的網(wǎng)頁,相對來說,它的意義和價值會更大點。就像三年前,有位吳彥祖?zhèn)浞萘瞬钤u的官網(wǎng),明顯是肯定了咱們,咳咳。
除了可以備份網(wǎng)頁,因為技術(shù)上一些細(xì)節(jié),人們發(fā)現(xiàn) archive.today 有另外一個妙用:翻越付費墻。
對于那些訂閱費動輒幾百美刀的西方媒體,很多第三方世界國家的讀者不光無力支付,甚至壓根沒有匹配的支付方式。
但自從這個功能被發(fā)現(xiàn)后, archive.today 成為了大家心照不宣的 “ 白嫖 ” 工具。只要有好心人存檔了付費文章和有版權(quán)的學(xué)術(shù)論文,后來的讀者都可以看到。
還有不少人基于這個網(wǎng)站做了一些小工具,讓白嫖變得更簡單。
編輯部偶爾也用過它,有一些東西在這上面確實比較好找。
雖然 archive.today 管理員曾說過,翻閱付費墻不是網(wǎng)站本意,只是技術(shù)問題上產(chǎn)生的一些 “ 意外 ” 。但想到他愿意冒著被訴訟風(fēng)險默許這個情況存在,甚至教讀者一些白嫖技巧。。。
差評君更愿意相信,他就是一個知識自由的支持者。
根據(jù)網(wǎng)站里問答紀(jì)錄,2013 年的時候,存儲這些檔案每月要在服務(wù)器上花 300 歐元。
2014 年,隨著網(wǎng)頁越來越多,服務(wù)器成本升到了 2000 美元 / 月。2016 年,這個數(shù)字漲到了 4000 美元。
那問題來了,這些服務(wù)器的錢誰出呢?我們知道,archive.org 的背后是一家組織,總部在舊金山。它的年度預(yù)算有 1000 萬美元,這些錢來自于它的合作贊助商和基金會。
但 archive.today 管理員說,這個網(wǎng)站全靠自己。盡管網(wǎng)頁在移動端開始投放廣告,并且管理員也開放了捐贈通道,但這些只夠 14% ~ 20% 的成本。
也就是說這個網(wǎng)站的管理員,每天在面臨版權(quán)訴訟的風(fēng)險下,既要維護(hù)網(wǎng)站日常運營,還有隔三差五回答網(wǎng)友各種問題,最后每個月還得掏出幾千美金的服務(wù)器租金,只為維持這么一個免費網(wǎng)站?并一路堅持了十多年?這個賽博菩薩到底是誰啊?
報以好奇和敬意差評君去網(wǎng)上搜了一下,但發(fā)現(xiàn) archive.today 的背后,是一個迷。維基百科上關(guān)于經(jīng)營者的身份,只寫了一句話:
事實上,沒人知道他的真實身份。半年前一位悉尼的工程師 Jani 花了很大精力,想看看 archive.today 幕后神秘人到底是誰。
首先,網(wǎng)站能追溯到的第一個歷史紀(jì)錄是在 2012 年 5 月 16 日,網(wǎng)站一開始的域名叫 archive.is。由一個來自捷克布拉格,名叫 “ Denis Petrov ” 的人注冊。
Denis Petrov ,是第一個線索。但隨著調(diào)查, Jani 察覺 Denis Petrov 可能是假名。一來這是很常見俄羅斯名字,光是在領(lǐng)英里就有 242 個同名好哥們。
二來 Jani 發(fā)現(xiàn)同樣的名字和聯(lián)系方式還注冊了一堆亂七八糟的域名。
后來 Jani 還驗證了很多帶有這個名字的網(wǎng)站,如 denispetrov.com、denis.biz 、petrov.net。但大部分網(wǎng)站都已經(jīng)停運了,唯一能打開的那個,只是一位紐約程序員的博客,早在 2011 年就已停更了。Denis Petrov 這個線索似乎斷了。。。
和 Jani 一樣,這些年也有其他網(wǎng)友探索過這位神秘人,但大多數(shù)人都停在了 “ Denis Petrov ” 的階段。
倒是 2020 年,有另一個網(wǎng)友找到了神秘人的重要線索。他發(fā)現(xiàn) archive.today 里所有領(lǐng)英網(wǎng)的備份,都基于同一個登錄賬戶。這里我解釋一下,諸如領(lǐng)英、 Instagram 這類應(yīng)用,都要求登錄賬號后才能瀏覽詳情。
我猜測神秘人是用了自己賬號 cookie ,來抓取領(lǐng)英的網(wǎng)頁內(nèi)容。
順著線索,他找到了一個名為 Masha Rabinovich 的領(lǐng)英賬號。賬號顯示,她有德國柏林某個大學(xué)的學(xué)士學(xué)位。
如果這個頭像確實是本人,那說起來你可能不信,這個神秘人居然是一個留著波波頭,有點娃娃臉的女生。手動碼一下另外這個頭像應(yīng)該被刪了,登錄后就不可見 ▼
有人把 Masha Rabinovich 放進(jìn)谷歌搜索,發(fā)現(xiàn)了一個 2012 年帖子,基本實錘 Masha Rabinovich 就是那個神秘人。當(dāng)時一位昵稱為 masharabinovich 用戶發(fā)帖子,吐槽自己網(wǎng)站 archive.today 被惡意舉報,進(jìn)了黑名單。
既然名字 “ 確認(rèn) ” 了,接下來就是網(wǎng)友們發(fā)揮福爾摩斯天賦的時候了。
他們發(fā)現(xiàn) Masha Rabinovich 曾多次參與了維基詞條的編輯,最多的就是 “ 俄羅斯護(hù)照 ” ;名字中的 “ Masha ” ( Маша )是瑪麗亞的常見俄語說法, Rabinovich 是德國猶太人的姓氏;
另外 archive.today 用的分析引擎是俄國的,回答問題時會使用一些大寫詞匯,可能有德國背景。
基于這些信息,網(wǎng)友推斷出,神秘人大概是一個曾在德國留學(xué)的俄羅斯人,且學(xué)識淵博,英語流利。至于“ Masha Rabinovich ”,還不一定是其真名。也許和 Denis Petrov 一樣,只是神秘人在網(wǎng)絡(luò)世界的馬甲之一。
雖然大家仍無法確定神秘人真實身份,但差評君覺得點到為止,他隱藏起來一定有自己的原因。相比起來,我認(rèn)為神秘人的個性更值得一提。
在 archive.today 的網(wǎng)站上,有一個基于 Tumblr 問答服務(wù)的頁面。通過這些 Q&A ,我推斷神秘人是一個偏執(zhí)且不喜歡被吹捧的技術(shù)極客。
首先就是我們前面說的,不遵守 robot.txt 。
其實這是個非常激進(jìn)的行為,很容易被以版權(quán)法提起訴訟,或者在道德上落下風(fēng)。
像 archive.org 后來也推出了手動備份的功能,但用戶上傳網(wǎng)頁后,它還會檢查一遍 robot.txt ,如果網(wǎng)站不同意被抓取, archive.org 還是會刪除的。
但 archive.today 可不管這些。
我覺得這么做,是因為他創(chuàng)建網(wǎng)站的初衷就是尊重歷史,保存歷史。
他也說過,網(wǎng)站即便存檔了假新聞,也不會刪除。
因為 archive.today 從來不是權(quán)威的參考來源,而是歷史的見證。
它只是在告訴大家,在某個時刻,互聯(lián)網(wǎng)上某一處存在過這樣的頁面。這一點差評君也認(rèn)可,歷史不是紀(jì)錄大事記就夠了,它是由無數(shù)細(xì)節(jié)拼湊起來才夠完整。
雖然 archive.today 看似有點極端,但也不是所有網(wǎng)頁都一視同仁。如果存檔確認(rèn)為恐怖分子的宣傳網(wǎng)頁、兒童色情等,收到舉報后他也會刪除。
另外神秘人很低調(diào),從不希望自己被抬得很高。
當(dāng)網(wǎng)友把他和 archive.org 放在一起夸獎時,他都會否定,說自己沒有想保存整個互聯(lián)網(wǎng)的目標(biāo),目前只有 archive.org 的百分之一,且運作方式不同。
差評君覺得,這是每一個老板都要學(xué)習(xí)的不畫大餅精神。他知道自己一個人 / 團(tuán)隊的能力有限,做不到那么宏大的目標(biāo),一開始就沒設(shè)想過這么多。
但 12 年了,網(wǎng)站幫大家存檔了五億多個網(wǎng)頁,遇到了無數(shù)難題,并依舊堅持免費。
我覺得他和 archive.org 一樣,都是令人尊敬的。
不過最近的情況,讓差評君覺得網(wǎng)站的生存環(huán)境不容樂觀。
因為神秘人回答網(wǎng)友問題的頻率明顯變低了,從兩年前月均回答 40 個問題,到現(xiàn)在隔了好幾個月才回答 2 個問題。
他也曾說網(wǎng)站經(jīng)常被 DDOS ,時不時癱瘓。在互聯(lián)網(wǎng)各個角落也有 “ 版權(quán)仇家 ” 在搜尋他的真實信息。至于訴訟,那也是遲早的事情。
結(jié)合歷史來看,這種情況其實是必然的。
所有支持知識自由的網(wǎng)站,從archive.org 到 Sci-hub ,他們都遭遇過版權(quán)法的鐵拳或者域名的封鎖。
互聯(lián)網(wǎng)檔案館因為把 140 萬實體書掃描出來,不限量租借給讀者,被四家出版商聯(lián)合起訴,還有六千名作家簽了請愿書支持這場訴訟。
Sci-hub 因為把 8000 多萬學(xué)術(shù)論文爬取下來,免費分享給所有學(xué)者,在多個國家被出版巨頭起訴。創(chuàng)始人 Alexandra Elbakyan 為了躲避各國引渡風(fēng)險,在世界各地躲藏。
我知道,有很多人都抵制他們這種行為,認(rèn)為盜版就是犯罪,不是解決問題的方式。
但世界不是非黑即白, “ 盜版 ” 就一定不被提倡嗎?
這個問題幾十年來一直爭論不休。
90 年代,互聯(lián)網(wǎng)上各種盜版電影和音樂橫飛、破解和盜版軟件橫行。明明是赤裸裸的侵權(quán),但卻沒有明確的法律能治一波亂象。
在這樣的背景下,《 數(shù)字千年法案 》登場了。它以刑事犯罪立法的形式,希望在網(wǎng)絡(luò)這塊無主之地上,重振版權(quán)保護(hù)的權(quán)威。
毫無疑問,它保護(hù)了無數(shù)原創(chuàng)者的權(quán)利,讓人們獲得了相應(yīng)的回報,也讓他們的心血沒有被盜版商肆意踐踏。
可《 數(shù)字千年法案 》在保護(hù)版權(quán)的同時,似乎也催產(chǎn)了一些版權(quán)流氓到處碰瓷,讓很大一批人也難以接觸到優(yōu)秀的作品。如何做到版權(quán)和知識自由兼顧,很難很難。
“ 科學(xué)和教育資源,就不應(yīng)該有所謂的知識產(chǎn)權(quán)和資本運作的存在 ” 這是 Sci-hub 傳達(dá)的理念之一。
從 archive.org 到 Sci-hub 再到 archive.today ,他們把無法翻越的信息壁壘,難以打破的知識桎梏,都變成一個簡單的回車鍵,讓我們看到了世界的另外一種可能。
不管怎么說——
Brewster Kahle 、 Alexandra Elbakyan 、神秘人以及所有那些不追求利益去捍衛(wèi)知識自由的人,他們都值得我們的尊重和敬佩。
撰文:刺猬 編輯:莽山烙鐵頭 面線 封面:煥妍圖片、
資料來源:
blog.archive.today
archive.today: On the trail of the mysterious guerrilla archivist of the Internet
Wikipedia:archive.today
Vice:Dear GamerGate: Please Stop Stealing Our Shit
https://website.informer.com/
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com