《果靈●聞庫》爭分奪秒Backup蘋果223萬篇文章 籲港人勿失根飄零

50天前踏入0時0分,一個曾被香港人瀏覽逾廿年的網站,一如預告突然停運,網民再也無法閱讀網站的內容,她是「appledaily.com」,即是《蘋果日報》運作逾廿載的網站。

雖然早已預告,但停運一剎仍是非常突然,本來讀著的文章在一眨眼之間會變成告別公告,與此同時,原來有一隊人馬卻試圖跟時間競賽,希望能把大家擔心會消失於歷史中的《蘋果日報》網站多年內容保留備份。


而在7.21兩週年之際,有人突在「連登」討論區發出帖文,公布一個名為《果靈●聞庫》的網站正式誕生,標題一句「是咁的,200萬篇蘋果終於可以睇得返」,令《蘋果》的報道得以「光復」。打造《果靈●聞庫》的團隊受訪時直言,《蘋果》陪伴港人多年,代表社會上的另一種聲音,「無理由就咁唔見咗」,希望藉此為香港保存多元聲音及意見。

《蘋果》之「死」,由壹傳媒正式公布消息到停運,前後只有約12小時。最後一份的《蘋果日報》在6月24日出版,發行量100萬份,但這天報紙的新聞報道內容,只能從實體報上閱讀,不設網上版,因為《蘋果日報》的網站,在這天報章尚在印刷之時,即踏入24日凌晨即告停止運作,翌日出街的報紙內容,故此亦來不及更新,而當晚不少趕在死線前上載的報道文章,亦只能有著以小時計的生命。

不過,原來在同一時間,《果靈●聞庫》的團隊成員,原來同樣在電腦前緊盯著螢光幕,但卻不是為多讀一篇《蘋果》文章,而是想再爭取多點時間,把更多《蘋果》網站上的內容備份。

《蘋果》關網前趕寫程式急備份

據團隊成員透露,仍記得在該星期突然知悉《蘋果》網站將在23號晚(24凌晨)停運,大家都措手不及,「本以為係喺weekend,可以有多一點時間backup」,於是大家連忙趕工,「23號晚開始自己寫程式去backup《蘋果》網站嘅內容,要一路爬取(scrape)網站內容,一路修改程式,仲要同時間競賽;雖然《蘋果》主網站24日凌晨已經下線,但有一些伺服器仍然未死,所以就繼續修改程式,通宵爬取網站內容,希望救得一啲得一啲。」然而到最後,雖然已是不眠不休,仍是未能成功爬取全部內容。

這個團隊的成員人數不便公開,但大多數是軟件開發人員(software developer),而為救《蘋果》網站,大家都不惜在公餘時間落場。而在備份工序以外,處理得到的數據資料同樣花功夫,當時大家手上有各自備份的數據,有成員就曾在連登討論區上開帖文把資料公開,同時找到原來有同道中人,且對對下一步建立網站或資料庫的想法有興趣的「手足」,成員成功集結,《果靈●聞庫》計劃亦因此成形開展。

網站設計望便利公眾瀏覽內容

不過,建立網站以為簡單,卻其實有不少技術困難。首先,是需要收集及整理團隊成員手上的數據,集合不同的數據源,而經統計後發現,總數涉及200多萬篇文章(實數為2,230,271篇),約佔由2002年到2021年總數達300多萬篇文章約八成多,但由於各人備份的格式不盡相同,於是需要先經過轉換數據格式的程序,「我哋要寫program去讀取不同backup,再將data轉化成共通的JSON格式;JSON格式係一種人機都容易閱讀嘅編碼格式,轉化成共通嘅JSON格式,先有助之後建立資料庫同網站。」

繼而進行的下一步,就是開始建立網站,以讓公眾可以容易搜索和閱讀,「喺《蘋果》要停運嘅前後時間,網上都有唔同人各自努力backup(備份)《蘋果》的一點一滴,但如果我哋只做backup,其他人其實無一個方便嘅方法去瀏覽以前嘅文章,所以先想更進一步,建立一個網站去令公眾可以容易瀏覽昔日《蘋果》內容。」

然而,當中即要面對困難,因為需要一個可以應付高流量甚至DDoS攻擊的技術架構,同時讓使用者可以擁有流暢的瀏覽體驗,「唔好忘記我哋最少有200多萬篇文章同差唔多1TB圖片」,而成本亦是另一考慮,同時需要控制每月伺服器費用的支出,由於團隊從一開始就沒有想過透過募捐集資,「打算我哋自費」,令計劃在實踐時面對不少挑戰。雖然如此,他們最後利用不同的開放源代碼(open source)及雲端技術,終成功達成需求,網站成功在上月21日面世公開。

團隊坦言,網站於7.21兩週年上線後,收到不少正面回應,熱度令他們也始料不及的,當中不乏「多謝」、「感動」等留言,甚至有不少人表示希望課金支持,又向他們查詢課金途徑,但基於安全考慮,成員都以匿名身分行事,故亦決不接受捐款,所以連伺服器的相關開支費用都會自行承擔,以保護團隊,「但呢的支持嘅聲音,證明我哋嘅工作係有價值嘅。」團隊並補充,涉及的開支費用實際數字不便透露,但不足為團隊成員構成沉重經濟負擔,故也多謝一眾希望想課金的公眾之好意。

成員匿名應對風險 網站上線即被攻擊

事實是,《果靈●聞庫》的團隊,亦早已明白整個計劃有風險,「法律風險當然有,所以亦都係我哋想保持匿名嘅原因,當中最高風險嘅,當然係無遠弗屆嘅(港版)國安法」,但成員直言,就有關憂慮,「只可以講『欲加之罪,何患無辭』」,認為與其處處自設紅線,「倒不如揸緊信念。」而他們在《果靈●聞庫》網站內的自我介紹中,亦以「自問自答」方式回應「將《蘋果日報》的文章公開,會否造成麻煩?」這問題,認為壹傳媒已被多次抄家,警方國安處亦一早已經搜集報章證據,「我們不想再自設紅線,打一步退一步。」同時強調團隊與壹傳媒集團沒有任何關係,而所有《蘋果日報》內容版權仍歸壹傳媒所有;又指如有壹傳媒相關人士、《蘋果日報》前員工或文章作者希望下架部分或全部內容,可電郵聯絡,團隊定必配合。

不過,雖然團隊已言明計劃跟壹傳媒無關,但對手又豈是文明講道理的勢力?故網絡攻擊在網站上線後旋即出現,在上線當晚,本來只有約200萬個訪問網站的要求(requests),

但約36小時後便受到DDoS攻擊,在短短兩日內有差不多一億個requests,攻擊高峰期一小時更錄得1600多萬個requests,而攻擊來源地區包括印尼、越南、印度、巴西、泰國及俄羅斯等地,相信是由黑客操控的網絡設備如電腦、路由器等發出攻擊。

幸好在網站設計之初,團隊已預料會有大量流量甚至DDoS攻擊出現,故早有預防措施,同時在攻擊一開始時,已跟服務供應商緊密聯繫,一直監察及採取不同手段抵禦攻擊,才令網站一直服務正常。團隊更打趣指,攻擊出現了約兩日便即消失,「可能佢哋有更重要目標,或者覺得攻唔入就唔想嘥時間同資源。」團隊又特別提醒,備份師請不要輕舉妄動,切勿以爬蟲工具備份《果靈●聞庫》的網站內容,因為會令伺服器產生負荷,內容供應商亦可能作出封鎖。而為令大家安心,他們稍後將公開整理好的數據,而所有源代碼(source code)亦已經上傳至GitHub。

網站名提醒港人非失根花果

《蘋果日報》之所以叫《蘋果日報》,緣於壹傳媒創辦人黎智英提出,認為「假如夏娃當初不是咬了禁果一口,世上就沒有罪惡,也沒有是非,當然也不會有新聞。」 故報紙以禁果為名,那由禁果報章多年內容轉化成的《果靈●聞庫》,命稱又有何意思?

其中《果靈》一名,原來是由「新儒家」大師唐君毅先生的「花果飄零,靈根自植」演變而來。團隊指「果」是傳統中華文化,也是《蘋果日報》,更可以是港人引以為傲的價值,「昔日,先賢守護著傳統文化,靈根植於香港。如今,香港人的本土文化、抗爭精神隨政府打壓、疫情、移民潮被迫飄零。」而「靈」就是希望提醒港人,大家並非失根的花果。

「我們的靈可以在每一個地方紮根,亦應該在每一顆心裏面生根發芽。《蘋果》雖死,但我們每個人都可以有一株小小的蘋果苗。」

至於「文庫」(bibliothèque)一詞,最早源於19世紀法國出版家路易·哈謝特(Louis Christophe),原指將不同作品集合於一個標題下,並由一家出版社刊發;日本在明治時期後,開始印刷袖珍尺寸的經典名著,便引起多次文庫風潮。而原來《果靈●聞庫》那個有點像蘋果形狀的圖標,當中的一抹綠色亦有其意思,是代表新聞自由燒不盡的生命力。團隊深感常見於報紙攤檔、茶樓食肆、巴士地鐵的香港報紙一份份消失,希望以便攜的線上形式,打造保留香港新聞的資料庫,在面臨新聞自由、言論自由逐步縮窄的今天,避免香港的一部分重要歷史隨《蘋果日報》的消失而被抹去。

成員更認為,《蘋果》陪伴港人很多年,記錄了香港,特別在97回歸後很多重要的歷史事件,「我哋覺得無理由就咁唔見咗」,且《蘋果》亦代表社會上另一種聲音,「你未必要同意佢呢種聲音,但唔可以否定同抹煞佢嘅存在,將來香港嘅小朋友做功課上網搵資料,都可以睇到另一種聲音、另一個意見,唔係一言堂。作為一個進步社會,多元聲音同意見嘅重要性,我相信大家都明白。」

至於網站會營運多久,他們的答案是「希望可以直到永遠」,因為只要網站一直都在,就代表最少還有人記得《蘋果》,而團隊亦會在有需要時,在衡量有關內容的價值和團隊承擔能力後,備份其他傳媒的內容,「雖然我們不願看到更多新聞工作者被滅聲。」

[sdm_download id=”30293″ fancy=”0″]

陳珏明
Website | + posts

前《蘋果日報》人物專題組首席記者,過去工作之日常,為撰寫時事專題與調查報道,6月23日寫下最終章,路仍要繼續走,決定再寫新一章,做過為相信的價值而堅持的人,就是要繼續做記者,用文字錄這個時代的港事、國事、天下事。PAYME支持獨立記者