董恩盛,做出全球最火的疫情圖,日訪問量最高達45億次
本刊記者 陳霖
1989年生於山西,美國約翰·霍普金斯大學土木與系統工程系博士一年級學生。2020年1月底起,與導師和同學制作的疫情地圖成為全球最受關註的統計內容。
約翰·霍普金斯大學的疫情地圖又創紀錄瞭。這是全球最受關註的新冠肺炎數據統計網站,1月底上線,日訪問量從2億次攀升至20億次。當記者采訪網站主要制作人、該校土木與系統工程系的中國博士生董恩盛時,他告訴記者,最近的日訪問量高峰已達45億次。網站全稱是“交互式、實時監控新冠病毒的儀表盤”,就是將收集來的數據做成可大可小的紅點,實時反映全球確診人數。人們更習慣稱其為疫情地圖,目前單一圖層的累計訪問量就有161億,相當於世界上每個人平均打開它至少兩次。記者與董恩盛約定時間,他在美國東部的馬裡蘭州,與北京時間相差12個小時,經過比對,最終定在美國東部時間晚上9點。隨時計算時差是他制作疫情地圖時養成的習慣,這幾個月就像在“與時差作戰”。
每個國傢都有人訪問的疫情地圖
1月17日,新冠肺炎疫情已在中國暴發,董恩盛正在學校,“我是中國人,很擔心國內疫情”,便想制作模型呈現疫情發展。幾天後,其他國傢也曝出疫情,董恩盛的導師勞倫·加德納也意識到模型的重要性,兩人一拍即合。董恩盛花瞭七八個小時做瞭初版的疫情地圖網站,整理各國公佈的數據,於1月22日上線。
不過,全球有24個時區,要實時整理所有數據,他幾乎連軸轉。每天,他在美東時間早上8點半更新第一次,“這個時間正趕上國內衛健委更新數據”,然後在中午12點、下午三四點、晚上8點前查看。晚上8點後,許多歐洲國傢更新數據瞭,他有時也會查看。於是,他每天要確認至少4次,下瞭課就查數據,隻睡四五個小時。起初,他隻能手動更新,澳大利亞報告首例確診病例那天,就因為太累睡著而錯過瞭。“一覺醒來,發現有好幾個未接電話,是導師打給我的,告訴我澳大利亞出現病例。”
疫情暴發速度非常快,各國的統計網站也不斷在細化,“以中國為例,一開始是全國確診數,幾天後變成各省,之後又細化到市、縣等。疫情暴發的國傢增多,許多統計網站開始分大洲”。這些統計單位每變一次,疫情地圖的程序也要變,即便不眠不休也趕不上全球確診人數增加的速度。直到2月初,他的中國同學杜鴻儒加入小組,讓他們告別瞭“純手工作業”。
杜鴻儒和董恩盛均是加德納指導的學生,他設計瞭自動抓取中國數據的程序。杜鴻儒告訴記者:“當各國數據更新,計算機便會監測到,馬上給我們發郵件。如果確診人數突然減少,這明顯不合邏輯,我們就要上網查證。”這節省瞭許多時間,他們可把精力放在人工核實上。杜鴻儒說,董恩盛很細心,“核實美國3000多個郡縣的確診數據時,他幾乎沒有遺漏,一個人完成瞭龐大的數據整理”。如今,疫情地圖每20分鐘便能自動更新一次。
疫情地圖項目開設瞭面向全球的郵箱,“任何人發現數據不對或未更新,都可以發郵件告訴我”。有網友發現自傢臨近地區有瞭新病例,但當地政府或媒體未更新,就發郵件給董恩盛。“第一時間從用戶那獲得當地的數據,使得疫情地圖更新速度遠快於許多國際媒體。”
除瞭更新快,動態、可視化設計也使疫情地圖在眾多統計網站中脫穎而出。大部分疫情統計網站隻能呈現某國的確診人數,或用顏色深淺顯示確診數量,“深的代表確診數多”。但董恩盛設計的地圖用大小不一的紅點呈現確診數的多寡,縮小地圖可見紅點在全球的分佈,放大則能看到各國、各城市或郡縣的數據。他記得,疫情地圖受到關註後,日本、泰國、以色列等國也參照這個模式設計統計網站。在一些醫療條件不是很先進的國傢,老百姓能借此瞭解自己國傢和鄰國的疫情。“疫情地圖上線兩周,幾乎每個國傢都有人訪問我們的網站。”
自疫情暴發以來,國內外媒體介紹疫情時,常引用疫情地圖的數據,美國、德國、意大利的衛生部門和各級政府開會討論時,會議室大屏幕實時展示的也是疫情地圖,導師加德納也被邀請到國會演講,介紹這幅“地圖”。2月19日,世界頂級醫學期刊《柳葉刀》的副刊《柳葉刀傳染病》發表瞭董恩盛、杜鴻儒與導師聯合撰寫的文章《實時追蹤新冠病毒的交互式網站儀表盤》,介紹疫情地圖的設計和數據。學術期刊從投稿至發表,一般短則幾個月、長則一兩年,但這篇文章不到3天便發表瞭。並且,一般來說,谷歌學術引用量能上百已是不錯,這篇文章目前的引用量已超300次。此外,董恩盛和團隊還分別收到諾貝爾化學獎得主、經濟學獎得主發來的郵件,感謝他們制作的疫情地圖。
對“確診”的定義不同成最大難題
董恩盛可以這麼快制作出數據模型,因為以前就有傳染病的建模經歷。去年,美國暴發瞭25年來最嚴重的麻疹疫情。董恩盛入學沒多久,就跟著導師做瞭可視化模型,預測美國麻疹病毒風險。他們研究國際大都市,“這類城市的國際航班很多,如果航班出發地病例多,而到達地的麻疹疫苗接種率不高,就可能暴發疫情”。根據這個模型,他們成功預測到洛杉磯1月份暴發的麻疹。
不過,這次制作新冠肺炎疫情地圖時,董恩盛發現各國對“確診”的定義並不一樣,有的分類很繁雜,給統計帶來瞭巨大挑戰。一般來說,“檢測試劑呈陽性的患者”和“新冠肺炎病例”是兩種對確診病例的說法,前者是檢測結果,後者是經由官方確認檢測結果且已對外公佈的病例。確診人數一般指這兩個分類的總和。由於確認流程需要時間,在發現新病例時,不少媒體會先以“試劑呈陽性”報道病例數。
董恩盛介紹,在法國,“確診病例”指醫院內確診的+醫院外確診的病例,排除瞭檢測結果呈陽性的人。但同時法國還有一種分類“醫院外確診的病例”,指在醫院外確診+檢測結果呈陽性的病例。這兩個分類重復的部分是醫院外確診的病例,而一些國際媒體報道時直接將這兩個分類相加,導致數據重疊。董恩盛便請懂法語的志願者每天上法國網站,聽政府長達半小時的法語新聞發佈會,記下不同分類的數據,從中摘取出“醫院內確診+醫院外確診+檢測結果呈陽性的病例”,這個數字便是我們通常理解的確診人數。
此外,領地歸屬也影響瞭統計。法國有些海外領地和省,而官方公佈的確診人數並未明確說明是否包含這些地區,最近董恩盛和團隊正和法國衛生部門溝通,確認數據含義。
保護確診患者的隱私也很重要。此前,“鉆石公主號”遊輪上出現瞭美國病例,後來部分人撤回美國,董恩盛和團隊決定,把這些病例加到總的確診數中,但為瞭保障病人隱私,不在某個地點標記出數字。
“我們不想受到資本的影響”
3月的一天,一位穿著棕色休閑服的老人走進董恩盛和導師所在的會議室。“因為疫情,當時已經封校,基本隻有清潔工進出。他穿著樸素,我就以為他是清潔人員。”老人離開後,導師告訴他這是校長,董恩盛才恍然大悟,“校長在疫情期間來看望我們,我很感動”。約翰·霍普金斯大學為他們提供瞭許多支持。“原本我在研究室的一個小方格”,多虧學校提供會議室,董恩盛和團隊能在保證安全的前提下制作地圖。
公共衛生學院的老師和學生也提供瞭不少支持。該學院在全美的公衛領域排名第一,董恩盛的導師加德納是土木與系統工程系的老師,畢業於得克薩斯州奧斯汀分校,後到澳大利亞新南威爾士大學教書,指導的本科生就能在《自然》雜志的子刊發文。後來,加德納到約翰·霍普金斯大學求職,立刻拿到終身教職。她專攻傳染病模型,也在公共衛生學院任職,常帶董恩盛到公衛學院聽講座,學習傳染病等相關知識。“公衛學院的同學對公共衛生系統很瞭解,有時候一眼就看出數據不對勁,並幫我們想解決方案。”此外,應用物理研究所的專傢幫忙升級網站,提高抓取數據的速度;學校圖書館則招募小語種志願者,像法國等國的疫情統計數據就由這些志願者翻譯。
董恩盛生於山西,本科畢業後到美國愛達荷大學讀碩士,其間到全球最大的地理信息系統技術提供商ESRI公司實習。這傢公司擁有成熟的地理分析技術,此次疫情地圖的底層技術就由該公司提供,董恩盛在那裡積攢瞭許多可視化地圖制作經驗。此後,他任職於一傢電力調度公司,負責繪制美國部分地區電網,之後到東岸一傢電信公司維護電信設施數據庫。“總之,在美國,從南到北、從西到東都跑過瞭。”後來,他想走學術道路,便申請到約翰·霍普金斯大學讀博。
疫情地圖對所有人公開,也意味著數據可以直接被人拿去使用。一些公司的軟件套用瞭疫情地圖的統計數據,“當用戶下載軟件時,就給人一種錯覺:如果你想用疫情地圖的數據,就必須買這個軟件”。還有一些非常知名的大公司聯系約翰·霍普金斯大學,想購買疫情地圖的數據作為商用。“制作疫情地圖和公開數據的初衷是為瞭學術研究想公開數據,也為瞭讓公眾更多人瞭解疫情,我們目前不想受到資本的影響。”
疫情地圖大火後,董恩盛常能在各種社交平臺上看到親朋好友轉發疫情地圖。最近,他和團隊有瞭新計劃。他們正在收集檢測人數、各地死亡率和患病率等新數據,試著做出新模型以預測全球疫情走向。董恩盛說,希望疫情地圖保障各國民眾對疫情的知情權。
圖說:2020年3月初,董恩盛(右)和杜鴻儒在辦公室,屏幕上即為疫情地圖。
疫情地圖上,紅點可放大、縮小,呈現不同地理范疇的疫情數據。
相關新聞
轉載請註明出處: 董恩盛,做出全球最火的疫情圖,日訪問量最高達45億次 - PUA台灣