近年來,如何規(guī)劃與建設(shè)大數(shù)據(jù)實驗室,滿足科研與教學(xué)乃至社會服務(wù)的需求成為了一項統(tǒng)計人必須思考和解決的課題。大數(shù)據(jù)時代的來臨使得統(tǒng)計學(xué)專業(yè)的教學(xué)、科研均受到一定的挑戰(zhàn)。尤其是大數(shù)據(jù)所具有的4V特征,即多樣性(Variety)、數(shù)量(Volume)、速度(Velocity)和價值(Value)給統(tǒng)計學(xué)專業(yè)實驗室建設(shè)帶來了相當(dāng)?shù)奶魬?zhàn):模擬大數(shù)據(jù)分析環(huán)境需要相當(dāng)?shù)挠布l件與之匹配,而事實上各高校的統(tǒng)計學(xué)院在硬件建設(shè)、經(jīng)費、師資儲備方面都大大落后于社會發(fā)展對大數(shù)據(jù)人才的需求。
傳統(tǒng)的統(tǒng)計學(xué)專業(yè)培養(yǎng)模式中,數(shù)據(jù)處理能力一直是教學(xué)與實踐環(huán)節(jié)的短板,因此大數(shù)據(jù)實驗室一定要在大數(shù)據(jù)管理、大數(shù)據(jù)集成、大數(shù)據(jù)分析、大數(shù)據(jù)應(yīng)用方面提供一套 體驗、學(xué)習(xí)、實踐、研究、創(chuàng)新、創(chuàng)業(yè) 的軟硬件平臺。統(tǒng)計專業(yè)大數(shù)據(jù)實驗室要在教學(xué)、科研、社會服務(wù)三個方面做好規(guī)劃與需求分析。在教學(xué)方面,大數(shù)據(jù)實驗室要能夠圍繞專業(yè)設(shè)置、課程改革、培養(yǎng)模式提供有力的硬件和軟件支撐。至少要讓學(xué)生在技術(shù)層面掌握主流數(shù)據(jù)庫的使用與管理、實踐環(huán)節(jié)上接觸大數(shù)據(jù)案例、認(rèn)知上形成融匯各門課程內(nèi)容的意識。在科研方面,大數(shù)據(jù)實驗室應(yīng)至少滿足TB級數(shù)據(jù)量的數(shù)據(jù)處理、統(tǒng)計計算、模擬分析等方面的需求。在社會服務(wù)方面,最好也能夠滿足TB級乃至PB級的數(shù)據(jù)分析與數(shù)據(jù)挖掘項目。
大數(shù)據(jù)也稱巨量資料,通常是指使用一般的軟件工具難以捕捉、管理、存儲和分析的海量、多樣化、高增長率的數(shù)據(jù)資源。事實上數(shù)據(jù)量多少不是劃分大數(shù)據(jù)的依據(jù),筆者認(rèn)為 大數(shù)據(jù) 是社會信息化發(fā)展成熟階段后,原本分屬于一個專業(yè)分工下的數(shù)據(jù)被其它專業(yè)(職業(yè))再深度利用的智能發(fā)展過程。原本分屬于不同行業(yè)、部門、專業(yè)的數(shù)據(jù)匯聚于數(shù)據(jù)中心則可能對社會管理、商業(yè)智能、科學(xué)研究都產(chǎn)生不可估量的影響。正是這種深刻的變革使得統(tǒng)計專業(yè)原有的實驗室相形見絀:數(shù)據(jù)處理能力較低、數(shù)據(jù)處理速度較慢、數(shù)據(jù)存儲量較少、實驗室數(shù)據(jù)資源主題較為單一。
綜上分析可知,統(tǒng)計學(xué)大數(shù)據(jù)實驗室的建設(shè)實際上需要融合統(tǒng)計學(xué)、計算機科學(xué)與技術(shù)、信息管理等多個學(xué)科的知識。構(gòu)建統(tǒng)計大數(shù)據(jù)實驗室的基本邏輯就是;以云計算和Hadoop計算平臺為中心,以數(shù)據(jù)采集(清洗)和數(shù)據(jù)管理及服務(wù)為兩翼,以滿足教學(xué)、科研和社會服務(wù)為目標(biāo)的軟件、硬件的有機結(jié)合。其中最為核心的就是基于Hadoop平臺的數(shù)據(jù)存儲、計算和服務(wù)。
實驗室建設(shè)要選擇上述哪種模式最大的制約因素還是資金和時間。如果實驗室配套經(jīng)費充足,那么可以直接搭建私有云,相應(yīng)的也可以建設(shè)一個適度規(guī)模的Hadoop平臺,但對于大部分高校而言動輒上千萬的設(shè)備投入不是一個小的數(shù)目,建設(shè)的風(fēng)險和維護(hù)的成本都比較高,最好能夠在有較好的技術(shù)及人才儲備后再嘗試這種模式。常用的統(tǒng)計軟件SAS、SPSS也都可以部署在云端。購置一定的數(shù)據(jù)存儲服務(wù)器以及計算服務(wù)器模擬Hadoop平臺下的數(shù)據(jù)管理以及計算,當(dāng)然這種模式下數(shù)據(jù)處理能力肯定無法與真正的Hadoop平臺能力完全相同。如果實驗室經(jīng)費在幾百萬則可以嘗試混合云模式,可以部分購買公有云模式下的數(shù)據(jù)存儲、教學(xué)資源及數(shù)據(jù)處理服務(wù)。如果經(jīng)費較為緊張,可以簡單的購買公有云服務(wù),學(xué)生也可以學(xué)習(xí)到數(shù)據(jù)庫技術(shù)、統(tǒng)計軟件以及體驗云計算的樂趣??梢哉f對于大部分院校而言,混合云模式較為有利。
構(gòu)建大數(shù)據(jù)實驗室就是要在合理的成本下,搭建模擬大數(shù)據(jù)分析的軟件與硬件環(huán)境,使得學(xué)生能夠在學(xué)校內(nèi)模擬在企業(yè)中所做的大數(shù)據(jù)統(tǒng)計分析工作。構(gòu)建統(tǒng)計大數(shù)據(jù)實驗室不同于傳統(tǒng)上建設(shè)一個計算機機房,也不是真的要完全建設(shè)一個商業(yè)應(yīng)用級別的Hadoop平臺,那樣大部分院校都無法承擔(dān)其建設(shè)的成本與運維的費用。目前,許多軟件、硬件供應(yīng)商都提供了針對高校的大數(shù)據(jù)實驗室的解決方案,根據(jù)其對云計算應(yīng)用模式選擇的不同,可以進(jìn)行如下分類。
公有云模式。相對于私有云模式,數(shù)據(jù)存儲和云計算的服務(wù)器均部署在遠(yuǎn)程供應(yīng)商處的模式,微軟、阿里等公司提供類似的服務(wù)。這種模式的優(yōu)點是高校無需購買大量的軟件及硬件,對客戶端的配置要求也比較低,應(yīng)用后期的維護(hù)成本也非常的低。這種模式的缺點是由于云計算服務(wù)器處于遠(yuǎn)端,服務(wù)的效果受到公共網(wǎng)絡(luò)速度的限制,其穩(wěn)定性和安全性受到一定的制約。
私有云模式。簡單的講,這種模式就是將數(shù)據(jù)存儲和云計算的全部服務(wù)器均部署在本地的模式,華為、甲骨文等公司提供這種類型的服務(wù)。這種模式的優(yōu)點是云計算平臺就在本地,其提供的云計算服務(wù)可以不受遠(yuǎn)程網(wǎng)絡(luò)速度的限制,能夠很好的為整個校園中需要大數(shù)據(jù)分析及服務(wù)的各個專業(yè)師生提供統(tǒng)計計算服務(wù)。這種模式的缺點是實驗室需要直接購買全部的硬件及軟件,其成本較高,系統(tǒng)在運行及維護(hù)階段需要有專門的人員和經(jīng)費做支持。
混合云模式。這種模式顧名思義就是將私有云模式與公有云模式進(jìn)行有機結(jié)合。公有云部分可以提供虛擬教學(xué)、異地備災(zāi)、云計算以及教學(xué)資源等服務(wù),而本地云則可以承擔(dān)大數(shù)據(jù)計算的模擬以及數(shù)據(jù)管理和服務(wù)。這種模式的優(yōu)點較多,既可以靈活的運用價格較低的公有云服務(wù),也可以用相對較少的經(jīng)費體驗Hadoop平臺的計算魅力。
統(tǒng)計專業(yè)大數(shù)據(jù)實驗室建設(shè)不是簡單的將軟件與硬件進(jìn)行堆砌,也不是將傳統(tǒng)的統(tǒng)計軟件運行在新的云計算平臺上。云計算只是一個技術(shù)支撐,為避免實驗室建設(shè) 空心化 ,完善實驗室的建設(shè)與運行還要注意以下幾個方面。第一,加強數(shù)據(jù)資源的購買和積累。統(tǒng)計大數(shù)據(jù)實驗室需要積累一定量的大數(shù)據(jù)案例和行業(yè)數(shù)據(jù),在數(shù)據(jù)支撐下,學(xué)生在案例教學(xué)中才能較好的學(xué)習(xí)大數(shù)據(jù)理論與技術(shù)。第二,實驗室可以聯(lián)合IT廠商做相關(guān)的培訓(xùn)和認(rèn)證。學(xué)生獲得行業(yè)認(rèn)證有利于今后的學(xué)習(xí)與求職,同時培訓(xùn)工作也在高校教師同企業(yè)之間搭建了橋梁,有利于今后產(chǎn)學(xué)研的結(jié)合。第三,立足科研,做好社會服務(wù)工作。條件較好的大數(shù)據(jù)實驗室可以開展相關(guān)服務(wù),這樣有利于多方資金的投入建設(shè)。第四,做好師資力量的培養(yǎng)和積累。大數(shù)據(jù)實驗室需要具備IT技術(shù)的統(tǒng)計專業(yè)教師,對這部分教師的培訓(xùn)和實踐鍛煉是非常有必要的,同時對于部分 外聘人員 也需要提供一定的優(yōu)惠薪金。第五,加強國際、國內(nèi)的交流與合作,為實驗室建設(shè)提供更為有利的前瞻性規(guī)劃。