工控網首頁
>

新聞中心

>

人物專訪

>

王雪松:大數據時代,我們需要什么樣的服務器?

王雪松:大數據時代,我們需要什么樣的服務器?

2016/9/27 14:56:24

主持人:謝謝許總,我本身是跟蹤互聯網產業的記者,但是經常有跟蹤這些技術領域的記者老說我,說你跟的那些東西都太膚淺、太浮夸,我這個高大上。后來我覺得不服,所以今天我來了,來是學習了,但我覺得今天的會議的內容非常的棒,無論是早上的主題演講還是下午分論壇大家的演講。所有的東西真的可以看出來是演講嘉賓精心準備,是跟行業整個趨勢相結合。所以我希望在座的來聽的聽眾們都給予演講者一個很好的回饋,你們的一個眼神是對我們最大的支持。

    我們接下來有請中太數據通信有限公司董事長王雪松先生,他演講的題目是大數據時代,我們需要什么樣的服務器?

    
    王雪松:其實我這個題目改了一下,我們叫大數據時代的存儲型服務器設計。主要是覺得原來那塊說的太大,改小一點。
    剛才有嘉賓談到大數據,什么是大數據,嘉賓談到說需要大容量的存儲,需要快速的訪問能力,我們其實今天講的就是這件事情。
    這個圖其實用了很多,我不多說了,大數據時代就是數據變得特別多。十年前我們其實談的很多東西,我們談到我們用什么樣的機器,什么CPU機器,多少CPU機器,當時我們談到存儲的時候,感覺存儲就是一個雙機共享一個存儲很好的。隨著數據量越來越大,存儲變得越來越重要。我們過去談到集成下面的時候說到機器很重要。現在的時代隨著數據量越來越大的時候,存儲越來越成為項目的中心。
    現在有一個問題,我們在傳統的機構下集中式存儲,我們真的能不斷擴張嗎,我們都知道數據越來越大,幾十T,幾百T,上千T,集中式存儲真的可以嗎,這是很嚴重的問題。我們談的公安案例來說,他是什么狀況?他現在開始把一些監控的視頻引入了我們一些分析的數據系統,對所有人臉都會有一些比對。我們想象一下現在所有都要聯網,納入一個數據庫里面,全國這么多省份、地市,他組成一個大的數據架構下面,用什么樣的才可以做呢。真的可以做到嗎?我們談的數據不是說我增長幾倍的數據,我們現在談論是我到底增長幾個數量級的數據,兩個數量級,三個數量級,甚至更多。
    這種情況下我們提出一個疑問,集中式的存儲真的可以支持大數據時代嗎?我們都知道像有一些很多像以數據庫為中心的數據確確實實這方面提的很好,但是大量非結構化的數據已經非常困難了。現在以X86為基礎的系統已經以集中式的系統,我們需要什么樣的性能的認定。我們提出我們的一個想法,大數據時代主流系統對存儲型服務器,這里不談所謂計算型服務器,我們只談存儲型服務器。我們認為他有三個主要的要求,第一個要求是大量直連存儲的接入需求。可能太多的數據沒辦法存下去,唯一的方式就是把數據存儲起來,如果仍然采用像FC這樣的網絡把存儲放再一個集中的地方,這顯然不現實。唯一就是把每一個存儲服務器上連接。第二就是在服務器間有高互聯帶寬的需求。第三是高性能的壓縮、Hash、加密能力。后面我們會以Hadoop、Ceph、Openstack。
    這個是Hodoop一些圖,在圖上我們可以看到Hadoop結構下有兩個主要的組成部分,一個是Namenode。由于他的數據節點本身是分離的,因此天然需要直聯存儲跟這個連接。根據他自己相關的應用,我們都知道Hadoop會把每一份數據至少存三份正常情況下,也談到了讀寫分離。在這種情況下,在數個節點之間要有高速復制的能力,這個是通過網絡。我們看到了直聯存儲的需求,高性能的復制的需求。是另外一個圖,我們都知道Hodoop可以通過壓縮來解決我們對磁盤的壓力。壓縮的時候對CPU有影響,我們畫個天平,在天平上不斷秤來秤去,我用壓縮搞定我的網絡,還是說要解決我CPU的性能。
    這是Ceph,這是分布式能源系統,跟Hodoop很像,只不過他把數據節點改成OSD。他也有大量的數據需求,主要的OSD向第三個OSD復制需求。他也有直連存儲的需求,他現在壓縮和去除能力并不是現在標準的能力。OpenStack,一樣的,直連存儲的需求。這個Swift,直連存儲需求。我們認為大數據時代基本都是用這么幾個需求,一個是直連存儲需求,第二是網絡間高度復制需求,第三是需要壓縮的需求。壓縮是用來節省IO的。
    剛剛我們已經談了一下在這個時代里我們談到對存儲型服務器提出有重要的需求,到底這個需求有多高?我們認為因為現在整個系統里面我們大家都知道有一個理論,系統你做的太快,太慢都沒有用。因為系統的整體速度是由他最差的那個組件來完成的。我們可以看一個結構,這是英特爾一個測試,他在利用他多核心庫的品牌支持下,在一路八核的可以形成80Mpps的轉發。我們一般使用數據是兩路,他這個是一路的數據,正常我們認為40G是他標準的一個能力。
    在現在的CPU性能突飛猛進的時代,我們認為對存儲的單臺服務器提出一個能力需求,至少有20G,最好40G對直連存儲訪問的能力。至少20G,最好40G的壓縮、Hash、加密能力。這里有一個大的問題,CPU完成這個部分,實際上兩路系統足夠了。最好是有40G服務器之間的互相的網絡通訊能力,主要是用來做復制用的。我們認為復制的情況下,我們需要很高的系統,對外時候我們需要不需要很高的系統不好說。大數據時代一臺單獨的存儲服務器達到的要求,用什么樣的硬件可以達到這樣的能力。
    這是我們談到的硬件,CPU不是很高的,兩個8核或者是10核。第二個是關鍵,2個Socket,或者是2個英特爾82599。第三是英特爾的一個Coleto的芯片。這個我認為對外提供40G或者是萬兆的接口。也就是說這是我們推薦的認為可以滿足服務器的配置。
    在這里有幾個關鍵點,第一個問題我們需要支持DPDK,現在X86架構下并沒有規定只有DPDK達到最好的速度,但是DPDK是最優秀的,他已經開源。我們使用英特爾的CPU就是DPDK,但是DPDK有環境設備和網絡的抽象層。我們現在選用網卡全部都是支持英特爾DPDK的網卡,可以提高自己的能力。我們有很多刀片服務器,他背后的網卡采用方式未必是可以在DPDK工作的。第二我們提供40G的刀片間互聯,可以提供10G的對外服務能力。這個是我們介紹一下芯片,這個芯片最早開始是用在路由器、防火墻這些網絡設備上的。后來存儲設備公司覺得這個挺好,他們也用了。
    看一下他的結構,這個芯片結構很簡單。他的結構里面有一個加密的協處理器,里面有一個壓縮的協處理器。關鍵問題在這,他們在這個芯片下可以提供20G的能力。他對于我們減輕負載非常有幫助。這是最高級的,它的壓縮是24G,解壓縮能夠是28G。這樣對我們在大型存儲服務器里面啟動壓縮毫無壓力。在這個芯片上提供了兩個部分,一個是軟件包解決大家訪問這個芯片的一些接口問題。他一共兩種,一種是內核級接口,一種是用戶接口。橋片對壓縮模式的支持,文件格式有ASCII、HTML等等。
    我公司設備可以在每刀片提供2個或4個MINISAS接口用于連接SAS  Switch。目前建議最高性能配置為每刀片4個miniSAS接口,每交換機連接2個刀片,另提供4個4U45盤位置之的硬盤箱連接,這樣每刀片可以訪問90個直連硬盤,訪問直連存儲的帶寬為96G。
    中端的配置建議為每刀片配置2個minisas用于連接SAS  Switch每交換機配置6臺刀片,兩臺4U90盤位硬盤箱,這樣每刀片連接30個硬盤,提供峰值48G,平均16G的訪問存儲能力。
    為什么會采用刀片式服務器,我們不采用刀片式服務器,我們采用機架式服務器的話,如果我采用10G作為互聯接口。我們都知道40G光模塊可能也需要幾千美金,如果采用傳統的機架式服務器,配這么高的互聯帶寬是很困難的。采用刀片服務器,他的成本在主板上。第二是計算和存儲分離,使得直連存儲走出機箱,確保系統橫向擴展能力。第三利用英特爾的加密的條件,還有就是DPDK的Ready  NIC。因為存儲系統很多數據的需求在網絡,他必須通過外部網絡才可以。我們很難想象說現在硬盤都是連在一起,換句話說這里頭我們不需要說硬盤支持EPK。
    下面是我們一個建議配置,我們到底有多快,到底配多少服務器,這是比較小的配置,第一個機架配置一臺刀片服務器,12個刀片。兩臺SAS  Switch,4個4U90盤位硬盤箱,兩個支持40G的交換板。
    第二個機架配置一臺刀片服務器,配置6個刀片,1臺SAS  Switch,兩個4U90潘瑋硬盤箱,兩個支持40G的交換板。每刀片配置2路10核心CPU,總共提供40個線程,主辦配置ColetoCreek,內存128G。其中由于每刀片連接30個硬盤,使用30個線程為30個OSD  Daemon服務,每個硬盤使用4G內存進行緩存。兩臺機架間的服務器通過2×40G+8×10G以太網捆綁鏈路以互聯,用于節點間內部復制,總共160G帶寬。第一臺機架上的服務分為兩組,每組6個刀片,連接180個硬盤。
    這樣的配置下,按3倍復制能力,對外可以提供720T存儲。我們對存儲的訪問總帶寬為288G,對每一份數據寫入的總帶寬為96G。總共提供320G對外帶寬提供讀寫服務。節點復制總帶寬達到480G+160G。在這種切斷下我們都知道這么一個系統他能提供什么樣的服務,寫入的速度是96G,度曲的速度相當于36G,總共720T的存儲容量。如果采用壓縮對性能毫無影響。這么一個小型系統,總共只有18臺刀片,就可以提供3倍的復制以及非常高的讀寫速度。
    總結一下,基本上我們說用刀片服務器提供更高的40G以太網內置網絡連接,大量的miniSAS接口提供對直連存儲的高性能連接,英特爾加密壓縮橋片提供無組塞的壓縮和支持,最后全套的DPDK提供支持。
    我提出一個新的觀點,跟各位交流的時候,我們認為在新的大數據的存儲時代,機房在數據節點之間的復制要求上40G已經成為主流需求。這是我們的觀點,大家有沒有對這個發表看法?
    
    嘉賓:英特爾的CPU速度主流就是40G的帶寬。
    
    主持人:待會我會再提這個問題,我們思考一下。


投訴建議

提交

查看更多評論
其他資訊

查看更多

直播定檔!見證西門子與中科摩通聯手打造汽車電子智能制造新范式

光亞論壇·2024 智能產業聚合高峰論壇舉辦!

新訊受邀參加華為Redcap產業峰會,并榮獲RedCap生態合作獎!

2024年斯凱孚創新峰會暨新產品發布會召開,以創新產品矩陣重構旋轉

禹衡光學亮相北京機床展,以創新助力行業發展新篇章