騰訊科技程傳勝:近年來自研交換機的實踐和探索

中國IDC圈訊,開放數據中心峰會(ODCC2020)在北京召開,峰會圍繞數據中心新基建為主題,有數據中心領域及相關行業的眾多專家與會。在9月16日網絡分論壇上,騰訊科技程傳勝先生就百度近年來自研交換機的實踐和探索進行了分享。

騰訊科技程傳勝

騰訊科技程傳勝

程傳勝:剛才阿里、百度兩位同學都從OS和運維層面介紹了自研交換機,接下來就由我和大家分享騰訊科技自研交換機的硬件實踐。隨著集群規模越來越大,網絡也越來越大,傳統SONIC交換機也越來越大,加上我們的自研交換機比較慢,所以基于單芯片的自研交換機應運而生。單芯片的自研交換機是我們自主的硬件設計,這樣就會做到交換機內部的硬件可控,單硬件的故障率也比較低,因此硬件的規格和模式方面也做了一些創新,OS軟件就是我們自主研發、擁有自主IP的交換機形式。

看一看騰訊自研交換機的歷程,2018年之前騰訊對自研交換機無論是軟件、硬件還是模式都做了不少探索和摸索,2018年公司層面開始厚積薄發,開展自研交換機的項目,主要包括兩款產品:2.0TTD3平臺,基于TH3平臺的Leaf/Spine研發,2019年下半年規模上線,年底基于業務的發展需要集中研發3.2TTD3平臺TOR,今年下半年我們就可以規模上線,2020年上半年Q1又啟動了自研交換機3.0,包括基于TH4平臺的Leaf/Spine和TOR。

這些是騰訊自研交換機的產品庫,BMC監控運維方面也有一個比較好用的模塊,當時引入的時候整個BMC大概300元人民幣,軟件監控和運維也有比較大的便利性,所以這是花小錢辦大事的功能,就是像管理服務器一樣管理交換機,交換機也可以借用服務器的運維平臺,對外接口也是適用QR8接口,芯片使用Tomahawk3,也是采用TD3的芯片,可以監控20G、25G和10G,應用50G和100G的接入場景,CPU也是127,作為智能BMC的設計,目前已經量產上線,預計明年Q1就會上線。

我們選擇交換機接口形態的時候也做了調研,隨著芯片的發展和接口的多樣化,可選的端口比較多,包括ESP、SMP,最終還是因為生態的原因選擇200G,100G接入的時候是一分二的線纜,實現200G和100G的接入,要是往上接的話其實400G可以直接達到200G,我們使用芯片就是基于8.0T帶寬,CPU平臺同樣也是采用Intel1527平臺,因為從前面的運維和使用的角度來看,我們也對光模塊做了監控系統,所以需要花費30多秒的時間。FPGA用來管理所有的光模塊,也有比較強大的IO接口,所有的光模塊都可以一起訪問,共同點就是都在使用X86平臺,硬件適配和軟件開發周期會有比較大的縮減,運維或者制造的時候成本會低一點。

因為之前我們的團隊剛剛組建,依賴的廠家比較多,94和84開始我們會采用新的研發模式,就是只能選擇一家ODM廠商幫助我們設計,另外一家就是按照合同生產的方式,這樣的話我們就可以做到兩個廠家交互的硬件100%一致,可以帶來很多好處,研發的時候不會發生很多問題。因為三家交付的硬件從概率上來講,研發的時候發生的問題是好幾倍,硬件完全統一的話研發的時候就會節約很多時間。我們今天所有的產品都拿過來在外面展覽,大家如果有興趣可以去看一看。

今年我們的部署計劃是ECN交換機占到全部交換機的25%,明年我們的交換機會占100%,就是全部的自研交換機?;诂F在已經部署的自研交換機的故障率,滾動年硬件故障率小于千分之二,目前來看還可以優于現網的交互數據,時間成本也有不同程度的節約。我們做到了DCN硬件的融合,因為交換機和光模塊線纜都在DCN上面應用,數據的監控只有五個參數,電壓、電流、光伏率和溫度等等,能夠診斷出來的故障數量或者速度也比較慢,然后就對后面的光模塊在不增加成本的情況下做了如下的增強功能和監控功能的定制,但是這些定制也有賴于我們交換機的硬件設計,比如剛才說的IOTC的設計,雖然光模塊監控的參數變多了,頁數也變多了,但讀取的時間沒有增加反而減少,其實這就是光電結合的例子,后面也要做到更低成本的光電融合。

相關推薦
新聞聚焦
猜你喜歡
熱門推薦
  • Red Hat針對ARM打造Enterprise Linux 數據中心平

      本周一Red Hat Enterprise Linux for ARM正式推出,突顯了英特爾x86-64平臺在數據中心面臨越來越激烈的競爭。......

    12-07????來源:The Register

    分享
  • 優秀資產管理對于數據中心平穩運營至關

      如今,任何組織都可能有四到五個獨立的資產管理跟蹤系統,或者更可能有幾個具有不同命名約定的獨立電子表格,還有一些......

    11-20????來源:網絡整理

    分享
  • 三分鐘掌握數據中心“容災和備份的區別

      數據中心運行突發故障(如:天災不可避免的災難)是無法預測的,計算機里的數據就像掃雷游戲一樣,十面埋伏充滿雷區,......

    12-07????來源:數據中心運維管理

    分享
  • 分布式鎖的多種實現方式

      目前幾乎很多大型網站及應用都是分布式部署的,分布式場景中的數據一致性問題一直是一個比較重要的話題。分布式的CA......

    05-09????來源:51CTO

    分享
  • DCIM讓CIO不再擔心宕機危機

      如今,很多組織在數據中心投入的資金讓其首席財務官(CFO)望而生畏。數據中心基礎設施的設置、數字驚人的電費賬單,維......

    05-29????來源:網絡整理

    分享
  • 如何將數據中心從12V轉換為48V

      谷歌在OpenPOWER峰會和開放計算項目(OCP)美國峰會上的公告是最近轉向48V服務器和基礎設施的行業證據。......

    10-25????來源:企業網

    分享
  • 上海聯通機房運維管理ICT項目單一來源采

      上海聯通機房運維管理ICT項目單一來源采購公示......

    10-25????來源:中國聯通采購與招標網

    分享
  • 監控系統在機房維護中有何應用?機房三

      數據中心機房監控系統主要是對機房內設備和環境進行集中監控和管理,通過采集機房運行中的各種數據參數,來判斷是否出......

    11-12????來源:網絡整理

    分享
  • 關于分析IT系統宕機對業務影響的10個提示

      在制定災難恢復計劃時,一個非常重要的任務就是,要確定并想方設法避免潛在的威脅,同時為最壞的情況做準備。業務影響......

    02-19????來源:網絡整理

    分享
  • 新華三攜手寒武紀,構建智能計算高效引

      其中,H3C UniServer R4900 G3是新華三首批搭載寒武紀MLU100智能芯片的服務器產品。這是新華三集團面向新一代數據中心自主研發......

    02-19????來源:網絡整理

    分享
返回列表
Ctrl+D?將本頁面保存為書簽,全面了解最新資訊,方便快捷。
国产青榴视频a片在线观看