波多野结衣按摩,在线观看亚洲视频,国产嫩草在线观看,91视频最新地址

首頁 新聞 > 業界 > 正文

受邀出席騰訊數字生態大會 作業幫分享大數據平臺架構演進之路

近日,2021騰訊數字生態大會在武漢舉行,大會以“數實融合·綻放新機”為主題,邀請了300多位產業領袖和專家,展示前沿技術成果、創新服務場景、細分行業數字化轉型的實踐案例。作為騰訊云最佳生態合作伙伴,作業幫受邀出席,作業幫大數據平臺技術部負責人劉晉在“大數據”專場與參會者分享作業幫大數據平臺架構的演進之路,系統地介紹了作業幫大數據平臺概況、面臨的問題和解決方法,以及在彈性、數據湖、數據安全的實踐經歷和取得的效果。

彈性能力持續豐富 算力利用率最大化

劉晉表示,作業幫從2015年開始就使用存算分離的架構來構建離線的數據體系,該系統架構讓計算、存儲資源具備極好的擴展性,降低運維成本、優化TCO。為了提升在線集群資源利用率、滿足突發的資源使用需求,團隊正在將計算層從自建CDH到EMR的遷移。

為了實現平滑的遷移,團隊采用了漸進式的方案,首先對任務進行標準化測試,對一些不適合高版本Hive環境的任務進行了改造,之后進行數據準確性的檢驗,通過對任務在不同集群的結果對比來驗證數據,這個過程中對發現的開源版本缺陷進行修復,最后進行分隊列的遷移。

從遷移后的效果來看,基于EMR-EKS能快速的彈性擴容,今年上半年團隊基于彈性在短時間內擴容了上萬核,很好的滿足了計算需求。同時正在實施在線離線混布的方案,通過彈性網卡做了硬件層面的網絡隔離,并且對Yarn的原生調度模式進行優化,縮短了節點回收的時間,避免慢節點影響任務執行效率。

數據湖技術加持 湖倉一體實踐探索

在傳統基于Hadoop的數倉應用里,存在著數據查詢慢,數據模型更新成本過高、以及數據冗余等諸多的缺點,作業幫通過Iceberg的數據湖技術,結合實際的使用場景,在數倉和即席查詢領域進行了積極的探索和實踐。

首先通過Flink構建實時Pipeline,生成ODS層分鐘級的IceBerg數倉表,再通過事件驅動來周期性的做流轉批生成具有時間邊界的分區,對分區內數據通過Zorder、DataSkipping技術來做查詢加速,在流量域的用戶行為查詢中,使用Iceberg的查詢相比傳統模式有近10倍以上的提升。

劉晉表示,作業幫在批計算、實時、OLAP等領域有豐富的應用場景,未來作業幫技術團隊將持續建設創新技術體系,在數據治理、數據湖、自動調度、離在線混布、OLAP、實時計算等領域不斷的實踐和突破,充分發揮數據價值,賦能教育創新。

關鍵詞: 作業幫

最近更新

關于本站 管理團隊 版權申明 網站地圖 聯系合作 招聘信息

Copyright © 2005-2018 創投網 - www.extremexp.net All rights reserved
聯系我們:33 92 950@qq.com
豫ICP備2020035879號-12