10月26日,字節跳動宣布開源BitSail數據集成引擎。BitSail意為“數據航行”,可支持二十余種異構數據源間的數據同步,提供離線、實時、全量、增量場景下的全域數據集成解決方案,從而打通困擾企業數字化轉型的“數據孤島”,幫助企業用戶更有效地發揮數據資產價值。
BitSail開源地址:https://github.com/bytedance/bitsail
據悉,BitSail起源于2018年。當時字節跳動的業務場景日益復雜,數據源越來越多,數據量更是呈爆發式增長。為了支撐公司業務快速發展,字節跳動數據平臺團隊開始自研數據集成引擎。
新引擎最初基于Apache Flink實現,歷經多年持續改進和創新,現已具備批式集成、流式集成和增量集成三類同步模式,并支持分布式水平擴展和流批一體架構,在各種數據量和各種場景下,一個框架即可解決數據集成需求。此外,BitSail采用插件式架構,支持運行時解耦,從而具備極強的靈活性,企業可以很方便地接入新的數據源。
目前,BitSail不僅服務于抖音、今日頭條等字節跳動內部業務,也服務了火山引擎多家企業客戶,其穩定性、數據傳輸質量和運維成本等方面經過“千錘百煉”,已經具備較高的產品成熟度。
數據顯示,BitSail在字節跳動內部每天的任務量超過20萬,傳輸的數據行數超過百萬億行,其中單批任務達到千億行、單流任務達到千萬QPS,支持10分鐘級延遲SLA。通過在火山引擎的云原生環境和客戶專有云環境等不同場景的打磨,在確保數據傳輸安全性的同時,BitSail的功能細節和性能得到進一步優化,可以滿足企業絕大部分使用需求。
自2015年至今,字節跳動已開源了50多個項目,早期大多為工程師個人興趣驅動。今年5月,字節跳動宣布成立開源委員會,為技術開源引入公司級的策略、規范與流程機制。BitSail項目負責人表示,做好開源的“北極星指標”,在于真實落地,幫助開發者在生產環境或實際業務中創造價值。BitSail會持續夯實基礎能力,并結合內外部業務實踐輸出更多創新的特性,幫助企業用戶走好數字化“第一步”。