飛豬用戶增長廣告外部投放系統(RTA)自2022年上線以來,已成為支撐頭條、小紅書、華為等十余家頭部媒體廣告業務的核心基礎設施。該系統日均處理千億級請求,峰值QPS突破百萬級別,對系統穩定性、響應速度和資源利用率提出了嚴苛要求。隨著業務規模持續擴張和策略復雜度提升,技術團隊通過系統性架構優化和技術創新,在性能提升與研發效能方面取得突破性進展。
系統架構采用雙通道接入模式:通過阿里媽媽廣告交易平臺(Tanx)實現流量聚合轉發,同時支持小紅書、vivo等媒體直連調用。整體鏈路分為網關層與應用邏輯層,前者承擔高并發接入與智能路由,后者需在毫秒級時間內完成設備識別、人群定向、策略匹配、頻次控制及出價計算等復雜決策。技術團隊圍繞性能優化與效能提升兩大核心目標,構建了覆蓋網絡、網關、應用、業務的全鏈路優化體系。
在研發效能升級方面,技術團隊首先實施應用架構解耦,將RTA模塊從原有混合部署的應用中獨立拆分。這一改造基于三個關鍵考量:RTA業務邏輯相對獨立且流量占比超90%;獨立部署后更易實施單元化改造;可充分享受Java技術棧升級紅利。系統遷移過程中,團隊選擇保留Java技術體系,但將技術棧升級至JDK21(支持虛擬線程)、SpringBoot 3.x(模塊化初始化提升啟動速度10-20%)及網絡中間件優化方案,有效降低I/O開銷與堆外內存使用。
發布流程優化是提升系統韌性的重要舉措。通過移除冗余測試卡口、合并發布批次、將Beta環境日志采樣改為全量采集等措施,問題發現能力提升300%。基于JDK21與SpringBoot3的升級,應用重啟時間縮短80%,配合分鐘級故障恢復機制,顯著提升系統可用性。在測試環節,團隊構建的流量回放系統可自動采集線上請求快照,在預發環境進行全場景驗證,使測試周期從72小時壓縮至24小時。
性能優化工作從網絡層展開深度改造。針對跨地域調用導致的超時問題,技術團隊實施三階段優化:首先啟用HTTP長連接復用,將TCP建連耗時從30ms降至零;其次通過改造HTTP客戶端,保留首次請求已建立的TCP連接供后續復用;最終實施單元化部署,在深圳、南通等區域機房本地化部署服務,使超時率從30%降至0.01%。網關層優化中,通過啟用Tengine后端長連接池、精簡配置項、關閉非必要日志等措施,使TIME_WAIT連接數下降99%,服務器集群CPU使用率降低10個百分點。
應用層優化聚焦非核心路徑性能瓶頸。日志系統通過協議精簡(JSON轉緊湊格式)、批量聚合、異步刷盤和分層采樣等組合策略,在保持可觀測性的前提下,使CPU占用下降9個百分點,日志存儲成本降低60%。針對下游服務長尾請求問題,引入主動熔斷機制,對關鍵依賴設置獨立超時閾值,有效平滑P99延遲波動。業務邏輯層通過重構召回策略,構建多維身份并行匹配引擎,解決原有單一優先級規則導致的ID不匹配問題,使參競失敗率下降40%。
這些優化措施帶來顯著業務價值:在QPS提升60%的情況下,服務器資源消耗降低30%;測試周期縮短65%,發布效率提升80%,新渠道接入時間從5天壓縮至2天;參競效率與投放精準度同步提升,無效拉新率下降25%。技術團隊正探索將AI能力深度融入系統,通過構建自動診斷與策略優化機制,推動RTA系統向智能決策引擎演進,為業務增長提供更強技術驅動力。







