格隆匯4月7日|阿里通義實(shí)驗(yàn)室智能計(jì)算團(tuán)隊(duì)宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL機(jī)制,獎勵關(guān)鍵Token,解決純強(qiáng)化學(xué)習(xí)(Pure RL)訓(xùn)練中“推理長度停滯”難題。據(jù)該團(tuán)隊(duì)介紹,在32B規(guī)模的純RL設(shè)定下,率先實(shí)現(xiàn)對o1-mini與同規(guī)模DeepSeek-Zero-MATH的性能反超。












