誰說“小模型”不能打敗“大巨人”?近日,蘋果UICoder團(tuán)隊(duì)發(fā)布了一篇震撼 AI 界的最新研究論文,展示了他們?nèi)绾瓮ㄟ^“魔改”開源模型,在特定領(lǐng)域?qū)崿F(xiàn)對(duì)頂尖大模型的逆襲。
這次,蘋果瞄準(zhǔn)的是所有開發(fā)者都頭疼的 UI(界面)開發(fā)。
目前 AI 生成代碼雖然厲害,但在 UI 設(shè)計(jì)上往往表現(xiàn)平平。原因很簡(jiǎn)單:傳統(tǒng)的“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)太粗糙了。以往 AI 學(xué)習(xí)設(shè)計(jì),就像是在聽設(shè)計(jì)師說“這個(gè)界面不行”,但 AI 根本不知道哪里不行,也不知道怎么改。
為了調(diào)教出“審美在線”的 AI,蘋果請(qǐng)來了 21 位資深外援。
這些擁有 2 到 30 年經(jīng)驗(yàn)的設(shè)計(jì)大咖不再只是簡(jiǎn)單地打分,而是擼起袖子直接下場(chǎng):寫評(píng)論、畫草圖、改代碼。蘋果團(tuán)隊(duì)收集了 1460 條這種帶有深度邏輯的專家注釋,并據(jù)此構(gòu)建了一個(gè)專門的獎(jiǎng)勵(lì)模型。
令人驚嘆的結(jié)果出現(xiàn)了:微調(diào)后的 Qwen3-Coder 戰(zhàn)勝了 GPT-5。
實(shí)驗(yàn)數(shù)據(jù)顯示,僅僅依靠 181 個(gè)高質(zhì)量的“草圖反饋”進(jìn)行微調(diào),這個(gè)原本參數(shù)并不算巨量的模型,在生成 App 界面的能力上直接把GPT-5給超了。這再次印證了一個(gè)道理:在 AI 訓(xùn)練中,專家級(jí)的“少而精”反饋,遠(yuǎn)比海量的普通數(shù)據(jù)更具殺傷力。
研究還扎心地揭示了一個(gè)真相:審美真的主觀。
研究發(fā)現(xiàn),普通人和專業(yè)設(shè)計(jì)師在判斷一個(gè)界面好不好看時(shí),觀點(diǎn)一致率竟然只有 49.2%,跟拋硬幣沒區(qū)別。但一旦設(shè)計(jì)師通過“畫草圖”表達(dá)了具體修改意圖,一致率會(huì)瞬間飆升至 76.1%。這意味著,未來的 AI 設(shè)計(jì)工具不再是盲目猜測(cè)你的喜好,而是能真正聽懂你的視覺語言。
如果蘋果真的將這項(xiàng)技術(shù)植入 Xcode,或許“一句話生成精美 App”的時(shí)代真的不遠(yuǎn)了。











