科技領(lǐng)域迎來新突破,蘋果公司近期發(fā)表的一篇AI研究論文引發(fā)關(guān)注。該論文聚焦于生成式AI在App界面開發(fā)中的應(yīng)用,提出了一種創(chuàng)新方法,使經(jīng)過特定調(diào)整的Qwen3-Coder模型在UI生成能力上超越了GPT-5。
論文由蘋果UICoder團(tuán)隊(duì)完成,核心目標(biāo)是探索如何更高效地將生成式AI融入App開發(fā)流程。研究指出,當(dāng)前主流的“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)在UI設(shè)計(jì)領(lǐng)域存在明顯局限性。傳統(tǒng)RLHF依賴人類對(duì)AI生成結(jié)果的簡單“點(diǎn)贊/點(diǎn)踩”或排序,這種二元評(píng)價(jià)體系無法捕捉設(shè)計(jì)背后的復(fù)雜邏輯,也無法反映設(shè)計(jì)師的實(shí)際工作流程。AI僅能感知結(jié)果的好壞,卻無法理解具體缺陷或改進(jìn)方向。
為突破這一瓶頸,研究團(tuán)隊(duì)邀請(qǐng)21位具有2至30年經(jīng)驗(yàn)的專業(yè)設(shè)計(jì)師參與實(shí)驗(yàn)。與以往評(píng)分模式不同,設(shè)計(jì)師需通過撰寫詳細(xì)評(píng)論、繪制草圖或直接修改代碼的方式優(yōu)化AI生成的界面。團(tuán)隊(duì)共收集1460條深度注釋數(shù)據(jù),并將“修改前”與“修改后”的對(duì)比樣本輸入獎(jiǎng)勵(lì)模型。該模型通過學(xué)習(xí)界面截圖與自然語言描述,逐步掌握了人類設(shè)計(jì)師對(duì)UI美觀性與功能性的判斷標(biāo)準(zhǔn)。
實(shí)驗(yàn)結(jié)果表明,基于“草圖反饋”訓(xùn)練的模型表現(xiàn)尤為突出。令人意外的是,僅用181個(gè)草圖注釋進(jìn)行微調(diào),該模型便實(shí)現(xiàn)了對(duì)GPT-5的超越。研究團(tuán)隊(duì)強(qiáng)調(diào),這一發(fā)現(xiàn)證明專家級(jí)的高質(zhì)量反饋可使小參數(shù)模型在特定領(lǐng)域展現(xiàn)出超越大型模型的潛力,為AI訓(xùn)練提供了新思路。
研究還發(fā)現(xiàn)設(shè)計(jì)審美具有顯著主觀性。在單純排序任務(wù)中,研究人員與設(shè)計(jì)師的觀點(diǎn)一致率僅49.2%,近乎隨機(jī)選擇。但當(dāng)設(shè)計(jì)師通過草圖或直接編輯表達(dá)意圖后,雙方一致率分別提升至63.6%和76.1%。數(shù)據(jù)表明,具體的視覺修改比抽象評(píng)分更能形成共識(shí),這為AI輔助設(shè)計(jì)工具的開發(fā)指明了關(guān)鍵方向——通過可視化交互而非數(shù)值評(píng)價(jià)來優(yōu)化設(shè)計(jì)流程。










