autoresearch的核心邏輯是將簡化后的LLM訓練環境交由AI智能體(AI Agent)自主運行。用戶只需在睡前啟動腳本,智能體便會接管實驗流程:修改代碼、啟動訓練、五分鐘后評估結果。若驗證損失降低,改動會被保留;否則回退至上一版本,繼續下一輪迭代。次日,用戶將獲得一串實驗日志和一個可能經過優化的模型。
項目倉庫僅包含三個核心文件:prepare.py負責下載訓練數據并訓練固定的BPE分詞器,智能體無權修改;train.py是約630行的訓練腳本,涵蓋完整的GPT模型定義、優化器(采用Muon與AdamW組合)及訓練循環,智能體可自由編輯模型架構、超參數、批大小等所有內容;program.md作為指令手冊,由人類編寫,指導智能體的行為邏輯。這種設計體現了“人類編寫元程序,AI執行具體代碼”的哲學。











