Self-Improving Agent Loop(Autosearch)基于 Karpathy 的 autosearch 概念,自托管 SLM 从生产 trace 中自我学习·强化的 5 阶段循环设计与安全防护