这也是一个充满未解之谜的时代:ChatGPT产生的每一个“Token”背后,是数千亿次计算的叠加,但不仅是普通人,就连顶尖研究者也常常感叹“没人真正理解现代AI”。模型是在死记硬背,还是真的学会了推理?本课程基于Welch Labs备受赞誉的深度可视化分析,带你钻进“黑盒”内部。我们将复盘OpenAI关于“Grokking(顿悟)”现象的经典发现,不仅展示模型发生了什么,更用令人惊叹的动态图表揭示为什么发生。我们将看到一个仅有一层Transformer的微型模型,是如何在漫长的“死记硬背”后,突然利用高中
www.bilibili.com