显然我比要年长得多。我是从物理学进入 领域的因为我的本科背景是物理学。物理学是一门教你思考大胆问题的学科比如世界上未解之谜。在物理学中这些问题可能与原子世界、宇宙相关但这种训练让我产生了对另一个问题的兴趣——智能。因此我在加州理工学院做了 和计算神经科学的博士研究。和我虽然没有在加州理工学院重叠过但我们共享相同的母校。 还有相同的导师? 是的你的本科导师也是我的博士导师 。在我读博期间 在公众视野里正处于寒冬但在我眼中并非如此。
这更像是春天前的冬眠期机器学习和生成 俄罗斯电话号码列表 模型正在蓄积力量。我认为我是机器学习领域的“本地人”而 的那一代是深度学习的“原住民”。 机器学习是深度学习的前身我们当时实验了各种模型。但在我博士结束时以及担任助理教授期间我的学生和我实验室意识到有一个被忽视的 元素在驱动着泛化能力这个领域当时并未深入思考那就是数据。我们当时专注于贝叶斯模型等复杂模型而忽略了让数据驱动模型的重要性。 这是我们押注 的原因之一。当时所有领域的数据集规模都很小计算机视觉和自然语言处理的标准数据集都是几千或几万条数据但我们意识到需要提升到互联网规模。
幸运的是互联网时代也正在崛起我们乘上了个时候我来到了斯坦福。 这些时代就像我们经常谈论的那些比如 显然是推动或至少是让计算机视觉在生成式 领域中流行并具备可行性的重要时代。我们通常会提到两个关键的突破:一个是 的论文即“注意力机制”()另一个是较少谈到的“稳定扩散”( )。 用这种方式来理解这两个来自学术界(尤其是谷歌)的算法突破是否合理?或者说这更是一个有意为之的过程?亦或是还有其他一些不常被提及的重大突破也推动了我们走到今天? 是的我认为最大的突破在于计算能力。