就在Gemini 2.0发布前几天,一位新晋中国医生宣布将加入谷歌DeepMind,担任高级研究科学家,致力于Gemini预训练和多模态研究。
薛福钊毕业于新加坡国立大学,获博士学位,师从尤阳教授。 2021年以GPA 5.0毕业于南洋理工大学硕士学位,师从庄永聪教授、孙爱新教授。
在新加坡国立大学攻读博士学位期间,他曾在 Google Brain 与 Google 天才科学家 Yi Tay 和 Mostafa Dehghani 实习,并在 NVIDIA GEAR 与 Jim Fan 和 Yuke Zhu 实习。
攻读博士学位的 7 个见解3年
工程能力是研究的基础
虽然工程技能通常很重要,但它们在学术界似乎尤其被低估。例如,根据我几年前的经验,人工智能博士招生很少包括编码面试。这令人惊讶,因为实施是将人工智能想法变为现实的关键一步。许多人可能广泛讨论研究概念,但未能将其转化为实际应用。
强大的工程能力不仅使我们能够为大型项目做出贡献(这是在大型语言建模社区中产生重大影响的常见方式),而且还能激发创新的研究想法。最近的进展,如 Scaling Law、MoE、GQA、Flash Attention,往往源于对底层技术和社区面临的挑战的深刻理解。
与优秀的人一起工作对于提高你的研究品味非常有帮助
什么是“研究品味”?在我看来,就是能够比别人更早发现有前景的研究方向。那么……该怎么办呢?去问问他们吧!就像我们在大语言模型中做强化学习之前的监督训练一样,我们需要指导和指导来培养自己的“研究品味”。
在攻读博士学位的早期,我有幸在谷歌与 Yi Tay 和 Mostafa Dehghani 一起工作,这段经历极大地塑造了我的职业轨迹。我经历的文化冲击发人深省。受此启发,我积极寻找与其他优秀研究人员合作的机会,如Jim Fan(范林西)、朱玉可、Scott Reed、付遥等。
为了真正了解他们的研究品味,我们需要在两个关键方面达成一致:
有趣的是,具有良好研究品味的人并不总是对这些问题有明确的答案,尤其是第二个问题。这就是为什么我认为与这些人密切合作可以让我们深入了解他们的日常习惯、决策过程和解决问题的方法,尽管你也可以通过电子邮件等方式询问他们。
在攻读博士学位期间,目标是发表简洁而富有洞察力的 45 分钟演讲,而不是追求冗长的出版物清单
人们通常攻读博士学位有两个主要原因,即享受科学研究和找到一份好工作。对于工作面试,拥有“良好”的发表记录通常足以让您通过初轮。
然而,在面试过程中真正重要的不仅仅是你的论文清单和简历。通常会有研究讲座和几次一对一的研究访谈(除了基础知识和编码之外)。尽管观众规模各不相同,但核心目标始终相同:提供引人入胜且连贯的演示。
为了在这些情况下表现良好,请专注于创建可靠的整体演示,并定期(例如每 5 分钟)进行富有洞察力的观察,以保持观众的兴趣。
专注于少量重要论文并获得深入理解,而不是阅读许多文章
我通常会果断筛选掉 arXiv 上 99% 的论文,只关注有影响力的作品、知名作者和信誉良好的机构。
(我知道这种方法有它的偏见——一些有价值的工作可能会因为各种原因而被低估。但事实是,这种方法通常是有效的。我认为最好的工作最终会被其他人引用、讨论或推荐。出现在我们面前。)
尽管您偶尔可能会错过一些被埋没的好论文,但更重要的是不要被杂乱的论文淹没。在这些任务上花费太多时间可能会将您的研究品味拉向局部最低限度,尤其是当您刚进入该领域并且缺乏辨别技能时,这可能需要大量时间和精力来纠正。
当接近新主题时,按时间顺序阅读论文以研究研究趋势的演变
例如,您可以按此顺序阅读和学习 MoE-LLM。通过这种方式,您可以更轻松地识别和总结趋势,并创建连接不同任务的“思维链”,例如 Expert-Choice MoE 在基线 MoE 中解决了哪些问题。这个过程不仅加深了你的理解和推理能力,还让你能够超越当前领域的状态进行概括。
有了更广阔的视野,您可能会发现有价值的未来研究方向。此外,人们自然倾向于更好地记住最近的信息。作为研究人员,跟上最新发展至关重要,因此这种方法非常适合我们处理和保留信息的方式。
同理心是提高写作和口语水平的有效方法
我的写作还有很大的进步空间。然而,我发现同理心在两种情况下特别有用:
博士学位对于研究大型语言模型有帮助,但不是必需的
攻读博士学位可以提供宝贵的学习经验。除了研究技能之外,学者们擅长的领域之一是教学模块——这在工业实验室中很少遇到。作为助教,您将有机会设计讲座、作业、教程和考试。这种经验不同于进行研究或指导初级研究人员,如果您的目标是成为一名教授,这种经验是必不可少的。
但是,如果您的主要目标是直接为最先进的大型语言模型做出贡献,那么直接加入研究实验室可能会更有效。在工业实验室中,您可能有:
在攻读博士学位期间,我在工业实验室实习过,但你完全有可能以研究工程师或人工智能常驻研究员的身份加入这样的实验室。在我看来,这些职位可以成为成为大型语言模型研究员的快速通道,让您有机会在实践、高影响力的环境中学习所需的大部分技能。
值得注意的是,谷歌DeepMind、OpenAI等地方有很多优秀的研究人员没有博士学位。这凸显出虽然博士学位是有益的,但它并不是在大语言模型研究领域取得成功的唯一途径。
参考:
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273281.html