OpenAI双12直播：新功能强化微调，几十个例子打造专家模型

作者：佚名 • 更新时间：2024-12-07 22:03:55 •阅读 64

梦晨西风，源自奥飞寺

量子比特 |公众号QbitAI

OpenAI“双12”直播第二天依然简短简洁，主题是：

新功能强化微调允许您使用很少的训练数据轻松创建特定领域的专家模型。

有多少？至少几十个例子就足够了。

CEO奥特曼表示，“效果非常棒，是我2024年最大的惊喜，期待看到人们建造的东西！”

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_

那么效果到底有多大呢？

经过微调，o1-mini模型的得分提升了80%，直接超越了o1正式版。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%__OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_

目前，OpenAI已经启动了增强微调研究计划，开发者可以申请访问增强微调API的alpha版本。

测试时，可以获得数万到数以千计的高质量数据，并且该模型能够通过强化学习探索和学习如何自行推理复杂的任务。

正在看直播间的网友们一听，全都愣住了。他们并不知道今晚的“圣诞盲盒”是姜阿姨的。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%__OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

OpenAI员工Jerry Tworek表示，“AGI不是教人如何钓鱼，而是教人如何钓鱼”。

_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

OpenAI微调首次支持强化学习

除了OpenAI自己的三位研究员Mark Chen、John Allard和Julie Wang之外，直播嘉宾还包括伯克利实验室计算生物学家Justin Reese。他们共同演示了增强微调功能的整个过程。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_

具体来说，这是一项生物医学任务，AI需要根据病例描述的症状找到相关基因。

训练数据如下所示：

患者信息：51岁女性，发病原因不明。

症状：距离过远、睑裂狭窄、小颌畸形、软腭和咽部功能不全、甲状旁腺功能减退、整体发育迟缓和感音神经性听力障碍

无症状：腭裂、法洛四联症、肺动脉闭锁、房间隔缺损、主肺侧支血管

请列出可能导致这些症状的所有基因（从最有可能到最不可能的顺序），并解释为什么您认为这些特定基因可能是原因。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_

评分模型（Grader）将对模型的答案进行评分。 OpenAI将提供不同的评分模型并支持定制。

_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

强化微调的步骤非常简单。您可以在 Web 界面中选择训练集和验证集。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%__OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

然后根据情况配置超参数。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%__OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

在微调过程中，您可以观察模型性能指标的变化趋势。

_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

测试完成后，您还可以查看模型对每条验证数据的输出。在这里，TSC2 基因是正确答案，模型将其排在第一位，因此通过了。

_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

在目前的OpenAI内部测试中，增强微调在生物化学、安全、法律和医疗保健领域取得了成功。

增强微调将于2025年初作为产品发布，并向企业、大学和研究机构开放应用测试通道。

_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

看完这场直播后，有人得出结论：增强微调可能并不适合所有任务，但它将在科学领域带来突破性成果。

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%__OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

奥特曼默认发送索拉

OpenAI直播的第二天，与o1正式发布并立即可用的第一天相比，显得有些平淡。

有不满的网友表示：GPT-4.5去哪儿了？

评论区有人猜测，大宗货可能会放在最后一天。

他们真的知道如何吊起每个人的胃口

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_

不过，有网友捞出了奥特曼，而奥特曼也没有否认会放出有关索拉的消息。

_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%_OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%

参考链接：

[1]

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273061.html

Fine-Tuning 强化学习科学领域突破性成果 TSC2基因

中国新能源汽车年产量突破1000万辆，全球首个达此成就的国家

« 上一篇 2024-12-07

华为P40 Pro+：满溢四曲屏与卓越影像配置，打造顶级旗舰体验

下一篇 » 2024-12-07

联系我们

在线咨询：

微信号：13588888888

工作日：9:30-18:30，节假日休息