76. 王小川返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

倍速播放下载节目

00:00

39:05

节目详情

在过去两集节目中，关于OpenAI o1和AGI范式转移，我们先是推出了一集预言，之后推出了一集解析。在一个新范式来临的临界点上，我们希望听到更多来自业界不同视角的声音。哪怕这些声音是切片的、冲突的，我们都希望当做一种记忆和留存收集起来。

今天这期是王小川的返场。

王小川在创业开始就关注到强化学习并且很早开始公开谈论。他曾说，大模型代表快思考，它叫“学”；强化学习是慢思考，它叫“思”。“学”和“思”两个系统最终会走向融合。除了o1，王小川也聊了聊强化学习在一个特定场景——医疗——中的应用。

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

01:30 大模型是“学而不思则罔”，强化学习是“思而不学则殆”
03:45 Sam Altman被宫斗下课与强化学习大神Noam Brown的动态
05:45 OpenAI o1是范式升级，摸到了一条从快思考走向慢思考的道路
（DIKW模型：Data – Information – Knowledge – Wisdom）
08:18 怎么看o1隐藏思维过程，有人破解o1思维链会被警告要封号？
09:04 从以语言为核心走向思维链，分两阶段运行增加泛化性
11:38 强化学习 vs 监督学习
16:39 除了数学和代码以外，医疗是可以用强化学习提升的领域
19:55 之前做强化学习实验没有CoT（思维链），今天更强调CoT了
22:16 复现o1 vs 复现GPT-4
26:30 未来几年将从强化学习范式走向写代码解决问题新范式
28:35 做“水涨船高的应用”，不只是“沿途下蛋的应用”
31:35 创业公司要走出大厂射程，在射程内你是没什么好活的

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺jùn

更多信息欢迎关注公众号：张小珺

展开

大家都在听

消费圈内人

消费圈内人

消费圈内人

涟漪效应

《涟漪效应》是一档热点话题播客，由澎湃人物和镜相栏目联合出品。新闻背后的故事，热点之外的冷思考，打开可能，通往更大的世界。

起朱楼宴宾客

起朱楼宴宾客

可能会有投资理财相关知识，可能是和金融圈老友的对谈，也可能只是一个人的碎碎念，但总之，都是在记录这个大时代。公众号同名。

文旅圈内人

文旅圈内人

平台首档专注文旅赛道的商业类播客文旅行业是一个边界很模糊的行业，衣食住行，吃喝玩乐，皆可文旅！因此，文旅也成了信息差最大的行业之一，无论是对消费者，甚至是从业者！在这档节目中，我们邀请泛文旅圈内各个领域的资深从业者，一起分享和探讨他们的行业观察，经验技巧。打破行业信息差，分享优质旅行资讯、圈内信息；以业内人的视角，洞察热点新闻，探讨人文新知。「本节目适合的人群」 1、文旅创业者 2、文旅职场资深打工人 3、刚涉足或准备涉足文旅行业的初创团队「主持人」 Robin，14年专注于文旅行业的猎头老兵，始终保持对人的好奇，从业生涯与超过30,000名泛文旅圈中高端从业者进行过深入交流 Hiei黑黑，沉浸式体验设计专家，2010年起先后参与并主持了100余场室内外实景体验项目的创作与落地，致力于让各种场景“好玩”起来～

空无一物

“空无一物”是由三个无业游民发起的一档以赚钱、生活、成长三点为主轴，融入历史、战争、西方文化、投资等视角，结合当下去探讨我们该如何在这个社会更好的“生活（生存）”

商业就是这样

商业就是这样

用简单易懂的语言解读商业现象。联系我们：thatisbiz@yicai.com

知本论

这是一档由中信出版旗下知识服务品牌——中信书院打造的泛投资类知识播客。我们生活的世界，已经被信息、观念、态度、数据、标签重新建构。我们相信，知识可以成为打开财富世界的一把钥匙。在这档节目里，我们会和很多投资领域的大咖、经济学者，以及有知识有料的嘉宾，聊聊投资、财富和经济世界的相关话题。希望与你一起，以知识为资本，用价值的逻辑，重新看世界。

高能量

《高能量》是由主理人李翔和李丰，以及他们的朋友共同制作的播客节目。旨在通过商业观察者的视角重新理解我们日常生活中的现象或者事物，并且在与对谈嘉宾的聊天过程中发现它们的高能之处。李翔是《详谈》丛书作者、《激流时代》主理人。李丰是峰瑞资本的创始合伙人。他们将分别从商业作家和投资人的角度带你观察一些可能之前从未涉足过的领域，或者探讨商业话题背后暗流涌动的变化与趋势。希望你能从中获得能量。 May the force be with you.

TIANYU2FM

每期对谈一个陌生行业。我们是天宇和天域，一名自由作者和一名创业者。我们是挚友，也是一起求知的伙伴。这是一档为了开拓眼界，走出自己局限而设立的播客，通过与人的对谈来试图与未知的领域和知识产生互动。主持人简介：天宇 | 大白（声调偏低）：从事中日流行文化与媒介研究（文章见于澎湃新闻私家历史、网易新闻历史频道等）天域 | 杰激（声调偏高）：服装电商公司创始人

泰度Voice

来自最前沿的声音，助你洞察先机。我们定期邀请来自华泰证券的分析师、投行专家、投资人、技术专家，与您共同探索真正的长期价值。

评论(0条)

快来抢沙发吧！

打开蜻蜓查看更多

打开APP，高品质·离线听

沪ICP备06026464号-4 网络文化经营许可证

沪网文[2014]0587-137号

信息网络传播视听许可证：0911603

©2011-2019 qingting.fm ALL Rights Reserved.

应用名称：蜻蜓FM | 开发者：上海麦克风文化传媒有限公司

版本号：9.5.0 | 应用权限 | 隐私协议