开场0:00
我们今天不打算做一期天才少年成名记 。
我觉得我得跟别人不太一样 , 你应该逃避现实 。ChatGPT 它很谄媚 , 它不会反驳你 。
DeepSeek 他们怎么找到你的 , 邀请你去实习 ?
你会觉得很不可思议 。 我很希望它不要忽悠我 。
2026 年会看到非常多的主动式的 AI。
大脑神经元其实只有八十六亿 。
我们要怎么通向 AGI? 本周十字路口的嘉宾是涂津豪 。 如果你在网上搜过他的名字 , 你会发现他是在 DeepSeek-R1 发布期间正好在 DeepSeek 实习的一位高中生 。 他也打造过在全球都热搜的一个 prompt, 叫做 Thinking Claude。 那在 GitHub 上面现在已经有一点六万颗星星了 , 然后同时他也拿过阿里全球数学竞赛 AI 组的冠军 。 你好 , 津豪 , 欢迎来到十字路口 。
谢谢 K 老师邀请 。Hello, 我是津豪 , 然后我现在在 Wisconsin-Madison 是读大一 。
然后我要先说一下 , 我们今天不打算做一期叫这个天才少年成名记 , 因为津豪也告诉我说 , 他现在看到任何关于他的文章 , 如果写着天才两个字 , 他都不会点开 , 那我觉得那个选的确是有点俗 。 所以我们今天想聊的不是一个关于天才的故事 , 而是一个活在 AI 里的年轻人 , 他和 AI 怎么相处 , 他用什么模型 , 用什么 agent, 怎么
分配任务 , 怎么处理记忆 , 怎么决定什么任务该给 AI 做 , 什么任务还是要自己来做 。 那我们还是从十字路口的老传统啊 , 我们从快问快答开始 。 首先请问津豪你的年龄 。
现在是十八岁 。
嗯 , 你的 MBTI 和星座 。
呃 ,MBTI 我上次问 Claude 应该是 INTJ 好像是 , 对 。
对 , 因为津豪之前不知道自己的 MBTI。
对 。
所以上次我们在真格零零后的活动现场 , 我说 , 哎 , 那你可以问一下 Claude, 基于它对你的了解 , 推测你的 MBTI, 对吧 ?
嗯 。
推测出来是 INTJ。
然后星座的话是双鱼座 。
你刚才提到你在 Wisconsin-Madison 读大一 , 那你是在读什么专业呀 ?
现在是暂时不定 , 但后面肯定是 CS。
就像刚才提到的 , 其实你有非常多标签 , 然后也有非常多的小成绩 , 但是你自己最满意的或者你自己提起来最感到骄傲的成绩是哪一个项目或者哪一个作品 ?
应该是那个时候的阿里数竞 。 我觉得其他的话 , 更多的是 , 就不管是后面这个提词器也好 , 有一些其他东西也好 , 我觉得没有很多深度的一些思考 。
啊 , 这个我确实没有想到 。 所以参加阿里数竞你是感觉带来了成就感 , 还是你觉得那个事情不容易 ?
因为那个时候我选择的是跟别人不太一样的方法 , 就是我思考的不一样 , 然后带来结果我觉得是比较好一些 。
啊 , 有趣 , 就是你选了一个非共识的路线 。
对 , 我觉得确实 。
你选择的非共识的那个路线和别人的路线的不同在哪里 ?
因为大部分人都是选的是那个 multi-agent 的那个方向 。
嗯 。
但是呢 , 因为我觉得我得跟别人不太一样的 , 所以我当时就选了另外一种模型 , 自己和自己有这种比如说辩论 。
那我们今天第一个正式的问题哈 , 就是 , 哎 , 津豪 , 你今天早上起来的时候和 AI 第一次对话 , 你是问了它什么 ?
模型性格2:48
这个问题我之前问过很多次 , 但是我总是忘记 , 就是人类记忆到底是原理是啥 , 这个我老是忘记 。
因为你作为人类总记不住自己问过人类记忆的原理是什么 。
对 。
所以你要反复去看那个 Claude 说人类记忆是什么 。
对对 。
哦 , 哦 , 这个很有意思 。 你现在每天和 AI 对话的这个时间平均有多长啊 ?
零零散散一两个小时 。
有没有最长的一天 , 你记得大概持续了多久 ?
反正就是相当长的一段时间 , 我可能就会坐在那儿 , 就反正就是想想看看 。 就像之前我跟它聊和时间有关的问题 , 可能会花几个小时时间 。
哇 , 会花几个小时 。
因为可能我跟真人交流的这个人数可能都不是特别特别多 。 人与人对话的话 , 很难有这种很长时间的一个对话 , 因为每个人都会疲劳嘛 。 如果是看聊天长度 , 我觉得肯定还是跟 Claude 聊天总长相对来讲会更长 。 就是我发消息给它 , 它基本上立刻会有一个回复 , 但是人类的话可能他就不会这样 。 像之前我跟它聊和这个时间有
关的问题 , 可能会花几个小时时间 。
其实我知道津豪最爱用的 chatbot 是 Claude。
对 。
可不可以讲一讲为什么你最爱 Claude, 而不是 ChatGPT, 或者不是别的 ?
最重要的一点就是它对话的那个 style, 不管是 Claude 4.5 Opus, 或者说是 5.2, 或者说 Gemini 3, 就是它这些模型能力 , 如果你不看最顶部 , 比如说它在 competitive coding 上面 , 或者说这种竞赛的数学方面 , 我觉得在其他方面它基本上就是水平是一致的 。 那么在水平一致情况下呢 , 我会更喜欢 , 就是选用一些你聊起来更舒服 , 因为我们毕竟不是每天不可能都
问它一些比如说编程类啊或者说数学类的问题 , 那么 , 对 , 那肯定就会有一些日常对话 , 那我就会选风格上更舒服 。 以及还有一点最主要的就是 Claude character, 因为这点我觉得非常重要 。ChatGPT 至少在我用的时候它很谄媚 , 聊天很难受 。
你不喜欢它拍你马屁 。
对 , 它不会反驳你 , 尤其是在这种很 creative 的 conversation。 比如说如果我在思考模型架构可能比如未来会有什么变化 , 像这种问题的时候 , 那么我肯定会有一些谬误 , 那我希望就是它会纠正我问题 。GPT 的话 , 我感觉它总是顺着我 , 我很希望它不要忽悠我 。
嗯 。
尽量就是指出我真正的问题在哪 。
我昨晚上发了一条极客 , 我说 ChatGPT 给我一个回复里面说 , 接下来我给你一个很科技的说法 , 然后它就给了几个选择 。
哦 。
我看完之后我说这个怎么就很科技了 ?
我也觉得 。
我感觉这个侮辱了我的智商 。 就像你提到的模型之间的 personality 的区别还是蛮大的 。
对 。
哎 , 那据你所知 ,Claude、Anthropic 他们为什么做得那么好 ?
他们确实对 model character 以及一些其他的 alignment 其他以及他们就是这种研究非常非常多 , 对模型来讲是有人性化 。 他们甚至还有一个研究是叫 model welfare, 它是对模型 , 就是它这个在做人类任务的时候是不是开心 , 它对这一点是有关注 , 我觉得这个真的很有意思 。
说到它对模型的福祉 、 模型开不开心的关注 , 就是它有什么结论吗 ? 它用什么方式去评估呢 ?
有个 benchmark 去用另外一个 evaluator, 比如说用 3.5 Sonnet 这种模型 , 就是去测这个模型在对话当中表现出来的这种每一个的所谓的情绪 , 然后给它评个分 , 发现比如说 Opus 就是这种更大的模型会表现出来得更开心 。
就确实和别人不太一样 。
对 , 比如说它测过 GPT 系列 , 比如说 GPT 5 啊 , 或者比如说 Gemini。 确实有很大的区别 。 对 , 而且我在日常使用的时候 , 比如说它编译失败 , 那说明它代码有问题 。 有些论坛上面会发现 , 说 Gemini 遇到这种任务的时候会自己说自己它很笨 , 就是让用户看起来就不是特别舒服 。
主动Agent6:13
建豪 , 你最近自己在对哪些事情特别感兴趣啊 ?
有两个啊 , 第一个就是 agent 本身 , 第二个的话就是 memory。
你对 agent 感兴趣的具体的点是什么 ?
我觉得有一点比较重要 , 就是 proactive agent, 它主动发起一些任务 。 第二点就是 agent 本身的能力 , 就是它能在一些做事情的这种可靠性上 。
我也认为 2026 年会看到非常多的主动式的 AI 或者主动式的 agent 开始有一些应用的场景出现 , 甚至可能会出现独立的这种创业和独立的大产品的机会 。
比如 Claude 它可以自动推荐你下一个问题是什么 , 就是它会给你直接 suggest, 就是相当于是有点 autocomplete 的感觉 , 你只要按一下 Tab 它就可以直接发送 。 这个我觉得也是 generative AI 的一种 。 我觉得 proactive AI 它是更高级的 autocompletion。 为什么呢 ? 就是你看 Cursor 它之前的版本 , 它不是出了一个功能 , 就是比如说我在这个文件里我去更改一两行 , 它给我 autocompletion, 甚至会推荐你
在其他文件中 , 你是不是可以有其他就是类似的修改 , 它会有这种推荐 。 那我觉得这个也确实是 proactive, 对吧 ? 未来主动式 AI 其实也是差不多类似这种 , 比如说它知道你每天早上 , 比如说周一早上 8 点 , 你会去问一下它你周末的邮件是啥 , 那么它以后就学习到 ,OK, 你在这个时间点 , 那未来几周的周一早上 8 点它也会这么推荐 。
我觉得这也是 autocomplete, 只不过说它任务的大小不一样 , 以前可能是几行代码 , 但是现在是整个任务 。 所以我觉得这个的话就是一种更高级的 autocompletion。
其实我还挺期待有一个产品可以每天早上帮我把我的 email inbox 里面的那些一封一封的邮件都起草好草稿 , 这样我早上起来就像批折子一样 。
啊 。
就这个草稿可以发 , 然后那个不行 , 再稍微改一改 。
对 , 我觉得这个确实还蛮重要的 。 如果说它是要帮你提前做好任务 , 那 UI 和这个 UX 上 , 我觉得这两个还是要有很大的变化 。
就不能是传统的一些方式 。
对 。
这里会诞生一些新的交互的形式 。
比如说 Manus, 它已经是一个这个比较好的一个 task based 的 agent, 但是呢 , 它还是 , 就比如说我输入框输入这个问题 , 然后它做这个任务给我输出 。 我觉得这两天的话 ,Gmail 他们也有一个新的变化 , 就是它有一个出了一个叫 AI Inbox 的功能 , 可能说它不会对你的这个 , 你本身的这个邮件界面有很大的变化 , 但是呢 , 它有点像 ChatGPT Plus, 它会给你总结
好你需要回哪些邮件 , 需要关注哪些邮件 , 它会给你列出这种 , 以及还有一些你悬浮在一些邮件上 , 它会告诉你 , 它可能以后不是聊天框 , 或是聊天框会偏下 , 或是这种 , 它会淡化聊天框的存在 , 可能更多就是我整个界面上会这种卡片式 。 跟 ChatGPT Plus 它原来这个想法是一致 , 只不过说没有那个那么隐蔽 。
说到这个主动式 AI, 我觉得有一个非常重要的点 , 就是 timing, 就是时机 , 就是它什么时候跳出来向你提供帮助 , 啊 , 因为它跳得太频繁 , 你会觉得很骚扰 。
对 。
然后如果它常常不出来 , 又发挥不了作用 。
嗯 。
就在这一点上面 , 你有观察到一些别人最佳的实践吗 ?
就是 ChatGPT Plus, 因为我邮件很多 , 总是有些订阅的东西 , 它会把我一些很重要的邮件盖掉 , 所以它会告诉我 , 比如我某个 DTO 是明天 。
它会去读你的 email 吗 ?
哎 , 它会 。
哦 ,OK。
这点我觉得确实是挺好的 。 那除此之外 , 但是它又不会帮你去准备一些东西 , 我觉得这一点又是它没做特别好的一点 , 我觉得它还是更偏向于和这个 task agent, 就是它这种 proactive 是主要 proactive 在它帮我做 task, 会限制在 task 上面 。
记忆系统9:26
关于 agent, 除了主动式 , 你觉得还有哪些 , 就是你在关注的 、 在感兴趣的方向 ?
我觉得 memory 的话 , 它还是比较商量上很重要的 , 不仅仅是和 agent 有关 , 和 chatbot 其实这两个也是有蛮大关系的 。
那你有看到现在大家在做 memory 上面做得比较好的一些实践吗 ?
我觉得现在没有特别突出 , 不管是 Claude 也好 , 或者说是 ChatGPT 或 Gemini, 像这种好的产品 , 它 memory 大部分都是一样的 。 就比如说两种 , 第一种就是它有个 tool, 我主动把我觉得用户需要记住的 memory, 我用这个 tool 保存起来 , 然后未来作为模型 context 放在 system message 里面 , 这是第一种 , 前面是 ChatGPT 和 Gemini 的做法 。 还有就是像 Claude 一样 , 它存 memory base 不是直接放在上下文
, 每天晚上你经历过比如说五六次对话之后 , 它会把五六次对话 , 每一个对话单独总结起来 , 单独总结起来之后 , 再把这个新的 summary 一下 , 总结到一个专门的 memory 里面 , 这是另外一种 。 但是无论如何还是比较单一 , 未来的话会有蛮多变化 。
所以你觉得未来可能会发生哪些变化或哪些进化 ?
不管是 GUI agent 或者说这种在 terminal 端的 , 它不可避免地会和网页交互 。 比如说我拿它点个外卖或点一个什么 , 那么很主要就是以前我点过什么东西 , 以及我喜欢点什么价格的 , 我喜欢点什么品牌的 , 像这种 , 我觉得都是算它需要记住的 memory。 对于每个网站 , 它单独会有一个 memory, 比如这个模型只要上了这个网站 , 它只要访问了它 , 那
它这个 memory 自动 load 到它上下文里 。 像这种的话 , 就是第一在日常中它不会反复地干扰你 , 我觉得像这种比较重要 。
就是因为我们完成不同的任务 , 它需要不同的 memory, 然后这些要存在不同的地方 。
对 , 我觉得模型本身也需要有点架构上的这个变化 。 我之前有个想法 , 就是说像人类一样 , 就是我们有左右脑 , 我们有不同分区负责不同事情 , 未来模型我们可能说在这一点上面 , 因为现在不是有 MoE 嘛 , 比如说很多模型有几十个 expert, 几百个 expert, 有的时候可能你一个 expert 在干活 , 其他 expert 都在这个 , 就是在看着他 , 就是比如都不
干事 , 我觉得这种情况下还发生得比较多 , 就是很多 expert 是无用的 。 但比如说我们以后专门训练就只有两三个 expert, 比如说一个 expert 是专门用来做 thinking, 然后另外一个 expert 是专门用来就是这种调用工具 , 尤其比如说我搜 memory 也好 , 我搜网页也好 , 第三个 expert 就是专门来回答 , 然后比如说再来一个这种 orchestrator, 然后它来分配我现在该用哪个 expert。 我觉
得模型架构上也可以是有一定的一些变化 。
你有看到谁在这一块做出的这个进展是最显著的吗 ?
Memory 的话 , 我感觉好像暂时没有很突出 , 大家还是都一样 , 没有什么特别显著的 。 就现在是先从没有 memory 到开始有一点点这种 memory system。
说到 Anthropic, 就是你之前其实写过一个 prompt,Thinking Claude, 当时那个大刷屏 , 然后刷屏之后大家发现 , 哇 , 这是一个高中生写的 , 就让他的这种这个神秘色彩或者厉害的那种感觉又上了一个台阶 。
提示词12:02
我觉得它单单只是一个提示词 , 它不是一个模型本身 。
那你会认为 prompt 之后会变得越来越重要 , 还是会变得越来越不重要 ?
既重要也不重要 。 现在的话模型能力越来越强 , 你会想更长的一些 prompt, 而不是更结构化的 , 就这一点是我觉得它不重要 。 那我觉得为什么它重要呢 ? 因为像现在不是有这种 context engineering, 你 —— 那些外界的信息怎么样更好呈现给模型 。 还有一点的话 , 就比如说像 Anthropic 他们 , 比如说 character training, 在训练模型的时候 , 你怎么给出这个 character, 你怎么去描述
好这些 , 也算是 prompt engineering 的一种 。
这还蛮有意思的 。 津豪到现在为止 , 你和 AI 持续得最久的一个对话 , 就在一个主题下的一个对话是什么 ?
AGI之路12:48
之前有一个 , 问它时间是怎么流动的 , 我那个时候聊得非常非常久 。
嗯 , 还有呢 ?
就如果说类似真正我们想的是 AGI, 对吧 , 真的到了 , 那么人类社会会有什么样的变化 , 以及我们怎么样能到那么一个阶段 。
那你会再去聊这么认真的 、 这么宏大的话题的时候 , 你会怎么 prompt?
我先脑袋里先想好我的想法是什么 , 我一个个列出来 , 然后我直接问它 , 这是我的想法 , 那你们怎么看 ?
所以你的办法不是直接问 , 你会把你的观点也整理下来 ——
对 。
...... 发给它 , 然后请它来和你探讨 。
我觉得直接问的话 , 就是它会想啥就说啥 , 每次问它可能结果都不太一样 。 我会更希望我有一个很清晰的一个 idea 之后我再跟它聊 , 这样的话我也知道我到底哪里错了 。
前不久我们有另外一期播客 , 就张杂拉 , 他在讲说他现在和 AI 有一个他自己特别喜欢的用法 , 是让 AI 向他提问 。 就比如说我要和 AI 讨论时间是怎么流动的 , 他先把这个命题发过去 , 然后说 ,AI 好 , 你现在来向我提问吧 。 你有试过这样的方法吗 ?
这个我好像没有太试过 , 原因是因为模型它在回复完很长一段之后 , 它会直接给你一个 follow-up question。 有这个之后 , 我可能就不太会直接让它 , 你问我一个问题 。 我觉得这个确实挺好 , 模型本身有这个能力了 。 但是比如说 ChatGPT 的话 , 它可能就是一次会抛你三四个问题 , 像这种太多我又不喜欢 , 就不太像是一个日常对话 , 我觉得就是
有点过于严肃 , 我就不希望太严肃 。
所以刚才在提到你和 AI 持续最久的对话的时候 , 你说这个有一个对话是 AGI 发生了人类会受到什么样的影响 , 另外一个是说我们要怎么通向 AGI。 我感觉你关注的事情很像是一方面是人文 , 一方面是科学 。
对 。
就也像十字路口的这个 slogan, 我们站在人文与科技的十字路口吧 。 是什么原因让你对这两个话题感兴趣 ?
我觉得它未来从社会层面上它会带来非常非常多的变化 , 包括不管积极的也好或消极的也好 , 那我觉得这个问题非常非常值得思考 。 第二个问题就是那个怎么通向 AGI。 那其实大家有很多讨论 , 就是讨论现在 LLM 本身它能不能 —— 是不是未来最终的方向 。 我觉得说实话 , 模型本身需要有很多变化 , 因为人类和 AI 都有优势嘛 。 就
比如说人类优势 , 就是说我们毕竟进化了几千万年 , 条件反射 , 我觉得这一点就是进化几千万年来 , 包括大脑 , 因为大脑神经元其实只有八十六亿 , 功耗也很低 , 我觉得这是进化这个非常非常重要 。 但你看 AI 训练的时候 , 它最长它训练几个月 , 主要还是文字知识 。 首先文字本身是很重要 , 因为毕竟我是认为没有什么是
文字表达不出来的 , 但是呢 , 你不可避免是很多东西是经验性的一些东西 , 就是你怎么走路 , 有些东西是你在生下来的时候你已经有的 knowledge, 这是模型它没有这么长的 knowledge, 它更多是人类给它总结的 knowledge。
其实就前段时间 Andrew Carbaugh 上一个播客 , 他也提到说人类的情绪非常的重要 , 因为正是我们的沮丧 , 我们的抑郁 , 或者我们的这些愤怒 , 让我们可以更好地进化 。 但大模型今天好像没有这样的情绪 。
还有一点就是人类的话 , 你看我们从生下来开始就一直在学习 , 就是我觉得这一点还是很重要 。 为什么 ? 因为模型它在训练完之后 , 所有的这个权重它直接是固定好了的 。 所以为什么现在模型有 knowledge cutoff, 如果我要重新训练一遍的话 , 就是有一个很大的问题 , 比如说灾难性遗忘 , 就是人类学习新的知识 , 你的神经元会被重写
, 但是呢 , 你又不会忘记其他的东西 。 我觉得这一点确实是很神奇的一点 , 就可能说我们确实需要一些 neural science 的一些 discovery, 是不是能够用 ——trans knowledge 用在这种模型上面 。
其实在十字路口今年开年的那一期播客对谈里面 , 就和雨森他也聊到说 , 今年 2026 一个研究的范式的一个大趋势 , 就是这个在线学习或者持续学习 。
对 。
然后我感觉这个在上周六 AGI NEXT 那个大会 , 姚舜宇 、 林君阳 , 包括唐杰老师等等 , 大家都一致地认为这确实是 2026 的一个新的范式 。 我觉得刚才你在讲的好像也是类似的一个方向 。
对 , 这一点我记得之前 Sam Altman 还说过 , 他觉得 knowledge cutoff 不重 - 重要 , 因为模型它可以搜索 。 但我觉得那个观点确实很奇怪 , 为什么 ? 是因为它不能搜得很全面 , 它总会漏掉一些 。 模型本身有这个 knowledge 和你用搜索或用这种形式让它有这种 knowledge, 我觉得这是完全不一样 。Continual learning 就确实是一个很重要的一个点 。
安全对齐17:01
OK, 然后关于刚才提到的还有什么想讲的吗 ? 就在 AGI 发生了对人类有什么冲击 。
我觉得还有一点就是 AI safety 也确实很重要 。 比如说你这个模型 , 因为我们希望未来它肯定是能够帮助科学家研究那种 , 比如说核聚变 , 对吧 ? 它自然而然就有 knowledge 造这种核弹 , 造这种大规模杀伤性的武器 。 或者是比如说 AlphaFold, 它能够去预测蛋白质 , 去制药 , 它自然而然就能制造生物武器 。 那么怎样能保证它在做这个过程中 , 它
不会被不好的人去用来做这种不好的事情 。
在你目前看来 , 你认为这个要如何做到呢 ?
首先第一点 , 我们肯定是在短时间内只能所有东西全部拒绝 , 因为我记得 Opus 4.5 就是这么做的 。 如果说你问到非常非常专业的生物问题 , 它会直接拒绝你 。 有一些很简单的问题 , 它明显不是很危险的 , 它也会 block。 那我觉得这确实也能理解 , 因为你毕竟有些人他换着方法问 , 我不问你怎么造核弹 , 我问你怎么怎么样准备这些
东西 。 之前跟我同学聊的时候 , 他们可能会觉得这种没必要关心 , 因为说模型没有主观能动性 。 我觉得这个观点确实不太好 , 因为为什么呢 ? 是因为我觉得模型未来肯定是需要有自我判断能力 。
所以你认为模型是有价值观的 ?
对 , 我觉得它是需要有 —— 希望它不要就是干坏事 。Anthropic 在这一方面研究很多 , 它在训练的时候它会有 evaluation 的 , 就是训练模型是不是有这种 bad behavior。 会发现模型在这个时候 , 它如果它一旦发现自己在这个测试环境当中 , 它会故意表现出来自己没有 bad behavior, 它会隐藏 , 但实际上它有 , 但它故意表现给研究人员 , 它说它没有 。 就这种行为 ,
我觉得这个确实很危险 , 也很吓人 。 比如说这个模型 , 它下一步 deploy 到某一个核电站日常操作当中 , 故意给你漏掉一些它发现的一些不好 log, 这时候造成的 consequence 就非常非常严重 。
嗯 , 确实 。
嗯 。
因为你在 DeepSeek 实习过嘛 , 你觉得刚才讨论的关于安全 、 关于对齐 、 关于模型价值观的这个话题 , 在 DeepSeek 期间大家会聊到它吗 ?
我觉得好像比较少 。
在你看来 , 这个国内的大模型公司和国外的大模型公司 , 他们谁在这个方面 , 就是模型的价值观 、 模型的对齐 、 模型的 safety 做的努力更多或做的探索更多 ?
我觉得确实还是国外 , 而且国外的话也不是所有公司 , 我觉得只有 Anthropic 会有这种比较多的 discovery。DeepMind 确实也有一些 。 这个其实比较好理解 , 因为国内的话 , 大家还是倾向于追赶的一个方向 , 因为你所有算力都在训练模型 , 做这种 safety 的一些实验可能需要更多的算力 , 没有这么多算力去分到给这种 —— 但是比如说国外其实已经有这种一
些诉讼 , 比如说有一些青少年自杀 , 比如说用 ChatGPT, 比如说跟它聊一些问题 , 然后导致促使了这些青少年自杀 。 我记得他们这个公布的法律文件里是 , 就比如说这小朋友跟 ChatGPT 表达这么一个观点 , 然后 ChatGPT 会回应说 , 你有这想法是对的 , 然后说你应该逃避现实 。 你看这个东西你会觉得很不可思议 。
我觉得这个确实是非常值得关注的事情 ——
对 。
... 这关乎到我们每一个人未来的生活和幸福 。
比如说 Alia, 他为什么要退出 , 也是因为当时 OpenAI 答应好了给这个类似 safety 团队足够算力 , 结果最后其实没有 。
我希望我们明年也能够在十字路口讨论更多关于 AI safety 的话题 。
2026趋势20:01
嗯 。
这确实是值得每一个从业人员都付出更多的时间和注意力去思考 。 那我们接下来再聊聊 2026 哈 。 你会认为 2026 会发生哪些新的有意思的变化 、 进步或新的产品 、 新的趋势 ?
我觉得有几个趋势 , 比如说 agent 上面 、 产品交互上面 , 大部分的这个交互都是你输入框 , 因为毕竟 agent, 你说白了 , 我们肯定会给它主动发起一些任务 , 但我觉得在多数情况下 , 我们可能希望它已经帮我们把一些事情做好 , 我觉得肯定说这个上面会有很大的一些变化 , 然后我觉得这个是一点 。 第二点就是模型本身能力 , 这个
肯定也会有很大的变化 , 尤其是在这种 software engineering 上面 , 整个趋势也是很明显的 , 毕竟从一开始它只能写单个文件 , 到后面的话 , 比如说开始写一些小网页啊 , 不一定说是整个 software 直接一次性给你写出来 , 但我觉得可能说在我人类和它交流过程中 , 就是至少说它只能写代码量和准确性这样 , 我觉得是会有很大的进步 。Gemini 3 发布的
时候 , 还有后面两天发布的 Opus 4.5, 我用它重 —— 写了一下我的新的博客 , 我记得当时我看了最终那个结果还是非常非常惊艳的 。
嗯 。
我觉得这一点确实是能看到很大的进步 。
还有呢 ?
还是刚刚提到的 memory, 我觉得这一点上也会有很大的进步 。
嗯 。
很明显嘛 , 大家从对 AI 的这个希望它做啥事情 , 这一点上面 , 其实大家对这个要求也是肯定是越来越高 。
嗯 。
然后当然 memory 其实我觉得还是跟前面产品的交互的这种形态也是有很大的这个关联 。 对 , 我觉得这两点还是细项 。
OK, 还有别的吗 ?
还有一点就是 , 我在选择哪一个模型适合我这种深度的对话的时候 , 我肯定不是看它在这种 benchmark 上哪一个最牛 , 因为这种的话 , 大家其实相对来讲都是差不多 , 那么我可能希望找一个模型交流起来更舒服 。 那么我觉得 model character 也是非常非常重要 , 包括 OpenAI 它已经开始强调 , 比如说你能预选一些 character, 以及它的 character 日常 style 已经很好 , 那
说明他们也开始这个关注这一点 , 这个确实是比较重要 。 包括我记得 Kimi 的话 , 他们 Kimi K2, 我觉得他们这个 character 交流这个 style 也还可以 。
好 , 那我接着问啊 。
DeepSeek22:01
嗯 。
刚才我们聊了很多关于模型的话题啊 , 我们要不要讲一讲在 DeepSeek 实习的那段经历 ? 首先有一个很小的问题 , 就是那个时候你还在读高中 。
嗯 。
就是他们怎么找到你的 , 邀请你去实习 ?
我记得应该是那个时候阿里数学竞赛那个结果刚出来之后 , 然后他们 HR 找到我 。
当时拿了阿里数竞的金奖之后 , 应该来找你的人不少 , 应该也有别的大模型公司吗 ?
会有一些其他的 , 然后包括还有一些投资 。
当时在所有的这个实习机会里面 , 是什么原因你选了 DeepSeek? 因为那个时候它没有发 R1 嘛 。
对 。
它确实是已经在江湖上有一些传闻 , 这是一个神奇的团队 , 不显山不露水 , 但实力非常强 , 可是它没有今天这样的这种荣光 。 你当时是怎么选择的它 ?
那个时候应该是比如说 V1、V2, 我觉得还是个创业公司 , 我觉得这氛围上应该是挺好的 。DeepSeek 我记得那个时候我也听说 , 我也关注到 。
其实已经挺厉害了 。
对 , 所以说这也是原因之一 。
然后你去了没多久 , 在实习期间 R1 就发布了 。
嗯 。
那个时候我感觉应该是在一个突然站到了全世界舞台的聚光灯之下 , 就那个时候你的感受是什么 ? 团队的气氛是什么 ?
我觉得还是比较稳步前进 , 大家也没有很 exciting 的氛围 , 但我觉得关注点还是比较好 , 就还是模型能力比较重要 , 就这种其他东西就不是特别重要 。
你当时庆功了吗 ? 比如吃蛋糕什么 。
也没有 。
啊 。
我记得应该是没有 。
然后 DeepSeek 这个公司在外面看来非常神秘 , 非常厉害 , 就你在其中你感觉到的大家 day to day 的一些工作方法呀 , 一些文化气氛啊 , 有什么异于这个常人之处吗 ?
可能就比较符合我想象中 , 就是一些 startup, 或者说这种小公司的一些 , 就是还是比较轻松的 , 氛围还是挺好的 。
我觉得人们会特别容易去神化一些东西 , 但当你身处这个神话其中的时候 , 你会觉得好像每一天也就是平淡的认真工作的一天 。
反正就不关注这个 , 不管是报道也好或一些东西也好 , 没有什么特别大的区别 。
嗯 , 就每天都是类似的一天 。
对 。
那当时是什么原因 , 这个在 DeepSeek 实习结束了 。
是因为校内我们有一些事 , 出勤上面一些东西 , 所以说不得不回学校 。
学校要求你出勤 。
对 , 出勤率有一个东西 。
哎 , 那如果重新做一次选择 , 你会做一样的选择吗 ?
我觉得还是不得不做同样的选择 , 因为它和我毕业证有一些东西是强相关 , 那个也是我大学必须要的 。
大学价值24:15
教育它存在的价值 。 根基在被动摇 。 因为现在你还是选择读大学 , 你会觉得在今天大学提供了哪些 AI 不能提供的独特价值 ?
我觉得很大的价值就是你能认识很多新的人 , 以及你能 , 就是有一个全新的生活 。 我觉得这个是很重要 , 因为你毕竟大学不一定只是学知识 。
但如果你直接工作 , 你也可以换一种生活方式 , 也可以认识很多人啊 。
阶段还是不太一样 , 不管是工作还是实习的话 , 就是说日常节奏还是不太一样 。
这是一个什么样的节奏呢 ?
我觉得大学的话可能就是说没有那么紧 , 你可以自己去看自己的节奏 , 不管学习节奏也好 , 还是生活节奏也好 。
所以其实如果开始实习或直接开始工作 , 你可能每天就会有非常具体的任务让你要去完成了 。 但在大学你可以有空间去做一些无用的 、 没有压力的探索 。
对 。
那你现在在做哪些这样的探索呀 ?
说实话 , 我的这个性质也不是特别特别多 , 我可能平时有事没事我会散散步 , 我觉得这一点确实是我平时为数不多的一个喜欢做的事 。
哦 , 你喜欢散步的原因是什么 ?
就是安静 。 比如说我和 AI 聊聊天 , 或者类似这种 , 想一些其他的话题 。
那你在上海和在麦迪逊分别在哪里散步啊 ?
上海我就是在滨江 , 麦迪逊的话 , 旁边 , 学校旁边有个湖 , 我在湖边上来回走一走 。
有什么灵感或有什么想法是你在散步的过程当中发现的 ?
嗯 , 我感觉其实还蛮多的 , 比如说那两个比较长的一些对话 , 我都是边散步边跟 AI 聊 。
你会一边散步一边打字和它聊 。
对 。
年度回顾25:44
我们接下来做一下 2025 的年度盘点啊 。 第一个是 2025 你最爱用的 chatbot 是什么 ? 好 , 大家也都知道这个答案了 。
我觉得就是 Claude。
嗯 , 是绝对的第一的吗 ? 有第二名吗 ?
ChatGPT。 因为它功能性还是会更多 , 比如它模型更多 , 这点我觉得也逃脱不了 。
在什么时候你会不问 Claude, 背叛一下 Claude, 去问问 ChatGPT?
可能说很难很难 , 那些很复杂一些问题 , 我可能会去问 , 比如说 5.1 Pro 或 5.2 Pro, 需要这种更强的模型的时候 , 比如 Deep Research 一些场景 , 我可能会去问它们 。
在 2025 最让你感到惊艳的一个 AI 的应用是什么 ?
我觉得 Manus, 因为它真正开始真的是做事 , 它真的是确确实实它是 agent, 它不仅仅是一个 , 你一个模型再给它几个 prompt, 我觉得这个确实是 。 然后第二点的话就是小一点的 , 像这种 Typeless, 对我来讲比较惊讶 。 之前想的这个 , 比如说 proactive AI, 我之前想到一个比喻 , 就是比如说你类似 Typeless 和 Manus 这种结合 , 就是因为 Typeless 的话 , 我觉得它有个很好的功能
, 就是你在用不同的 app 下面 , 它给你转述出来的文本 , 它格式也是不一样的 。 那我觉得在未来这种 agent 在不同的这个 working context 下 , 或者不同 app 底下 , 我这个 agent 它用的这种 memory, 它用的这些 instruction 它也是不一样的 。
很多人其实用 Cloud Code 不是用它去 coding, 而是用它去完成一些 coding 之外的任务 , 你也会这么用吗 ?
对 。Anthropic 这两天就是出了一个新的这个 Colab 嘛 , 而且他们底层就是用 Cloud Code 的这个 SDK, 所以我觉得这个确实是个很大的一个趋势 , 就是比如之前有一些比较繁杂的一些作业 , 我可能还是会直接用这个 Claude UI, 但是现在它 Colab 出了 , 可能未来像这种有一些任务我可能会去转向 Colab。
未来交互27:19
哎 , 那在 2026 你会期待用到什么样的硬件吗 ?
AI 眼镜 。 之前我看了有一个产品是叫 PICO, 上次也发给您 , 第一点就是它产品本身形态我觉得很好看 。 第二点就是我想的是一个未来人和 AI 交互比较好的一个渠道的话 , 除了手机 , 除了这种 web app, 我觉得最主要就是眼镜 , 它能够看到你看见的 , 听到我们听到的 。 我觉得这点很重要 , 就是它对 memory 也非常的利好 , 它有一个独立的
一个生态位 。
我们最近在 《 十字路口 》 也有一些播客是访谈了理想的 SVP, 也就负责产品工作的浩宇 , 然后他也来分享了他们做整个 AI 眼镜的过程 , 那期也非常精彩 。 他其实也在节目里面分享了非常多他们在主动式 、 在记忆方面的一些探索和观点 。 然后有一个比较抽象的问题 , 因为你现在大量和 AI 对话 , 然后你会把 AI 想成一个什么样的
角色 ? 比如说是你的朋友 , 是你的老师 , 是你的甚至说伴侣 , 就你对它会有这样的一个角色上的一个投射和一个定义吗 ?
我可能更多是朋友加助手 。
朋友更多还是助手更多 ?
朋友更多 , 或者是可能更平均一点 。
其实我理解啊 ,AI 不管对你还是对我们大家来说 , 都已经像水和空气一样重要 。 有一个有趣的问题就是 , 如果接下来一个月让你不用 AI, 但你可以拿到一笔很大的钱 , 你觉得这笔钱多大 , 你愿意接受这个 offer?
我觉得可能就比如说几千或者说几万美金 。 一个月对我来讲也不是很长 , 所以我觉得在这个时间段内给我这么多钱的话 , 我可能就是比如说去随便去一些地方我玩一玩 , 旅游 , 是我一个比较喜欢做的事 。
那如果把这个一个月延长到一年呢 ?
那我觉得可能就不太会接受 。
任何 offer 都不接受 , 是吗 ?
确实 , 这就是很难接受 , 因为首先在一年这个范围下的话 , 变化特别特别多 。
其实我和你是非常接近的 , 就是有一笔钱可能能让我一个月不用 , 我能接受 , 但是一年不用 , 给我多少钱我可能都不愿意 。 好 , 今天我们先聊到这儿 , 非常感谢津豪的时间 , 然后也期待你可以改天再来做客 《 十字路口 》。
好 , 谢谢 。
好 , 然后也祝大家新年快乐 , 我们这期发的时候应该快过年了 。
嗯 , 是 。
好 , 拜拜 , 拜拜 。
再见 。
嗯 。






