最近去一个大会做分享,会前会后接触了不少人,发现参会者里大体分成两拨。
一拨每天泡在开源社区,自己做产品、自己长方向。跟他们聊几句就能感到一种在前线的密度,观点是现场长出来的,带着热度,也有感染力。另一拨人身上是另一种气味:老板派活,交差逻辑。讲的东西是"我做了一个什么,它能干什么干什么",很标准的过去式软件叙事。AI 现在最不缺的恰恰就是"能干什么",最缺的是"能不能做好"。后一拨人讲到这里往往就没下文了。
这两拨人之间已经有了一道不小的缝隙。更大的鸿沟还在后面,回头再讲。先说最近这两天在我家里发生的事。
那句"你怎么总盯着电脑"
最近几个月工作强度比以前都大。不是坐班那种忙,是自驱的忙。agent 的边界每天都在动,探索起来很上瘾,我停不下来。出门很早,回家常常十一点多,家里的事一直在往后排。
前几天儿子突然跑来问我:你为什么总盯着电脑?
我没敷衍他,让他坐下,挑他能听懂的话讲了一下什么叫人工智能。他盯着我屏幕上那个自己在动的光标,说:电脑怎么自己在打字?我说:我跟它讲了我要什么,它就在帮我干活。
他还是有点糊涂。我说那给你现场做个东西。
那会儿他正迷上汪汪队。我打开一个 coding agent,念给它听:我要一个汪汪队威力狗的对战游戏,横屏,可以选狗对打。然后让他先回去玩别的,五分钟后再叫他。
五分钟后游戏真的跑起来了。六只狗可以选,轻拳重拳、上下蹲跳都能用。他一脸不可置信的样子玩了一会儿跟我说:哎,好像威力狗的大招没出来。我说那再改一下。又过了五分钟,大招也有了。特效很粗糙,但对他足够了。
他意犹未尽。我说:等你大一点,爸爸给你做更好的。
一个拿不到小红花的小孩
大概是这场临场做游戏让他觉得,爸爸今天终于参与了一下他的世界。他问我能不能教他认钟表——就是那种有指针的钟表(那东西对小孩其实非常不友好,这是另一个故事)。教到中间他失去了兴趣,转而问我能不能教他认字。
我有点意外。他小声说,学校里认字可以得小红花,他经常拿不到。
那种挫败感我一下就懂了。我问他为什么不跟妈妈说。他说不上来,只是闷闷地坐在那里。
那一刻我做了一个决定:把刚才那种临场做游戏的思路,放到"教他认字"这件事上。做一个他专属的认字游戏,用他喜欢的 IP,让大人能陪着玩。
先别写代码,先让 agent 去把功课做完
那天晚上回家我打开 coding agent,第一件事不是让它写代码,是让它去做背景研究。
我扔给它三个问题:
- 学龄前儿童的汉字学习,最近这几年的教育学和心理学结论是什么
- 记忆相关的学习理论,适合学龄前小孩的做法有哪些
- 汪汪队立大功这个 IP 到底怎么回事,它的叙事结构是怎样的
它花了差不多一个小时做调研。等它把总结甩回来,我才发现我原本的几个默认想错了。
学龄前的重点不是拼音。 2016 年秋天开始,部编本一年级语文的第一单元就已经从"a o e"换成了"天、地、人"——先识字,再学拼音,把拼音放回"辅助识字的工具"的位置。这背后不是一拍脑袋的决定。广东省妇幼保健院 2002 年在幼儿园大班做过对比实验,汉字班的成绩和答卷速度都优于拼音班;北师大心理学院 2011 年跟了 176 个一年级学生一整年,发现长期读带拼音材料的孩子,阅读效能感反而低于读无拼音材料的孩子。学龄前真正该抓的是象形字,让孩子从"图"进到汉字,而不是从符号进。
不要贪多。 教育部 2012 年的《3-6 岁儿童学习与发展指南》明确反对早期机械识字和强化训练。幼儿园阶段认一个字所需的时间,大概是小学同样一个字的三到四倍。方法上,三桶记忆法(简化版的 Leitner 系统,1970 年代德国科学记者 Sebastian Leitner 提出的间隔重复方法)很适合这个年龄。第一桶每天看一遍,第二桶隔三天,第三桶隔七天;新字进第一桶,答对往后走,答错退回第一桶。每天的新字控制在两三个,比一口气塞十个要稳得多。
汪汪队本身就是一套固定公式。 每一集的节奏几乎一模一样:某个居民出事 → 打电话给莱德 → 召集狗狗 → 选合适的救援犬 → 出发 → 救援过程 → 庆祝收尾。这种高度重复的结构其实非常适合做成关卡。每一关就是一次完整的"警报、出警、庆祝",节奏熟,挫败感低,小孩不会被陌生的新逻辑拦住。
这三件事搞清楚之后,我才开始跟它一起设计游戏。这一段我让它走 superpower 那个 skill 来做设计,它会频繁停下来跟我确认:"这个机制你觉得 ok 吗?"、"这一步要不要砍掉?"。来回几轮,一个能跑的框架出来了。
做素材比写代码累多了
框架是一回事,素材是另一回事。字幕、图、音效、角色配音、关卡背景,全都要。我本来想自己录音,录了几次放弃了。
我让另一个 agent 专门做素材。整条 pipeline 它自己搭起来的:
- 去 YouTube 找原版集,把音频抽出来
- 本地跑 ASR,把音频切成 2 秒一段,抽出每段台词
- 每段再用视觉模型抽帧,判断画面里是哪只狗、哪个场景
- 本地跑 TTS 生成游戏内的角色提示音
- 视觉素材用 Gemini 的 Nano Banana 生成(那时候 GPT 新的 image 模型还没出)
一开始它想让我手工告诉它每一帧是哪只狗,我认不全汪汪队里所有角色,搞不清楚。它自己改了思路:先 ASR 出文字,再靠视觉模型把画面内容跟台词对齐,自动筛。这条 pipeline 我看了一下可行,就让它跑。
第一版出来我试了下,一堆 bug,交互复杂得连我都不想碰。我让它砍掉一批功能,简化到孩子一个人能上手。第二天又跑了一版,还是很多问题。
这时候我做了一件后来看挺关键的事:让 agent 自己先做一轮端到端测试,不要等我来测。它跑完自己列了一大堆问题,顺手还要求"要不要加一个美术指导的角色来统一画面风格?"。加进去之后画面一下子整齐,素材的一致性也好很多。
整个过程一天半。到第二天晚上,像个能玩的东西了。
第一次让他们俩玩
那天晚上回家已经十一点多,我跟妻子说要不要先试一下。太晚了,没用。拖了几天。
昨天下午她突然想起来,问能不能玩。我人不在家,用 Tailscale 从她手机接进我电脑,远程把游戏启起来。
她先自己跑了一遍,回我一句:比我想的要好。这版有个我比较喜欢的设计——孩子看一个屏,家长作为"指挥官"拿手机看另一个屏,家长会收到节奏提示,知道什么时候该鼓励、什么时候该帮忙。这个分屏她很买账。
然后她带儿子玩。儿子玩完不肯走,说明天还要玩。这样正好,按理论一天认三个字就够了,再多就是贪。
那一刻她的表情
这件事最让我意外的不是儿子的反应,是我妻子的。
我之前跟她讲过很多次 AI。讲 agent、讲 coding、讲接下来会发生什么。她听我讲,但没有感觉,跟我儿子第一次听我讲人工智能其实是一种没感觉。概念落不到她在乎的那件事情上,再怎么讲都是别人的事。
这一次不一样。孩子的教育是她心里最沉的那块东西。看到一个一天半就能做出来的东西真的让儿子愿意坐下来玩,她的反应不是"很厉害",是"我能用"。
当晚她跟我讲了一句话:那我们能不能给朋友家的小孩也做一个?
我说能。
三类人,两道鸿沟
回到开头说的那个大会。会里是两拨人,会外的整个世界其实是三类人。
第一类,完全没感知。知道 AI 很火,文章刷过不少,觉得离自己远,不上手,也不觉得该上手。 第二类,上过手,做的是别人派下来的活。老板说公司要搞一个类似的东西,跟着搞一个,交差完就结束。 第三类,把它用在自己真正在乎的事情上。用的过程里能感到边界被顶开了一下,然后停不下来。
两道鸿沟里,第二道比第一道大。第一道只是"听说"和"上手"之间的距离。第二道是"交差"和"被点燃"的距离。交差的人完成一轮就下班了;被点燃的人回家还在想下一步怎么走。
过去说"用 AI"大家容易理解成一种技能:多会几个 prompt,多熟几个工具。这两年我越来越觉得这不是关键。关键是:把它放到你每天睡前都在想的那件事情上。
我妻子心里最沉的是孩子的教育,这个东西就进到了汪汪队认字游戏里。我自己做 AI Infra,心里最沉的是硬件效率和 TCO,这个东西就进到每天那些跑不完的实验里。不用多远,是你自己真的在乎的事就好。这时候它会很快告诉你它能做到什么。告诉你的方式不是几篇文章,是你自己亲手做出来了一样以前想都不敢想的东西。
以前百词斩那种产品得一个团队、一家公司做出来给所有人用。现在是一个爸爸一天半给自己儿子做一个他专属的认字游戏。这不是同一类东西,是两种不同的世界。
先找到你真正在乎的那件事。剩下的路会自己长出来。
参考资料
- 2016 秋新教材:一年级先学汉字再学拼音(新浪)
- 先识字后学拼音,小学语文教改回归教育规律(央广网)
- 新版小学一年级语文教材识字量减少,拼音学习向后排(中国新闻网)
- 汉语儿童识字的心理机制及其给教育的启示(华东师大学报)
- 3-6 岁儿童学习与发展指南(UNICEF 归档版 PDF)
- 识字越早越多孩子越聪明?脑科学专家和牛校老师谈识字(腾讯新闻)
- Leitner system — Wikipedia
- A short & sweet guide to the Leitner system(Goodnotes 博客)
- Patterns in Natural Language Data — A Paw Patrol Analysis(Udig)
- 汪汪队立大功(维基百科 中文)
