用 AI 花了一天半给儿子做个识字游戏

最近去一个大会做分享，会前会后接触了不少人，发现参会者里大体分成两拨。

一拨每天泡在开源社区，自己做产品、自己长方向。跟他们聊几句就能感到一种在前线的密度，观点是现场长出来的，带着热度，也有感染力。另一拨人身上是另一种气味：老板派活，交差逻辑。讲的东西是"我做了一个什么，它能干什么干什么"，很标准的过去式软件叙事。AI 现在最不缺的恰恰就是"能干什么"，最缺的是"能不能做好"。后一拨人讲到这里往往就没下文了。

这两拨人之间已经有了一道不小的缝隙。更大的鸿沟还在后面，回头再讲。先说最近这两天在我家里发生的事。

那句"你怎么总盯着电脑"

最近几个月工作强度比以前都大。不是坐班那种忙，是自驱的忙。agent 的边界每天都在动，探索起来很上瘾，我停不下来。出门很早，回家常常十一点多，家里的事一直在往后排。

前几天儿子突然跑来问我：你为什么总盯着电脑？

我没敷衍他，让他坐下，挑他能听懂的话讲了一下什么叫人工智能。他盯着我屏幕上那个自己在动的光标，说：电脑怎么自己在打字？我说：我跟它讲了我要什么，它就在帮我干活。

他还是有点糊涂。我说那给你现场做个东西。

那会儿他正迷上汪汪队。我打开一个 coding agent，念给它听：我要一个汪汪队威力狗的对战游戏，横屏，可以选狗对打。然后让他先回去玩别的，五分钟后再叫他。

五分钟后游戏真的跑起来了。六只狗可以选，轻拳重拳、上下蹲跳都能用。他一脸不可置信的样子玩了一会儿跟我说：哎，好像威力狗的大招没出来。我说那再改一下。又过了五分钟，大招也有了。特效很粗糙，但对他足够了。

他意犹未尽。我说：等你大一点，爸爸给你做更好的。

一个拿不到小红花的小孩

大概是这场临场做游戏让他觉得，爸爸今天终于参与了一下他的世界。他问我能不能教他认钟表——就是那种有指针的钟表（那东西对小孩其实非常不友好，这是另一个故事）。教到中间他失去了兴趣，转而问我能不能教他认字。

我有点意外。他小声说，学校里认字可以得小红花，他经常拿不到。

那种挫败感我一下就懂了。我问他为什么不跟妈妈说。他说不上来，只是闷闷地坐在那里。

那一刻我做了一个决定：把刚才那种临场做游戏的思路，放到"教他认字"这件事上。做一个他专属的认字游戏，用他喜欢的 IP，让大人能陪着玩。

先别写代码，先让 agent 去把功课做完

那天晚上回家我打开 coding agent，第一件事不是让它写代码，是让它去做背景研究。

我扔给它三个问题：

学龄前儿童的汉字学习，最近这几年的教育学和心理学结论是什么
记忆相关的学习理论，适合学龄前小孩的做法有哪些
汪汪队立大功这个 IP 到底怎么回事，它的叙事结构是怎样的

它花了差不多一个小时做调研。等它把总结甩回来，我才发现我原本的几个默认想错了。

学龄前的重点不是拼音。 2016 年秋天开始，部编本一年级语文的第一单元就已经从"a o e"换成了"天、地、人"——先识字，再学拼音，把拼音放回"辅助识字的工具"的位置。这背后不是一拍脑袋的决定。广东省妇幼保健院 2002 年在幼儿园大班做过对比实验，汉字班的成绩和答卷速度都优于拼音班；北师大心理学院 2011 年跟了 176 个一年级学生一整年，发现长期读带拼音材料的孩子，阅读效能感反而低于读无拼音材料的孩子。学龄前真正该抓的是象形字，让孩子从"图"进到汉字，而不是从符号进。

不要贪多。 教育部 2012 年的《3-6 岁儿童学习与发展指南》明确反对早期机械识字和强化训练。幼儿园阶段认一个字所需的时间，大概是小学同样一个字的三到四倍。方法上，三桶记忆法（简化版的 Leitner 系统，1970 年代德国科学记者 Sebastian Leitner 提出的间隔重复方法）很适合这个年龄。第一桶每天看一遍，第二桶隔三天，第三桶隔七天；新字进第一桶，答对往后走，答错退回第一桶。每天的新字控制在两三个，比一口气塞十个要稳得多。

汪汪队本身就是一套固定公式。 每一集的节奏几乎一模一样：某个居民出事 → 打电话给莱德 → 召集狗狗 → 选合适的救援犬 → 出发 → 救援过程 → 庆祝收尾。这种高度重复的结构其实非常适合做成关卡。每一关就是一次完整的"警报、出警、庆祝"，节奏熟，挫败感低，小孩不会被陌生的新逻辑拦住。

这三件事搞清楚之后，我才开始跟它一起设计游戏。这一段我让它走 superpower 那个 skill 来做设计，它会频繁停下来跟我确认："这个机制你觉得 ok 吗？"、"这一步要不要砍掉？"。来回几轮，一个能跑的框架出来了。

做素材比写代码累多了

框架是一回事，素材是另一回事。字幕、图、音效、角色配音、关卡背景，全都要。我本来想自己录音，录了几次放弃了。

我让另一个 agent 专门做素材。整条 pipeline 它自己搭起来的：

去 YouTube 找原版集，把音频抽出来
本地跑 ASR，把音频切成 2 秒一段，抽出每段台词
每段再用视觉模型抽帧，判断画面里是哪只狗、哪个场景
本地跑 TTS 生成游戏内的角色提示音
视觉素材用 Gemini 的 Nano Banana 生成（那时候 GPT 新的 image 模型还没出）

一开始它想让我手工告诉它每一帧是哪只狗，我认不全汪汪队里所有角色，搞不清楚。它自己改了思路：先 ASR 出文字，再靠视觉模型把画面内容跟台词对齐，自动筛。这条 pipeline 我看了一下可行，就让它跑。

第一版出来我试了下，一堆 bug，交互复杂得连我都不想碰。我让它砍掉一批功能，简化到孩子一个人能上手。第二天又跑了一版，还是很多问题。

这时候我做了一件后来看挺关键的事：让 agent 自己先做一轮端到端测试，不要等我来测。它跑完自己列了一大堆问题，顺手还要求"要不要加一个美术指导的角色来统一画面风格？"。加进去之后画面一下子整齐，素材的一致性也好很多。

整个过程一天半。到第二天晚上，像个能玩的东西了。

第一次让他们俩玩

那天晚上回家已经十一点多，我跟妻子说要不要先试一下。太晚了，没用。拖了几天。

昨天下午她突然想起来，问能不能玩。我人不在家，用 Tailscale 从她手机接进我电脑，远程把游戏启起来。

她先自己跑了一遍，回我一句：比我想的要好。这版有个我比较喜欢的设计——孩子看一个屏，家长作为"指挥官"拿手机看另一个屏，家长会收到节奏提示，知道什么时候该鼓励、什么时候该帮忙。这个分屏她很买账。

然后她带儿子玩。儿子玩完不肯走，说明天还要玩。这样正好，按理论一天认三个字就够了，再多就是贪。

那一刻她的表情

这件事最让我意外的不是儿子的反应，是我妻子的。

我之前跟她讲过很多次 AI。讲 agent、讲 coding、讲接下来会发生什么。她听我讲，但没有感觉，跟我儿子第一次听我讲人工智能其实是一种没感觉。概念落不到她在乎的那件事情上，再怎么讲都是别人的事。

这一次不一样。孩子的教育是她心里最沉的那块东西。看到一个一天半就能做出来的东西真的让儿子愿意坐下来玩，她的反应不是"很厉害"，是"我能用"。

当晚她跟我讲了一句话：那我们能不能给朋友家的小孩也做一个？

我说能。

三类人，两道鸿沟

回到开头说的那个大会。会里是两拨人，会外的整个世界其实是三类人。

第一类，完全没感知。知道 AI 很火，文章刷过不少，觉得离自己远，不上手，也不觉得该上手。第二类，上过手，做的是别人派下来的活。老板说公司要搞一个类似的东西，跟着搞一个，交差完就结束。第三类，把它用在自己真正在乎的事情上。用的过程里能感到边界被顶开了一下，然后停不下来。

两道鸿沟里，第二道比第一道大。第一道只是"听说"和"上手"之间的距离。第二道是"交差"和"被点燃"的距离。交差的人完成一轮就下班了；被点燃的人回家还在想下一步怎么走。

过去说"用 AI"大家容易理解成一种技能：多会几个 prompt，多熟几个工具。这两年我越来越觉得这不是关键。关键是：把它放到你每天睡前都在想的那件事情上。

我妻子心里最沉的是孩子的教育，这个东西就进到了汪汪队认字游戏里。我自己做 AI Infra，心里最沉的是硬件效率和 TCO，这个东西就进到每天那些跑不完的实验里。不用多远，是你自己真的在乎的事就好。这时候它会很快告诉你它能做到什么。告诉你的方式不是几篇文章，是你自己亲手做出来了一样以前想都不敢想的东西。

以前百词斩那种产品得一个团队、一家公司做出来给所有人用。现在是一个爸爸一天半给自己儿子做一个他专属的认字游戏。这不是同一类东西，是两种不同的世界。

先找到你真正在乎的那件事。剩下的路会自己长出来。