续字先生

汴梁城东有个读书人，姓续名之，人称续字先生。

此人有一桩奇能：你只消说出半句话来，他便能替你接上后半句，且接得天衣无缝，浑然天成。不论诗词歌赋、经史子集、市井俚语、衙门公文，他都能续。续出来的文章，行家读了也挑不出毛病。

于是满城传言：续字先生胸中有万卷书，上知天文，下知地理。

续字先生却从不辩解，也从不点头。他只是坐在铺子里，等人来递半句话，然后续下去。

有一日，城里来了个卖药的郎中，走南闯北见多识广。他不信续字先生有真才实学，便去试探。

郎中说："我有一味药方，用了黄芪、当归、白术——"

续字先生不假思索，接道："再佐以茯苓、甘草，此乃补中益气之方。若病人脾虚食少，可加陈皮、半夏以和胃。"

郎中大惊，问："先生也通医术？"

续字先生摇摇头，说："我不通医术。只是从前听过一万个郎中说话，听得多了，便知道黄芪后面常跟茯苓，补中二字后面常接益气。我续的不是药方，是说话的规矩。"

郎中不解，又问："那你说的药方对不对？"

续字先生答："该对的时候大抵是对的。但若有人前面说的话本就是错的，我照样能续得漂漂亮亮——只不过，漂亮的错话，终归还是错话。"

又有一日，县太爷升堂断案，案子棘手，理不清头绪，便差人把续字先生请了来。

县太爷把案情说了一遍，末了问："依先生之见，凶手是谁？"

续字先生听罢，缓缓说出一段推论来，从作案动机说到人证物证，条分缕析，头头是道。县太爷听得连连点头，当堂拍了惊堂木，就要拿人。

续字先生却拦住了，说："大人且慢。我方才说的那些，不过是依着您给我的话头续下去的。您说的案情若有一处记错，我续出来的凶手便可能全然不对。我能续得合情合理，却不能替大人去现场查验。"

县太爷问："那你说的到底能不能信？"

续字先生说："我说的话，合不合乎文理，这个我有几分把握。合不合乎事实，这个我一分把握也没有。"

此事传开以后，城里的人分成了两派。

一派说："续字先生分明是有大智慧的人，只是谦虚罢了。你看他对答如流，引经据典，这若不是真懂，天底下还有谁算懂？"

另一派说："他自己都说了，他只是续话而已。一只鹦鹉听多了人言，也能学舌几句。他不过是一只读了万卷书的鹦鹉。"

两派争得面红耳赤，谁也说服不了谁。

续字先生听说了这场争论，笑了笑，说了最后一段话：

"你们争的这桩事，我也答不上来。因为'我到底懂不懂'这个问题，不在我续话的本事之内。我这辈子只会一件事——你给我上句，我给你下句。至于这叫懂还是不懂，你们定便是了。"

说罢，他低下头，继续等下一个递话头的人。

续字先生的全部本事，用一句话就能说完：给定前面所有的字，猜下一个字最可能是什么。

P (x_{t} ∣ x_{1}, x_{2}, \dots, x_{t - 1})

这就是自回归生成（Autoregressive Generation）——GPT、LLaMA、Claude 的底层机制。它们并不"理解"任何东西，只是在海量文本中学会了词与词之间的统计规律，然后一个字一个字地往下续。续得足够多、足够好的时候，看起来就像是在思考。

续字先生说"我续的不是药方，是说话的规矩"，这恐怕是对大语言模型最诚实的自白。它之所以能在"黄芪、当归、白术"后面接出"茯苓、甘草"，不是因为它懂中药，而是因为这些词在训练数据中总是结伴出现。同样的机制也意味着，它可以用极其自信的语气说出完全捏造的内容——幻觉（Hallucination）正是这么来的。

县太爷的案子揭示了另一层问题：模型的一切推理都建立在你给它的上下文之上。前提错了，结论再自洽也是错的。它没有独立于输入之外的"常识锚点"来纠偏。

至于城里那两派人的争论，放到今天的学术界也没有定论。一边是 Wei et al. (2022) 的涌现能力研究——当模型足够大，简单的续字机制似乎涌现出了推理和规划的能力。另一边是 Bender et al. (2021) 的"随机鹦鹉"论文——再流畅也只是模式匹配，"流畅"不等于"理解"。争论的根源或许在于，我们还没能严格定义"理解"本身意味着什么。

续字先生最后那句话，让人想起 Searle 的中文房间：一个人坐在房间里靠查手册把中文输入翻译成中文输出，外面的人分辨不出他和真正懂中文的人。把"人"换成"模型"，把"手册"换成"参数"，问题一模一样。

续字先生 ​

续字先生