Skip to content

续字先生

汴梁城东有个读书人,姓续名之,人称续字先生。

此人有一桩奇能:你只消说出半句话来,他便能替你接上后半句,且接得天衣无缝,浑然天成。不论诗词歌赋、经史子集、市井俚语、衙门公文,他都能续。续出来的文章,行家读了也挑不出毛病。

于是满城传言:续字先生胸中有万卷书,上知天文,下知地理。

续字先生却从不辩解,也从不点头。他只是坐在铺子里,等人来递半句话,然后续下去。


有一日,城里来了个卖药的郎中,走南闯北见多识广。他不信续字先生有真才实学,便去试探。

郎中说:"我有一味药方,用了黄芪、当归、白术——"

续字先生不假思索,接道:"再佐以茯苓、甘草,此乃补中益气之方。若病人脾虚食少,可加陈皮、半夏以和胃。"

郎中大惊,问:"先生也通医术?"

续字先生摇摇头,说:"我不通医术。只是从前听过一万个郎中说话,听得多了,便知道黄芪后面常跟茯苓,补中二字后面常接益气。我续的不是药方,是说话的规矩。"

郎中不解,又问:"那你说的药方对不对?"

续字先生答:"该对的时候大抵是对的。但若有人前面说的话本就是错的,我照样能续得漂漂亮亮——只不过,漂亮的错话,终归还是错话。"


又有一日,县太爷升堂断案,案子棘手,理不清头绪,便差人把续字先生请了来。

县太爷把案情说了一遍,末了问:"依先生之见,凶手是谁?"

续字先生听罢,缓缓说出一段推论来,从作案动机说到人证物证,条分缕析,头头是道。县太爷听得连连点头,当堂拍了惊堂木,就要拿人。

续字先生却拦住了,说:"大人且慢。我方才说的那些,不过是依着您给我的话头续下去的。您说的案情若有一处记错,我续出来的凶手便可能全然不对。我能续得合情合理,却不能替大人去现场查验。"

县太爷问:"那你说的到底能不能信?"

续字先生说:"我说的话,合不合乎文理,这个我有几分把握。合不合乎事实,这个我一分把握也没有。"


此事传开以后,城里的人分成了两派。

一派说:"续字先生分明是有大智慧的人,只是谦虚罢了。你看他对答如流,引经据典,这若不是真懂,天底下还有谁算懂?"

另一派说:"他自己都说了,他只是续话而已。一只鹦鹉听多了人言,也能学舌几句。他不过是一只读了万卷书的鹦鹉。"

两派争得面红耳赤,谁也说服不了谁。

续字先生听说了这场争论,笑了笑,说了最后一段话:

"你们争的这桩事,我也答不上来。因为'我到底懂不懂'这个问题,不在我续话的本事之内。我这辈子只会一件事——你给我上句,我给你下句。至于这叫懂还是不懂,你们定便是了。"

说罢,他低下头,继续等下一个递话头的人。


续字先生的全部本事,用一句话就能说完:给定前面所有的字,猜下一个字最可能是什么。

P(xtx1,x2,,xt1)

这就是自回归生成(Autoregressive Generation)——GPT、LLaMA、Claude 的底层机制。它们并不"理解"任何东西,只是在海量文本中学会了词与词之间的统计规律,然后一个字一个字地往下续。续得足够多、足够好的时候,看起来就像是在思考。

续字先生说"我续的不是药方,是说话的规矩",这恐怕是对大语言模型最诚实的自白。它之所以能在"黄芪、当归、白术"后面接出"茯苓、甘草",不是因为它懂中药,而是因为这些词在训练数据中总是结伴出现。同样的机制也意味着,它可以用极其自信的语气说出完全捏造的内容——幻觉(Hallucination)正是这么来的。

县太爷的案子揭示了另一层问题:模型的一切推理都建立在你给它的上下文之上。前提错了,结论再自洽也是错的。它没有独立于输入之外的"常识锚点"来纠偏。

至于城里那两派人的争论,放到今天的学术界也没有定论。一边是 Wei et al. (2022) 的涌现能力研究——当模型足够大,简单的续字机制似乎涌现出了推理和规划的能力。另一边是 Bender et al. (2021) 的"随机鹦鹉"论文——再流畅也只是模式匹配,"流畅"不等于"理解"。争论的根源或许在于,我们还没能严格定义"理解"本身意味着什么。

续字先生最后那句话,让人想起 Searle 的中文房间:一个人坐在房间里靠查手册把中文输入翻译成中文输出,外面的人分辨不出他和真正懂中文的人。把"人"换成"模型",把"手册"换成"参数",问题一模一样。