Skip to content

改窑记

景德镇外有一座大窑,窑主姓万,人称万家窑。

万家窑烧出的瓷器,什么样式都能做。碗碟杯盏、瓶炉罐盂,只要你说得出名字,它就烧得出来。镇上的人都说,万家窑是一座"百样窑"——什么都会,什么都还过得去。

可"过得去"三个字,恰恰是万家窑的短处。

它烧的茶碗,形制规矩,釉色匀净,挑不出大毛病,可放在真正懂茶的人面前,总觉得差一口气。碗壁的弧度不够贴手,碗沿的厚薄不合唇感,釉面的光泽太亮了些,不像老茶客喜欢的那种温润内敛。

简单说——万家窑烧的是"天下人大致想要的茶碗",而不是"这一个人真正想要的茶碗"。


有一年,城东的茶楼老板宋四爷找上门来。

宋四爷是个极讲究的人。他拿出自家茶楼用了二十年的旧碗,摆了满满一桌子,对万窑主说:"我不要你烧别的,我只要你烧出跟这些碗一样的东西。碗壁的弧度、碗沿的薄厚、釉色的深浅,都得照着这些来。你要是能烧出来,价钱好商量。"

万窑主看了看那一桌旧碗,心里犯了难。

万家窑的窑炉是祖上传下来的,炉膛的大小、火道的走势、进风的角度,都是为"百样瓷"设的。这套炉子的好处是什么都能烧,坏处是什么都烧不到极致。要照着宋四爷这批旧碗来,就得改窑。

改窑不是小事。改多了,这窑以后就只能烧这一种碗了,别的东西反而烧不好了。改少了,又改不到位,烧出来的东西还是差那一口气。

万窑主想了三天,定了个方案:不动大窑的根基,只在炉膛里加几块挡火砖,调一调火道的角度。

他的道理是这样的:大窑的根基是几代人攒下来的本事,烧过百万件瓷器才磨出来的火候感觉,这个不能丢。他要做的只是在这个根基上,微微地调一调,让窑火的走势更合宋四爷那批碗的路子。


改窑那天,万窑主把宋四爷的旧碗全摆在窑前,一只一只地看。

他不是看碗的样子——样子他早就记住了。他看的是碗上那些细微的痕迹:哪里釉厚了半分,是因为火在这个位置稍猛;哪里颜色偏青,是因为还原气氛重了一点。他要从这些碗的"果",倒推出窑火应有的"因"。

然后他动手调砖。每调一次,就试烧一炉。烧出来的碗跟宋四爷的旧碗摆在一起比——不对,再调;近了,再微调;过了,退回来一点。

如此反复,一共调了三十多轮。


三十多轮之后,万窑主烧出了一批碗,送给宋四爷看。

宋四爷捧起碗,翻来覆去地看了半天,又倒了杯茶进去试了试手感,最后点了点头:"就是这个味道。"

可万窑主自己心里清楚,这批碗跟宋四爷的旧碗还是有区别的。旧碗是二十年里一只一只烧出来的,每只都带着那个具体时刻的窑温和气候。他烧的新碗,学的是旧碗的"总体路数",而不是每一只碗的"个性"。

换句话说,他的窑学会了"宋四爷大致要什么样的碗",但并没有变成"宋四爷那座窑"。


这事传开以后,各路买家都来找万窑主。

有人要他照着官窑的路子烧,有人要他照着民窑的路子烧,有人拿来一把紫砂壶,让他用瓷器仿出紫砂的质感。

万窑主来者不拒,但每次都先问三句话:

第一句:"你带了多少样品来?"——样品太少,他摸不准路子;样品太多太杂,反而把窑调乱了。

第二句:"你要改到什么程度?"——有人只要"大体像",那就轻轻调几块砖;有人要"一模一样",那就得大改,但改完之后这窑可能就烧不了别的东西了。

第三句:"你允不允许我保留大窑原来的底子?"——万窑主最怕的一件事,是改着改着把祖传的根基改没了。那些挡火砖加太多,原来的火道全堵死了,窑就废了。他见过别家的窑这样毁掉的。


多年以后,有个年轻的窑工问万窑主:"师父,您改了这么多回窑,您觉得改窑这件事,最要紧的是什么?"

万窑主说:"最要紧的是三个字——改多少。"

"改得太少,等于没改,烧出来的还是老样子。改得太多,窑就变成一个死窑了——只会烧这一种东西,碰上没见过的活儿,还不如没改之前。"

他指了指窑炉里那些挡火砖,说:"你看这些砖,每一块都不大,加起来也不过占了炉膛的一小角。可就是这一小角,让整座窑的火路变了。这才是改窑的精妙之处——用最小的变动,换最大的效果。"

年轻窑工又问:"那怎么知道改得够不够?"

万窑主说:"你得拿买家的样品来试。每改一轮,烧一炉出来,跟样品比。比的时候要看两样东西:一样是像不像买家要的,一样是还能不能烧别的东西。第一样越来越好,第二样越来越差,到了一个两头都还说得过去的地方,就该停手了。"


万家窑什么都会但什么都不精,这就是预训练大模型(pretrained foundation model)的处境。宋四爷的旧碗是微调数据集(fine-tuning dataset),万窑主要做的事叫微调(Fine-tuning)。

"不动大窑的根基,只加几块挡火砖"——这是 LoRA(Low-Rank Adaptation, Hu et al., 2021)的核心思想。不改原始权重 W0,在旁边加一个低秩增量:

W=W0+ΔW=W0+BA

其中 BRd×rARr×krmin(d,k)。这个 r 就是那几块挡火砖——参数量只占原模型的 0.1%~1%,却能显著改变目标任务上的表现。原始权重冻结不动,只训练新增的低秩参数,每一轮就是"试烧一炉"。

万窑主问的三句话,对应微调中的三个关键决策。"带了多少样品"是数据量问题——当下的共识是高质量的少量数据往往比海量噪声数据效果更好(Zhou et al., 2023, LIMA)。"改到什么程度"是全量微调和参数高效微调之间的取舍。"保留大窑原来的底子"是灾难性遗忘(catastrophic forgetting)——微调过度,目标任务越来越好,通用能力急剧退化。LoRA 通过冻结原始权重天然缓解了这个问题。

"改多少"和"两头都说得过去就该停手"是 bias-variance tradeoff 的直觉表达。LoRA 的秩 r 是这个 tradeoff 最直接的旋钮:r 越大拟合能力越强,过拟合和遗忘的风险也越大。

"用最小的变动,换最大的效果"概括了整个参数高效微调(PEFT)领域的哲学。LoRA 之外还有 Prefix Tuning、Adapter、QLoRA 等方法,共同信念是:预训练模型已经学到了丰富的通用表示,针对特定任务的适配只需在一个很低维的子空间里完成。