改窑记

景德镇外有一座大窑，窑主姓万，人称万家窑。

万家窑烧出的瓷器，什么样式都能做。碗碟杯盏、瓶炉罐盂，只要你说得出名字，它就烧得出来。镇上的人都说，万家窑是一座"百样窑"——什么都会，什么都还过得去。

可"过得去"三个字，恰恰是万家窑的短处。

它烧的茶碗，形制规矩，釉色匀净，挑不出大毛病，可放在真正懂茶的人面前，总觉得差一口气。碗壁的弧度不够贴手，碗沿的厚薄不合唇感，釉面的光泽太亮了些，不像老茶客喜欢的那种温润内敛。

简单说——万家窑烧的是"天下人大致想要的茶碗"，而不是"这一个人真正想要的茶碗"。

有一年，城东的茶楼老板宋四爷找上门来。

宋四爷是个极讲究的人。他拿出自家茶楼用了二十年的旧碗，摆了满满一桌子，对万窑主说："我不要你烧别的，我只要你烧出跟这些碗一样的东西。碗壁的弧度、碗沿的薄厚、釉色的深浅，都得照着这些来。你要是能烧出来，价钱好商量。"

万窑主看了看那一桌旧碗，心里犯了难。

万家窑的窑炉是祖上传下来的，炉膛的大小、火道的走势、进风的角度，都是为"百样瓷"设的。这套炉子的好处是什么都能烧，坏处是什么都烧不到极致。要照着宋四爷这批旧碗来，就得改窑。

改窑不是小事。改多了，这窑以后就只能烧这一种碗了，别的东西反而烧不好了。改少了，又改不到位，烧出来的东西还是差那一口气。

万窑主想了三天，定了个方案：不动大窑的根基，只在炉膛里加几块挡火砖，调一调火道的角度。

他的道理是这样的：大窑的根基是几代人攒下来的本事，烧过百万件瓷器才磨出来的火候感觉，这个不能丢。他要做的只是在这个根基上，微微地调一调，让窑火的走势更合宋四爷那批碗的路子。

改窑那天，万窑主把宋四爷的旧碗全摆在窑前，一只一只地看。

他不是看碗的样子——样子他早就记住了。他看的是碗上那些细微的痕迹：哪里釉厚了半分，是因为火在这个位置稍猛；哪里颜色偏青，是因为还原气氛重了一点。他要从这些碗的"果"，倒推出窑火应有的"因"。

然后他动手调砖。每调一次，就试烧一炉。烧出来的碗跟宋四爷的旧碗摆在一起比——不对，再调；近了，再微调；过了，退回来一点。

如此反复，一共调了三十多轮。

三十多轮之后，万窑主烧出了一批碗，送给宋四爷看。

宋四爷捧起碗，翻来覆去地看了半天，又倒了杯茶进去试了试手感，最后点了点头："就是这个味道。"

可万窑主自己心里清楚，这批碗跟宋四爷的旧碗还是有区别的。旧碗是二十年里一只一只烧出来的，每只都带着那个具体时刻的窑温和气候。他烧的新碗，学的是旧碗的"总体路数"，而不是每一只碗的"个性"。

换句话说，他的窑学会了"宋四爷大致要什么样的碗"，但并没有变成"宋四爷那座窑"。

这事传开以后，各路买家都来找万窑主。

有人要他照着官窑的路子烧，有人要他照着民窑的路子烧，有人拿来一把紫砂壶，让他用瓷器仿出紫砂的质感。

万窑主来者不拒，但每次都先问三句话：

第一句："你带了多少样品来？"——样品太少，他摸不准路子；样品太多太杂，反而把窑调乱了。

第二句："你要改到什么程度？"——有人只要"大体像"，那就轻轻调几块砖；有人要"一模一样"，那就得大改，但改完之后这窑可能就烧不了别的东西了。

第三句："你允不允许我保留大窑原来的底子？"——万窑主最怕的一件事，是改着改着把祖传的根基改没了。那些挡火砖加太多，原来的火道全堵死了，窑就废了。他见过别家的窑这样毁掉的。

多年以后，有个年轻的窑工问万窑主："师父，您改了这么多回窑，您觉得改窑这件事，最要紧的是什么？"

万窑主说："最要紧的是三个字——改多少。"

"改得太少，等于没改，烧出来的还是老样子。改得太多，窑就变成一个死窑了——只会烧这一种东西，碰上没见过的活儿，还不如没改之前。"

他指了指窑炉里那些挡火砖，说："你看这些砖，每一块都不大，加起来也不过占了炉膛的一小角。可就是这一小角，让整座窑的火路变了。这才是改窑的精妙之处——用最小的变动，换最大的效果。"

年轻窑工又问："那怎么知道改得够不够？"

万窑主说："你得拿买家的样品来试。每改一轮，烧一炉出来，跟样品比。比的时候要看两样东西：一样是像不像买家要的，一样是还能不能烧别的东西。第一样越来越好，第二样越来越差，到了一个两头都还说得过去的地方，就该停手了。"

万家窑什么都会但什么都不精，这就是预训练大模型（pretrained foundation model）的处境。宋四爷的旧碗是微调数据集（fine-tuning dataset），万窑主要做的事叫微调（Fine-tuning）。

"不动大窑的根基，只加几块挡火砖"——这是 LoRA（Low-Rank Adaptation, Hu et al., 2021）的核心思想。不改原始权重 $W_{0}$ ，在旁边加一个低秩增量：

W = W_{0} + Δ W = W_{0} + B A

其中 $B \in R^{d \times r}$ ， $A \in R^{r \times k}$ ， $r ≪ min (d, k)$ 。这个 $r$ 就是那几块挡火砖——参数量只占原模型的 0.1%~1%，却能显著改变目标任务上的表现。原始权重冻结不动，只训练新增的低秩参数，每一轮就是"试烧一炉"。

万窑主问的三句话，对应微调中的三个关键决策。"带了多少样品"是数据量问题——当下的共识是高质量的少量数据往往比海量噪声数据效果更好（Zhou et al., 2023, LIMA）。"改到什么程度"是全量微调和参数高效微调之间的取舍。"保留大窑原来的底子"是灾难性遗忘（catastrophic forgetting）——微调过度，目标任务越来越好，通用能力急剧退化。LoRA 通过冻结原始权重天然缓解了这个问题。

"改多少"和"两头都说得过去就该停手"是 bias-variance tradeoff 的直觉表达。LoRA 的秩 $r$ 是这个 tradeoff 最直接的旋钮： $r$ 越大拟合能力越强，过拟合和遗忘的风险也越大。

"用最小的变动，换最大的效果"概括了整个参数高效微调（PEFT）领域的哲学。LoRA 之外还有 Prefix Tuning、Adapter、QLoRA 等方法，共同信念是：预训练模型已经学到了丰富的通用表示，针对特定任务的适配只需在一个很低维的子空间里完成。

改窑记 ​

改窑记