AI2026年7月2日· 约 2 分钟
零基础认识大语言模型(LLM)工作原理(3.大模型绕不开的架构--Transformer到底是怎么工作的?)
#语言模型#Transformer#模型架构#语义表示#Token处理
零基础认识大语言模型(LLM)工作原理(3.大模型绕不开的架构--Transformer到底是怎么工作的?)
最近正好有空,打算抽时间复盘总结一下这些年零零散散学习的AI知识.
下面是目录
零基础认识大语言模型(LLM)工作原理目录 - GuZhenYin - 博客园
如果说上一章介绍的是:
模型吃进去什么。
那么这一章介绍的就是:
模型的大脑到底是如何工作的。
第三章 Transformer 到底是怎么工作的
很多介绍 Transformer 的文章,一开始就是下面这张公式:

看到这里,绝大多数兄弟已经放弃了。
事实上,即使不知道任何数学公式,也完全可以理解 Transformer 的核心思想。
这一章,我们不用矩阵、向量运算这些复杂公式来表述,而是用一个现实例子,说明模型到底是如何"思考"一段文字的。
3.1 从一句话开始#
假设我们给模型输入一句话:
小明昨天去北京出差,今天他回来了。
然后问:
"他"是谁?
对于我们人类来说,答案非常简单。
当然是:
小明。
但是,如果你仔细思考,会发现句子里面其实并没有写:
他 = 小明。
我们的大脑为什么能够知道?
因为我们会自动回忆前面的内容。
发现:
小明
和
他
关系最紧密。
于是理解了"他"就是小明。
Transformer 做的事情,其实非常类似。
它也会回头看,不过它不是只看一个词。
而是看前面的所有 Token。
3.2 Transformer 为什么叫 Transformer?#
很多人第一次看到:Transformer。
都会问,为什么叫Transformer?
是不是它的直译--变形金刚?(哈哈哈 开个玩笑..)
其实Transformer 的中文一般翻译为:
转换器。
为什么叫转换器?
因为它不断地把一串 Token,逐渐转换成越来越丰富的语义表示。
举个例��,刚开始,模型看到:苹果