零基础认识大语言模型（LLM）工作原理(3.大模型绕不开的架构--Transformer到底是怎么工作的?)

最近正好有空,打算抽时间复盘总结一下这些年零零散散学习的AI知识.

下面是目录

如果说上一章介绍的是：

模型吃进去什么。

那么这一章介绍的就是：

模型的大脑到底是如何工作的。

第三章 Transformer 到底是怎么工作的

很多介绍 Transformer 的文章，一开始就是下面这张公式：

看到这里，绝大多数兄弟已经放弃了。

事实上，即使不知道任何数学公式，也完全可以理解 Transformer 的核心思想。

这一章，我们不用矩阵、向量运算这些复杂公式来表述，而是用一个现实例子，说明模型到底是如何"思考"一段文字的。

假设我们给模型输入一句话：

小明昨天去北京出差，今天他回来了。

然后问：

"他"是谁？

对于我们人类来说，答案非常简单。

当然是：

小明。

但是，如果你仔细思考，会发现句子里面其实并没有写：

他 = 小明。

我们的大脑为什么能够知道？

因为我们会自动回忆前面的内容。

发现：

小明

和

他

关系最紧密。

于是理解了"他"就是小明。

Transformer 做的事情，其实非常类似。

它也会回头看,不过它不是只看一个词。

而是看前面的所有 Token。

很多人第一次看到：Transformer。

都会问,为什么叫Transformer？

是不是它的直译--变形金刚？(哈哈哈开个玩笑..)

其实Transformer 的中文一般翻译为：

转换器。

为什么叫转换器？

因为它不断地把一串 Token,逐渐转换成越来越丰富的语义表示。

举个例��,刚开始,模型看到：苹果

它只知道这是一个 Token。

原文链接：https://www.cnblogs.com/GuZhenYin/p/20971593

从 10 分钟到 1 秒：ES 深度分页任意跳页的三轮优化实战

Agent Loop 架构拆解：让 AI Agent 自己跑完验收闭环

Multi-Agent 执行闭环：AI Coding 真正进生产，要靠模型分工和工程护栏