导读:本文将从基础开始讨论大语言模型(LLM)的工作原理——假设你只知道如何对两个数字进行加法和乘法。首先,作者RohitPatel会从构建一个简单的生成式人工智能出发,逐步阐释理解现代LLM和Transformer架构所需的所有知识。本文将剔除机器学习中所有花哨语言和术语,将一切简单地表示为数字。
本文主要内容:
1.一个简单的神经网络
2.这些模型是如何训练的?
3.这一切是如何生成语言的?
4.是什么使得LLM如此有效?
5.嵌入
6.子词分词器
7.自注意力
8.Softmax
9.残差连接
10.层归一化
11.Dropout
12.多头注意力
13.位置信息嵌入
14.GPT架构
15.Transformer架构
1
一个简单的神经网络
首先,需要注意的是,神经网络只能接受数字作为输入,并只能输出数字,毫无例外。关键在于如何将输入以数字的形式表示,并以实现目标所需的方式解释输出的数字。
然后,构建神经网络,使其能够接收你提供的输入并给出你想要的输出(基于你选择的输出解释)。让我们看看如何从加法和乘法走向像Llama3.1(