本文主要内容:
1.一个简单的神经网络
2.这些模型是如何训练的?
3.这一切是如何生成语言的?
4.是什么使得LLM如此有效?
5.嵌入
6.子词分词器
7.自注意力
8.Softmax
9.残差连接
10.层归一化
11.Dropout
12.多头注意力
13.位置信息嵌入
14.GPT架构
15.Transformer架构
1
一个简单的神经网络
首先,需要注意的是,神经网络只能接受数字作为输入,并只能输出数字,毫无例外。关键在于如何将输入以数字的形式表示,并以实现目标所需的方式解释输出的数字。
然后,构建神经网络,使其能够接收你提供的输入并给出你想要的输出(基于你选择的输出解释)。让我们看看如何从加法和乘法走向像Llama3.1(