感觉性周围神经病

注册

 

发新话题 回复该主题

用初中数学理解大模型工作原理 [复制链接]

1#
导读:本文将从基础开始讨论大语言模型(LLM)的工作原理——假设你只知道如何对两个数字进行加法和乘法。首先,作者RohitPatel会从构建一个简单的生成式人工智能出发,逐步阐释理解现代LLM和Transformer架构所需的所有知识。本文将剔除机器学习中所有花哨语言和术语,将一切简单地表示为数字。

本文主要内容:

1.一个简单的神经网络

2.这些模型是如何训练的?

3.这一切是如何生成语言的?

4.是什么使得LLM如此有效?

5.嵌入

6.子词分词器

7.自注意力

8.Softmax

9.残差连接

10.层归一化

11.Dropout

12.多头注意力

13.位置信息嵌入

14.GPT架构

15.Transformer架构

1

一个简单的神经网络

首先,需要注意的是,神经网络只能接受数字作为输入,并只能输出数字,毫无例外。关键在于如何将输入以数字的形式表示,并以实现目标所需的方式解释输出的数字。

然后,构建神经网络,使其能够接收你提供的输入并给出你想要的输出(基于你选择的输出解释)。让我们看看如何从加法和乘法走向像Llama3.1(

分享 转发
TOP
发新话题 回复该主题