AI大谈话模子的旨趣、演进及算力测算专题阐述

发布日期：2024-10-29 21:57 点击次数：191

【中枢不雅点：】

在机器学习里，模子和数据边界变大对深度神经网罗性能的普及有平正。东谈主工智能呢，即曲直常盘问那些能模拟、延长和拓展东谈主类智能的表面范例与本事的，还建设相关的诳骗系统，它最终是想让沟通机能模拟东谈主的想维方式和活动。机器学习是一门学科，非常探究沟通机怎样模拟或者已毕东谈主类的学习活动，从而获得新常识或者手段，还能从头组织已有的常识结构让自己性能不休提高，这门学科在数据挖掘、沟通机视觉、当然谈话解决等领域庸碌诳骗。深度学习是机器学习的一部分，主如果东谈主工神经网罗组成的。和传统算法以及中袖珍神经网罗比起来，大边界的神经网罗加上海量的数据是能有用普及深度神经网罗的性能的。

大谈话模子在考研和推理诳骗的时候，对算力的需求一下子普及了好多。就拿GPT - 3来说吧，它的参数目有1750亿个，考研样本的token数能达到3000亿个。如果用精度为32位的单精度浮点数数据来考研这个模子，还有进行像谷歌那种打听量的推理，再假定GPT - 3每次考研要在30天内完成的话，那GPT - 3需要运算的次数即是3.151023FLOPs，算力得达到121.528PFLOPS。如果以A100 PCle芯片为例的话，在考研的时候就得新增多1558颗A100 GPU芯片，这价值能够是2337万好意思元；对应的需要195台DGX A100业绩器，价值差未几是3880.5万好意思元。如果在推理阶段按照谷歌每天35亿次搜索量来估算的话，那GPT - 3每天需要推理的token数能达到7.9万亿个，需要运算的次数是4.76102?FLOPs，算力得有55EFLOPs，这么在推理阶段就得新增多70.6万颗A100 GPU芯片，价值能够是105.95亿好意思元；对应的需要8.8万台DGX A100业绩器，价值能够是175.12亿好意思元。

【01、东谈主工智能、机器学习与神经网罗简介】

东谈主工智能的已毕阶梯之一是机器学习。

深度神经网罗的性能，靠增多模子和数据边界是成心于提高的。

深度学习（Deep Learning，缩写为DL）属于机器学习的一部分，它是由东谈主工神经网罗（ANN）组成的。深度学习会模拟东谈主脑中肖似的结构，它的学习是依靠相互臆测的“神经元”所组成的深层、多层的“网罗”开展的。一般来说，神经网罗在结构上可分红三层：输入层、荫藏层和输出层。输入层（input layer）即是用来输入特征向量的；荫藏层（hidden layer）是那种空洞的非线性中间层；输出层（output layer）则是用来输出预计值的。深层神经网罗指的是包含更多荫藏层的神经网罗。和传统机器学习模子比较，深度学习神经网罗在海量数据方面更能融会着力。如果想得到更好的性能，不但要考研一个鼓胀大边界的神经网罗（也即是带有好多荫藏层的神经网罗，包含好多参数和相关性），况且还需要海量的数据来支合手。数据的边界以及神经网罗的沟通性能，得有庞杂的沟通智商来支合手才行。

CNN和RNN属于比较常见的神经网罗模子。

传统神经网罗模子里，卷积神经网罗（CNN）和轮回神经网罗（RNN）比较常见。卷积神经网罗，英文是Convolutional Neural Network，也即是CNN，它在好多图像诳骗里用得比较多，像沟通机视觉、自动驾驶、东谈主脸识别、捏造履行、医学方面、东谈主机交互、智能安防这些领域。和范例神经网罗比起来，CNN对高纬度的输入数据能顺应得更好，它的卷积规划能让模子的参数数目减少不少。轮回神经网罗，英文是Recurrent Neural Network，简称RNN，这个网罗往往用来解决序列数据，能把数据里时分上的依赖关系找出来。谈话齐是一个一个出现的，况且谈话的数据在时分规章向前后是相关联的，是以谈话动作最当然的序列数据，用RNN来作念语音识别、格式分类、机器翻译、谈话生成、定名实体识别这些诳骗挺恰当的。

轮回神经网罗（RNN）当年是当然谈话解决的第一选定。RNN在解决单词序列时，不错把解决第一个单词的成果响应给解决下一个单词的层，这么模子就能整个这个词句子而不仅仅单个单词了。不外RNN有污点：因为这种串行的结构，RNN没主义很好地解决长序列的文本，如果开动单词隔得太远，以致可能把相关信息给“忘掉”。

【02、Transformer模子结构分析】

Transformer模子是基于Encoder - Decoder架构的。

Transformer模子结构分析——词镶嵌（Embedding）分析Transformer模子结构——词镶嵌（Embedding）

Transformer模子结构的分析——Encoder部分

输入经由Self - Attention层后插足前馈网罗，前馈网罗大多是全无间层网罗（还会经由非线性的激活函数，像ReLU函数那样）。全无间层是很基础的神经网罗，它的每个节点齐跟上一层的整个节点接踵续。ReLU函数呢，即是修正线性单位（Rectified linear unit），也叫线性整流函数，一般即是以陡坡函数过头变种为代表的非线性函数。激活函数的作用是让神经网罗能有拟合函数的智商，从而引入非线性；如果不引入非线性的话，岂论神经网罗有些许层，齐等同于一个线性映射。下一个Encoder的输入即是上一个Encoder的输出，以此类推。

Transformer模子结构分析——多头耀目力（Multi - head Attention）

Multi - head Attention即是多头耀目力机制。它会用好多组不相同的线性变换，去映射Q、K、V这几个矩阵，然后区分算出Attention。接着把不同的Attention成果连起来，再作念个线性变换。Multi - head Attention的本色呢，即是在参数总量不变的时候，把Q、K、V映射到高维空间里不同的子空间去算Attention，这么就能防患过拟合了。

【03、大边界谈话模子算力需求测算（以GPT-3为例）】

BERT和GPT这两种大边界谈话模子齐是基于Transformer架构构建的。

在当然谈话解决（Natural Language Processing，NLP）里，构建谈话模子（Language Model，LM）属于最基本亦然最伏击的任务之一。当然谈话解决从Transformer架构发展出了两大主流的大谈话模子（Large Language Model，LLM），即是BERT和GPT。这两个齐是无监督预考研的大谈话模子。BERT（Bidirectional Encoder Representations from Transformer）能生成深度双向谈话表征，它是个有掩码（mask）的大谈话模子，就像作念完形填空那样，能把柄高下文去预计空着的地点该填什么词。在结构方面，BERT只用了Transformer架构里的Encoder部分。

GPT - 1是一种预考研加上微调的半监督学习模子。

GPT - 2：一个防卫多任务的预考研模子。

GPT - 3：这是个能举一反三的大谈话模子。

【阐述节选：】