![大语言模型:原理、应用与优化](https://wfqqreader-1252317822.image.myqcloud.com/cover/930/52803930/b_52803930.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.1 Seq2Seq结构
Seq2Seq(Sequence-to-Sequence)[14]网络结构是近些年深度学习中的重要创新之一。它将自然语言处理中的任务(如文本摘要、机器翻译、对话系统等)看作从一个输入序列到另外一个输出序列的映射,然后通过一个端到端的神经网络来直接学习序列的映射关系。Seq2Seq也是编码器-解码器结构的雏形。
图2-1为Seq2Seq结构的示意图,它实现了将输入序列x1,x2,…,xT映射到输出序列y1,y2,…,yT′的操作。其中,编码器可将输入序列编码成一个固定长度的向量表示,而解码器可将该向量表示解码成目标输出。原始Seq2Seq的编码器和解码器部分由循环神经网络(Recurrent Neural Network,RNN)来实现。
![](https://epubservercos.yuewen.com/60CEA5/31372020304240906/epubprivate/OEBPS/Images/0031-01.jpg?sign=1739162803-gKLatPfBHhROgZvJ7m0WX1TazeXJSPXI-0-49eca601e2e7cfe42a6e01db87e2d400)
图2-1 Seq2Seq结构示意
以机器翻译为例,假设输入的句子为,我们首先将句子中每个单词映射成词嵌入,从而得到向量序列为
,目标输出序列为
,其中n和m为序列长度。编码器将输入转化成语义编码C,处理第i个时间步输入wi的数学表示为:
![](https://epubservercos.yuewen.com/60CEA5/31372020304240906/epubprivate/OEBPS/Images/0031-05.jpg?sign=1739162803-Bzv5slloqILU540B2xqP84m3b4XDJpqy-0-fdcaa25ae154a2dc0925c9c3c09f189b)
其中,i∈[1,n],最后时刻的状态输出为C,即C=hn。解码器根据C输出最终的目标序列,其数学表示为:
![](https://epubservercos.yuewen.com/60CEA5/31372020304240906/epubprivate/OEBPS/Images/0031-06.jpg?sign=1739162803-mnscHLdke28hh79IGiHcFvgqTaGzaVWv-0-f476db594178adbf3896c9cc1d56c55a)
许多自然语言处理任务都可以应用编码器-解码器结构,如机器翻译、语音识别、文本摘要和对话系统等。