上一节介绍了什么是 Decoder-Only 结构,并且提到,目前绝大多数的大模型采用的都是 Decoder-Only 结构。虽然如此,仍然一些模型会用到 Encoder 部分作为主要架构,典型......