自回归模型与扩散模型——为什么LLM选择自回归模型而CV采用扩散模型

文字与图像的本质区别

文字

  1. 文字由明确但是优先的符号构成,属于离散信号
  2. 例如“猫”和“狗”是明确的符号,不能平滑过渡,并没有中间状态,不能定义一个既是猫,又是狗的中间状态。

图像

  1. 图像的变化是平滑且无限的,属于连续信号
  2. 例如“红色”和“黄色”之间可以平滑过渡出无数不同颜色,这些中间状态都是连续存在的,而不是有限的离散符号

自回归模型

  1. 人类在说话时,是逐字逐句、循序渐进的过程,后面要说的字是根据前面说过话的内容而定的
  2. 例如“天气”后面一般会跟[晴朗、阴转多云],而不是“天气好吃”等
  3. 自回归模型的工作原理:根据前面已经生成的离散符号,来逐步预测下一个符号的概率。在每一步预测中,模型会从一个明确而有限的符号集合中,判断下一个符号的可能性大小。
  4. 本质:从文字数据库中选择概率最大的分类任务

扩散模型

  1. 扩散模型本质上找的是一种概率分布,找的是从模糊草图到细节逐渐变清晰的一个过程
  2. 例如我们在画城堡时,一般会想象到城堡的厚城墙、尖屋顶的特征,也就是说这种特征出现的概率是较高的
  3. 用扩散模型(概率模型)去生成图片时,实际在做的是使图片中的特征尽可能得向想要表达的区域的高概率方向去靠拢

模型边界的融合与突破

  1. Thinking:如何使用自回归模型去处理图片 or 如何使用扩散模型去处理文字
  2. A1:可以将图片的各个特征作为离散的互不相关的,例如城堡的架构、城堡的颜色、城堡的建筑材料等,将原本由点到线再到面的连续特征进行转换,就可以使用自回归模型处理离散型特征的思路去处理图片
  3. what is Tokenizer: 大语言模型LLM基础之Tokenizer完全介绍_哔哩哔哩_bilibili
  4. VQ Tokenizer:实现连续特征到离散特征的转换,构建一个CodeBook的离散特征集合,将原本连续的视觉特征映射到这个有限的集合中,特征更加明确可控

自回归模型与扩散模型的优劣势对比

自回归模型

  1. 优势1-特征明确且可控:自回归模型处理的是离散型特征,每一个特征都是相互独立,不互相影响的,例如盖房子时我们考虑房子的架构和盖房的材料是不相关的,所以使得每一个维度都可以清晰解释
  2. 优势2-逻辑性强:模型的生成过程严格遵循上下文关系,内容更加一致,例如在LLM中,后面生成的文字是根据前文的基础所生成的,例如“天气”后面一般会跟[晴朗、阴转多云],而不是“天气好吃”等
  3. 优势3-逻辑编辑精确:例如将圆形房顶改为方形只需要考虑房顶形状的一个维度,无需考虑盖房材料等维度
  4. 劣势1-维护CodeBook带来额外成本:如果需要生成图像等原本是连续特征的,则需要一个VQ Tokenizer去维护一个CodeBook数据库,需要额外的训练过程与优化,成本高
  5. 劣势2-离散化带来的信息损失:在将连续特征转换为离散特征时,会带来类似于我们打游戏时网络传输中的掉帧现象,尤其在复杂环境中,我们可能会在转换时丢失掉某些特征
  6. 劣势3-分辨率有限:生成的图像在分辨率方便不及扩散模型清晰,这也是劣势2离散化特征带来的信息损失所导致的

扩散模型

  1. 算法更加直接,不需要使用VQ Tokenizer创建CodeBook去带来额外的开销

  2. 扩散模型是由原本完整的图片逐层添加噪声,然后直到一个只包含最基础特征的基元,而在创建过程中则需要迭代去噪来逐渐完善图片,所以在逐层迭代去噪过程中需要更多的计算资源

  3. 机器学习的本质是找一个函数来表达一个模型,而一个模型是一个有上万乃至很多的参数的函数

  4. 类神经网络是一个有非常大量参数的函数

  5. 在分类预测中,所有可以选择的符号即为token

  6. 为什么英文token不是单个单词:因为英文无法穷举,所以必须要进行拆分

  7. 预训练pre-training仅限自监督学习,监督学习不包含在内

  8. 对齐:监督式学习+增强式学习(RLHF),通过人力干预使得输出结果更符合人类想要的结果,即语言模型与人类需求进行对齐

  9. 对齐的要点,一、把需求讲清楚;二、提供资料,而不是令生成式AI自己空想;三、提供范例;四、鼓励生成式AI想一想,例如“请详细列出计算过程”;五、使用一些特殊的语言,咒语;六、上传资讯,例如上传pdf文件等;七、拆解任务;八、自主规划,把以上任务拆解成易于执行的步骤,并且条列这些步骤;九、模型自我反省,“请检查回答是否正确”;十、跟真实环境互动