自回归模型与扩散模型——为什么LLM选择自回归模型而CV采用扩散模型

文字与图像的本质区别

Thinking:如何使用自回归模型去处理图片 or 如何使用扩散模型去处理文字
A1：可以将图片的各个特征作为离散的互不相关的，例如城堡的架构、城堡的颜色、城堡的建筑材料等，将原本由点到线再到面的连续特征进行转换，就可以使用自回归模型处理离散型特征的思路去处理图片
what is Tokenizer: 大语言模型LLM基础之Tokenizer完全介绍_哔哩哔哩_bilibili
VQ Tokenizer:实现连续特征到离散特征的转换，构建一个CodeBook的离散特征集合，将原本连续的视觉特征映射到这个有限的集合中，特征更加明确可控

优势1-特征明确且可控：自回归模型处理的是离散型特征，每一个特征都是相互独立，不互相影响的，例如盖房子时我们考虑房子的架构和盖房的材料是不相关的，所以使得每一个维度都可以清晰解释
优势2-逻辑性强：模型的生成过程严格遵循上下文关系，内容更加一致，例如在LLM中，后面生成的文字是根据前文的基础所生成的，例如“天气”后面一般会跟[晴朗、阴转多云]，而不是“天气好吃”等
优势3-逻辑编辑精确：例如将圆形房顶改为方形只需要考虑房顶形状的一个维度，无需考虑盖房材料等维度
劣势1-维护CodeBook带来额外成本：如果需要生成图像等原本是连续特征的，则需要一个VQ Tokenizer去维护一个CodeBook数据库，需要额外的训练过程与优化，成本高
劣势2-离散化带来的信息损失：在将连续特征转换为离散特征时，会带来类似于我们打游戏时网络传输中的掉帧现象，尤其在复杂环境中，我们可能会在转换时丢失掉某些特征
劣势3-分辨率有限：生成的图像在分辨率方便不及扩散模型清晰，这也是劣势2离散化特征带来的信息损失所导致的

算法更加直接，不需要使用VQ Tokenizer创建CodeBook去带来额外的开销
扩散模型是由原本完整的图片逐层添加噪声，然后直到一个只包含最基础特征的基元，而在创建过程中则需要迭代去噪来逐渐完善图片，所以在逐层迭代去噪过程中需要更多的计算资源
机器学习的本质是找一个函数来表达一个模型，而一个模型是一个有上万乃至很多的参数的函数
类神经网络是一个有非常大量参数的函数
在分类预测中，所有可以选择的符号即为token
为什么英文token不是单个单词：因为英文无法穷举，所以必须要进行拆分
预训练pre-training仅限自监督学习，监督学习不包含在内
对齐：监督式学习+增强式学习（RLHF），通过人力干预使得输出结果更符合人类想要的结果，即语言模型与人类需求进行对齐
对齐的要点，一、把需求讲清楚；二、提供资料，而不是令生成式AI自己空想；三、提供范例；四、鼓励生成式AI想一想，例如“请详细列出计算过程”;五、使用一些特殊的语言，咒语；六、上传资讯，例如上传pdf文件等；七、拆解任务；八、自主规划，把以上任务拆解成易于执行的步骤，并且条列这些步骤；九、模型自我反省，“请检查回答是否正确”；十、跟真实环境互动