transformer和diffusion_人工智能吧

目前共有5篇帖子。

	1楼悄悄打开魔盒 2024-4-4 01:26 目前的两个主流架构，分别处理离散和连续的数据，比如说语言和图像。但是diffusion其实是训练方式，transformer是模型架构，所以diffusion也可以是transformer，DiT就是这样。所以两个模型其实是可以融合的。从transformer在长上下文的表现来看，已经可以有效处理1000万token，作为通用人工智能是合格的，但成本还是很高的，可能会限制其应用范围。
	2楼啊啊是谁都对 2024-4-4 08:33 感谢介绍人工智能的相关知识能否介绍一下transformer的常用训练方式？
	3楼圆环之理 2024-4-4 09:30 哇
	4楼啊啊是谁都对 2024-6-3 08:38 顺便一问，stable diffusion是不是其模型架构和训练方式都是diffusion？悄悄打开魔盒：模型架构可以选择，sd 1.5和sdxl都是UNet，而sd3是transformer，训练方式是diffusion [查看详情]

	1楼悄悄打开魔盒 2024-4-4 01:26 目前的两个主流架构，分别处理离散和连续的数据，比如说语言和图像。但是diffusion其实是训练方式，transformer是模型架构，所以diffusion也可以是transformer，DiT就是这样。所以两个模型其实是可以融合的。从transformer在长上下文的表现来看，已经可以有效处理1000万token，作为通用人工智能是合格的，但成本还是很高的，可能会限制其应用范围。
	2楼啊啊是谁都对 2024-4-4 08:33 感谢介绍人工智能的相关知识能否介绍一下transformer的常用训练方式？
	3楼圆环之理 2024-4-4 09:30 哇
	4楼啊啊是谁都对 2024-6-3 08:38 顺便一问，stable diffusion是不是其模型架构和训练方式都是diffusion？悄悄打开魔盒：模型架构可以选择，sd 1.5和sdxl都是UNet，而sd3是transformer，训练方式是diffusion [查看详情]