目前共有5篇帖子。
但是diffusion其实是训练方式,transformer是模型架构,所以diffusion也可以是transformer,DiT就是这样。
所以两个模型其实是可以融合的。
从transformer在长上下文的表现来看,已经可以有效处理1000万token,作为通用人工智能是合格的,但成本还是很高的,可能会限制其应用范围。
能否介绍一下transformer的常用训练方式?
內容轉換: