目前共有5篇帖子。
但是diffusion其實是訓練方式,transformer是模型架構,所以diffusion也可以是transformer,DiT就是這樣。
所以兩個模型其實是可以融合的。
從transformer在長上下文的表現來看,已經可以有效處理1000萬token,作為通用人工智能是合格的,但成本還是很高的,可能會限制其應用範圍。
能否介紹一下transformer的常用訓練方式?
內容轉換: