transformer和diffusion, Bar 人工智能, Purasbar

The author has 2 posts.

Floor 1 悄悄打开魔盒 4/4/24 1:26

目前的兩個主流架構，分別處理離散和連續的數據，比如說語言和圖像。

但是diffusion其實是訓練方式，transformer是模型架構，所以diffusion也可以是transformer，DiT就是這樣。

所以兩個模型其實是可以融合的。

從transformer在長上下文的表現來看，已經可以有效處理1000萬token，作為通用人工智能是合格的，但成本還是很高的，可能會限制其應用範圍。