設置 | 登錄 | 註冊

作者共發了2篇帖子。

transformer和diffusion

1樓 悄悄打开魔盒 2024-4-4 01:26
目前的两个主流架构,分别处理离散和连续的数据,比如说语言和图像。

但是diffusion其实是训练方式,transformer是模型架构,所以diffusion也可以是transformer,DiT就是这样。

所以两个模型其实是可以融合的。


从transformer在长上下文的表现来看,已经可以有效处理1000万token,作为通用人工智能是合格的,但成本还是很高的,可能会限制其应用范围。

內容轉換:

回覆帖子
內容:
用戶名: 您目前是匿名發表。
驗證碼:
看不清?換一張
©2010-2025 Purasbar Ver3.0 [手機版] [桌面版]
除非另有聲明,本站採用知識共享署名-相同方式共享 3.0 Unported許可協議進行許可。