设置 | 登录 | 注册

作者共发了2篇帖子。

transformer和diffusion

1楼 悄悄打开魔盒 2024-4-4 01:26
目前的兩個主流架構,分別處理離散和連續的數據,比如說語言和圖像。

但是diffusion其實是訓練方式,transformer是模型架構,所以diffusion也可以是transformer,DiT就是這樣。

所以兩個模型其實是可以融合的。


從transformer在長上下文的表現來看,已經可以有效處理1000萬token,作為通用人工智能是合格的,但成本還是很高的,可能會限制其應用範圍。

内容转换:

回复帖子
内容:
用户名: 您目前是匿名发表。
验证码:
看不清?换一张
©2010-2025 Purasbar Ver3.0 [手机版] [桌面版]
除非另有声明,本站采用知识共享署名-相同方式共享 3.0 Unported许可协议进行许可。