设置 | 登录 | 注册

作者共发了2篇帖子。

transformer和diffusion

1楼 悄悄打开魔盒 2024-4-4 01:26
目前的两个主流架构,分别处理离散和连续的数据,比如说语言和图像。

但是diffusion其实是训练方式,transformer是模型架构,所以diffusion也可以是transformer,DiT就是这样。

所以两个模型其实是可以融合的。


从transformer在长上下文的表现来看,已经可以有效处理1000万token,作为通用人工智能是合格的,但成本还是很高的,可能会限制其应用范围。

内容转换:

回复帖子
内容:
用户名: 您目前是匿名发表。
验证码:
看不清?换一张
©2010-2025 Purasbar Ver3.0 [手机版] [桌面版]
除非另有声明,本站采用知识共享署名-相同方式共享 3.0 Unported许可协议进行许可。