作者共发了1篇帖子。 内容转换:不转换▼
 
点击 回复
88 4
transformer和diffusion
初级魔法师 四级
1楼 发表于:2024-4-4 01:26
目前的两个主流架构,分别处理离散和连续的数据,比如说语言和图像。

但是diffusion其实是训练方式,transformer是模型架构,所以diffusion也可以是transformer,DiT就是这样。

所以两个模型其实是可以融合的。


从transformer在长上下文的表现来看,已经可以有效处理1000万token,作为通用人工智能是合格的,但成本还是很高的,可能会限制其应用范围。

回复帖子

内容:
用户名: 您目前是匿名发表
验证码:
(快捷键:Ctrl+Enter)
 

本帖信息

点击数:88 回复数:4
评论数: ?
作者:悄悄打开魔盒
最后回复:悄悄打开魔盒
最后回复时间:2024-6-17 19:43
 
©2010-2024 Purasbar Ver2.0
除非另有声明,本站采用知识共享署名-相同方式共享 3.0 Unported许可协议进行许可。