Settings | Sign in | Sign up

The author has 2 posts.

transformer和diffusion

Floor 1 悄悄打开魔盒 4/4/24 1:26
目前的两个主流架构,分别处理离散和连续的数据,比如说语言和图像。

但是diffusion其实是训练方式,transformer是模型架构,所以diffusion也可以是transformer,DiT就是这样。

所以两个模型其实是可以融合的。


从transformer在长上下文的表现来看,已经可以有效处理1000万token,作为通用人工智能是合格的,但成本还是很高的,可能会限制其应用范围。

Content converter:

Reply the post
Content:
User: You are currently anonymous.
Captcha:
Unclear? Try another one.