优惠论坛
Well123
注册
找回密码 |
天策评选的优秀公司,所有会员与公司发生的问题我们将负责尽力协助处理。
收起/展开
新晋公司
 

新晋公司具有驻站代表,并不在论坛纠纷服务范围内,请会员自行判断选择

  • 356
S级信誉公司
ManBetX万博
易仔
12BET
乐天堂
乐投
188金宝博
E世博
A级信誉公司
吉祥坊
星宝合营
乐动体育
B级信誉公司
bet365
C级合作公司
CMP
金星
LOKI
平博
  • 推荐主题
  • 热门活动
  • 币圈快讯
  • 商城动态
重要通知
 
天策搜索
论坛搜索
              搜索
Array ( [fid] => 6974 [description] => 专注于币圈最新最快资讯,数字货币应用及知识普及 [password] => [icon] => b1/common_6974_icon.png [redirect] => [attachextensions] => [creditspolicy] => Array ( [post] => Array ( [usecustom] => 1 [cycletype] => 1 [cycletime] => 0 [rewardnum] => 5 [extcredits1] => 1 [extcredits2] => 1 [extcredits3] => 0 [extcredits4] => 0 [extcredits5] => 0 [extcredits6] => 0 [extcredits7] => 0 [extcredits8] => 0 [rid] => 1 [fid] => 6974 [rulename] => 发表主题 [action] => post [fids] => 32,52,67,447,1120,1151,1156,6750,6762,6763,6766,6769,6772,6773,6787,6796,6808,6809,6810,6813,6814,6820,6829,6830,6846,6856,6864,6865,6827,6930,6931,6776,6858,6880,6764,6932,6871,6758,6905,1116,6788,6812,6798,6736,6759,6842,6966,6767,6828,6924,6935,6936,6938,6940,6941,6826,6909,6803,6919,6911,6908,6881,6920,6912,6913,6921,6925,6922,6789,6818,6819,6872,6928,6969,6889,6888,6917,6939,6947,6961,6937,6943,6970,6869,6900,6902,6783,6817,1111,6870,6821,6876,6952,6954,6960,6942,6910,6949,6962,6963,6964,6927,6926,6973,6728,6929,6874,6894,6896,6885,6857,6868,1113,6778,56,6844,6878,6802,6933,6811,6923,6877,6875,6918,6892,6757,6832,6833,6795,6793,6848,6837,6849,6850,6851,6852,6853,6854,6863,6882,6836,6790,6838,6794,6791,6873,555,6934,6958,6944,6945,6907,6779,6886,6950,6904,6956,6862,6957,6855,6955,6959,6914,6965,6971,6972,6953,6976,6824,6815,6891,6866,6979,6977,6765,6903,6948,6980,6981,6983,6799,6982,6951,6984,6975,6895,6845,6879,1121,6974 ) [reply] => Array ( [usecustom] => 1 [cycletype] => 1 [cycletime] => 0 [rewardnum] => 0 [extcredits1] => 0 [extcredits2] => 1 [extcredits3] => 10 [extcredits4] => 0 [extcredits5] => 0 [extcredits6] => 0 [extcredits7] => 0 [extcredits8] => 0 [rid] => 2 [fid] => 6974 [rulename] => 发表回复 [action] => reply [fids] => 32,52,67,447,1120,1151,1156,6750,6763,6766,6769,6772,6773,6787,6796,6808,6809,6810,6813,6814,6820,6829,6830,6846,6856,6864,6865,6827,6930,6931,6776,6858,6880,6764,6932,6871,6758,1116,6788,6812,6798,6736,6759,6842,6966,6767,6828,6924,6935,6936,6938,6940,6941,6826,6909,6803,6919,6911,6908,6881,6920,6912,6913,6921,6925,6922,6789,6818,6819,6872,6928,6969,6889,6888,6917,6939,6947,6961,6937,6943,6970,6869,6900,6902,6783,6817,1111,6870,6821,6876,6952,6954,6960,6942,6910,6949,6962,6963,6964,6927,6926,6973,6728,6929,6874,6894,6896,6885,6857,6868,1113,6778,56,6844,6878,6802,6933,6811,6923,6877,6875,6918,6892,6757,6832,6833,6795,6793,6848,6837,6849,6850,6851,6852,6853,6854,6863,6836,6790,6838,6794,6791,6873,555,6934,6958,6944,6945,6907,6779,6886,6950,6904,6956,6862,6957,6855,6955,6959,6914,6965,6971,6972,6953,6976,6824,6815,6891,6866,6979,6977,6765,6903,6948,6980,6981,6983,6799,6982,6951,6984,6975,6895,6845,6879,1121,6974 ) ) [formulaperm] => a:5:{i:0;s:0:"";i:1;s:0:"";s:7:"message";s:0:"";s:5:"medal";N;s:5:"users";s:0:"";} [moderators] => 实习版主1 [rules] => [threadtypes] => Array ( [required] => 1 [listable] => 1 [prefix] => 1 [types] => Array ( [1590] => 论坛公告 [1752] => 公司优惠 [1603] => 虚拟币交流 [1753] => 数字钱包 [1754] => 虚拟币存提 [1755] => 交易所 [1655] => 虚拟币资讯 [1756] => 银行卡 [1757] => 第三方支付 [1760] => 币圈大佬 [1758] => 科技前沿 [1759] => 天策嗨聊 [1661] => 入驻合作 ) [icons] => Array ( [1590] => [1752] => [1603] => [1753] => [1754] => [1755] => [1655] => [1756] => [1757] => [1760] => [1758] => [1759] => [1661] => ) [moderators] => Array ( [1590] => 1 [1752] => [1603] => [1753] => [1754] => [1755] => [1655] => [1756] => [1757] => [1760] => [1758] => [1759] => 1 [1661] => ) ) [threadsorts] => Array ( ) [viewperm] => 9 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 31 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 7 8 [postperm] => 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [replyperm] => 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [getattachperm] => 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [postattachperm] => 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [postimageperm] => 26 22 11 12 13 14 15 27 43 44 60 61 62 63 64 19 67 68 69 73 75 76 83 84 87 90 91 92 33 38 57 58 65 66 74 77 79 80 85 86 1 2 3 [spviewperm] => [seotitle] => [keywords] => [seodescription] => [supe_pushsetting] => [modrecommend] => Array ( [open] => 0 [num] => 10 [imagenum] => 0 [imagewidth] => 300 [imageheight] => 250 [maxlength] => 0 [cachelife] => 0 [dateline] => 0 ) [threadplugin] => Array ( ) [replybg] => [extra] => a:2:{s:9:"namecolor";s:0:"";s:9:"iconwidth";s:2:"60";} [jointype] => 0 [gviewperm] => 0 [membernum] => 0 [dateline] => 0 [lastupdate] => 0 [activity] => 0 [founderuid] => 0 [foundername] => [banner] => [groupnum] => 0 [commentitem] => [relatedgroup] => [picstyle] => 0 [widthauto] => 0 [noantitheft] => 0 [noforumhidewater] => 0 [noforumrecommend] => 0 [livetid] => 0 [price] => 0 [fup] => 6729 [type] => forum [name] => 虚拟币讨论大厅 [status] => 1 [displayorder] => 3 [styleid] => 0 [threads] => 20200 [posts] => 292628 [todayposts] => 146 [yesterdayposts] => 636 [rank] => 2 [oldrank] => 3 [lastpost] => 2654550 CryptoQuant首席执行官分析比特币市场前景-最新加密货币新闻(转) 1717469119 22301 [domain] => [allowsmilies] => 1 [allowhtml] => 1 [allowbbcode] => 1 [allowimgcode] => 1 [allowmediacode] => 0 [allowanonymous] => 0 [allowpostspecial] => 21 [allowspecialonly] => 0 [allowappend] => 0 [alloweditrules] => 1 [allowfeed] => 0 [allowside] => 0 [recyclebin] => 1 [modnewposts] => 2 [jammer] => 1 [disablewatermark] => 0 [inheritedmod] => 0 [autoclose] => 0 [forumcolumns] => 3 [catforumcolumns] => 0 [threadcaches] => 0 [alloweditpost] => 1 [simple] => 16 [modworks] => 1 [allowglobalstick] => 1 [level] => 0 [commoncredits] => 0 [archive] => 0 [recommend] => 0 [favtimes] => 0 [sharetimes] => 0 [disablethumb] => 0 [disablecollect] => 0 [ismoderator] => 0 [threadtableid] => 0 [allowreply] => [allowpost] => [allowpostattach] => )
发帖
12下一页
打印 上一主题 下一主题
[虚拟币交流] 成就了Sora和Stable diffusion 3的DiTs:究竟是啥(转)
[复制链接]
avatar
跳转到指定楼层
1#
Sora才刚发布没过多久,Stable AI就发布了Stable Diffusion 3。对于使用人工智能创意设计的人来说,无疑是过大年了。那么本篇文章就专门为这些用户准备,用更直白的话讲述Stable Diffusion 3的两大特色“扩散transformers模型”以及“流匹配”,帮助你在模型发布后更好的使用它来创作。8 R! s6 {$ l: b& F3 w
/ W1 ~2 W3 X: t! W# ~! P6 q
扩散transformer模型(diffusion transformers),我们下文就简称它为DiTs。那看名字你也清楚了,这是一个基于transformer架构的图像潜变量扩散模型。如果你读过硅星人Pro的文章《揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”》,那么你对于接下来的内容来说已经算是“课代表”级别的了。DiTs跟Sora一样,它也使用了“块”(patches)这个概念,不过由于DiTs是用来生成图片的,它不需要像Sora那样保持不同帧图片之间的逻辑关联,所以它不必生成时间和空间的时空块。
$ P# w- b5 i. y1 [; @- X( i0 T6 g
2 K, X( j, m( A$ \+ K5 z( u3 }$ @' F3 _3 {% h! o
5 w7 X+ a- u1 ]; u5 H3 L
Stable diffusion 3生成0 `' [# Y  q/ H& h: ?
对于DiTs来说,它和4、5年前在计算机视觉领域掀起一场腥风血雨的Vision Transformer (ViT) 是相似的,图像会被DiTs被分割成多个patches,并嵌入到连续向量空间中,形成序列输入供transformer处理。不过这里要注意,因为DiTs是有业务在身的,所以对于条件图像生成任务,DiTs就需要接收并融合外部条件信息,例如类别标签或文本描述。通常通过提供额外的输入标记或者跨注意力机制来实现,使得模型能够根据给定的条件信息指导生成过程。0 r: X& ~2 J7 d) B( j1 W
" g- E( B7 L$ [3 P
那么当这个块抵达DiTs内部的时候呢,他就可以被DiTs内部的DiT block来加工成需要的内容了。DiT block是DiTs最核心的一环,它是一种设计用于扩散模型的特殊transformer结构,能够处理图像和条件信息。一般来说,block本身翻译过来就是块,但是为了和patches做区分,所以这里我直接用block。
. |! v& W$ R" J& b' h$ N! p
$ P9 t$ W. d/ y
5 x8 r! k1 [  |2 f9 E
$ R, p5 H/ x1 x: u. B1 U: R" WStable diffusion 3生成: S8 h4 r) ?# d. t( ^% _
DiT block又分为三个小block:交叉注意力、adaLN、adaLN-Zero。交叉注意力指的是在多头自注意力层之后添加了一个额外的多头交叉注意力层,它的作用是利用条件信息来指导图像生成,使生成的图片更符合提示词,不过代价是增加了大约15%的计算量。
/ H6 }4 d! A9 [" [0 J/ P6 [: J" m3 ^" F4 J$ N- ~
adaLN中的LN,指的是通过规范化每一层神经网络内部单元的输出,以减少内部协变量偏移(covariate shift)的问题,进而改善模型训练过程中的收敛速度和性能。那adaLN就是对标准层归一化的扩展,它允许层归一化的参数根据输入数据或附加条件信息动态调整。它就和汽车那个悬挂一样,是用来增加模型稳定性和适应性的。
" @1 U8 v2 R$ G! K- m4 b* M/ @) f- y

% X8 P- Z" s  c8 w" s( V  a3 @+ O5 H8 O, k6 _7 t
Stable diffusion 3生成
+ s& M) y! q1 W  V+ y接下来,Stable AI在adaLN DiT block的基础上进行了一项改进,除了回归γ和β之外,还回归维度级的缩放参数α,并在DiT block内的任何残差连接之前立即应用这些参数。而这一个block就是adaLN-Zero,这样做的目的是为了模仿残差网络中的有益初始化策略,以促进模型的有效训练和优化。" `! i% m# U: r1 S; y
  q9 K6 A8 [3 h: u' @1 r2 u
经过DiT block后,token序列就会解码为输出噪声预测和输出对角协方差预测。通过标准线性解码器,这两个预测结果的大小和输入图像的空间维度相同。最后是将这些解码后的令牌按照它们原有的空间布局重新排列,从而得到预测出的噪声值和协方差值。
) U$ q8 S) ^2 x7 ]1 O
* y0 t6 H- {* e- J3 V! B) Z6 A% n( Y/ z9 H

+ x9 T. _) K  a# sStable diffusion 3生成
9 r) m4 u8 d' G  Y7 y第二章,流匹配(Flow Matching,下文简称FM)。根据Stable AI的说法,是一种高效的、无需模拟的CNF模型训练方法,允许利用通用概率路径监督CNF训练过程。尤为重要的是,FM打破了扩散模型之外的CNF可扩展训练障碍,无需深入理解扩散过程即可直接操作概率路径,从而绕过了传统训练中的难题。
( ]' q% Z7 v7 P9 B
/ V; u+ @* J) M* b+ X4 w所谓CNF,就是Continuous Normalizing Flows,连续归一化流。这是一种深度学习中的概率模型和生成模型技术。在CNF中,通过一系列可逆且连续的变换将简单的概率分布转换为复杂的、高维数据的概率分布。这些变换通常由一个神经网络来参数化,使得原始随机变量经过连续变换后能够模拟目标数据分布。翻译成大白话,CNF像是摇骰子那样生成数据的。3 t/ n1 N: ]0 h9 ~3 p( R% v
! Y# J' \- `6 l! c2 a& @
3 Z9 l: F2 T' i' g6 i

2 G+ o0 ^  P6 |7 \" ?/ lStable diffusion 3生成* U9 H- s' \$ i# q  K8 r: C! I
但是CNF在实际操作中需要大量的计算资源和时间,于是Stable AI就寻思了,那能不能又一个结果只要差不多和CNF一样就行,但是流程要稳定,计算量要低的方法?于是FM就诞生了,FM的本质是一个用于训练CNF模型以适应并模拟给定数据分布演化过程的技术,即使我们并不事先知道这个分布的具体数学表达式或对应的生成向量场。通过优化FM目标函数,也可以逐步让模型学习到能够生成与真实数据分布近似的概率分布的向量场。; l$ F4 S' ?/ B, w
$ U; C. u: x: H/ [. o+ }' w
相较于CNF而言,FM应该算是一种优化方法,它的目标是训练CNF模型生成的向量场与理想的目标概率路径上的向量场尽可能接近。. |7 C; j! @. l

+ ]& F6 q3 w, \" Y% A9 B' w  {  D: q) x9 w4 k7 c

# K0 N# X6 Z5 {% o) @& {Stable diffusion 3生成
+ a9 X6 K7 O: W- y看完了Stable Diffusion 3的两大核心技术特性你就会发现,其实它和Sora非常接近。俩模型都是transformer模型(stable diffusion此前采用的是U-Net)、都使用块、都有着划时代的稳定性和优化,而且出生日期还这么近,说他们有血缘关系,我认为并不过分。
+ ~; Q5 ]4 W* h5 G
  W5 F5 P5 h# n  g8 X3 x! b2 {$ `6 d5 q不过“兄弟俩”有一个根源性的不同,那就是Sora闭源,Stable Diffusion 3开源。事实上,Midjourney也好,DALL·E也好,他们都是闭源的,唯有Stable Diffusion是开源的。如果你关注开源人工智能,那么你一定发现了,开源社区陷入困境已经有很长一段时间了,没有明显的突破,很多人都对此失去信心。Stable Diffusion 2和Stable Diffusion XL仅改进了生成图片的美观性,而Stable Diffusion 1.5已经可以做到这一点。看到Stable Diffusion 3的革命性改进,能让很多人开源社区的开发者重燃信心。
4 O' h) Y" X7 N+ h7 R
. i( `" d8 Z. \8 v0 _* s% i0 ?: j# r# j9 N* z* ^
2 `& X" C4 d: m- p/ r
Stable diffusion 3生成5 e* P0 i( ^4 d  f  k7 W5 s
再说个刺激的,Stable AI的CEO默罕默德艾马德莫斯塔克(মোহম্মদ ইমাদ মোশতাক)在推特中说到,尽管Stable AI在人工智能这个领域的资源比其他一些公司少了足足100倍,但是Stable Diffusion 3架构已经可以接受除了视频和图像以外的内容了,不过目前还不能公布太多。
: E0 {  P: r# Y7 H' O) ^
/ a6 s# O; h8 K* {. \你说图片和视频我还能理解,可啥叫“以外”的内容?其实我能想到的那就是音频了,通过一段声音来生成图片。让人摸不着头脑,不过一旦Stable AI放出最新的研究成果,我们一定第一时间拿来解读。: z( J% U- P4 ?' i8 i9 K1 b# J
2 w+ F  Y) h3 B. h2 Y& e  A
avatar
是什么也是需要关注一下了的
avatar
究竟是啥也是现在才知道
avatar
这个也是烫伤介绍才行
avatar
可能大家都是不知道是啥的
avatar
能有赢钱也是很好了
avatar
究竟是啥也是要在形成了
avatar
是什么也是不好说的了
avatar
20#
sora 是什么,听说过,没仔细看过
avatar
19#
这类东西,对我们来说根本没有意义
avatar
18#
的确是必须看看才对了的啊。
avatar
17#
这个是啥我也得要看你介绍啦。
avatar
此次方法在天策的运气还是值得肯定的.
avatar
15#
方法最后一段话觉得是有感觉的,但是在我面前就难以实现,毕竟自己的运气太差了。
avatar
其实每种方法的吧~这个也是关注一下了
avatar
看了这个方法我感觉也是必要关注起来了的哦。
avatar
12#
其实每种方法的吧~这个也是关心一下了
12下一页
您需要登录后才可以回帖 登录 | 论坛注册

本版积分规则

:) :( :D :'( :@ :o
:P :$ ;P :L :Q :lol
:loveliness: :funk: :curse: :dizzy: :shutup: :sleepy:
:hug: :victory: :time: :kiss: :handshake: :call:
{:8_286:} {:8_287:} {:8_288:} {:8_289:}
{:8_290:} {:8_291:} {:8_292:} {:8_293:}
{:8_294:} {:8_295:} {:8_296:} {:8_297:}
{:8_298:} {:8_299:} {:8_300:} {:8_301:}
{:8_302:} {:8_303:} {:8_304:} {:8_305:}
{:8_306:} {:8_307:} {:8_308:} {:8_309:}
{:8_310:} {:8_311:} {:8_312:}
{:8_313:} {:8_314:} {:8_315:} {:8_316:}
{:8_317:} {:8_318:} {:8_319:} {:8_320:}
:) :( :D :'( :@ :o
:P :$ ;P :L :Q :lol
:loveliness: :funk: :curse: :dizzy: :shutup: :sleepy:
:hug: :victory: :time: :kiss: :handshake: :call:
:) :( :D :'( :@ :o
:P :$ ;P :L :Q :lol
:loveliness: :funk: :curse: :dizzy: :shutup: :sleepy:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory:
:) :( :D :'( :@ :o
:P :$ ;P :L :Q :lol
:loveliness: :funk: :curse: :dizzy: :shutup: :sleepy:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake: :call:
:hug: :victory: :time: :kiss: :handshake:
未有绑定记录
 


Powered by 天策论坛   © 2007-2024 天策论坛 | 小黑屋 | 手机|
1717 : 0