NotificationsYou must be signed in to change notification settings
Fork0
Star0

Commitfbba0f9

committed

bring in prediction of v objective, combining the findings from progressive distillation paper and imagen-video to the eventual extension of dalle2 to make-a-video

1 parent9f37705 commitfbba0f9Copy full SHA for fbba0f9

File tree

3 files changed

+69

-17

lines changed

README.md
dalle2_pytorch
- dalle2_pytorch.py
- version.py

3 files changed

+69

-17

lines changed

`‎README.md‎`

Lines changed: 10 additions & 0 deletions

Original file line number	Diff line number	Diff line change
`@@ -1298,4 +1298,14 @@ For detailed information on training the diffusion prior, please refer to the [d`
`1298`	`1298`	`}`
`1299`	`1299`	```
`1300`	`1300`
	`1301`	+```bibtex
	`1302`	`+@article{Salimans2022ProgressiveDF,`
	`1303`	`+ title = {Progressive Distillation for Fast Sampling of Diffusion Models},`
	`1304`	`+ author = {Tim Salimans and Jonathan Ho},`
	`1305`	`+ journal = {ArXiv},`
	`1306`	`+ year = {2022},`
	`1307`	`+ volume = {abs/2202.00512}`
	`1308`	`+}`
	`1309`	+```
	`1310`	`+`
`1301`	`1311`	`Creating noise from data is easy; creating data from noise is generative modeling. - <ahref="https://arxiv.org/abs/2011.13456">Yang Song's paper</a>`

`‎dalle2_pytorch/dalle2_pytorch.py‎`

Lines changed: 58 additions & 16 deletions

Original file line number	Diff line number	Diff line change
`@@ -619,14 +619,20 @@ def q_posterior(self, x_start, x_t, t):`
`619`	`619`	`posterior_log_variance_clipped=extract(self.posterior_log_variance_clipped,t,x_t.shape)`
`620`	`620`	`returnposterior_mean,posterior_variance,posterior_log_variance_clipped`
`621`	`621`
`622`		`-defq_sample(self,x_start,t,noise=None):`
	`622`	`+defq_sample(self,x_start,t,noise=None):`
`623`	`623`	`noise=default(noise,lambda:torch.randn_like(x_start))`
`624`	`624`
`625`	`625`	`return (`
`626`	`626`	`extract(self.sqrt_alphas_cumprod,t,x_start.shape)*x_start+`
`627`	`627`	`extract(self.sqrt_one_minus_alphas_cumprod,t,x_start.shape)*noise`
`628`	`628`	`)`
`629`	`629`
	`630`	`+defcalculate_v(self,x_start,t,noise=None):`
	`631`	`+return (`
	`632`	`+extract(self.sqrt_alphas_cumprod,t,x_start.shape)*noise-`
	`633`	`+extract(self.sqrt_one_minus_alphas_cumprod,t,x_start.shape)*x_start`
	`634`	`+ )`
	`635`	`+`
`630`	`636`	`defq_sample_from_to(self,x_from,from_t,to_t,noise=None):`
`631`	`637`	`shape=x_from.shape`
`632`	`638`	`noise=default(noise,lambda:torch.randn_like(x_from))`
`@@ -638,6 +644,12 @@ def q_sample_from_to(self, x_from, from_t, to_t, noise = None):`
`638`	`644`
`639`	`645`	`returnx_from* (alpha_next/alpha)+noise* (sigma_nextalpha-sigmaalpha_next)/alpha`
`640`	`646`
	`647`	`+defpredict_start_from_v(self,x_t,t,v):`
	`648`	`+return (`
	`649`	`+extract(self.sqrt_alphas_cumprod,t,x_t.shape)*x_t-`
	`650`	`+extract(self.sqrt_one_minus_alphas_cumprod,t,x_t.shape)*v`
	`651`	`+ )`
	`652`	`+`
`641`	`653`	`defpredict_start_from_noise(self,x_t,t,noise):`
`642`	`654`	`return (`
`643`	`655`	`extract(self.sqrt_recip_alphas_cumprod,t,x_t.shape)*x_t-`
`@@ -1146,6 +1158,7 @@ def __init__(`
`1146`	`1158`	`image_cond_drop_prob=None,`
`1147`	`1159`	`loss_type="l2",`
`1148`	`1160`	`predict_x_start=True,`
	`1161`	`+predict_v=False,`
`1149`	`1162`	`beta_schedule="cosine",`
`1150`	`1163`	`condition_on_text_encodings=True,# the paper suggests this is needed, but you can turn it off for your CLIP preprocessed text embed -> image embed training`
`1151`	`1164`	`sampling_clamp_l2norm=False,# whether to l2norm clamp the image embed at each denoising iteration (analogous to -1 to 1 clipping for usual DDPMs)`
`@@ -1197,6 +1210,7 @@ def __init__(`
`1197`	`1210`	`# in paper, they do not predict the noise, but predict x0 directly for image embedding, claiming empirically better results. I'll just offer both.`
`1198`	`1211`
`1199`	`1212`	`self.predict_x_start=predict_x_start`
	`1213`	`+self.predict_v=predict_v# takes precedence over predict_x_start`
`1200`	`1214`
`1201`	`1215`	`# @crowsonkb 's suggestion - https://github.com/lucidrains/DALLE2-pytorch/issues/60#issue-1226116132`
`1202`	`1216`
`@@ -1226,7 +1240,9 @@ def p_mean_variance(self, x, t, text_cond, self_cond = None, clip_denoised = Fal`
`1226`	`1240`
`1227`	`1241`	`pred=self.net.forward_with_cond_scale(x,t,cond_scale=cond_scale,self_cond=self_cond,**text_cond)`
`1228`	`1242`
`1229`		`-ifself.predict_x_start:`
	`1243`	`+ifself.predict_v:`
	`1244`	`+x_start=self.noise_scheduler.predict_start_from_v(x,t=t,v=pred)`
	`1245`	`+elifself.predict_x_start:`
`1230`	`1246`	`x_start=pred`
`1231`	`1247`	`else:`
`1232`	`1248`	`x_start=self.noise_scheduler.predict_start_from_noise(x,t=t,noise=pred)`
`@@ -1299,7 +1315,9 @@ def p_sample_loop_ddim(self, shape, text_cond, *, timesteps, eta = 1., cond_scal`
`1299`	`1315`
`1300`	`1316`	`# derive x0`
`1301`	`1317`
`1302`		`-ifself.predict_x_start:`
	`1318`	`+ifself.predict_v:`
	`1319`	`+x_start=self.noise_scheduler.predict_start_from_v(image_embed,t=time_cond,v=pred)`
	`1320`	`+elifself.predict_x_start:`
`1303`	`1321`	`x_start=pred`
`1304`	`1322`	`else:`
`1305`	`1323`	`x_start=self.noise_scheduler.predict_start_from_noise(image_embed,t=time_cond,noise=pred_noise)`
`@@ -1314,7 +1332,7 @@ def p_sample_loop_ddim(self, shape, text_cond, *, timesteps, eta = 1., cond_scal`
`1314`	`1332`
`1315`	`1333`	`# predict noise`
`1316`	`1334`
`1317`		`-ifself.predict_x_start:`
	`1335`	`+ifself.predict_x_startorself.predict_v:`
`1318`	`1336`	`pred_noise=self.noise_scheduler.predict_noise_from_start(image_embed,t=time_cond,x0=x_start)`
`1319`	`1337`	`else:`
`1320`	`1338`	`pred_noise=pred`
`@@ -1372,7 +1390,12 @@ def p_losses(self, image_embed, times, text_cond, noise = None):`
`1372`	`1390`	`ifself.predict_x_startandself.training_clamp_l2norm:`
`1373`	`1391`	`pred=self.l2norm_clamp_embed(pred)`
`1374`	`1392`
`1375`		`-target=noiseifnotself.predict_x_startelseimage_embed`
	`1393`	`+ifself.predict_v:`
	`1394`	`+target=self.noise_scheduler.calculate_v(image_embed,times,noise)`
	`1395`	`+elifself.predict_x_start:`
	`1396`	`+target=image_embed`
	`1397`	`+else:`
	`1398`	`+target=noise`
`1376`	`1399`
`1377`	`1400`	`loss=self.noise_scheduler.loss_fn(pred,target)`
`1378`	`1401`	`returnloss`
`@@ -2448,6 +2471,7 @@ def __init__(`
`2448`	`2471`	`loss_type='l2',`
`2449`	`2472`	`beta_schedule=None,`
`2450`	`2473`	`predict_x_start=False,`
	`2474`	`+predict_v=False,`
`2451`	`2475`	`predict_x_start_for_latent_diffusion=False,`
`2452`	`2476`	`image_sizes=None,# for cascading ddpm, image size at each stage`
`2453`	`2477`	`random_crop_sizes=None,# whether to random crop the image at that stage in the cascade (super resoluting convolutions at the end may be able to generalize on smaller crops)`
`@@ -2620,6 +2644,10 @@ def __init__(`
`2620`	`2644`
`2621`	`2645`	`self.predict_x_start=cast_tuple(predict_x_start,len(unets))ifnotpredict_x_start_for_latent_diffusionelsetuple(map(lambdat:isinstance(t,VQGanVAE),self.vaes))`
`2622`	`2646`
	`2647`	`+# predict v`
	`2648`	`+`
	`2649`	`+self.predict_v=cast_tuple(predict_v,len(unets))`
	`2650`	`+`
`2623`	`2651`	`# input image range`
`2624`	`2652`
`2625`	`2653`	`self.input_image_range= (-1.ifnotauto_normalize_imgelse0.,1.)`
`@@ -2731,14 +2759,16 @@ def dynamic_threshold(self, x):`
`2731`	`2759`	`x=x.clamp(-s,s)/s`
`2732`	`2760`	`returnx`
`2733`	`2761`
`2734`		`-defp_mean_variance(self,unet,x,t,image_embed,noise_scheduler,text_encodings=None,lowres_cond_img=None,self_cond=None,clip_denoised=True,predict_x_start=False,learned_variance=False,cond_scale=1.,model_output=None,lowres_noise_level=None):`
	`2762`	`+defp_mean_variance(self,unet,x,t,image_embed,noise_scheduler,text_encodings=None,lowres_cond_img=None,self_cond=None,clip_denoised=True,predict_x_start=False,predict_v=False,learned_variance=False,cond_scale=1.,model_output=None,lowres_noise_level=None):`
`2735`	`2763`	`assertnot (cond_scale!=1.andnotself.can_classifier_guidance),'the decoder was not trained with conditional dropout, and thus one cannot use classifier free guidance (cond_scale anything other than 1)'`
`2736`	`2764`
`2737`	`2765`	`model_output=default(model_output,lambda:unet.forward_with_cond_scale(x,t,image_embed=image_embed,text_encodings=text_encodings,cond_scale=cond_scale,lowres_cond_img=lowres_cond_img,self_cond=self_cond,lowres_noise_level=lowres_noise_level))`
`2738`	`2766`
`2739`	`2767`	`pred,var_interp_frac_unnormalized=self.parse_unet_output(learned_variance,model_output)`
`2740`	`2768`
`2741`		`-ifpredict_x_start:`
	`2769`	`+ifpredict_v:`
	`2770`	`+x_start=noise_scheduler.predict_start_from_v(x,t=t,v=pred)`
	`2771`	`+elifpredict_x_start:`
`2742`	`2772`	`x_start=pred`
`2743`	`2773`	`else:`
`2744`	`2774`	`x_start=noise_scheduler.predict_start_from_noise(x,t=t,noise=pred)`
`@@ -2765,9 +2795,9 @@ def p_mean_variance(self, unet, x, t, image_embed, noise_scheduler, text_encodin`
`2765`	`2795`	`returnmodel_mean,posterior_variance,posterior_log_variance,x_start`
`2766`	`2796`
`2767`	`2797`	`@torch.no_grad()`
`2768`		`-defp_sample(self,unet,x,t,image_embed,noise_scheduler,text_encodings=None,cond_scale=1.,lowres_cond_img=None,self_cond=None,predict_x_start=False,learned_variance=False,clip_denoised=True,lowres_noise_level=None):`
	`2798`	`+defp_sample(self,unet,x,t,image_embed,noise_scheduler,text_encodings=None,cond_scale=1.,lowres_cond_img=None,self_cond=None,predict_x_start=False,predict_v=False,learned_variance=False,clip_denoised=True,lowres_noise_level=None):`
`2769`	`2799`	`b,_,device=x.shape,x.device`
`2770`		`-model_mean,_,model_log_variance,x_start=self.p_mean_variance(unet,x=x,t=t,image_embed=image_embed,text_encodings=text_encodings,cond_scale=cond_scale,lowres_cond_img=lowres_cond_img,self_cond=self_cond,clip_denoised=clip_denoised,predict_x_start=predict_x_start,noise_scheduler=noise_scheduler,learned_variance=learned_variance,lowres_noise_level=lowres_noise_level)`
	`2800`	`+model_mean,_,model_log_variance,x_start=self.p_mean_variance(unet,x=x,t=t,image_embed=image_embed,text_encodings=text_encodings,cond_scale=cond_scale,lowres_cond_img=lowres_cond_img,self_cond=self_cond,clip_denoised=clip_denoised,predict_x_start=predict_x_start,predict_v=predict_v,noise_scheduler=noise_scheduler,learned_variance=learned_variance,lowres_noise_level=lowres_noise_level)`
`2771`	`2801`	`noise=torch.randn_like(x)`
`2772`	`2802`	`# no noise when t == 0`
`2773`	`2803`	`nonzero_mask= (1- (t==0).float()).reshape(b,((1,) (len(x.shape)-1)))`
`@@ -2782,6 +2812,7 @@ def p_sample_loop_ddpm(`
`2782`	`2812`	`image_embed,`
`2783`	`2813`	`noise_scheduler,`
`2784`	`2814`	`predict_x_start=False,`
	`2815`	`+predict_v=False,`
`2785`	`2816`	`learned_variance=False,`
`2786`	`2817`	`clip_denoised=True,`
`2787`	`2818`	`lowres_cond_img=None,`
`@@ -2840,6 +2871,7 @@ def p_sample_loop_ddpm(`
`2840`	`2871`	`lowres_cond_img=lowres_cond_img,`
`2841`	`2872`	`lowres_noise_level=lowres_noise_level,`
`2842`	`2873`	`predict_x_start=predict_x_start,`
	`2874`	`+predict_v=predict_v,`
`2843`	`2875`	`noise_scheduler=noise_scheduler,`
`2844`	`2876`	`learned_variance=learned_variance,`
`2845`	`2877`	`clip_denoised=clip_denoised`
`@@ -2865,6 +2897,7 @@ def p_sample_loop_ddim(`
`2865`	`2897`	`timesteps,`
`2866`	`2898`	`eta=1.,`
`2867`	`2899`	`predict_x_start=False,`
	`2900`	`+predict_v=False,`
`2868`	`2901`	`learned_variance=False,`
`2869`	`2902`	`clip_denoised=True,`
`2870`	`2903`	`lowres_cond_img=None,`
`@@ -2926,7 +2959,9 @@ def p_sample_loop_ddim(`
`2926`	`2959`
`2927`	`2960`	`# predict x0`
`2928`	`2961`
`2929`		`-ifpredict_x_start:`
	`2962`	`+ifpredict_v:`
	`2963`	`+x_start=noise_scheduler.predict_start_from_v(img,t=time_cond,v=pred)`
	`2964`	`+elifpredict_x_start:`
`2930`	`2965`	`x_start=pred`
`2931`	`2966`	`else:`
`2932`	`2967`	`x_start=noise_scheduler.predict_start_from_noise(img,t=time_cond,noise=pred)`
`@@ -2938,8 +2973,8 @@ def p_sample_loop_ddim(`
`2938`	`2973`
`2939`	`2974`	`# predict noise`
`2940`	`2975`
`2941`		`-ifpredict_x_start:`
`2942`		`-pred_noise=noise_scheduler.predict_noise_from_start(img,t=time_cond,x0=pred)`
	`2976`	`+ifpredict_x_startorpredict_v:`
	`2977`	`+pred_noise=noise_scheduler.predict_noise_from_start(img,t=time_cond,x0=x_start)`
`2943`	`2978`	`else:`
`2944`	`2979`	`pred_noise=pred`
`2945`	`2980`
`@@ -2975,7 +3010,7 @@ def p_sample_loop(self, args, noise_scheduler, timesteps = None, *kwargs):`
`2975`	`3010`
`2976`	`3011`	`returnself.p_sample_loop_ddim(args,noise_scheduler=noise_scheduler,timesteps=timesteps,*kwargs)`
`2977`	`3012`
`2978`		`-defp_losses(self,unet,x_start,times,*,image_embed,noise_scheduler,lowres_cond_img=None,text_encodings=None,predict_x_start=False,noise=None,learned_variance=False,clip_denoised=False,is_latent_diffusion=False,lowres_noise_level=None):`
	`3013`	`+defp_losses(self,unet,x_start,times,*,image_embed,noise_scheduler,lowres_cond_img=None,text_encodings=None,predict_x_start=False,predict_v=False,noise=None,learned_variance=False,clip_denoised=False,is_latent_diffusion=False,lowres_noise_level=None):`
`2979`	`3014`	`noise=default(noise,lambda:torch.randn_like(x_start))`
`2980`	`3015`
`2981`	`3016`	`# normalize to [-1, 1]`
`@@ -3020,7 +3055,12 @@ def p_losses(self, unet, x_start, times, *, image_embed, noise_scheduler, lowres`
`3020`	`3055`
`3021`	`3056`	`pred,_=self.parse_unet_output(learned_variance,unet_output)`
`3022`	`3057`
`3023`		`-target=noiseifnotpredict_x_startelsex_start`
	`3058`	`+ifpredict_v:`
	`3059`	`+target=noise_scheduler.calculate_v(x_start,times,noise)`
	`3060`	`+elifpredict_x_start:`
	`3061`	`+target=x_start`
	`3062`	`+else:`
	`3063`	`+target=noise`
`3024`	`3064`
`3025`	`3065`	`loss=noise_scheduler.loss_fn(pred,target,reduction='none')`
`3026`	`3066`	`loss=reduce(loss,'b ... -> b (...)','mean')`
`@@ -3106,7 +3146,7 @@ def sample(`
`3106`	`3146`	`num_unets=self.num_unets`
`3107`	`3147`	`cond_scale=cast_tuple(cond_scale,num_unets)`
`3108`	`3148`
`3109`		`-forunet_number,unet,vae,channel,image_size,predict_x_start,learned_variance,noise_scheduler,lowres_cond,sample_timesteps,unet_cond_scaleintqdm(zip(range(1,num_unets+1),self.unets,self.vaes,self.sample_channels,self.image_sizes,self.predict_x_start,self.learned_variance,self.noise_schedulers,self.lowres_conds,self.sample_timesteps,cond_scale)):`
	`3149`	`+forunet_number,unet,vae,channel,image_size,predict_x_start,predict_v,learned_variance,noise_scheduler,lowres_cond,sample_timesteps,unet_cond_scaleintqdm(zip(range(1,num_unets+1),self.unets,self.vaes,self.sample_channels,self.image_sizes,self.predict_x_start,self.predict_v,self.learned_variance,self.noise_schedulers,self.lowres_conds,self.sample_timesteps,cond_scale)):`
`3110`	`3150`	`ifunet_number<start_at_unet_number:`
`3111`	`3151`	`continue# It's the easiest way to do it`
`3112`	`3152`
`@@ -3142,6 +3182,7 @@ def sample(`
`3142`	`3182`	`text_encodings=text_encodings,`
`3143`	`3183`	`cond_scale=unet_cond_scale,`
`3144`	`3184`	`predict_x_start=predict_x_start,`
	`3185`	`+predict_v=predict_v,`
`3145`	`3186`	`learned_variance=learned_variance,`
`3146`	`3187`	`clip_denoised=notis_latent_diffusion,`
`3147`	`3188`	`lowres_cond_img=lowres_cond_img,`
`@@ -3181,6 +3222,7 @@ def forward(`
`3181`	`3222`	`lowres_conditioner=self.lowres_conds[unet_index]`
`3182`	`3223`	`target_image_size=self.image_sizes[unet_index]`
`3183`	`3224`	`predict_x_start=self.predict_x_start[unet_index]`
	`3225`	`+predict_v=self.predict_v[unet_index]`
`3184`	`3226`	`random_crop_size=self.random_crop_sizes[unet_index]`
`3185`	`3227`	`learned_variance=self.learned_variance[unet_index]`
`3186`	`3228`	`b,c,h,w,device,=*image.shape,image.device`
`@@ -3219,7 +3261,7 @@ def forward(`
`3219`	`3261`	`image=vae.encode(image)`
`3220`	`3262`	`lowres_cond_img=maybe(vae.encode)(lowres_cond_img)`
`3221`	`3263`
`3222`		`-losses=self.p_losses(unet,image,times,image_embed=image_embed,text_encodings=text_encodings,lowres_cond_img=lowres_cond_img,predict_x_start=predict_x_start,learned_variance=learned_variance,is_latent_diffusion=is_latent_diffusion,noise_scheduler=noise_scheduler,lowres_noise_level=lowres_noise_level)`
	`3264`	`+losses=self.p_losses(unet,image,times,image_embed=image_embed,text_encodings=text_encodings,lowres_cond_img=lowres_cond_img,predict_x_start=predict_x_start,predict_v=predict_v,learned_variance=learned_variance,is_latent_diffusion=is_latent_diffusion,noise_scheduler=noise_scheduler,lowres_noise_level=lowres_noise_level)`
`3223`	`3265`
`3224`	`3266`	`ifnotreturn_lowres_cond_image:`
`3225`	`3267`	`returnlosses`

`‎dalle2_pytorch/version.py‎`

Lines changed: 1 addition & 1 deletion

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-__version__='1.10.9'`
	`1`	`+__version__='1.11.1'`

0 commit comments

Comments

(0)

Movatterモバイル変換

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commitfbba0f9

File tree

3 files changed

3 files changed

`‎README.md‎`

`‎dalle2_pytorch/dalle2_pytorch.py‎`

`‎dalle2_pytorch/version.py‎`

0 commit comments