enzymezoo-code
diff --git a/‎Deforum_Stable_Diffusion.ipynb‎
Lines changed: 99 additions & 45 deletions b/‎Deforum_Stable_Diffusion.ipynb‎
Lines changed: 99 additions & 45 deletions
@@ -96,7 +96,7 @@
         "    all_process = [\n",
         "        ['pip', 'install', 'torch==1.12.1+cu113', 'torchvision==0.13.1+cu113', '--extra-index-url', 'https://download.pytorch.org/whl/cu113'],\n",
         "        ['pip', 'install', 'omegaconf==2.2.3', 'einops==0.4.1', 'pytorch-lightning==1.7.4', 'torchmetrics==0.9.3', 'torchtext==0.13.1', 'transformers==4.21.2', 'kornia==0.6.7'],\n",
-        "        ['git', 'clone', 'https://github.com/deforum/stable-diffusion'],\n",
+        "        ['git', 'clone', '-b', 'conditioning', 'https://github.com/deforum/stable-diffusion'],\n",
         "        ['pip', 'install', '-e', 'git+https://github.com/CompVis/taming-transformers.git@master#egg=taming-transformers'],\n",
         "        ['pip', 'install', '-e', 'git+https://github.com/openai/CLIP.git@main#egg=clip'],\n",
         "        ['pip', 'install', 'accelerate', 'ftfy', 'jsonmerge', 'matplotlib', 'resize-right', 'timm', 'torchdiffeq'],\n",
@@ -200,7 +200,7 @@
         "        borderMode=cv2.BORDER_WRAP if anim_args.border == 'wrap' else cv2.BORDER_REPLICATE\n",
         "    )\n",
         "\n",
-        "def anim_frame_warp_3d(prev_img_cv2, anim_args, keys, frame_idx, adabins_helper, midas_model, midas_transform):\n",
+        "def anim_frame_warp_3d(prev_img_cv2, depth, anim_args, keys, frame_idx):\n",
         "    TRANSLATION_SCALE = 1.0/200.0 # matches Disco\n",
         "    translate_xyz = [\n",
         "        -keys.translation_x_series[frame_idx] * TRANSLATION_SCALE, \n",
@@ -213,7 +213,7 @@
         "        math.radians(keys.rotation_3d_z_series[frame_idx])\n",
         "    ]\n",
         "    rot_mat = p3d.euler_angles_to_matrix(torch.tensor(rotate_xyz, device=device), \"XYZ\").unsqueeze(0)\n",
-        "    result = transform_image_3d(prev_img_cv2, adabins_helper, midas_model, midas_transform, rot_mat, translate_xyz, anim_args)\n",
+        "    result = transform_image_3d(prev_img_cv2, depth, rot_mat, translate_xyz, anim_args)\n",
         "    torch.cuda.empty_cache()\n",
         "    return result\n",
         "\n",
@@ -332,7 +332,7 @@
         "            denoised_sample = model.differentiable_decode_first_stage(denoised).requires_grad_()\n",
         "            loss = loss_fn(denoised_sample, sigma, **kwargs) * scale\n",
         "            grad = -torch.autograd.grad(loss, x)[0]\n",
-        "        \n",
+        "            verbose_print()\n",
         "            verbose_print('Loss:', loss.item())\n",
         "            verbose_print(\"Max cond_grad\", torch.max(grad))\n",
         "            verbose_print(\"Min cond_grad\", torch.min(grad))\n",
@@ -486,27 +486,24 @@
         "    sample = torch.from_numpy(sample)\n",
         "    return sample\n",
         "\n",
-        "def sample_to_cv2(sample: torch.Tensor) -> np.ndarray:\n",
+        "def sample_to_cv2(sample: torch.Tensor, type=np.uint8) -> np.ndarray:\n",
         "    sample_f32 = rearrange(sample.squeeze().cpu().numpy(), \"c h w -> h w c\").astype(np.float32)\n",
         "    sample_f32 = ((sample_f32 * 0.5) + 0.5).clip(0, 1)\n",
-        "    sample_int8 = (sample_f32 * 255).astype(np.uint8)\n",
-        "    return sample_int8\n",
+        "    sample_int8 = (sample_f32 * 255)\n",
+        "    return sample_int8.astype(type)\n",
         "\n",
         "@torch.no_grad()\n",
-        "def transform_image_3d(prev_img_cv2, adabins_helper, midas_model, midas_transform, rot_mat, translate, anim_args):\n",
-        "    # adapted and optimized version of transform_image_3d from Disco Diffusion https://github.com/alembics/disco-diffusion \n",
-        "\n",
+        "def predict_depth(prev_img_cv2, adabins_helper, midas_model, midas_transform, anim_args) -> torch.Tensor:\n",
         "    w, h = prev_img_cv2.shape[1], prev_img_cv2.shape[0]\n",
         "\n",
         "    # predict depth with AdaBins    \n",
         "    use_adabins = anim_args.midas_weight < 1.0 and adabins_helper is not None\n",
         "    if use_adabins:\n",
-        "        print(f\"Estimating depth of {w}x{h} image with AdaBins...\")\n",
         "        MAX_ADABINS_AREA = 500000\n",
         "        MIN_ADABINS_AREA = 448*448\n",
         "\n",
         "        # resize image if too large or too small\n",
-        "        img_pil = Image.fromarray(cv2.cvtColor(prev_img_cv2, cv2.COLOR_RGB2BGR))\n",
+        "        img_pil = Image.fromarray(cv2.cvtColor(prev_img_cv2.astype(np.uint8), cv2.COLOR_RGB2BGR))\n",
         "        image_pil_area = w*h\n",
         "        resized = True\n",
         "        if image_pil_area > MAX_ADABINS_AREA:\n",
@@ -525,10 +522,10 @@
         "        try:\n",
         "            _, adabins_depth = adabins_helper.predict_pil(depth_input)\n",
         "            if resized:\n",
-        "                adabins_depth = torchvision.transforms.functional.resize(\n",
+        "                adabins_depth = TF.resize(\n",
         "                    torch.from_numpy(adabins_depth), \n",
         "                    torch.Size([h, w]),\n",
-        "                    interpolation=torchvision.transforms.functional.InterpolationMode.BICUBIC\n",
+        "                    interpolation=TF.InterpolationMode.BICUBIC\n",
         "                )\n",
         "            adabins_depth = adabins_depth.squeeze()\n",
         "        except:\n",
@@ -542,7 +539,6 @@
         "        img_midas_input = midas_transform({\"image\": img_midas})[\"image\"]\n",
         "\n",
         "        # MiDaS depth estimation implementation\n",
-        "        print(f\"Estimating depth of {w}x{h} image with MiDaS...\")\n",
         "        sample = torch.from_numpy(img_midas_input).float().to(device).unsqueeze(0)\n",
         "        if device == torch.device(\"cuda\"):\n",
         "            sample = sample.to(memory_format=torch.channels_last)  \n",
@@ -571,6 +567,12 @@
         "        depth_tensor = torch.from_numpy(depth_map).squeeze().to(device)\n",
         "    else:\n",
         "        depth_tensor = torch.ones((h, w), device=device)\n",
+        "    \n",
+        "    return depth_tensor\n",
+        "\n",
+        "def transform_image_3d(prev_img_cv2, depth_tensor, rot_mat, translate, anim_args):\n",
+        "    # adapted and optimized version of transform_image_3d from Disco Diffusion https://github.com/alembics/disco-diffusion \n",
+        "    w, h = prev_img_cv2.shape[1], prev_img_cv2.shape[0]\n",
         "\n",
         "    pixel_aspect = 1.0 # aspect of an individual pixel (so usually 1.0)\n",
         "    near, far, fov_deg = anim_args.near_plane, anim_args.far_plane, anim_args.fov\n",
@@ -592,7 +594,7 @@
         "    coords_2d = torch.nn.functional.affine_grid(identity_2d_batch, [1,1,h,w], align_corners=False)\n",
         "    offset_coords_2d = coords_2d - torch.reshape(offset_xy, (h,w,2)).unsqueeze(0)\n",
         "\n",
-        "    image_tensor = torchvision.transforms.functional.to_tensor(Image.fromarray(prev_img_cv2)).to(device)\n",
+        "    image_tensor = rearrange(torch.from_numpy(prev_img_cv2.astype(np.float32)), 'h w c -> c h w').to(device)\n",
         "    new_image = torch.nn.functional.grid_sample(\n",
         "        image_tensor.add(1/512 - 0.0001).unsqueeze(0), \n",
         "        offset_coords_2d, \n",
@@ -601,11 +603,11 @@
         "        align_corners=False\n",
         "    )\n",
         "\n",
-        "    # convert back to cv2 style numpy array 0->255 uint8\n",
+        "    # convert back to cv2 style numpy array\n",
         "    result = rearrange(\n",
-        "        new_image.squeeze().clamp(0,1) * 255.0, \n",
+        "        new_image.squeeze().clamp(0,255), \n",
         "        'c h w -> h w c'\n",
-        "    ).cpu().numpy().astype(np.uint8)\n",
+        "    ).cpu().numpy().astype(prev_img_cv2.dtype)\n",
         "    return result\n",
         "\n",
         "def generate(args, return_latent=False, return_sample=False, return_c=False):\n",
@@ -670,7 +672,8 @@
         "                            mask=mask, \n",
         "                            init_latent=init_latent,\n",
         "                            sigmas=k_sigmas,\n",
-        "                            sampler=sampler)    \n",
+        "                            sampler=sampler,\n",
+        "                            cond_fns=cond_fns)    \n",
         "\n",
         "     \n",
         "\n",
@@ -891,8 +894,9 @@
         "\n",
         "    #@markdown ####**Coherence:**\n",
         "    color_coherence = 'Match Frame 0 LAB' #@param ['None', 'Match Frame 0 HSV', 'Match Frame 0 LAB', 'Match Frame 0 RGB'] {type:'string'}\n",
+        "    diffusion_cadence = '3' #@param ['1','2','3','4','5','6','7','8'] {type:'string'}\n",
         "\n",
-        "    #@markdown #### Depth Warping\n",
+        "    #@markdown ####**3D Depth Warping:**\n",
         "    use_depth_warping = True #@param {type:\"boolean\"}\n",
         "    midas_weight = 0.3#@param {type:\"number\"}\n",
         "    near_plane = 200\n",
@@ -1017,7 +1021,7 @@
       },
       "source": [
         "def DeforumArgs():\n",
-        "    \n",
+        "\n",
         "    #@markdown **Image Settings**\n",
         "    W = 512 #@param\n",
         "    H = 512 #@param\n",
@@ -1045,7 +1049,7 @@
         "    make_grid = False #@param {type:\"boolean\"}\n",
         "    grid_rows = 2 #@param \n",
         "    outdir = get_output_folder(output_path, batch_name)\n",
-        "    \n",
+        "\n",
         "    #@markdown **Init Settings**\n",
         "    use_init = False #@param {type:\"boolean\"}\n",
         "    strength = 0.0 #@param {type:\"number\"}\n",
@@ -1082,7 +1086,7 @@
         "    elif args.seed_behavior == 'fixed':\n",
         "        pass # always keep seed the same\n",
         "    else:\n",
-        "        args.seed = random.randint(0, 2**32)\n",
+        "        args.seed = random.randint(0, 2**32 - 1)\n",
         "    return args.seed\n",
         "\n",
         "def render_image_batch(args):\n",
@@ -1126,7 +1130,7 @@
         "        args.prompt = prompt\n",
         "        print(f\"Prompt {iprompt+1} of {len(prompts)}\")\n",
         "        print(f\"{args.prompt}\")\n",
-        "      \n",
+        "\n",
         "        all_images = []\n",
         "\n",
         "        for batch_index in range(args.n_batch):\n",
@@ -1208,29 +1212,75 @@
         "    else:\n",
         "        adabins_helper, midas_model, midas_transform = None, None, None\n",
         "\n",
-        "    args.n_samples = 1\n",
+        "    # state for interpolating between diffusion steps\n",
+        "    turbo_steps = 1 if using_vid_init else int(anim_args.diffusion_cadence)\n",
+        "    turbo_prev_image, turbo_prev_frame_idx = None, 0\n",
+        "    turbo_next_image, turbo_next_frame_idx = None, 0\n",
+        "\n",
+        "    # resume animation\n",
         "    prev_sample = None\n",
         "    color_match_sample = None\n",
-        "    for frame_idx in range(start_frame,anim_args.max_frames):\n",
+        "    if anim_args.resume_from_timestring:\n",
+        "        last_frame = start_frame-1\n",
+        "        if turbo_steps > 1:\n",
+        "            last_frame -= last_frame%turbo_steps\n",
+        "        path = os.path.join(args.outdir,f\"{args.timestring}_{last_frame:05}.png\")\n",
+        "        img = cv2.imread(path)\n",
+        "        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)\n",
+        "        prev_sample = sample_from_cv2(img)\n",
+        "        if anim_args.color_coherence != 'None':\n",
+        "            color_match_sample = img\n",
+        "        if turbo_steps > 1:\n",
+        "            turbo_next_image, turbo_next_frame_idx = sample_to_cv2(prev_sample, type=np.float32), last_frame\n",
+        "            turbo_prev_image, turbo_prev_frame_idx = turbo_next_image, turbo_next_frame_idx\n",
+        "            start_frame = last_frame+turbo_steps\n",
+        "\n",
+        "    args.n_samples = 1\n",
+        "    frame_idx = start_frame\n",
+        "    while frame_idx < anim_args.max_frames:\n",
         "        print(f\"Rendering animation frame {frame_idx} of {anim_args.max_frames}\")\n",
         "        noise = keys.noise_schedule_series[frame_idx]\n",
         "        strength = keys.strength_schedule_series[frame_idx]\n",
         "        contrast = keys.contrast_schedule_series[frame_idx]\n",
         "        \n",
-        "        # resume animation\n",
-        "        if anim_args.resume_from_timestring:\n",
-        "            path = os.path.join(args.outdir,f\"{args.timestring}_{frame_idx-1:05}.png\")\n",
-        "            img = cv2.imread(path)\n",
-        "            img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)\n",
-        "            prev_sample = sample_from_cv2(img)\n",
+        "        # emit in-between frames\n",
+        "        if turbo_steps > 1:\n",
+        "            tween_frame_start_idx = max(0, frame_idx-turbo_steps)\n",
+        "            for tween_frame_idx in range(tween_frame_start_idx, frame_idx):\n",
+        "                tween = float(tween_frame_idx - tween_frame_start_idx + 1) / float(frame_idx - tween_frame_start_idx)\n",
+        "                print(f\"  creating in between frame {tween_frame_idx} tween:{tween:0.2f}\")\n",
+        "                if anim_args.animation_mode == '2D':\n",
+        "                    if turbo_prev_image is not None and tween_frame_idx > turbo_prev_frame_idx:\n",
+        "                        turbo_prev_image = anim_frame_warp_2d(turbo_prev_image, args, anim_args, keys, tween_frame_idx)\n",
+        "                    if tween_frame_idx > turbo_next_frame_idx:\n",
+        "                        turbo_next_image = anim_frame_warp_2d(turbo_next_image, args, anim_args, keys, tween_frame_idx)\n",
+        "                else: # '3D'\n",
+        "                    if turbo_prev_image is not None and tween_frame_idx > turbo_prev_frame_idx:\n",
+        "                        prev_depth = predict_depth(turbo_prev_image, adabins_helper, midas_model, midas_transform, anim_args)\n",
+        "                        turbo_prev_image = anim_frame_warp_3d(turbo_prev_image, prev_depth, anim_args, keys, tween_frame_idx)\n",
+        "                    if tween_frame_idx > turbo_next_frame_idx:\n",
+        "                        next_depth = predict_depth(turbo_next_image, adabins_helper, midas_model, midas_transform, anim_args)\n",
+        "                        turbo_next_image = anim_frame_warp_3d(turbo_next_image, next_depth, anim_args, keys, tween_frame_idx)\n",
+        "                turbo_prev_frame_idx = turbo_next_frame_idx = tween_frame_idx\n",
+        "\n",
+        "                if turbo_prev_image is not None and tween < 1.0:\n",
+        "                    img = turbo_prev_image*(1.0-tween) + turbo_next_image*tween\n",
+        "                else:\n",
+        "                    img = turbo_next_image\n",
+        "\n",
+        "                filename = f\"{args.timestring}_{tween_frame_idx:05}.png\"\n",
+        "                cv2.imwrite(os.path.join(args.outdir, filename), cv2.cvtColor(img.astype(np.uint8), cv2.COLOR_RGB2BGR))\n",
+        "            if turbo_next_image is not None:\n",
+        "                prev_sample = sample_from_cv2(turbo_next_image)\n",
         "\n",
         "        # apply transforms to previous frame\n",
         "        if prev_sample is not None:\n",
-        "\n",
         "            if anim_args.animation_mode == '2D':\n",
         "                prev_img = anim_frame_warp_2d(sample_to_cv2(prev_sample), args, anim_args, keys, frame_idx)\n",
         "            else: # '3D'\n",
-        "                prev_img = anim_frame_warp_3d(sample_to_cv2(prev_sample), anim_args, keys, frame_idx, adabins_helper, midas_model, midas_transform)\n",
+        "                prev_img_cv2 = sample_to_cv2(prev_sample)\n",
+        "                depth = predict_depth(prev_img_cv2, adabins_helper, midas_model, midas_transform, anim_args)\n",
+        "                prev_img = anim_frame_warp_3d(prev_img_cv2, depth, anim_args, keys, frame_idx)\n",
         "\n",
         "            # apply color matching\n",
         "            if anim_args.color_coherence != 'None':\n",
@@ -1246,7 +1296,6 @@
         "\n",
         "            # use transformed previous frame as init for current\n",
         "            args.use_init = True\n",
-        "            #args.init_sample = noised_sample.half().to(device)\n",
         "            if half_precision:\n",
         "                args.init_sample = noised_sample.half().to(device)\n",
         "            else:\n",
@@ -1264,14 +1313,19 @@
         "            args.init_image = init_frame\n",
         "\n",
         "        # sample the diffusion model\n",
-        "        results = generate(args, return_latent=False, return_sample=True)\n",
-        "        sample, image = results[0], results[1]\n",
-        "    \n",
-        "        filename = f\"{args.timestring}_{frame_idx:05}.png\"\n",
-        "        image.save(os.path.join(args.outdir, filename))\n",
+        "        sample, image = generate(args, return_latent=False, return_sample=True)\n",
         "        if not using_vid_init:\n",
         "            prev_sample = sample\n",
-        "        \n",
+        "\n",
+        "        if turbo_steps > 1:\n",
+        "            turbo_prev_image, turbo_prev_frame_idx = turbo_next_image, turbo_next_frame_idx\n",
+        "            turbo_next_image, turbo_next_frame_idx = sample_to_cv2(sample, type=np.float32), frame_idx\n",
+        "            frame_idx += turbo_steps\n",
+        "        else:    \n",
+        "            filename = f\"{args.timestring}_{frame_idx:05}.png\"\n",
+        "            image.save(os.path.join(args.outdir, filename))\n",
+        "            frame_idx += 1\n",
+        "\n",
         "        display.clear_output(wait=True)\n",
         "        display.display(image)\n",
         "\n",
@@ -1412,7 +1466,7 @@
         "args.strength = max(0.0, min(1.0, args.strength))\n",
         "\n",
         "if args.seed == -1:\n",
-        "    args.seed = random.randint(0, 2**32)\n",
+        "    args.seed = random.randint(0, 2**32 - 1)\n",
         "if not args.use_init:\n",
         "    args.init_image = None\n",
         "if args.sampler == 'plms' and (args.use_init or anim_args.animation_mode != 'None'):\n",
@@ -1455,10 +1509,10 @@
         "id": "no2jP8HTMBM0"
       },
       "source": [
-        "skip_video_for_run_all = False #@param {type: 'boolean'}\n",
+        "skip_video_for_run_all = True #@param {type: 'boolean'}\n",
         "fps = 12 #@param {type:\"number\"}\n",
         "#@markdown **Manual Settings**\n",
-        "use_manual_settings = True #@param {type:\"boolean\"}\n",
+        "use_manual_settings = False #@param {type:\"boolean\"}\n",
         "image_path = \"/content/drive/MyDrive/AI/StableDiffusion/2022-09/20220903000939_%05d.png\" #@param {type:\"string\"}\n",
         "mp4_path = \"/content/drive/MyDrive/AI/StableDiffusion/2022-09/20220903000939.mp4\" #@param {type:\"string\"}\n",
         "\n",