Fixing the Perspective: A Critical Examination of Zero-1-to-3

Yu, Jack; Jia, Xueying; Sun, Charlie; Wang, Prince

Computer Science > Computer Vision and Pattern Recognition

arXiv:2411.15706 (cs)

[Submitted on 24 Nov 2024]

Title:Fixing the Perspective: A Critical Examination of Zero-1-to-3

Authors:Jack Yu, Xueying Jia, Charlie Sun, Prince Wang

View PDF HTML (experimental)

Abstract:Novel view synthesis is a fundamental challenge in image-to-3D generation, requiring the generation of target view images from a set of conditioning images and their relative poses. While recent approaches like Zero-1-to-3 have demonstrated promising results using conditional latent diffusion models, they face significant challenges in generating consistent and accurate novel views, particularly when handling multiple conditioning images. In this work, we conduct a thorough investigation of Zero-1-to-3's cross-attention mechanism within the Spatial Transformer of the diffusion 2D-conditional UNet. Our analysis reveals a critical discrepancy between Zero-1-to-3's theoretical framework and its implementation, specifically in the processing of image-conditional context. We propose two significant improvements: (1) a corrected implementation that enables effective utilization of the cross-attention mechanism, and (2) an enhanced architecture that can leverage multiple conditional views simultaneously. Our theoretical analysis and preliminary results suggest potential improvements in novel view synthesis consistency and accuracy.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
Cite as:	arXiv:2411.15706 [cs.CV]
	(or arXiv:2411.15706v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2411.15706

Submission history

From: Charlie Sun [view email]
[v1] Sun, 24 Nov 2024 04:21:51 UTC (7,034 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Fixing the Perspective: A Critical Examination of Zero-1-to-3

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Fixing the Perspective: A Critical Examination of Zero-1-to-3

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators