-
PreciseCam: Precise Camera Control for Text-to-Image Generation (CVPR 2025)영상처리/Generative AI 2025. 8. 24. 13:46728x90
최근 텍스트-투-이미지(text-to-image) 모델은 놀라운 수준의 시각적 결과물을 만들어내고 있지만, 정작 카메라 구도와 같은 핵심적인 요소를 세밀하게 제어하는 데에는 한계가 있었습니다. 예를 들어, 특정 각도에서 촬영한 듯한 이미지나 렌즈 왜곡(fisheye 등)을 반영하고 싶어도 기존 방식은 단순한 프롬프트 태그(예: "wide angle", "shot from below")에 의존하거나, 멀티뷰 데이터와 3D 재구성을 필요로 했습니다. 이런 접근은 제약이 크고 예술적·디자인적 활용에 충분히 유연하지 않았습니다.
이번 CVPR 2025에서 발표된 논문 **"PreciseCam: Precise Camera Control for Text-to-Image Generation"**은 이 문제를 해결하기 위해 제안된 프레임워크입니다.
핵심 아이디어
PreciseCam은 카메라 뷰를 단 4개의 직관적인 파라미터로 제어합니다.
- Roll (회전)
- Pitch (상하 기울기)
- Vertical Field of View (수직 화각)
- Distortion ξ (렌즈 왜곡 정도, 0이면 pinhole, 1이면 fisheye에 가까움)
이 네 가지 파라미터를 **PF-US (Perspective Field – Unified Spherical)**라는 표현 방식으로 변환하여, 각 픽셀이 카메라 파라미터에 따라 어떻게 보이는지를 per-pixel로 인코딩합니다. 이 표현은 ControlNet을 통해 Stable Diffusion XL(SDXL)에 주입되어, 프롬프트와 카메라 제어를 명확히 분리한 이미지 생성을 가능하게 합니다.
PF-US camera view representation.
데이터셋
연구팀은 학습을 위해 새로운 대규모 데이터셋을 구축했습니다.
- 57,380장의 RGB 이미지
- 각 이미지에 대응하는 텍스트 프롬프트와 GT 카메라 파라미터
- 360° 이미지에서 다양한 roll, pitch, vFoV, ξ를 샘플링하여 crop하고, PF-US 맵을 생성하는 방식
이 덕분에 다양한 장면과 카메라 구성을 포괄하는 학습이 가능해졌습니다.
주요 결과
- 정밀 제어: 프롬프트 내용과 무관하게 카메라 구도만 조정 가능
- 비교 성능: SDXL + prompt engineering, Adobe Firefly 대비 훨씬 더 정확하고 일관된 카메라 제어
- User Study: 참가자 평가에서도 카메라 뷰 일치도가 가장 높게 나타남
- Prompt alignment 유지: CLIP/BLIP 점수에서도 SDXL 수준의 텍스트-이미지 일치를 유지
Extrinsic parameter control Intrinsic parameter control
응용 사례
- 배경 합성: 특정 오브젝트의 시점에 맞춘 배경 생성 → 합성시 자연스러운 시각적 일관성 확보
- 비디오 생성: 프레임 단위로 카메라 파라미터를 지정하여 줌인, 회전 등 원하는 시퀀스 제작 가능
- 다중 ControlNet 연계: 카메라 제어 외에도 depth, edge, pose 제어를 병합해 복합적인 컨트롤 제공
한계와 향후 방향
- Extreme roll: 모델이 객체를 수직 정렬하려는 경향 때문에 극단적인 roll 제어는 불안정
- Prompt vs Camera 충돌: 텍스트 지시와 카메라 파라미터가 모순될 경우, 의미적으로 불완전한 결과 발생 가능
연구팀은 이 접근법이 향후 영상 생성, 디자인 툴, 예술적 표현 등에서 중요한 기반이 될 것으로 기대하고 있습니다.
정리
PreciseCam은 텍스트-투-이미지 생성에서 카메라 제어를 본격적으로 풀어낸 첫 범용적 솔루션이라고 볼 수 있습니다. 단순 태그 수준을 넘어 정확한 roll, pitch, FoV, 렌즈 왜곡 제어를 제공한다는 점에서, 아티스트나 디자이너가 원하는 구도를 자유롭게 실험할 수 있는 새로운 가능성을 열어준 연구라 할 수 있습니다.
논문과 코드는 아래 링크에서 확인할 수 있습니다.
- Paper: CVPR 2025 PreciseCam (OpenAccess)
- Project page: https://graphics.unizar.es/projects/PreciseCam2024
728x90