AI 활용 연구소 & 실전 튜토리얼

Stable Diffusion 3.5 로컬 설치 완벽 가이드 2024 | ComfyUI 설치부터 텍스트 인코더 설정, 실무 활용까지 한 번에

데이터항해자 2026. 6. 17. 09:31
반응형

Stable Diffusion 3.5 로컬 설치 완벽 가이드 | ComfyUI로 무제한 AI 이미지 생성 환경 구축하기

AI 인사이트랩 | 2024년 최신 정보 기준


🔍 이 글에서 다루는 내용

  • SD 3.5 모델 종류 및 핵심 개선사항
  • 정확한 PC 권장 사양 (VRAM 오해 주의!)
  • ComfyUI 설치 전체 순서 (텍스트 인코더 포함)
  • 실무 활용 사례 3가지
  • 라이선스 조건 명확 정리

왜 지금 Stable Diffusion 3.5인가?

AI 이미지 생성 서비스 대부분은 월 구독료를 요구하거나 월간 생성 횟수 제한이 있다. 이런 구조에 대한 대안으로 "로컬 실행" 방식이 주목받고 있으며, 그 중심에 있는 것이 Stable Diffusion 3.5 (이하 SD 3.5) 다.

SD 3.5는 Stability AI가 2024년 10월 22일 공식 출시한 텍스트→이미지 생성 모델 패밀리다. 이전 버전(SD 3 Medium)이 커뮤니티의 기대에 미치지 못했다는 자체 평가를 바탕으로, 근본적인 아키텍처 개선과 함께 3종의 모델 변형으로 새롭게 등장했다.

"This release didn't fully meet our standards or our communities' expectations. After listening to the valuable community feedback, we took the time to further develop a version that advances our mission."  Stability AI 공식 발표


SD 3.5란? 3가지 모델 완전 정리

SD 3.5는 단일 모델이 아니다. 사용 목적과 GPU 환경에 따라 선택할 수 있는 3가지 변형 모델로 구성된다.

모델파라미터출시일특징
SD 3.5 Large 81억 개 2024.10.22 최고 품질, 1MP 해상도, 20스텝
SD 3.5 Large Turbo 81억 개 (증류) 2024.10.22 4스텝 고속 생성, 약 10초/장
SD 3.5 Medium 25억 개 2024.10.29 소비자 GPU 최적화, 0.25~2MP

Large Turbo는 Large 모델의 증류(Distilled) 버전으로 4스텝만으로 고품질 이미지를 생성한다. RTX 4090 기준 Large는 약 20초, Turbo는 약 10초가 소요된다.

이전 버전 대비 주요 개선사항:

  • 📌 프롬프트 이해력(Prompt Adherence) 대폭 향상
  • 📌 텍스트 렌더링(Typography) 개선 — 이미지 내 글자 표현 정확도 향상
  • 📌 이미지 품질 향상 — 1MP 해상도의 전문가 수준 출력
  • 📌 커스터마이징 용이성 — Query-Key Normalization 도입으로 파인튜닝 간소화

"Stable Diffusion 3.5 Large is an eight-billion-parameter model that can generate professional images at 1-megapixel resolution, featuring improved performance in image quality, typography, and prompt adherence."  InfoQ


⚠️ 설치 전 필수 확인: 권장 사양 (VRAM 오해 주의)

인터넷에 떠도는 일부 가이드에서 "VRAM 8GB면 충분하다"고 안내하는 경우가 있는데, 이는 SD 3.5에 해당하지 않는다. 반드시 아래 사양을 확인하자.

항목SD 3.5 MediumSD 3.5 Large
OS Windows 10/11 Windows 10/11
RAM 16GB 이상 32GB 이상 권장
GPU NVIDIA RTX 3060 (12GB) NVIDIA RTX 3090 / 4080 이상
VRAM 최소 12GB 18GB 이상
저장공간 30GB 이상 50GB 이상

SD 3.5 Medium 공식 사양은 텍스트 인코더 제외 시 9.9GB VRAM이지만, 텍스트 인코더를 포함하면 실제로 12GB 이상이 필요하다.

"SD 3.5 comes in three flavors; Large, Large Turbo, and Medium weight, the latter of which will run on consumer hardware; GPUs with at least 12 GB of VRAM."  Civitai Education

"The base Stable Diffusion 3.5 Large model uses over 18GB of VRAM."  NVIDIA Blog


ComfyUI로 SD 3.5 설치하기 (단계별 완전 가이드)

설치 구조 인포그래픽

SD 3.5는 기존에 많이 쓰이던 AUTOMATIC1111이나 Forge에서 지원되지 않는다. 현재 로컬 실행에 사용할 수 있는 주요 UI는 ComfyUI가 유일하며, 2024년 10월 출시 당일부터 네이티브 지원을 시작했다.

"Stable Diffusion 3.5 is currently not supported by AUTOMATIC1111 and Forge."  Stable Diffusion Art


STEP 1 | ComfyUI 최신 버전으로 업데이트

ComfyUI GitHub에서 설치 파일을 받거나, 이미 설치되어 있다면 Manager → Update ComfyUI로 최신 버전을 유지한다. SD 3.5는 2024년 10월 이후 버전에서 자동 지원된다.


STEP 2 | Hugging Face 모델 동의서 작성

SD 3.5 Large 모델 페이지 (또는 Medium)에 접속해 라이선스 동의서를 작성한 뒤 다운로드 링크가 활성화된다.


STEP 3 | 파일 2종류 다운로드 (⚠️ 텍스트 인코더 필수!)

SD 3.5 설치에서 가장 많이 실수하는 부분이다. 메인 모델 파일 외에 텍스트 인코더 3종을 반드시 별도 다운로드해야 한다.

① 메인 체크포인트 모델 → ComfyUI/models/checkpoints/ 폴더에 저장

Copysd3.5_large.safetensors
(또는 sd3.5_medium.safetensors / sd3.5_large_turbo.safetensors)

② 텍스트 인코더 3종 → ComfyUI/models/clip/ 폴더에 저장

Copyclip_l.safetensors
clip_g.safetensors
t5xxl_fp16.safetensors  (RAM 32GB 미만이면 t5xxl_fp8_e4m3fn.safetensors 사용)

텍스트 인코더는 SD 3 Medium Hugging Face 페이지 text_encoders 폴더에서 다운로드한다.

"Download clip_g.safetensors, clip_l.safetensors, and t5xxl_fp16.safetensors to your models/clip folder."  ComfyUI 공식 블로그


STEP 4 | ComfyUI 실행 후 워크플로우 로드

ComfyUI를 실행하면 로컬 브라우저에 노드 기반 인터페이스가 열린다. SD 3.5 워크플로우 JSON 파일을 화면에 드래그 앤 드롭한다.


STEP 5 | 프롬프트 입력 → Queue Prompt

텍스트 프롬프트를 입력한 뒤 Queue Prompt 버튼을 누르면 이미지 생성이 시작된다.

  • Large 모델: 약 20초/장 (RTX 4090 기준, 20스텝)
  • Turbo 모델: 약 10초/장 (RTX 4090 기준, 4스텝)

📋 라이선스 조건 명확 정리

SD 3.5는 Stability AI Community License로 배포된다. "무료"라는 말이 많지만 조건이 있다.

사용 구분조건비용
비상업적 이용 제한 없음 무료
상업적 이용 연간 매출 $100만(약 13억 원) 미만 무료
상업적 이용 연간 매출 $100만 초과 엔터프라이즈 라이선스 (유료)

개인 블로거, 1인 크리에이터, 소규모 스타트업은 사실상 무료로 상업적 이용이 가능하다. 단, 대기업이나 대형 에이전시는 별도 라이선스 계약이 필요하다.

"Free for commercial use (up to $1M in annual revenue): Startups, small to medium-sized businesses, and creators can use the model for commercial purposes at no cost."  Stability AI 공식


실무 활용 사례 3가지

실무 활용 사례

1️⃣ 블로그 운영자 — 대표 이미지·썸네일 제작

티스토리·워드프레스 운영자에게 가장 직접적인 활용 분야다. 포스팅마다 필요한 대표 이미지를 외주 없이 직접 제작할 수 있어 콘텐츠 제작 비용을 대폭 줄일 수 있다. SD 3.5는 특히 텍스트 렌더링이 개선되어 제목이 포함된 썸네일 제작에도 활용도가 높다.

2️⃣ 마케터 — SNS·광고 비주얼 제작

기업 마케팅 담당자는 SNS 카드뉴스, 배너 광고, 이벤트 랜딩 페이지 비주얼을 자체 제작할 수 있다. 클라우드 AI 서비스 대비 생성 횟수 제한이 없어 A/B 테스트용 다양한 시안을 빠르게 만들 수 있다는 점이 강점이다.

3️⃣ 유튜버·크리에이터 — 채널 아트·배경 제작

유튜브 채널 썸네일, 스트리밍 배경 이미지, 오버레이 그래픽 등을 무제한으로 생성할 수 있다. 특히 ControlNet(Canny·Depth·Blur)을 활용하면 기존 이미지의 구도와 깊이감을 유지한 채 스타일만 바꾸는 고급 편집도 가능하다.

"Today we are adding new capabilities to Stable Diffusion 3.5 Large by releasing three ControlNets: Blur, Canny, and Depth."  Stability AI ControlNet 발표


SD 3.5 장점과 한계 정직하게 정리

✅ 장점

장점내용
사실상 무료 연간 매출 $1M 이하 개인·기업 무료 상업 이용
무제한 생성 로컬 실행 시 횟수 제한 없음
개인정보 보호 이미지가 외부 서버에 전송되지 않음
공식 ControlNet Blur·Canny·Depth 3종 공식 출시
LoRA 파인튜닝 특정 스타일·인물 커스텀 학습 지원
다양한 해상도 1:1·5:4·3:2·16:9 등 다양한 비율 지원

⚠️ 한계

한계내용
높은 GPU 요구 최소 12GB VRAM 필요 (8GB로는 실행 불가)
AUTOMATIC1111 미지원 ComfyUI만 지원, 기존 워크플로우와 호환 안 됨
복잡한 설치 텍스트 인코더 별도 다운로드 등 초보자엔 어려울 수 있음
대용량 파일 Large 모델 약 16GB + 텍스트 인코더 합계 25GB 이상
$1M 초과 시 유료 대형 기업은 엔터프라이즈 라이선스 필요

핵심 내용 요약

✔ SD 3.5는 Stability AI가 2024년 10월 공개한 오픈소스 이미지 생성 모델 (Large·Turbo·Medium 3종) ✔ 현재 로컬 설치는 ComfyUI만 지원 (AUTOMATIC1111·Forge 미지원) ✔ 실행에 필요한 최소 VRAM은 12GB — 8GB GPU로는 실행 불가 ✔ 설치 시 메인 모델 외 CLIP 텍스트 인코더 3종 별도 다운로드 필수 ✔ 연간 매출 $100만 미만이면 상업적 이용도 무료 ✔ Blur·Canny·Depth ControlNet 공식 지원, LoRA 파인튜닝 지원


결론

Stable Diffusion 3.5는 단순한 이미지 생성기를 넘어 개인 크리에이터와 소규모 비즈니스 모두에게 실질적인 생산성 도구로 자리잡고 있다. 특히 블로그 운영자와 콘텐츠 마케터라면 썸네일·배너 제작 외주 비용을 크게 절감할 수 있다.

단, 정확한 사양 확인이 선행되어야 한다. VRAM 12GB 이상의 GPU가 준비되어 있고, 텍스트 인코더를 포함한 설치 절차를 충실히 따른다면 초보자도 충분히 시작할 수 있다.

AI 시대의 경쟁력은 도구를 아는 것에서 그치지 않고 직접 실행하고 업무에 녹여내는 데서 나온다. SD 3.5 로컬 환경이 그 출발점이 될 수 있다.


📌 참고 자료 및 검증 출처


 

이 글은 AI 도구를 활용해 초안을 작성하고, 작성자가 직접 검토, 수정, 보완하였습니다.

반응형