게임을 위한 최고의 오픈소스 생성형 AI 모델 (2026)

마지막 업데이트: 2026년 6월.

생성형 AI에는 이런 점이 있습니다. 수년 동안 가장 좋은 모델들은 API 키와 예측 불가능한 가격 뒤에 숨어 있었죠. 어떤 도구를 중심으로 워크플로를 짜고, 익숙해질 즈음, 어느 날 아침 가격이 바뀌었다는 이메일을 받습니다. 더 나쁘게는 회사가 통째로 방향을 틀어버리기도 하고요.

2024년 말에 상황이 바뀌었습니다. 텐센트, 알리바바, DeepSeek은 실제로 다운로드할 수 있는 모델을 내놓기 시작했습니다. 폐쇄형 대안과 견줄 만한 모델들이죠. 그리고 갑자기 창작자에게는 남의 비즈니스 모델에 의존하지 않는 선택지가 생겼습니다.

자신이 통제하는 모델만으로 비디오, 3D 에셋, 음악, 음성을 모두 만들 수 있다면 어떨까요? 지금 우리가 와 있는 지점이 바로 그곳입니다. 이 가이드는 무엇이 실제이고, 무엇이 작동하며, 오늘 당장 무엇을 쓸 수 있는지 짚어봅니다.

비디오 생성

수년 동안 비디오 생성은 Runway나 Pika를 뜻했습니다. 폐쇄형 플랫폼, 구독료, 결과물 사용에 대한 제약. 이제는요? 같은 수준의 모델을 자신의 하드웨어에서 돌릴 수 있습니다.

HunyuanVideo 텍스트-투-비디오 생성 — 선도적인 오픈소스 비디오 모델의 720p 출력

모델	기관	파라미터	사양	하드웨어	비용
HunyuanVideo	텐센트	13B	720p, 텍스트+이미지	80GB	~$0.20
HunyuanVideo-1.5	텐센트	8.3B	480p-1080p, 텍스트+이미지	14GB	~$0.05
Mochi 1	Genmo	10B	480p@30fps	12GB+	~$0.10
LTX-Video	Lightricks	—	768x512, 실시간	12GB	~$0.02
LTX-2	Lightricks	19B	4K, 음성 동기화	고사양	~$0.30
Wan 2.1	알리바바	1.3-14B	480p-720p	8GB+	~$0.03
Wan 2.2	알리바바	27B MoE (14B 활성)	720p, MoE	8GB+	~$0.03
CogVideoX	칭화대	5B	720x480@8fps	12GB	~$0.04
Open-Sora 2.0	HPC-AI	11B	Flux 통합	고사양	~$0.20

가중치: HunyuanVideo ↗ · Mochi 1 ↗ · Wan 2.1 ↗ · Open-Sora ↗

샘플 보기: HunyuanVideo 갤러리 ↗ · Mochi 예시 ↗ · CogVideoX 샘플 ↗

창작자에게 의미하는 것

HunyuanVideo는 전문 평가에서 Runway Gen-3를 능가하면서도 완전히 오픈소스입니다. 단점이라면? 진지한 하드웨어가 필요합니다. 80GB VRAM을 갖춘 A100 또는 H100이요. 대부분의 우리에게 이건 필요할 때 클라우드 GPU를 빌린다는 뜻입니다.

HunyuanVideo-1.5는 하드웨어 계산법을 바꿔놓았습니다. 텐센트는 2025년 11월에 이 모델을 8.3B 파라미터 오픈 모델로 공개했는데, 14GB 소비자용 GPU에서 돌아가고 480p/720p 텍스트-투-비디오와 이미지-투-비디오를 지원하며 선택적으로 1080p 업스케일도 됩니다. 새로운 Selective and Sliding Tile Attention(SSTA) 메커니즘 덕분에 원본 HunyuanVideo의 약 두 배에 달하는 추론 속도를 냅니다. HunyuanVideo 수준의 품질을 원하지만 80GB 카드까지는 정당화하기 어려웠다면, 이게 집에서 실제로 돌릴 수 있는 버전입니다.

Mochi 1은 정말로 돌릴 수 있는 모델입니다. 12GB GPU, 즉 RTX 3060 급이면 무난하게 처리합니다. 출력은 진짜로 창의적이고 독특한 예술적 질감이 있습니다. HunyuanVideo만큼의 충실도는 아니지만 과정을 당신이 소유합니다.

LTX-2는 게임 쪽에서 흥미로워지는 지점입니다. 비디오와 동기화된 오디오를 생성하는 첫 오픈 모델이죠. 사운드가 그냥... 딱 맞아떨어지는 컷신을 상상해 보세요. 후반 작업 동기화가 필요 없습니다. Lightricks는 2026년 1월에 전체 가중치, 추론, 학습 코드를 오픈소스로 공개했고, 최대 50fps의 네이티브 4K 출력과 최대 20초까지의 동기화 오디오를 지원합니다.

Wan 2.1은 게이밍 노트북에서 돌아갑니다. 8GB GPU면 작은 변형 모델에 충분합니다. 비디오 생성으로 프로토타이핑하고 싶었지만 하드웨어를 정당화하기 어려웠다면, 이게 당신의 진입 경로입니다.

Wan 2.2(알리바바, 2025년 7월)는 Mixture-of-Experts 설계로 만든 첫 오픈소스 비디오 모델입니다. 총 27B 파라미터에 스텝당 14B만 활성화되죠. 텍스트-투-비디오(T2V-A14B), 이미지-투-비디오(I2V-A14B), 그리고 소비자용 GPU에서 돌아가는 하이브리드 5B 변형으로 제공되며, 모두 상업적 사용이 가능한 Apache 2.0 라이선스입니다.

이치에 맞는 워크플로는 이렇습니다. 로컬 프로토타이핑은 Mochi 1이나 Wan 2.1로, 최종 품질이 필요할 때는 클라우드 GPU에서 HunyuanVideo로.

이미지 생성

여기는 오픈소스가 이미 이긴 영역입니다. 오늘 다운로드할 수 있는 모델들은 진짜로 Midjourney와 경쟁합니다. "거의 그만큼 좋다"가 아니라 실제로 경쟁력이 있습니다.

FLUX.1 generation samples FLUX.1 샘플 — Apache 2.0 라이선스 모델의 사진급 사실적 품질

모델	기관	출시	파라미터	핵심 특징	라이선스	이미지당 비용
FLUX.1 [schnell]	Black Forest Labs	2024년 8월	12B	4스텝 생성, 빠름	Apache 2.0	~$0.001
FLUX.1 [dev]	Black Forest Labs	2024년 8월	12B	Pro에 근접한 품질	비상업용	~$0.002
SD 3.5 Large	Stability AI	2024년 10월	8B	텍스트 렌더링, 다양한 스타일	Stability 라이선스	~$0.002
SD 3.5 Large Turbo	Stability AI	2024년 10월	8B	4스텝, 빠름	Stability 라이선스	~$0.001
CogView4	칭화대	2025년 3월	6B	네이티브 중국어 텍스트	오픈	~$0.002
FLUX.2	Black Forest Labs	2025년 11월	32B	텍스트+편집, 4MP, 멀티 레퍼런스	dev: 비상업용 / klein: Apache 2.0	~$0.003

직접 써보기: FLUX.1 schnell demo ↗ · SD 3.5 Large demo ↗ · GitHub (FLUX) ↗

샘플 보기: FLUX 갤러리 ↗ · FLUX LoRA 갤러리 ↗ · Replicate 예시 ↗

게임 에셋을 만들 때

**FLUX.1 [schnell]**은 꼭 알아둬야 할 모델입니다. Apache 2.0 라이선스, 즉 라이선스 문제로 골치 아플 일 없이 상업용 게임을 출시할 수 있습니다. 단 4스텝으로 생성하기 때문에 빠르게 반복할 수 있죠. 원하는 걸 설명하고, 결과를 보고, 조정하고, 반복합니다.

SD 3.5 Large는 드디어 텍스트 렌더링을 제대로 처리합니다. 이전 버전들은 넣으려던 텍스트를 죄다 뭉개버렸죠. 이건 UI 목업, 게임 내 간판, 타이틀 화면처럼 이미지 안에 읽을 수 있는 단어가 필요한 모든 곳에서 중요합니다.

FLUX.2(Black Forest Labs, 2025년 11월)는 더 큰 후속작입니다. 텍스트-투-이미지와 이미지 편집을 하나의 체크포인트로 처리하는 32B 모델이며, 강력한 멀티 레퍼런스 캐릭터/스타일 일관성과 최대 4메가픽셀까지 안정적인 텍스트 렌더링을 갖췄습니다. 오픈 가중치인 FLUX.2 [dev]는 비상업용 라이선스를 쓰지만, 크기를 줄여 증류한 FLUX.2 [klein]은 Apache 2.0으로 제공되므로 게임 아트를 출시할 때 상업적으로 안전한 선택지가 여전히 존재합니다. 양자화 파이프라인을 쓰면 [dev]를 18-24GB GPU까지 낮출 수 있습니다.

Stable Diffusion을 둘러싼 생태계는 여전히 따라올 자가 없습니다. 정밀한 구성을 위한 ControlNet, 수정을 위한 Inpainting, 커스텀 스타일을 위한 LoRA 파인튜닝. FLUX가 따라잡고 있지만, 오늘 당장 깊은 커스터마이징이 필요하다면 SD의 성숙한 도구가 더 많은 작업 여지를 줍니다.

저라면 이렇게 생각하겠습니다. 텍스처와 스프라이트는 둘 다 괜찮습니다. 특정 스타일 요구가 있는 콘셉트 아트는 LoRA를 곁들인 SD 3.5. 상업 출시를 위한 순수 품질은 FLUX schnell.

3D 생성

게임에 3초 나오는 소품을 만드느라 여덟 시간을 쏟아본 적이 있다면, 이 섹션은 당신을 위한 것입니다. 3D 생성은 2024년에 "흥미로운 연구"에서 "실제로 쓸 만함"으로 넘어갔습니다. 이제 스케치에서 텍스처를 입힌 메시까지 1분 안에 갈 수 있습니다.

TRELLIS 3D generation samples TRELLIS는 단일 이미지에서 PBR 머티리얼이 적용된 텍스처 3D 메시를 생성합니다

모델	기관	출시	핵심 특징	출력	메시당 비용
TRELLIS 2	마이크로소프트	2025	4B 파라미터, PBR 머티리얼	노멀이 포함된 텍스처 메시	~$0.03
Hunyuan3D 2.0	텐센트	2025년 1월	2단계 DiT	고충실도 텍스처 메시	~$0.05
TripoSR	VAST/Stability	2024년 3월	단일 이미지 → 0.5초 만에 메시	메시 (텍스처 없음)	~$0.001
InstantMesh	TencentARC	2024년 4월	멀티뷰 디퓨전	고품질 메시	~$0.02
Stable Zero123	Stability AI	2024	새로운 시점 합성	멀티뷰 이미지	~$0.01

직접 써보기: TRELLIS 2 demo ↗ · Hunyuan3D demo ↗ · InstantMesh demo ↗

샘플 보기: TRELLIS 2 프로젝트 페이지 ↗ · 3D AI Studio 갤러리 ↗

실제로 돌아가는 워크플로

지금 창작자들에게 잘 맞아 들어가는 접근법은 모델을 사슬처럼 엮는 것입니다. 이미지에서 시작합니다. 생성한 것이든 촬영한 것이든 상관없습니다. 이걸 Stable Zero123이나 Wonder3D에 통과시켜 여러 시점을 얻습니다. 그 시점들을 InstantMesh나 TripoSR에 넣어 메시를 만듭니다. 그다음 TRELLIS 2나 Hunyuan3D로 제대로 된 머티리얼을 입힙니다.

마이크로소프트의 TRELLIS 2는 프로덕션에 바로 쓸 수 있는 에셋의 새로운 선두주자입니다. 다른 모델이 망가뜨리는 지오메트리, 즉 얇은 면, 구멍, 복잡한 토폴로지를 잘 처리합니다. 4B 파라미터 버전은 머티리얼인 척하는 버텍스 컬러가 아니라 진짜 PBR 텍스처가 입혀진 메시를 출력합니다.

TripoSR은 속도가 핵심입니다. 이미지에서 메시까지 0.5초. 메시는 정리와 텍스처 작업이 필요하지만, 프로토타이핑용으로는요? 몇 시간을 투자하기 전에 아이디어가 통하는지 알아보는 용도로는? 따라올 자가 없습니다.

Hunyuan3D 2.5는 시뮬레이션에 바로 쓸 수 있는 에셋에 집중합니다. 수동 수정 없이 물리 엔진에서 실제로 작동하는 게임 소품이죠. 메시 토폴로지가 이상해서 생기는 보이지 않는 충돌 문제도 더는 없습니다. LATTICE 형상 모델은 더 선명한 디테일을 위해 최대 10B 파라미터까지 확장되며, PBR 텍스처링이 내장돼 있습니다.

인디 창작자에게 현실적인 기대치는 이렇습니다. FLUX로 콘셉트 아트를 생성하고, InstantMesh로 지오메트리를 뽑은 다음, Blender에서 텍스처를 입히거나 TRELLIS로 PBR을 자동 처리합니다. 에셋 하나에 4-8시간이 아니라 30-60분이 걸립니다. 시간이 제로는 아니지만 진짜 차이입니다.

오디오와 음악

오디오 생성은 아직 이미지와 비디오를 따라잡지 못했습니다. 하지만 작업 방식을 바꾸기에 충분한 것들이 여기 있습니다. 특히 프로토타이핑과 음향 효과에서요.

AI 생성 음악 샘플 — 원하는 분위기를 설명하면 그에 맞는 음악이 나옵니다

모델	기관	출시	하는 일	라이선스	30초당 비용
ACE-Step	StepFun/ACE Studio	2025년 5월	약 20초에 ~4분 음악, 19개 언어, 보이스 클론	Apache 2.0	~$0.02
YuE	MAP	2025년 1월	가사에서 완성곡, 보컬 + 반주	Apache 2.0	~$0.05
MusicGen	Meta	2023	텍스트-투-뮤직, 제어 가능	MIT	~$0.01
AudioGen	Meta	2023	음향 효과, 환경음	MIT	~$0.01
Stable Audio Open	Stability AI	2024	최대 47초 샘플	연구용	~$0.02

직접 써보기: MusicGen demo ↗ · AudioCraft playground ↗

샘플 보기: MusicGen 예시 ↗ · AudioGen 샘플 ↗

실제로 출시에 쓸 수 있는 것

Meta의 MusicGen은 게임 오디오에 실용적인 선택입니다. 원하는 분위기를 설명하면 그에 맞는 음악이 나옵니다. MIT 라이선스라 출시할 수 있죠. 3.3B 모델은 12GB GPU에서 무난하게 돌아갑니다. 설명하고, 생성하고, 반복합니다.

AudioGen은 음향 효과를 처리합니다. 발소리, 문 삐걱거리는 소리, 바람 같은 환경음, 기계음. 마찬가지로 MIT 라이선스에 로컬에서 돌아가고, 게임의 사운드스케이프를 채우는 데 진짜 유용합니다.

YuE는 정말 흥미롭습니다. 보컬이 들어간 완성곡을 생성하는 첫 오픈 모델입니다. 테마곡. 실제 노래가 있는 배경 음악. 품질은 들쭉날쭉하지만, 직접 다운로드해서 돌릴 수 있는 다른 어떤 것보다 한참 앞서 있습니다.

ACE-Step(StepFun과 ACE Studio, 2025년 5월)은 지금 알아둘 가치가 있는 오픈 음악 모델입니다. 3.5B Apache 2.0 파운데이션 모델로, A100에서 약 20초 만에 약 4분 분량의 음악을 생성하고, 19개 언어를 지원하며, 보이스 클로닝, 리믹스, 가사 편집을 처리합니다. 게임 프로토타이핑에서는 YuE와 MusicGen이 남겨둔 격차를 상당히 좁혀줍니다.

Stable Audio Open은 제약이 있습니다. 47초 클립, 연구 전용 라이선스. 아이디어 프로토타이핑에는 좋지만 출시용은 아닙니다.

솔직히 말하자면, 음악에서는 오픈 모델과 폐쇄형(Suno, Udio) 사이의 격차가 아직 실재합니다. 음향 효과라면 오픈 모델이 진짜로 경쟁력이 있습니다. 출시하려는 완성곡이라면 많은 반복을 각오하세요. 아니면 최종 제작은 음악가를 데려오고 나머지 모든 것에 이 도구들을 쓰는 방법도 있습니다.

음성

음성 생성은 2024년에 "게임에 쓰기 충분함" 영역으로 넘어왔습니다. 그리고 이건 소규모 팀이 할 수 있는 일을 바꿔놓습니다.

AI 생성 게임 내레이션 — 적절한 페이싱과 감정이 담긴 자연스러운 음성

모델	기관	출시	핵심 특징	라이선스	분당 비용
CSM	Sesame AI	2025년 3월	대화 흐름, 자연스러운 멈춤	오픈	~$0.005
Fish Speech 1.5	Fish Audio	2024	10-30초 제로샷 클로닝	Apache 2.0	~$0.002
OpenVoice V2	MyShell/MIT	2024년 4월	감정/억양 제어	MIT	~$0.003
XTTS-v2	Coqui (커뮤니티)	2024	17개 언어, 보이스 클로닝	CPML	~$0.005

샘플 듣기: Fish Audio 음성 ↗ · OpenVoice demo ↗

NPC를 사람처럼 들리게 만들기

Sesame의 **CSM(Conversational Speech Model)**은 대화 전용으로 만들어졌습니다. 자연스러운 멈춤을 만들어내죠. 억양 변화도요. 실제 대화의 리듬을 살립니다. 대부분의 TTS는 누군가 대본을 읽는 것처럼 들립니다. 단번에 알아챌 수 있죠. CSM은 누군가 말하는 것처럼 들립니다. 이 차이는 생각보다 더 중요합니다.

Fish Speech와 OpenVoice는 보이스 클로닝을 처리합니다. 성우의 음성을 10-30초 녹음하면 그 목소리로 무제한 대화를 생성할 수 있습니다. 이게 무엇을 뜻하는지 생각해 보세요. 핵심 대사에는 성우를 고용하고, 그 연기를 확장해 수백 가지 변형과 환경 대사를 채울 수 있습니다.

NVIDIA ACE(완전한 오픈소스는 아니지만 알아둘 가치가 있음)는 이제 온디바이스 NPC 배포를 위해 Qwen3-8B를 지원합니다. 로컬 LLM + 로컬 TTS + 립싱크가 모두 소비자용 GPU에서 돌아갑니다. 클라우드 호출이 필요 없는 실시간 NPC 대화를 위한 스택이죠.

인디 창작자에게 이치에 맞는 접근법은 이렇습니다. 주요 캐릭터와 가장 중요한 대사에는 성우를 고용하세요. 환경 대사, 변형, 그리고 그렇지 않으면 무음이거나 비용이 엄청나게 들었을 모든 부수적 대사를 채우는 데에는 Fish Speech나 OpenVoice를 써서 커버리지를 확장하세요.

월드 모델과 게임 시뮬레이션

여기서 일이 진짜로 기묘해집니다. 그리고 진짜로 흥미로워지죠. 이 모델들은 정적인 에셋을 생성하지 않습니다. 게임처럼 느껴지는 경험을 생성합니다.

🎮 Oasis 플레이하기 — AI가 생성한 Minecraft
게임 엔진 없이, 오직 AI 예측만으로 이루어지는 실시간 월드 생성

모델	기관	출시	하는 일	상태	프레임당 비용
DIAMOND	연구	2024	디퓨전 월드 모델, Atari 시뮬레이션	오픈 가중치	~$0.001
Oasis	Decart/Etched	2024년 10월	실시간 Minecraft 생성	500M 가중치 공개	~$0.002
GameGen-X	연구	2024	오픈 월드 비디오 생성	코드 + 데이터셋 공개	~$0.005
NVIDIA Cosmos	NVIDIA	2025년 1월	물리 AI 시뮬레이션	오픈 가중치	~$0.01
Genie 2	DeepMind	2024년 12월	이미지에서 인터랙티브 3D	미공개	N/A
Genie 3	DeepMind	2025년 8월	실시간 720p 월드, 프롬프트 가능한 이벤트	비공개 (Project Genie)	N/A

연구 보기: DIAMOND 프로젝트 페이지 ↗ · Cosmos 블로그 ↗

써보기: Oasis 라이브 demo ↗ · Genie 2 예시 ↗

왜 이걸 신경 써야 하는가

DIAMOND는 게임 AI에 대한 생각을 바꾸는 무언가를 증명했습니다. 에이전트를 생성된 월드 안에서 완전히 학습시킬 수 있습니다. 학습에 진짜 게임 엔진이 필요 없죠. AI는 디퓨전 모델의 상상 속에서 플레이한 다음 실제 게임으로 옮겨갑니다. 여기서 시사하는 바가 큽니다.

Oasis는 Minecraft 같은 월드를 실시간으로 돌립니다. 프레임 하나하나씩. 게임 엔진도, 텍스처도, 미리 만든 에셋도 없습니다. 그저 트랜스포머가 다음에 무엇이 올지 예측할 뿐이죠. 개념 증명이지만, 이게 어디로 갈지 상상해 보세요. 500M 파라미터 버전은 이미 공개돼 있습니다.

GameGen-X는 오픈 월드 게임 비디오에 대한 가장 큰 데이터셋을 공개했습니다. 자신만의 모델을 학습시키거나 기존 모델을 파인튜닝해 게임 같은 콘텐츠를 생성하고 싶다면, 여기가 출발점입니다.

NVIDIA Cosmos는 로보틱스와 자율주행차를 위해 만들어졌지만, 월드 파운데이션 모델은 게임에도 통합니다. 물리, 객체 영속성, 공간 관계를 이해하죠. 오픈 가중치에 관대한 라이선스입니다.

Genie 3(DeepMind, 2025년 8월 발표)는 주목할 만한 도약입니다. 실시간 상호작용이 가능한 첫 월드 모델로, 24fps의 탐색 가능한 720p 월드를 생성하고 몇 분 동안 일관성을 유지하며, 명령 한 번으로 날씨를 바꾸거나 객체를 추가하는 '프롬프트 가능한 월드 이벤트'까지 갖췄습니다. 2026년 1월에 미국의 Google AI Ultra 구독자를 대상으로 Project Genie라는 이름으로 대중에 공개됐습니다. 여전히 비공개 가중치지만, 플레이 가능한 생성형 월드가 어디로 향하는지 보여줍니다.

오늘의 실제 게임 개발에서 이것들은 아직 연구 도구입니다. 하지만 AI 기반 콘텐츠, 절차적 생성 작업을 하고 있거나, 이 모든 것이 어디로 갈지 그저 생각하고 있다면, 여기가 최전선입니다.

대규모 언어 모델

LLM은 대화, 퀘스트 생성, 게임 로직을 구동합니다. 그리고 오픈 옵션들은 이제 진짜로 GPT-4와 경쟁합니다. 2년 전에는 그렇지 않았죠.

모델	기관	출시	크기	최적 용도	라이선스	1K 토큰당 비용
DeepSeek-V3	DeepSeek	2024년 12월	671B MoE (37B 활성)	추론, 범용	관대함	~$0.02
DeepSeek-R1	DeepSeek	2025년 1월	V3 기반	사고의 연쇄	관대함	~$0.03
DeepSeek-V3.2	DeepSeek	2025년 12월	희소 어텐션 (DSA)	추론 + 도구 사용	MIT	~$0.02
Qwen3	알리바바	2025	235B MoE (22B 활성)	다국어, 코드	Apache 2.0	~$0.01
Llama 4	Meta	2025	다양함	에이전트, 128k 컨텍스트	Llama Community	~$0.01
DeepSeek Coder V2	DeepSeek	2024	—	300개 이상 언어	관대함	~$0.01
Qwen2.5-VL	알리바바	2025년 1월	7B-72B	비전 + 언어	관대함	~$0.02

시작하기: HuggingFace의 Qwen3-8B ↗ · HuggingFace의 DeepSeek-V3 ↗

게임을 만들 때

Qwen3은 대부분의 게임 용도에 실용적인 선택입니다. Apache 2.0 라이선스, 즉 통합 결과물을 당신이 소유합니다. 강력한 다국어 지원은 로컬라이제이션을 생각한다면 중요한 부분이죠. 구조화된 지시를 잘 따릅니다. 7B와 14B 변형은 소비자용 GPU에서 로컬로 돌아갑니다.

DeepSeek-V3는 대부분의 벤치마크에서 GPT-4와 동등하거나 능가합니다. 아키텍처가 영리합니다. 총 671B인데도 토큰당 37B 파라미터만 활성화되죠. 진지한 하드웨어(멀티 GPU)가 필요하지만, API 의존성 없이 최전선급 품질을 냅니다.

DeepSeek-V3.2(2025년 12월)는 현재 오픈 DeepSeek의 최전선입니다. 추론과 도구 사용을 하나의 모델로 합치고, 저렴한 롱컨텍스트 추론을 위한 DeepSeek Sparse Attention(DSA)을 도입했으며, 최상위 추론 벤치마크를 겨냥한 고연산 Speciale 변형도 있습니다. 게임 로직과 대화에서는 V3보다 더 강하고 에이전트 능력이 뛰어난 대체재입니다.

Qwen2.5-VL은 비전 이해를 더합니다. 스크린샷을 분석하거나, 플레이어가 그린 콘텐츠를 이해하거나, 카메라 입력을 처리해야 하는 게임에 유용하죠. 7B 변형은 단일 GPU에서 돌아갑니다.

온디바이스 NPC, 즉 클라우드 호출 없이 실시간으로 반응하는 캐릭터를 위해서는 NVIDIA ACE를 통한 Qwen3-8B가 현재 가장 실용적인 경로입니다. 플레이어의 하드웨어에서 게임과 함께 돌아갑니다.

유틸리티 모델

이것들은 콘텐츠를 직접 생성하지는 않습니다. 하지만 당신의 파이프라인이 돌아가게 만듭니다.

SAM 2 segmentation SAM 2는 이미지와 비디오에서 어떤 객체든 분할합니다 — 한 번 클릭하면 완벽한 마스크가 나옵니다

모델	기관	출시	하는 일
SAM 2	Meta	2024년 8월	이미지와 비디오에서 무엇이든 분할
Depth Pro	Apple	2024년 10월	단일 이미지에서 메트릭 뎁스
gsplat	Nerfstudio	2024+	가우시안 스플래팅, CUDA 가속

SAM 2는 비디오 속 객체를 실시간으로 분할합니다. 무언가를 클릭하면 완벽한 마스크가 나오죠. 로토스코핑, 합성, 또는 푸티지에서 객체를 추출해 게임 에셋으로 쓰는 데 유용합니다. SAM 2 써보기 ↗

Apple의 Depth Pro는 단일 이미지에서 1초 안에 메트릭 뎁스 맵을 만들어냅니다. 이게 많은 걸 가능하게 합니다. 2D 아트를 시차 효과가 있는 2.5D로 변환하기, 3D 재구성용 뎁스 데이터 생성하기, 평면 이미지에서 노멀 맵 만들기. HuggingFace의 Depth Pro ↗

gsplat은 가우시안 스플래팅의 빠른 구현체입니다. 게임을 위해 실제 환경을 캡처하고 있다면, 즉 포토그래메트리나 환경 스캔을 하고 있다면, 이게 그 작업을 실용적으로 만들어주는 라이브러리입니다.

내가 실제로 쓸 것

오늘 게임 프로젝트를 시작한다면, 이치에 맞는 스택은 이렇습니다.

텍스처와 스프라이트: FLUX.1 [schnell] — Apache 2.0, 빠른 반복, 출시할 수 있는 품질

콘셉트 아트: 스타일 제어를 위한 LoRA를 곁들인 SD 3.5 Large

3D 에셋: 지오메트리는 InstantMesh, 그다음 텍스처는 Blender 또는 자동 PBR은 TRELLIS 2

음향 효과: AudioGen — MIT 라이선스, 로컬에서 돌아가고, 사운드스케이프를 채움

음악: 프로토타입은 MusicGen, 그다음 최종 제작은 작곡가를 데려오기

음성: 프로토타이핑은 Fish Speech, 프로덕션은 성우 + 클로닝

NPC 대화: 로컬 Qwen3-8B, 또는 복잡한 추론을 위한 클라우드 LLM

비디오(컷신): 로컬 Mochi 1, 최종 품질이 필요할 때는 클라우드의 HunyuanVideo

이 모든 것에 대해 이런 점이 있습니다. 흔한 실수는 모든 것에 AI를 쓰려고 하는 것입니다. 이것들은 도구이지 대체물이 아닙니다. 지루한 부분, 즉 반복, 변형, 플레이스홀더 에셋을 압축해 주어, 정말로 중요한 창의적 결정에 시간을 쓸 수 있게 해줍니다. 게임을 당신만의 것으로 만드는 그 부분에요.

하드웨어 현실 점검

이걸 돌리는 데 실제로 무엇이 필요한지 솔직하게 짚어봅시다.

8GB VRAM(RTX 3060, 4060): SD 1.5/SDXL, Wan 2.1 소형, AudioGen, Fish Speech, 작은 LLM(7B 양자화). 게이밍 노트북 영역이고, 시작하기에는 충분합니다.

12GB VRAM(RTX 3080, 4070): SD 3.5, FLUX schnell, Mochi 1, MusicGen, TripoSR, Qwen 14B 양자화. 여기서부터 편해집니다. 유용한 모델 대부분이 여기서 돌아갑니다.

24GB VRAM(RTX 3090, 4090): 대부분의 모델을 풀 프리시전으로, InstantMesh, 더 큰 LLM. 이 워크플로를 진지하게 한다면 여기가 스위트 스팟입니다.

48-80GB VRAM(A100, H100): HunyuanVideo, LTX-2, DeepSeek-V3, 프로덕션 규모의 생성. 엔터프라이즈급 하드웨어입니다. 사는 게 아니라 빌리는 거죠.

RunPod, Lambda Labs, Modal의 클라우드 인스턴스는 A100 기준 시간당 2-4달러입니다. 가끔 쓰는 용도라면 하드웨어를 사는 것보다 저렴합니다. 최종 품질이 필요할 때 켜고, 끝나면 끄세요.

이 가이드의 비용 추정치에 대하여: 생성당 비용은 시간당 약 2-3달러(A100) 또는 약 0.40달러(RTX 4090)의 클라우드 GPU에서 셀프 호스팅 추론을 한다는 가정입니다. 실제 비용은 하드웨어, 최적화, 배치 크기에 따라 달라집니다. 이건 계획을 위한 대략적인 수치이며, 당신의 경우는 다를 수 있습니다.

2026년의 새로운 것

방금 출시됨: LTX-2 가중치가 공개됐습니다. 오디오와 비디오가 동기화된 첫 오픈 모델이죠. Hunyuan3D 2.5는 이제 물리 엔진에서 작동하는 시뮬레이션 준비형 3D 에셋용으로 사용할 수 있습니다.

올해 나올 것: 1초 미만 지연의 실시간 비디오 생성. 게임 시뮬레이션을 위한 더 나은 월드 모델. 그리고 내장 그래픽에서 돌아가는 더 작은 모델, 즉 전용 GPU가 없는 노트북에서도 쓸 수 있게 되는 것.

흐름은 명확합니다. 폐쇄형 모델에 존재하는 모든 기능은 6-12개월 뒤 오픈 모델에 나타납니다. 질문은 오픈 모델이 충분히 좋아질지가 아닙니다. 대부분의 용도에서는 이미 충분히 좋으니까요. 질문은 그것들이 얼마나 빨리 기본 선택지가 되느냐입니다.

그리고 이게 창작자에게 의미하는 바는 이렇습니다. 과거에 엔터프라이즈 예산이나 월 구독이 필요했던 도구들이, 그냥... 돌릴 수 있는 것이 되어가고 있습니다. 자신의 하드웨어에서. 누구의 허락도 없이.

그게 바로 그 전환입니다. 그게 바로 우리가 만들어가고 있는 방향입니다.

자주 묻는 질문

게임 에셋 생성에 가장 좋은 오픈소스 AI 모델은 무엇인가요?

에셋에 따라 다릅니다. 3D 모델이라면 2026년 기준 Hunyuan3D가 가장 강력한 오픈 옵션입니다. 2D 아트와 텍스처라면 FLUX가 품질에서 앞섭니다. 음향 효과와 음악이라면 오픈 오디오 모델들이 빠르게 따라잡았습니다. 게임은 여러 종류의 에셋이 필요하기 때문에 단 하나의 "최고" 모델은 없으며, 대부분의 창작자는 하나에 의존하기보다 몇 가지를 엮어서 씁니다.

오픈소스 AI 모델이 폐쇄형 API를 대체할 만큼 충분히 좋은가요?

2026년 대부분의 게임 에셋 작업에서는 그렇습니다. 오픈 모델은 이제 이미지, 3D, 오디오 생성에서 폐쇄형 API와 맞먹고, 호출당 요금이나 갑작스러운 가격 변경 없이 자신의 하드웨어에서 돌릴 수 있습니다. 폐쇄형 모델은 장편 비디오 같은 일부 최전선 작업에서 여전히 앞서지만, 그 격차는 보통 6-12개월 안에 좁혀집니다.

이 생성형 AI 모델들을 내 GPU에서 돌릴 수 있나요?

상당수는 그렇습니다. 이미지와 오디오 모델은 RTX 4090 같은 단일 소비자용 GPU에서 무난하게 돌아갑니다. 더 큰 비디오와 3D 모델은 더 많은 VRAM을 원하고 종종 A100급 클라우드 GPU가 필요합니다. 위의 하드웨어 섹션에 각 모델이 무엇을 필요로 하는지 정리돼 있으니, 결정하기 전에 계획을 세울 수 있습니다.

AI가 생성한 에셋을 상업용 게임에 사용하는 것이 합법인가요?

직접 돌리는 오픈소스 모델이라면 대체로 그렇지만, 모델의 라이선스와 학습 데이터에 대한 가정에 따라 달라집니다. 항상 특정 모델의 라이선스를 확인하고, 플랫폼이 요구하는 경우 AI 생성 콘텐츠를 공개하세요. 우리가 이를 어떻게 다루는지는 AI 생성 콘텐츠 정책을 참고하세요.

더 읽을거리

AI 논란, 신뢰, 그리고 포스트 AI 경제 — 게임 속 AI에 대한 우리의 입장
AI 생성 콘텐츠 정책 — AI 공개를 다루는 방식
2026년 웹 게임 기술 스택 — 게임을 위한 WebGL, WebGPU, Wasm
브라우저 3D 오픈 월드 기술 — 브라우저 월드에서 AI 생성 3D 에셋 사용하기
브라우저 오픈 월드를 위한 랜드스케이프 생성 — 디퓨전 기반 지형 합성
무료 게임 에셋을 찾을 수 있는 곳 — AI 생성과 함께 쓰는 전통적인 에셋 출처
에이전트형 AI 코드 도구 — 에셋 생성만이 아니라 게임 코드를 쓰는 AI

게임을 위한 최고의 오픈소스 생성형 AI 모델 (2026) ​

비디오 생성 ​

창작자에게 의미하는 것 ​

이미지 생성 ​

게임 에셋을 만들 때 ​

3D 생성 ​

실제로 돌아가는 워크플로 ​

오디오와 음악 ​

실제로 출시에 쓸 수 있는 것 ​

음성 ​

NPC를 사람처럼 들리게 만들기 ​

월드 모델과 게임 시뮬레이션 ​

왜 이걸 신경 써야 하는가 ​

대규모 언어 모델 ​

게임을 만들 때 ​

유틸리티 모델 ​

내가 실제로 쓸 것 ​

하드웨어 현실 점검 ​

2026년의 새로운 것 ​

자주 묻는 질문 ​

게임 에셋 생성에 가장 좋은 오픈소스 AI 모델은 무엇인가요? ​

오픈소스 AI 모델이 폐쇄형 API를 대체할 만큼 충분히 좋은가요? ​

이 생성형 AI 모델들을 내 GPU에서 돌릴 수 있나요? ​

AI가 생성한 에셋을 상업용 게임에 사용하는 것이 합법인가요? ​

더 읽을거리 ​