2026년 2월~6월 로컬 LLM 가이드: GPU별 최적 모델 및 Ollama 완전 정복

2026-06-16

An enterprise-style technical infographic comparing 2026 local LLM models like Qwen3.5 and Nemotron-Cascade-2, categorized by GPU VRAM capacities (8GB, 12GB, 24GB) for local AI hosting. — Qwen3.5, Nemotron-Cascade-2 등 2026년 2월~6월 신규 오픈웨이트 모델의 GPU 요구사항 요약

업데이트2026년 6월 5일 최신 반영

추가 모델20개+ 신규 모델

핵심Qwen3.5 전 시리즈 · Nemotron-Cascade-2 · MiMo V2.5 · GLM-5.1 · MiniMax M3 · DeepSeek V4

원본 가이드GPU별 로컬 LLM 최적 모델 완전 가이드

🆕 Qwen3.5 멀티모달 ⚡ Nemotron-Cascade-2 🤖 MiMo V2.5 MIT 🔥 DeepSeek V4 🏆 GLM-5.1 · MiniMax M3 2026년 2~6월 신규

원본 가이드 발행 이후 2026년 2~6월 사이에만 20개 이상의 새로운 주요 로컬 LLM이 출시됐습니다. 특히 Qwen3.5 시리즈는 모든 크기에서 멀티모달(이미지+영상)을 기본 지원하는 혁신을 가져왔고, NVIDIA의 Nemotron-Cascade-2는 24GB 단일 GPU에서 120B 모델을 이기는 충격적인 효율을 보여줬습니다. 이 글에서는 원본 가이드에 없는 신규 모델 전체를 GPU 티어별로 정리합니다.

📌

이 글 활용 방법

원본 가이드와 이 업데이트를 함께 보시면 됩니다. 여기서는 원본에 없는 신규 모델만 다룹니다. Ollama 최신 명령어는 본 가이드 하단을 참조하세요.

SECTION01

2026년 2~6월 신규 출시 모델 한눈에

모델	출시일	회사	크기	라이선스	핵심 특징
Qwen3.5 시리즈	2026.02~03	Alibaba	0.8B~397B	Apache 2.0	🔥 전 크기 멀티모달 기본, GDN 신아키텍처, 262K 컨텍스트
Qwen3.6-27B	2026.04	Alibaba	27B dense	Apache 2.0	🔥 SWE-bench 77.2%, 1M 컨텍스트, 현재 소비자 GPU 코딩 최강
Nemotron-Cascade-2	2026.03.20	NVIDIA	30B (3B active)	NVIDIA Open	🔥 24GB GPU 단독 실행, 120B 모델보다 강함, IMO 금메달
MiMo-V2.5	2026.04.22	Xiaomi	310B MoE	MIT	310B MIT 개방, AIME 2025 수학 최강급
MiMo-V2.5-Pro	2026.04.22	Xiaomi	1.02T MoE	MIT	1조 파라미터 MIT — 역대 가장 큰 MIT 모델
MiMo-V2-Flash	2026.03.18	Xiaomi	309B MoE	Proprietary	AIME 94.1%, SWE-bench 73.4%, 256K 컨텍스트
GLM-5.1	2026.04	Zhipu AI	744B MoE	MIT	코딩 에이전트 최강급, SWE-bench 77.8%, MIT
GLM-4.7 Flash	2026.03	Zhipu AI	355B	–	로컬 플래시 버전 제공
Kimi K2.6	2026.05	Moonshot AI	MoE	MIT	SWE-Bench Pro 58.6% — 오픈 모델 1위 코딩
MiniMax M2.5	2026.02	MiniMax	230B	오픈웨이트	SWE-bench 80.2% — 프로프라이어터리 모델 수준
MiniMax M2.7	2026.03	MiniMax	–	오픈웨이트	멀티모달+음성, SWE-bench 78%
MiniMax M3	2026.06 🆕	MiniMax	미공개	미공개	🔥 2026년 6월 최신 출시
DeepSeek V3.2	2026.03	DeepSeek	685B MoE	MIT	V3 업그레이드, V3.2-Speciale 포함
DeepSeek V4 Flash	2026.04	DeepSeek	MoE	MIT	1M 컨텍스트, GPT-5 대비 5~30배 저렴
DeepSeek V4 Pro	2026.04	DeepSeek	MoE	MIT	프론티어급 성능
GPT-OSS 120B	2026.02	OpenAI	117B MoE	Apache 2.0	GPT-4o 수준, ~70GB Q4 (멀티GPU 필요)
Step-3.5-Flash	2026.02	StepFun	196B	Apache 2.0	SWE-bench Tier C 56점, Apache 2.0
Hunyuan 2.0	2026.02	Tencent	406B	오픈웨이트	텐센트 플래그십, 멀티모달
Qwen3.5-397B-A17B	2026.02.16	Alibaba	397B MoE	Apache 2.0	Qwen3.5 플래그십, 프론티어급
MiMo-7B-RL	2025.05→2026.03업	Xiaomi	7B	MIT	소형 수학·코딩 추론 모델 (AIME 2024 80.1%)

🔥

2026년 2~6월의 가장 큰 변화 — Qwen3.5의 멀티모달화

Qwen3.5는 단순히 Qwen3의 업그레이드가 아닙니다. 0.8B 초소형부터 397B 대형까지 모든 크기에서 텍스트+이미지+영상을 기본 처리할 수 있게 됐습니다. 이전에는 멀티모달을 위해 별도의 Vision 어댑터 모델(Llama 3.2 Vision, Gemma 3 등)을 써야 했지만, Qwen3.5는 “Early Fusion”으로 기본 내장했습니다. 여기에 262K 컨텍스트와 새 GDN 아키텍처가 더해져 Qwen3.5-35B-A3B가 RTX 3090에서 112 tok/s라는 충격적인 속도를 냅니다.

SECTION02

Qwen3.5 시리즈 — 모든 것이 바뀌었다

🔬 Qwen3.5의 3가지 혁신

①

전 크기 네이티브 멀티모달 — 별도 Vision 모델 불필요

Qwen3.5-0.8B부터 397B까지 모든 크기가 텍스트·이미지·영상을 기본 처리합니다. “Early Fusion” 방식으로 비전 어댑터 없이 통합 가중치로 구현됐습니다. 스마트폰 크기(0.8B)에서도 영상 이해가 가능합니다.

②

GDN 하이브리드 아키텍처 — Transformer의 진화

기존 Transformer의 Attention 레이어를 75%를 Gated DeltaNet(GDN)으로 교체했습니다. GDN은 선형 복잡도로 긴 컨텍스트를 효율적으로 처리합니다. 덕분에 262K 컨텍스트가 기본이고 1M까지 확장됩니다. Ollama 0.17.4 이상이 필요합니다.

③

MoE 효율 극대화 — 35B인데 속도는 3B급

Qwen3.5-35B-A3B는 35B 파라미터 중 토큰당 3B만 활성화하는 MoE입니다. RTX 3090(24GB)에서 Q4로 21.4GB를 사용하며 112 tok/s 속도를 냅니다. 기존 Qwen3-235B-A22B보다 파라미터는 1/7이지만 많은 벤치마크에서 앞섭니다.

📋 Qwen3.5 전체 크기별 GPU 가이드

모델	파라미터	Q4 VRAM	최적 GPU	속도 (RTX 4090)	주요 벤치마크
Qwen3.5-0.8B	0.8B dense	~0.7GB	스마트폰·라즈베리파이	300+ tok/s	MMLU-Pro 66.5%, GPQA 51.6%
Qwen3.5-2B	2B dense	~1.5GB	통합 그래픽, 4GB GPU	200+ tok/s	기본 작업용
Qwen3.5-4B	4B dense	~2.5GB	모든 Ampere+ GPU	150+ tok/s	멀티모달 에이전트 기반
Qwen3.5-9B ⭐	9B dense	~6.5GB	RTX 8GB GPU 이상	~80 tok/s	GPQA Diamond 81.7%, LiveCodeBench 82.7%
Qwen3.5-27B ⭐	27B dense	~18GB	RTX 3090 · 4090	~45 tok/s	SWE-bench 72.4% (= GPT-5-mini), 멀티모달
Qwen3.5-35B-A3B 🔥	35B MoE (3B active)	~21.4GB	RTX 3090 · 4090	~112 tok/s!	Qwen3-235B 능가, 소비자 GPU 최강 효율
Qwen3.5-122B-A10B	122B MoE (10B active)	~70GB	A100 80G · 듀얼 A40	~25 tok/s	BFCL-V4 72.2 (툴콜링 1위)
Qwen3.5-397B-A17B	397B MoE (17B active)	~242GB	8× H100 또는 M3/M4 Ultra	–	Qwen3.5 플래그십, 프론티어급

💡

Qwen3.5-9B — 충격적인 9B 성능 (GPQA Diamond 81.7%)

Qwen3.5-9B의 GPQA Diamond 81.7%는 충격적입니다. 이 벤치마크에서 GPT-OSS 120B(71.5%)보다 높습니다. 9B 소형 모델이 120B 대형 모델을 이기는 효율성을 Qwen3.5의 GDN 아키텍처가 만들어냈습니다. RTX 8GB GPU 보유자라면 Qwen3.5-9B를 반드시 테스트해보세요.

💻 Ollama 명령어 — Qwen3.5 시작하기

bash

# Ollama 업데이트 필수! (GDN 아키텍처 지원 최소 0.17.4)
ollama --version  # 버전 확인

# 8GB GPU — Qwen3.5-9B (멀티모달 포함)
ollama run qwen3.5:9b

# 12GB GPU — 멀티모달 9B Q8 고품질
ollama run qwen3.5:9b-q8_0

# 24GB GPU — 최강 추천 35B MoE (112 tok/s!)
ollama run qwen3.5:35b-a3b

# 24GB GPU — 27B dense 멀티모달
ollama run qwen3.5:27b

# 이미지와 함께 대화 (멀티모달)
ollama run qwen3.5:9b
>>> /path/to/image.jpg 이 이미지에서 무엇이 보이나요?

SECTION03

⚡ Nemotron-Cascade-2 — 24GB GPU에서 120B를 이기다

항목	내용
출시일	2026년 3월 20일
개발사	NVIDIA Research
파라미터	30B total / 3B active (MoE)
Q4 VRAM	~18~20GB → RTX 4090 / RTX 3090 단독 실행 ✅
라이선스	NVIDIA Nemotron Open Model License (비상업 연구 무료)
컨텍스트	128K
기반 모델	Nemotron-Nano-V3 사전훈련 + Cascade RL
Ollama 명령어	`ollama run nemotron-cascade2`

Nemotron-Cascade-2 — 왜 주목해야 하는가

120B 모델보다 강하면서 24GB에 들어간다 — NVIDIA 자사 120B 모델(Nemotron-3-Super)을 수학·코딩·명령수행에서 초과 달성하면서도 24GB 단일 GPU로 실행됩니다
IMO 2025 금메달 수준 수학 — 2025년 국제수학올림피아드(IMO) 35점, IOI 2025 439.3점, ICPC World Finals 10/12 문제 해결. 오픈 모델 중 두 번째로 이 세 대회 모두 금메달 수준 달성
Cascade RL 프레임워크 — 다단계 강화학습으로 수학·코딩·에이전트 능력을 동시에 최적화
Qwen3.5-35B-A3B와 동급 활성 파라미터 — 둘 다 3B 활성 파라미터이지만 수학·코딩에서 Nemotron-Cascade-2가 앞섬

📊 Nemotron-Cascade-2 vs 경쟁 24GB GPU 모델

모델	VRAM (Q4)	수학 (AIME)	코딩 (LiveCodeBench)	특징
Nemotron-Cascade-2 30B-A3B	~20GB	IMO 금메달	최상위	NVIDIA 공식, Cascade RL
Qwen3.5-35B-A3B	~21.4GB	높음	높음	멀티모달, 112 tok/s
DeepSeek R1 Distill 32B	~20GB	매우 높음	높음	추론 특화, MIT
Qwen3-32B	~21GB	높음	높음	균형형, Apache 2.0

⚠️

라이선스 주의

Nemotron Open Model License는 연구·비상업적 사용은 자유지만, 상업 배포 시 NVIDIA의 승인이 필요합니다. Apache 2.0/MIT 같은 완전 자유 라이선스가 아닙니다. 상업 프로젝트라면 Qwen3.5-35B-A3B나 DeepSeek R1 Distill 32B를 먼저 고려하세요.

SECTION04

🆓 MIT 라이선스 대형 모델들 — 서버급 오픈소스 황금기

2026년의 가장 놀라운 변화 중 하나는 310B~1조 파라미터급 모델들이 MIT 라이선스로 공개된 것입니다. 상업적 사용, 수정, 재배포 모두 자유롭습니다.

🤖 MiMo-V2.5 / MiMo-V2.5-Pro (Xiaomi · MIT)

모델	출시일	파라미터	라이선스	특징
MiMo-V2.5	2026.04.22	310B MoE	MIT	수학·코딩 특화. 310B 전체 가중치 필요 (멀티GPU)
MiMo-V2.5-Pro	2026.04.22	1.02T MoE	MIT	역대 가장 큰 MIT 모델. Quad DGX Spark 권장
MiMo-V2-Flash	2026.03.18	309B MoE	Proprietary	AIME 2025 94.1%, SWE-bench 73.4%, 256K 컨텍스트
MiMo-7B-RL	2025.05 / 2026업	7B	MIT	AIME 2024 80.1% — 7B에서 수학 충격적 성능. 8GB GPU 가능

💡

MiMo-7B-RL — 8GB GPU에서 수학 에이전트

MiMo-7B-RL은 7B 크기임에도 AIME 2024에서 80.1%를 기록했습니다. Xiaomi가 수학·코딩 강화학습에 특화해 훈련한 소형 추론 모델입니다. 8GB GPU에서 DeepSeek R1 8B를 대체하는 수학 특화 옵션으로 주목받고 있습니다.

🤖 GLM-5.1 / GLM-4.7 (Zhipu AI · MIT)

모델	파라미터	라이선스	SWE-bench	특징
GLM-5.1	744B MoE	MIT	77.8%	코딩·에이전트 최강급. 에이전트 스웜 지원. 멀티GPU 필요
GLM-4.7	355B	–	–	GLM-4.7 Flash 로컬 버전: SWE-bench Tier C 52점

🔥

GLM-5.1 MIT — 왜 중요한가

GLM-5.1은 Kimi K2.6, MiniMax M2.5와 함께 2026년 상반기 로컬 코딩 에이전트 3대장으로 꼽힙니다. SWE-bench 77.8%로 Claude Opus 4.6과 비슷한 수준이면서 MIT 라이선스로 완전 자유롭습니다. 744B이므로 단일 소비자 GPU로는 불가능하지만, 엔터프라이즈 자체 호스팅의 최강 오픈소스입니다.

SECTION05

🏆 2026 코딩 에이전트 최강 모델 — SWE-bench Pro 기준 순위

SWE-bench Pro는 실제 GitHub 버그 수정 작업 능력을 측정하는 2026년 표준 코딩 벤치마크입니다.

순위	모델	SWE-bench Pro	로컬 실행	라이선스
🥇 1위	Kimi K2.6	58.6%	멀티GPU 필요	MIT
2위	MiMo-V2-Flash	73.4% (SWE-Verified)	멀티GPU	Proprietary
3위	GLM-5.1	77.8% (SWE-Verified)	멀티GPU	MIT
🎖️ 소비자GPU 1위	Qwen 3.6 27B	SWE-Verified 77.2%	RTX 4090 (24GB) ✅	Apache 2.0
소비자GPU 2위	Nemotron-Cascade-2	최상위	RTX 4090 (24GB) ✅	NVIDIA Open
소비자GPU 3위	Qwen3.5-35B-A3B	높음	RTX 4090 (24GB) ✅	Apache 2.0

🤖 Kimi K2.6 — SWE-Bench Pro 오픈 모델 세계 1위

Kimi K2.6 — 에이전트 코딩의 새 기준

SWE-Bench Pro 58.6% — GPT-5.4 고성능 설정(57.7%)을 초과. 오픈 모델 최초
MIT 라이선스 — 완전 자유. 상업 배포 가능
에이전트 스웜(Agent Swarm) — 여러 Kimi K2.6 인스턴스가 협업하는 다중 에이전트 아키텍처 지원
1M+ 컨텍스트 — 대형 코드베이스 전체를 컨텍스트에 올릴 수 있음
하드웨어 — MoE 구조이지만 전체 파라미터 로딩 필요. 4× A100 이상 권장

SECTION06

🎵 MiniMax M 시리즈 — 음성+멀티모달 오픈웨이트

모델	출시	SWE-bench	특징
MiniMax M3 🆕	2026.06 (최신!)	미공개	2026년 6월 최신. 음성+멀티모달+코딩 통합
MiniMax M2.7	2026.03	78%	음성 입출력 지원. 실시간 음성 채팅 가능
MiniMax M2.5	2026.02	80.2%	오픈웨이트 최강급 SWE-bench. 230B

🎵

MiniMax 시리즈의 독특한 강점 — 음성+멀티모달

MiniMax M 시리즈는 다른 오픈소스 LLM과 달리 텍스트·이미지·영상·오디오 입력과 텍스트·음성 출력을 모두 지원합니다. 실시간 음성 대화 AI 서비스를 로컬로 구현할 때 현재 최선의 선택입니다. MiniMax M3은 2026년 6월에 막 출시된 최신 버전입니다.

SECTION07

🔮 DeepSeek V3.2 / V4 시리즈 — 계속 진화하는 최강 모델

모델	출시	파라미터	라이선스	핵심
DeepSeek V3.2	2026.03	685B MoE	MIT	V3 업그레이드. DeepSeek-V3.2-Speciale-671B-A37B 포함
DeepSeek V4 Flash	2026.04	MoE	MIT	1M 컨텍스트, GPT-5 대비 5~30배 저렴, 저렴한 API
DeepSeek V4 Pro	2026.04	MoE	MIT	프론티어급 성능, DeepClaude 통합 시 SWE-bench Tier A
DeepSeek V4 Plus	2026.04.27	MoE	MIT	프론티어 격차 해소

💡

DeepSeek V4 — 로컬 실행은 사실상 불가능

DeepSeek V4 시리즈는 685B+ 규모의 MoE 모델로 완전한 로컬 실행을 위해서는 수백GB의 VRAM이 필요합니다. 일반 사용자는 DeepSeek 공식 API(api.deepseek.com)를 통해 저렴하게 사용하는 것이 현실적입니다. 로컬 실행은 멀티 DGX 서버 수준의 하드웨어가 있는 기업 환경에서만 가능합니다.

SECTION08

🤖 GPT-OSS 120B — OpenAI의 Apache 2.0 오픈웨이트

항목	내용
개발사	OpenAI
파라미터	117B (MoE 구조)
라이선스	Apache 2.0 — OpenAI 최초 완전 오픈
Q4 VRAM	~70GB → 2× A100 80GB 또는 L40S × 2
컨텍스트	128K
특징	GPT-4o 수준, 가장 많이 다운로드된 미국산 오픈웨이트 모델 (GPT-OSS 20B와 함께)

GPT-OSS 120B는 Apache 2.0으로 공개된 OpenAI의 오픈웨이트 대형 모델입니다. 20B 버전이 소비자 GPU에서 실행된다면, 120B는 2× A100 80GB 또는 L40S 서버급 환경이 필요합니다. 그러나 Apache 2.0 완전 자유 라이선스라 엔터프라이즈 셀프호스팅에서 폭발적인 인기를 얻고 있습니다.

SECTION09

📊 신규 모델 반영 — 업데이트된 GPU별 최고 추천

🔄

원본 가이드 추천 vs 업데이트 후 추천

신규 모델로 인해 일부 티어의 추천 순위가 바뀌었습니다. 특히 8GB · 24GB 구간에서 변화가 큽니다.

VRAM 8GB GPU — 신규 추가 모델

모델	VRAM	이유	추천도
Qwen3.5-9B 🆕	~6.5GB	GPQA Diamond 81.7% — 120B 모델 이김, 멀티모달 기본!	⭐⭐⭐⭐⭐ NEW 1위
MiMo-7B-RL 🆕	~5.5GB	AIME 2024 80.1% — 수학 특화 7B	⭐⭐⭐⭐ 수학용
Qwen3-8B (기존)	~5.5GB	여전히 강력, 한국어 최강	⭐⭐⭐⭐⭐

VRAM 12GB GPU — 신규 추가 모델

모델	VRAM	이유	추천도
Qwen3.5-9B Q8 🆕	~9.5GB	Q8 고품질 + 멀티모달	⭐⭐⭐⭐⭐ 멀티모달 필요 시
Qwen3-14B (기존)	~9.5GB	순수 텍스트 성능 여전히 최강	⭐⭐⭐⭐⭐

VRAM 24GB GPU — 신규 추가 모델 (가장 큰 변화!)

모델	VRAM	tok/s	이유	추천도
Qwen3.5-35B-A3B 🆕🔥	~21.4GB	112 tok/s!	24GB에서 가장 빠른 고성능 모델. 멀티모달 기본	⭐⭐⭐⭐⭐ 속도 왕
Nemotron-Cascade-2 🆕	~20GB	~54 tok/s	수학·코딩 최강. IMO 금메달	⭐⭐⭐⭐⭐ 수학·코딩
Qwen 3.6 27B 🆕	~18GB	~55 tok/s	SWE-bench 77.2%. 1M 컨텍스트. 코딩 1위	⭐⭐⭐⭐⭐ 코딩
DeepSeek R1 32B (기존)	~20GB	~60 tok/s	추론 특화, 여전히 강력	⭐⭐⭐⭐⭐ 추론
Qwen3.5-27B 🆕	~18GB	~45 tok/s	멀티모달(영상포함) + SWE-bench 72.4%	⭐⭐⭐⭐ 멀티모달

🏆

2026년 6월 기준 — 24GB GPU 최종 왕 3선

속도 최강: Qwen3.5-35B-A3B — 112 tok/s, 멀티모달 기본
코딩 최강: Qwen 3.6 27B — SWE-bench 77.2%, 1M 컨텍스트
수학·IMO 최강: Nemotron-Cascade-2 — 금메달 수준 수학, 24GB 단독

💻 신규 모델 Ollama 명령어 모음

bash — 신규 모델 설치

# ─── Qwen3.5 시리즈 (멀티모달 기본 포함) ───
# Ollama 0.17.4+ 먼저 업데이트!
ollama run qwen3.5:9b          # 8GB GPU — GPQA 81.7%, 멀티모달
ollama run qwen3.5:27b         # 24GB GPU — 멀티모달 27B
ollama run qwen3.5:35b-a3b     # 24GB GPU — 112 tok/s 속도 왕!

# ─── Qwen3.6 시리즈 ───
ollama run qwen3.6:27b         # 24GB GPU — SWE-bench 77.2%

# ─── Nemotron-Cascade-2 ───
ollama run nemotron-cascade2   # 24GB GPU — IMO 금메달 수학

# ─── MiMo-7B-RL ───
ollama run mimo:7b-rl          # 8GB GPU — AIME 80.1% 수학

# ─── Qwen3.5 멀티모달 이미지 테스트 ───
ollama run qwen3.5:9b
>>> [이미지 드래그 앤 드롭 또는]
>>> /path/to/image.jpg 이 이미지를 설명해줘
>>> /path/to/video.mp4 이 영상에서 무슨 일이 일어나나요?

FINALWRAP

2026년 6월 5일 기준 — 결론 정리

분야	소비자 GPU 최강 (24GB)	서버급 최강
🚀 속도	Qwen3.5-35B-A3B (112 tok/s)	Nemotron-Cascade-2 (54 tok/s)
💻 코딩	Qwen 3.6 27B (SWE 77.2%)	Kimi K2.6 (SWE-Pro 58.6%)
🧮 수학	Nemotron-Cascade-2 (IMO 금)	MiMo-V2-Flash (AIME 94.1%)
🖼️ 멀티모달	Qwen3.5-27B (영상+이미지)	MiniMax M3 (음성+영상)
🤖 에이전트	Qwen 3.6 27B	GLM-5.1 / Kimi K2.6
🇰🇷 한국어	EXAONE 3.5 32B (변동 없음)	–
🆓 완전 자유	Qwen3.5-35B-A3B (Apache 2.0)	MiMo-V2.5 / GLM-5.1 (MIT)

🤖 2026년 6월 5일 현재 결론: Qwen3.5의 등장으로 모든 크기의 로컬 모델이 멀티모달을 갖추게 됐습니다. Qwen3.5-35B-A3B는 RTX 3090/4090에서 112 tok/s로 “빠르고 똑똑한 로컬 AI”를 완성합니다. 서버급을 원한다면 GLM-5.1 또는 Kimi K2.6이 MIT 라이선스로 완전 무료입니다. 로컬 LLM은 이제 단일 GPU 성능으로 2년 전 데이터센터 수준을 넘어섰습니다.