2026년 2월~6월 로컬 LLM 가이드: GPU별 최적 모델 및 Ollama 완전 정복

0
14
An enterprise-style technical infographic comparing 2026 local LLM models like Qwen3.5 and Nemotron-Cascade-2, categorized by GPU VRAM capacities (8GB, 12GB, 24GB) for local AI hosting.
Qwen3.5, Nemotron-Cascade-2 등 2026년 2월~6월 신규 오픈웨이트 모델의 GPU 요구사항 요약
업데이트2026년 6월 5일 최신 반영
추가 모델20개+ 신규 모델
핵심Qwen3.5 전 시리즈 · Nemotron-Cascade-2 · MiMo V2.5 · GLM-5.1 · MiniMax M3 · DeepSeek V4
원본 가이드GPU별 로컬 LLM 최적 모델 완전 가이드
🆕 Qwen3.5 멀티모달 ⚡ Nemotron-Cascade-2 🤖 MiMo V2.5 MIT 🔥 DeepSeek V4 🏆 GLM-5.1 · MiniMax M3 2026년 2~6월 신규
원본 가이드 발행 이후 2026년 2~6월 사이에만 20개 이상의 새로운 주요 로컬 LLM이 출시됐습니다. 특히 Qwen3.5 시리즈는 모든 크기에서 멀티모달(이미지+영상)을 기본 지원하는 혁신을 가져왔고, NVIDIA의 Nemotron-Cascade-2는 24GB 단일 GPU에서 120B 모델을 이기는 충격적인 효율을 보여줬습니다. 이 글에서는 원본 가이드에 없는 신규 모델 전체를 GPU 티어별로 정리합니다.
📌
이 글 활용 방법

원본 가이드와 이 업데이트를 함께 보시면 됩니다. 여기서는 원본에 없는 신규 모델만 다룹니다. Ollama 최신 명령어는 본 가이드 하단을 참조하세요.

SECTION01

2026년 2~6월 신규 출시 모델 한눈에

모델출시일회사크기라이선스핵심 특징
Qwen3.5 시리즈2026.02~03Alibaba0.8B~397BApache 2.0🔥 전 크기 멀티모달 기본, GDN 신아키텍처, 262K 컨텍스트
Qwen3.6-27B2026.04Alibaba27B denseApache 2.0🔥 SWE-bench 77.2%, 1M 컨텍스트, 현재 소비자 GPU 코딩 최강
Nemotron-Cascade-22026.03.20NVIDIA30B (3B active)NVIDIA Open🔥 24GB GPU 단독 실행, 120B 모델보다 강함, IMO 금메달
MiMo-V2.52026.04.22Xiaomi310B MoEMIT310B MIT 개방, AIME 2025 수학 최강급
MiMo-V2.5-Pro2026.04.22Xiaomi1.02T MoEMIT1조 파라미터 MIT — 역대 가장 큰 MIT 모델
MiMo-V2-Flash2026.03.18Xiaomi309B MoEProprietaryAIME 94.1%, SWE-bench 73.4%, 256K 컨텍스트
GLM-5.12026.04Zhipu AI744B MoEMIT코딩 에이전트 최강급, SWE-bench 77.8%, MIT
GLM-4.7 Flash2026.03Zhipu AI355B로컬 플래시 버전 제공
Kimi K2.62026.05Moonshot AIMoEMITSWE-Bench Pro 58.6% — 오픈 모델 1위 코딩
MiniMax M2.52026.02MiniMax230B오픈웨이트SWE-bench 80.2% — 프로프라이어터리 모델 수준
MiniMax M2.72026.03MiniMax오픈웨이트멀티모달+음성, SWE-bench 78%
MiniMax M32026.06 🆕MiniMax미공개미공개🔥 2026년 6월 최신 출시
DeepSeek V3.22026.03DeepSeek685B MoEMITV3 업그레이드, V3.2-Speciale 포함
DeepSeek V4 Flash2026.04DeepSeekMoEMIT1M 컨텍스트, GPT-5 대비 5~30배 저렴
DeepSeek V4 Pro2026.04DeepSeekMoEMIT프론티어급 성능
GPT-OSS 120B2026.02OpenAI117B MoEApache 2.0GPT-4o 수준, ~70GB Q4 (멀티GPU 필요)
Step-3.5-Flash2026.02StepFun196BApache 2.0SWE-bench Tier C 56점, Apache 2.0
Hunyuan 2.02026.02Tencent406B오픈웨이트텐센트 플래그십, 멀티모달
Qwen3.5-397B-A17B2026.02.16Alibaba397B MoEApache 2.0Qwen3.5 플래그십, 프론티어급
MiMo-7B-RL2025.05→2026.03업Xiaomi7BMIT소형 수학·코딩 추론 모델 (AIME 2024 80.1%)
🔥
2026년 2~6월의 가장 큰 변화 — Qwen3.5의 멀티모달화

Qwen3.5는 단순히 Qwen3의 업그레이드가 아닙니다. 0.8B 초소형부터 397B 대형까지 모든 크기에서 텍스트+이미지+영상을 기본 처리할 수 있게 됐습니다. 이전에는 멀티모달을 위해 별도의 Vision 어댑터 모델(Llama 3.2 Vision, Gemma 3 등)을 써야 했지만, Qwen3.5는 “Early Fusion”으로 기본 내장했습니다. 여기에 262K 컨텍스트와 새 GDN 아키텍처가 더해져 Qwen3.5-35B-A3B가 RTX 3090에서 112 tok/s라는 충격적인 속도를 냅니다.

SECTION02

Qwen3.5 시리즈 — 모든 것이 바뀌었다

🔬 Qwen3.5의 3가지 혁신

전 크기 네이티브 멀티모달 — 별도 Vision 모델 불필요
Qwen3.5-0.8B부터 397B까지 모든 크기가 텍스트·이미지·영상을 기본 처리합니다. “Early Fusion” 방식으로 비전 어댑터 없이 통합 가중치로 구현됐습니다. 스마트폰 크기(0.8B)에서도 영상 이해가 가능합니다.
GDN 하이브리드 아키텍처 — Transformer의 진화
기존 Transformer의 Attention 레이어를 75%를 Gated DeltaNet(GDN)으로 교체했습니다. GDN은 선형 복잡도로 긴 컨텍스트를 효율적으로 처리합니다. 덕분에 262K 컨텍스트가 기본이고 1M까지 확장됩니다. Ollama 0.17.4 이상이 필요합니다.
MoE 효율 극대화 — 35B인데 속도는 3B급
Qwen3.5-35B-A3B는 35B 파라미터 중 토큰당 3B만 활성화하는 MoE입니다. RTX 3090(24GB)에서 Q4로 21.4GB를 사용하며 112 tok/s 속도를 냅니다. 기존 Qwen3-235B-A22B보다 파라미터는 1/7이지만 많은 벤치마크에서 앞섭니다.

📋 Qwen3.5 전체 크기별 GPU 가이드

모델파라미터Q4 VRAM최적 GPU속도 (RTX 4090)주요 벤치마크
Qwen3.5-0.8B0.8B dense~0.7GB스마트폰·라즈베리파이300+ tok/sMMLU-Pro 66.5%, GPQA 51.6%
Qwen3.5-2B2B dense~1.5GB통합 그래픽, 4GB GPU200+ tok/s기본 작업용
Qwen3.5-4B4B dense~2.5GB모든 Ampere+ GPU150+ tok/s멀티모달 에이전트 기반
Qwen3.5-9B ⭐9B dense~6.5GBRTX 8GB GPU 이상~80 tok/sGPQA Diamond 81.7%, LiveCodeBench 82.7%
Qwen3.5-27B ⭐27B dense~18GBRTX 3090 · 4090~45 tok/sSWE-bench 72.4% (= GPT-5-mini), 멀티모달
Qwen3.5-35B-A3B 🔥35B MoE (3B active)~21.4GBRTX 3090 · 4090~112 tok/s!Qwen3-235B 능가, 소비자 GPU 최강 효율
Qwen3.5-122B-A10B122B MoE (10B active)~70GBA100 80G · 듀얼 A40~25 tok/sBFCL-V4 72.2 (툴콜링 1위)
Qwen3.5-397B-A17B397B MoE (17B active)~242GB8× H100 또는 M3/M4 UltraQwen3.5 플래그십, 프론티어급
💡
Qwen3.5-9B — 충격적인 9B 성능 (GPQA Diamond 81.7%)

Qwen3.5-9B의 GPQA Diamond 81.7%는 충격적입니다. 이 벤치마크에서 GPT-OSS 120B(71.5%)보다 높습니다. 9B 소형 모델이 120B 대형 모델을 이기는 효율성을 Qwen3.5의 GDN 아키텍처가 만들어냈습니다. RTX 8GB GPU 보유자라면 Qwen3.5-9B를 반드시 테스트해보세요.

💻 Ollama 명령어 — Qwen3.5 시작하기

bash
# Ollama 업데이트 필수! (GDN 아키텍처 지원 최소 0.17.4)
ollama --version  # 버전 확인

# 8GB GPU — Qwen3.5-9B (멀티모달 포함)
ollama run qwen3.5:9b

# 12GB GPU — 멀티모달 9B Q8 고품질
ollama run qwen3.5:9b-q8_0

# 24GB GPU — 최강 추천 35B MoE (112 tok/s!)
ollama run qwen3.5:35b-a3b

# 24GB GPU — 27B dense 멀티모달
ollama run qwen3.5:27b

# 이미지와 함께 대화 (멀티모달)
ollama run qwen3.5:9b
>>> /path/to/image.jpg 이 이미지에서 무엇이 보이나요?
SECTION03

⚡ Nemotron-Cascade-2 — 24GB GPU에서 120B를 이기다

항목내용
출시일2026년 3월 20일
개발사NVIDIA Research
파라미터30B total / 3B active (MoE)
Q4 VRAM~18~20GB → RTX 4090 / RTX 3090 단독 실행 ✅
라이선스NVIDIA Nemotron Open Model License (비상업 연구 무료)
컨텍스트128K
기반 모델Nemotron-Nano-V3 사전훈련 + Cascade RL
Ollama 명령어ollama run nemotron-cascade2
Nemotron-Cascade-2 — 왜 주목해야 하는가
  • 120B 모델보다 강하면서 24GB에 들어간다 — NVIDIA 자사 120B 모델(Nemotron-3-Super)을 수학·코딩·명령수행에서 초과 달성하면서도 24GB 단일 GPU로 실행됩니다
  • IMO 2025 금메달 수준 수학 — 2025년 국제수학올림피아드(IMO) 35점, IOI 2025 439.3점, ICPC World Finals 10/12 문제 해결. 오픈 모델 중 두 번째로 이 세 대회 모두 금메달 수준 달성
  • Cascade RL 프레임워크 — 다단계 강화학습으로 수학·코딩·에이전트 능력을 동시에 최적화
  • Qwen3.5-35B-A3B와 동급 활성 파라미터 — 둘 다 3B 활성 파라미터이지만 수학·코딩에서 Nemotron-Cascade-2가 앞섬

📊 Nemotron-Cascade-2 vs 경쟁 24GB GPU 모델

모델VRAM (Q4)수학 (AIME)코딩 (LiveCodeBench)특징
Nemotron-Cascade-2 30B-A3B~20GBIMO 금메달최상위NVIDIA 공식, Cascade RL
Qwen3.5-35B-A3B~21.4GB높음높음멀티모달, 112 tok/s
DeepSeek R1 Distill 32B~20GB매우 높음높음추론 특화, MIT
Qwen3-32B~21GB높음높음균형형, Apache 2.0
⚠️
라이선스 주의

Nemotron Open Model License는 연구·비상업적 사용은 자유지만, 상업 배포 시 NVIDIA의 승인이 필요합니다. Apache 2.0/MIT 같은 완전 자유 라이선스가 아닙니다. 상업 프로젝트라면 Qwen3.5-35B-A3B나 DeepSeek R1 Distill 32B를 먼저 고려하세요.

SECTION04

🆓 MIT 라이선스 대형 모델들 — 서버급 오픈소스 황금기

2026년의 가장 놀라운 변화 중 하나는 310B~1조 파라미터급 모델들이 MIT 라이선스로 공개된 것입니다. 상업적 사용, 수정, 재배포 모두 자유롭습니다.

🤖 MiMo-V2.5 / MiMo-V2.5-Pro (Xiaomi · MIT)

모델출시일파라미터라이선스특징
MiMo-V2.52026.04.22310B MoEMIT수학·코딩 특화. 310B 전체 가중치 필요 (멀티GPU)
MiMo-V2.5-Pro2026.04.221.02T MoEMIT역대 가장 큰 MIT 모델. Quad DGX Spark 권장
MiMo-V2-Flash2026.03.18309B MoEProprietaryAIME 2025 94.1%, SWE-bench 73.4%, 256K 컨텍스트
MiMo-7B-RL2025.05 / 2026업7BMITAIME 2024 80.1% — 7B에서 수학 충격적 성능. 8GB GPU 가능
💡
MiMo-7B-RL — 8GB GPU에서 수학 에이전트

MiMo-7B-RL은 7B 크기임에도 AIME 2024에서 80.1%를 기록했습니다. Xiaomi가 수학·코딩 강화학습에 특화해 훈련한 소형 추론 모델입니다. 8GB GPU에서 DeepSeek R1 8B를 대체하는 수학 특화 옵션으로 주목받고 있습니다.

🤖 GLM-5.1 / GLM-4.7 (Zhipu AI · MIT)

모델파라미터라이선스SWE-bench특징
GLM-5.1744B MoEMIT77.8%코딩·에이전트 최강급. 에이전트 스웜 지원. 멀티GPU 필요
GLM-4.7355BGLM-4.7 Flash 로컬 버전: SWE-bench Tier C 52점
🔥
GLM-5.1 MIT — 왜 중요한가

GLM-5.1은 Kimi K2.6, MiniMax M2.5와 함께 2026년 상반기 로컬 코딩 에이전트 3대장으로 꼽힙니다. SWE-bench 77.8%로 Claude Opus 4.6과 비슷한 수준이면서 MIT 라이선스로 완전 자유롭습니다. 744B이므로 단일 소비자 GPU로는 불가능하지만, 엔터프라이즈 자체 호스팅의 최강 오픈소스입니다.

SECTION05

🏆 2026 코딩 에이전트 최강 모델 — SWE-bench Pro 기준 순위

SWE-bench Pro는 실제 GitHub 버그 수정 작업 능력을 측정하는 2026년 표준 코딩 벤치마크입니다.

순위모델SWE-bench Pro로컬 실행라이선스
🥇 1위Kimi K2.658.6%멀티GPU 필요MIT
2위MiMo-V2-Flash73.4% (SWE-Verified)멀티GPUProprietary
3위GLM-5.177.8% (SWE-Verified)멀티GPUMIT
🎖️ 소비자GPU 1위Qwen 3.6 27BSWE-Verified 77.2%RTX 4090 (24GB) ✅Apache 2.0
소비자GPU 2위Nemotron-Cascade-2최상위RTX 4090 (24GB) ✅NVIDIA Open
소비자GPU 3위Qwen3.5-35B-A3B높음RTX 4090 (24GB) ✅Apache 2.0

🤖 Kimi K2.6 — SWE-Bench Pro 오픈 모델 세계 1위

Kimi K2.6 — 에이전트 코딩의 새 기준
  • SWE-Bench Pro 58.6% — GPT-5.4 고성능 설정(57.7%)을 초과. 오픈 모델 최초
  • MIT 라이선스 — 완전 자유. 상업 배포 가능
  • 에이전트 스웜(Agent Swarm) — 여러 Kimi K2.6 인스턴스가 협업하는 다중 에이전트 아키텍처 지원
  • 1M+ 컨텍스트 — 대형 코드베이스 전체를 컨텍스트에 올릴 수 있음
  • 하드웨어 — MoE 구조이지만 전체 파라미터 로딩 필요. 4× A100 이상 권장
SECTION06

🎵 MiniMax M 시리즈 — 음성+멀티모달 오픈웨이트

모델출시SWE-bench특징
MiniMax M3 🆕2026.06 (최신!)미공개2026년 6월 최신. 음성+멀티모달+코딩 통합
MiniMax M2.72026.0378%음성 입출력 지원. 실시간 음성 채팅 가능
MiniMax M2.52026.0280.2%오픈웨이트 최강급 SWE-bench. 230B
🎵
MiniMax 시리즈의 독특한 강점 — 음성+멀티모달

MiniMax M 시리즈는 다른 오픈소스 LLM과 달리 텍스트·이미지·영상·오디오 입력과 텍스트·음성 출력을 모두 지원합니다. 실시간 음성 대화 AI 서비스를 로컬로 구현할 때 현재 최선의 선택입니다. MiniMax M3은 2026년 6월에 막 출시된 최신 버전입니다.

SECTION07

🔮 DeepSeek V3.2 / V4 시리즈 — 계속 진화하는 최강 모델

모델출시파라미터라이선스핵심
DeepSeek V3.22026.03685B MoEMITV3 업그레이드. DeepSeek-V3.2-Speciale-671B-A37B 포함
DeepSeek V4 Flash2026.04MoEMIT1M 컨텍스트, GPT-5 대비 5~30배 저렴, 저렴한 API
DeepSeek V4 Pro2026.04MoEMIT프론티어급 성능, DeepClaude 통합 시 SWE-bench Tier A
DeepSeek V4 Plus2026.04.27MoEMIT프론티어 격차 해소
💡
DeepSeek V4 — 로컬 실행은 사실상 불가능

DeepSeek V4 시리즈는 685B+ 규모의 MoE 모델로 완전한 로컬 실행을 위해서는 수백GB의 VRAM이 필요합니다. 일반 사용자는 DeepSeek 공식 API(api.deepseek.com)를 통해 저렴하게 사용하는 것이 현실적입니다. 로컬 실행은 멀티 DGX 서버 수준의 하드웨어가 있는 기업 환경에서만 가능합니다.

SECTION08

🤖 GPT-OSS 120B — OpenAI의 Apache 2.0 오픈웨이트

항목내용
개발사OpenAI
파라미터117B (MoE 구조)
라이선스Apache 2.0 — OpenAI 최초 완전 오픈
Q4 VRAM~70GB → 2× A100 80GB 또는 L40S × 2
컨텍스트128K
특징GPT-4o 수준, 가장 많이 다운로드된 미국산 오픈웨이트 모델 (GPT-OSS 20B와 함께)

GPT-OSS 120B는 Apache 2.0으로 공개된 OpenAI의 오픈웨이트 대형 모델입니다. 20B 버전이 소비자 GPU에서 실행된다면, 120B는 2× A100 80GB 또는 L40S 서버급 환경이 필요합니다. 그러나 Apache 2.0 완전 자유 라이선스라 엔터프라이즈 셀프호스팅에서 폭발적인 인기를 얻고 있습니다.

SECTION09

📊 신규 모델 반영 — 업데이트된 GPU별 최고 추천

🔄
원본 가이드 추천 vs 업데이트 후 추천

신규 모델로 인해 일부 티어의 추천 순위가 바뀌었습니다. 특히 8GB · 24GB 구간에서 변화가 큽니다.

VRAM 8GB GPU — 신규 추가 모델

모델VRAM이유추천도
Qwen3.5-9B 🆕~6.5GBGPQA Diamond 81.7% — 120B 모델 이김, 멀티모달 기본!⭐⭐⭐⭐⭐ NEW 1위
MiMo-7B-RL 🆕~5.5GBAIME 2024 80.1% — 수학 특화 7B⭐⭐⭐⭐ 수학용
Qwen3-8B (기존)~5.5GB여전히 강력, 한국어 최강⭐⭐⭐⭐⭐

VRAM 12GB GPU — 신규 추가 모델

모델VRAM이유추천도
Qwen3.5-9B Q8 🆕~9.5GBQ8 고품질 + 멀티모달⭐⭐⭐⭐⭐ 멀티모달 필요 시
Qwen3-14B (기존)~9.5GB순수 텍스트 성능 여전히 최강⭐⭐⭐⭐⭐

VRAM 24GB GPU — 신규 추가 모델 (가장 큰 변화!)

모델VRAMtok/s이유추천도
Qwen3.5-35B-A3B 🆕🔥~21.4GB112 tok/s!24GB에서 가장 빠른 고성능 모델. 멀티모달 기본⭐⭐⭐⭐⭐ 속도 왕
Nemotron-Cascade-2 🆕~20GB~54 tok/s수학·코딩 최강. IMO 금메달⭐⭐⭐⭐⭐ 수학·코딩
Qwen 3.6 27B 🆕~18GB~55 tok/sSWE-bench 77.2%. 1M 컨텍스트. 코딩 1위⭐⭐⭐⭐⭐ 코딩
DeepSeek R1 32B (기존)~20GB~60 tok/s추론 특화, 여전히 강력⭐⭐⭐⭐⭐ 추론
Qwen3.5-27B 🆕~18GB~45 tok/s멀티모달(영상포함) + SWE-bench 72.4%⭐⭐⭐⭐ 멀티모달
🏆
2026년 6월 기준 — 24GB GPU 최종 왕 3선

속도 최강: Qwen3.5-35B-A3B — 112 tok/s, 멀티모달 기본
코딩 최강: Qwen 3.6 27B — SWE-bench 77.2%, 1M 컨텍스트
수학·IMO 최강: Nemotron-Cascade-2 — 금메달 수준 수학, 24GB 단독

💻 신규 모델 Ollama 명령어 모음

bash — 신규 모델 설치
# ─── Qwen3.5 시리즈 (멀티모달 기본 포함) ───
# Ollama 0.17.4+ 먼저 업데이트!
ollama run qwen3.5:9b          # 8GB GPU — GPQA 81.7%, 멀티모달
ollama run qwen3.5:27b         # 24GB GPU — 멀티모달 27B
ollama run qwen3.5:35b-a3b     # 24GB GPU — 112 tok/s 속도 왕!

# ─── Qwen3.6 시리즈 ───
ollama run qwen3.6:27b         # 24GB GPU — SWE-bench 77.2%

# ─── Nemotron-Cascade-2 ───
ollama run nemotron-cascade2   # 24GB GPU — IMO 금메달 수학

# ─── MiMo-7B-RL ───
ollama run mimo:7b-rl          # 8GB GPU — AIME 80.1% 수학

# ─── Qwen3.5 멀티모달 이미지 테스트 ───
ollama run qwen3.5:9b
>>> [이미지 드래그 앤 드롭 또는]
>>> /path/to/image.jpg 이 이미지를 설명해줘
>>> /path/to/video.mp4 이 영상에서 무슨 일이 일어나나요?
FINALWRAP

2026년 6월 5일 기준 — 결론 정리

분야소비자 GPU 최강 (24GB)서버급 최강
🚀 속도Qwen3.5-35B-A3B (112 tok/s)Nemotron-Cascade-2 (54 tok/s)
💻 코딩Qwen 3.6 27B (SWE 77.2%)Kimi K2.6 (SWE-Pro 58.6%)
🧮 수학Nemotron-Cascade-2 (IMO 금)MiMo-V2-Flash (AIME 94.1%)
🖼️ 멀티모달Qwen3.5-27B (영상+이미지)MiniMax M3 (음성+영상)
🤖 에이전트Qwen 3.6 27BGLM-5.1 / Kimi K2.6
🇰🇷 한국어EXAONE 3.5 32B (변동 없음)
🆓 완전 자유Qwen3.5-35B-A3B (Apache 2.0)MiMo-V2.5 / GLM-5.1 (MIT)

🤖 2026년 6월 5일 현재 결론: Qwen3.5의 등장으로 모든 크기의 로컬 모델이 멀티모달을 갖추게 됐습니다. Qwen3.5-35B-A3B는 RTX 3090/4090에서 112 tok/s로 “빠르고 똑똑한 로컬 AI”를 완성합니다. 서버급을 원한다면 GLM-5.1 또는 Kimi K2.6이 MIT 라이선스로 완전 무료입니다. 로컬 LLM은 이제 단일 GPU 성능으로 2년 전 데이터센터 수준을 넘어섰습니다.

Leave A Reply

Please enter your comment!
Please enter your name here