원본 가이드와 이 업데이트를 함께 보시면 됩니다. 여기서는 원본에 없는 신규 모델만 다룹니다. Ollama 최신 명령어는 본 가이드 하단을 참조하세요.
2026년 2~6월 신규 출시 모델 한눈에
| 모델 | 출시일 | 회사 | 크기 | 라이선스 | 핵심 특징 |
|---|---|---|---|---|---|
| Qwen3.5 시리즈 | 2026.02~03 | Alibaba | 0.8B~397B | Apache 2.0 | 🔥 전 크기 멀티모달 기본, GDN 신아키텍처, 262K 컨텍스트 |
| Qwen3.6-27B | 2026.04 | Alibaba | 27B dense | Apache 2.0 | 🔥 SWE-bench 77.2%, 1M 컨텍스트, 현재 소비자 GPU 코딩 최강 |
| Nemotron-Cascade-2 | 2026.03.20 | NVIDIA | 30B (3B active) | NVIDIA Open | 🔥 24GB GPU 단독 실행, 120B 모델보다 강함, IMO 금메달 |
| MiMo-V2.5 | 2026.04.22 | Xiaomi | 310B MoE | MIT | 310B MIT 개방, AIME 2025 수학 최강급 |
| MiMo-V2.5-Pro | 2026.04.22 | Xiaomi | 1.02T MoE | MIT | 1조 파라미터 MIT — 역대 가장 큰 MIT 모델 |
| MiMo-V2-Flash | 2026.03.18 | Xiaomi | 309B MoE | Proprietary | AIME 94.1%, SWE-bench 73.4%, 256K 컨텍스트 |
| GLM-5.1 | 2026.04 | Zhipu AI | 744B MoE | MIT | 코딩 에이전트 최강급, SWE-bench 77.8%, MIT |
| GLM-4.7 Flash | 2026.03 | Zhipu AI | 355B | – | 로컬 플래시 버전 제공 |
| Kimi K2.6 | 2026.05 | Moonshot AI | MoE | MIT | SWE-Bench Pro 58.6% — 오픈 모델 1위 코딩 |
| MiniMax M2.5 | 2026.02 | MiniMax | 230B | 오픈웨이트 | SWE-bench 80.2% — 프로프라이어터리 모델 수준 |
| MiniMax M2.7 | 2026.03 | MiniMax | – | 오픈웨이트 | 멀티모달+음성, SWE-bench 78% |
| MiniMax M3 | 2026.06 🆕 | MiniMax | 미공개 | 미공개 | 🔥 2026년 6월 최신 출시 |
| DeepSeek V3.2 | 2026.03 | DeepSeek | 685B MoE | MIT | V3 업그레이드, V3.2-Speciale 포함 |
| DeepSeek V4 Flash | 2026.04 | DeepSeek | MoE | MIT | 1M 컨텍스트, GPT-5 대비 5~30배 저렴 |
| DeepSeek V4 Pro | 2026.04 | DeepSeek | MoE | MIT | 프론티어급 성능 |
| GPT-OSS 120B | 2026.02 | OpenAI | 117B MoE | Apache 2.0 | GPT-4o 수준, ~70GB Q4 (멀티GPU 필요) |
| Step-3.5-Flash | 2026.02 | StepFun | 196B | Apache 2.0 | SWE-bench Tier C 56점, Apache 2.0 |
| Hunyuan 2.0 | 2026.02 | Tencent | 406B | 오픈웨이트 | 텐센트 플래그십, 멀티모달 |
| Qwen3.5-397B-A17B | 2026.02.16 | Alibaba | 397B MoE | Apache 2.0 | Qwen3.5 플래그십, 프론티어급 |
| MiMo-7B-RL | 2025.05→2026.03업 | Xiaomi | 7B | MIT | 소형 수학·코딩 추론 모델 (AIME 2024 80.1%) |
Qwen3.5는 단순히 Qwen3의 업그레이드가 아닙니다. 0.8B 초소형부터 397B 대형까지 모든 크기에서 텍스트+이미지+영상을 기본 처리할 수 있게 됐습니다. 이전에는 멀티모달을 위해 별도의 Vision 어댑터 모델(Llama 3.2 Vision, Gemma 3 등)을 써야 했지만, Qwen3.5는 “Early Fusion”으로 기본 내장했습니다. 여기에 262K 컨텍스트와 새 GDN 아키텍처가 더해져 Qwen3.5-35B-A3B가 RTX 3090에서 112 tok/s라는 충격적인 속도를 냅니다.
Qwen3.5 시리즈 — 모든 것이 바뀌었다
🔬 Qwen3.5의 3가지 혁신
📋 Qwen3.5 전체 크기별 GPU 가이드
| 모델 | 파라미터 | Q4 VRAM | 최적 GPU | 속도 (RTX 4090) | 주요 벤치마크 |
|---|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B dense | ~0.7GB | 스마트폰·라즈베리파이 | 300+ tok/s | MMLU-Pro 66.5%, GPQA 51.6% |
| Qwen3.5-2B | 2B dense | ~1.5GB | 통합 그래픽, 4GB GPU | 200+ tok/s | 기본 작업용 |
| Qwen3.5-4B | 4B dense | ~2.5GB | 모든 Ampere+ GPU | 150+ tok/s | 멀티모달 에이전트 기반 |
| Qwen3.5-9B ⭐ | 9B dense | ~6.5GB | RTX 8GB GPU 이상 | ~80 tok/s | GPQA Diamond 81.7%, LiveCodeBench 82.7% |
| Qwen3.5-27B ⭐ | 27B dense | ~18GB | RTX 3090 · 4090 | ~45 tok/s | SWE-bench 72.4% (= GPT-5-mini), 멀티모달 |
| Qwen3.5-35B-A3B 🔥 | 35B MoE (3B active) | ~21.4GB | RTX 3090 · 4090 | ~112 tok/s! | Qwen3-235B 능가, 소비자 GPU 최강 효율 |
| Qwen3.5-122B-A10B | 122B MoE (10B active) | ~70GB | A100 80G · 듀얼 A40 | ~25 tok/s | BFCL-V4 72.2 (툴콜링 1위) |
| Qwen3.5-397B-A17B | 397B MoE (17B active) | ~242GB | 8× H100 또는 M3/M4 Ultra | – | Qwen3.5 플래그십, 프론티어급 |
Qwen3.5-9B의 GPQA Diamond 81.7%는 충격적입니다. 이 벤치마크에서 GPT-OSS 120B(71.5%)보다 높습니다. 9B 소형 모델이 120B 대형 모델을 이기는 효율성을 Qwen3.5의 GDN 아키텍처가 만들어냈습니다. RTX 8GB GPU 보유자라면 Qwen3.5-9B를 반드시 테스트해보세요.
💻 Ollama 명령어 — Qwen3.5 시작하기
# Ollama 업데이트 필수! (GDN 아키텍처 지원 최소 0.17.4) ollama --version # 버전 확인 # 8GB GPU — Qwen3.5-9B (멀티모달 포함) ollama run qwen3.5:9b # 12GB GPU — 멀티모달 9B Q8 고품질 ollama run qwen3.5:9b-q8_0 # 24GB GPU — 최강 추천 35B MoE (112 tok/s!) ollama run qwen3.5:35b-a3b # 24GB GPU — 27B dense 멀티모달 ollama run qwen3.5:27b # 이미지와 함께 대화 (멀티모달) ollama run qwen3.5:9b >>> /path/to/image.jpg 이 이미지에서 무엇이 보이나요?
⚡ Nemotron-Cascade-2 — 24GB GPU에서 120B를 이기다
| 항목 | 내용 |
|---|---|
| 출시일 | 2026년 3월 20일 |
| 개발사 | NVIDIA Research |
| 파라미터 | 30B total / 3B active (MoE) |
| Q4 VRAM | ~18~20GB → RTX 4090 / RTX 3090 단독 실행 ✅ |
| 라이선스 | NVIDIA Nemotron Open Model License (비상업 연구 무료) |
| 컨텍스트 | 128K |
| 기반 모델 | Nemotron-Nano-V3 사전훈련 + Cascade RL |
| Ollama 명령어 | ollama run nemotron-cascade2 |
- 120B 모델보다 강하면서 24GB에 들어간다 — NVIDIA 자사 120B 모델(Nemotron-3-Super)을 수학·코딩·명령수행에서 초과 달성하면서도 24GB 단일 GPU로 실행됩니다
- IMO 2025 금메달 수준 수학 — 2025년 국제수학올림피아드(IMO) 35점, IOI 2025 439.3점, ICPC World Finals 10/12 문제 해결. 오픈 모델 중 두 번째로 이 세 대회 모두 금메달 수준 달성
- Cascade RL 프레임워크 — 다단계 강화학습으로 수학·코딩·에이전트 능력을 동시에 최적화
- Qwen3.5-35B-A3B와 동급 활성 파라미터 — 둘 다 3B 활성 파라미터이지만 수학·코딩에서 Nemotron-Cascade-2가 앞섬
📊 Nemotron-Cascade-2 vs 경쟁 24GB GPU 모델
| 모델 | VRAM (Q4) | 수학 (AIME) | 코딩 (LiveCodeBench) | 특징 |
|---|---|---|---|---|
| Nemotron-Cascade-2 30B-A3B | ~20GB | IMO 금메달 | 최상위 | NVIDIA 공식, Cascade RL |
| Qwen3.5-35B-A3B | ~21.4GB | 높음 | 높음 | 멀티모달, 112 tok/s |
| DeepSeek R1 Distill 32B | ~20GB | 매우 높음 | 높음 | 추론 특화, MIT |
| Qwen3-32B | ~21GB | 높음 | 높음 | 균형형, Apache 2.0 |
Nemotron Open Model License는 연구·비상업적 사용은 자유지만, 상업 배포 시 NVIDIA의 승인이 필요합니다. Apache 2.0/MIT 같은 완전 자유 라이선스가 아닙니다. 상업 프로젝트라면 Qwen3.5-35B-A3B나 DeepSeek R1 Distill 32B를 먼저 고려하세요.
🆓 MIT 라이선스 대형 모델들 — 서버급 오픈소스 황금기
2026년의 가장 놀라운 변화 중 하나는 310B~1조 파라미터급 모델들이 MIT 라이선스로 공개된 것입니다. 상업적 사용, 수정, 재배포 모두 자유롭습니다.
🤖 MiMo-V2.5 / MiMo-V2.5-Pro (Xiaomi · MIT)
| 모델 | 출시일 | 파라미터 | 라이선스 | 특징 |
|---|---|---|---|---|
| MiMo-V2.5 | 2026.04.22 | 310B MoE | MIT | 수학·코딩 특화. 310B 전체 가중치 필요 (멀티GPU) |
| MiMo-V2.5-Pro | 2026.04.22 | 1.02T MoE | MIT | 역대 가장 큰 MIT 모델. Quad DGX Spark 권장 |
| MiMo-V2-Flash | 2026.03.18 | 309B MoE | Proprietary | AIME 2025 94.1%, SWE-bench 73.4%, 256K 컨텍스트 |
| MiMo-7B-RL | 2025.05 / 2026업 | 7B | MIT | AIME 2024 80.1% — 7B에서 수학 충격적 성능. 8GB GPU 가능 |
MiMo-7B-RL은 7B 크기임에도 AIME 2024에서 80.1%를 기록했습니다. Xiaomi가 수학·코딩 강화학습에 특화해 훈련한 소형 추론 모델입니다. 8GB GPU에서 DeepSeek R1 8B를 대체하는 수학 특화 옵션으로 주목받고 있습니다.
🤖 GLM-5.1 / GLM-4.7 (Zhipu AI · MIT)
| 모델 | 파라미터 | 라이선스 | SWE-bench | 특징 |
|---|---|---|---|---|
| GLM-5.1 | 744B MoE | MIT | 77.8% | 코딩·에이전트 최강급. 에이전트 스웜 지원. 멀티GPU 필요 |
| GLM-4.7 | 355B | – | – | GLM-4.7 Flash 로컬 버전: SWE-bench Tier C 52점 |
GLM-5.1은 Kimi K2.6, MiniMax M2.5와 함께 2026년 상반기 로컬 코딩 에이전트 3대장으로 꼽힙니다. SWE-bench 77.8%로 Claude Opus 4.6과 비슷한 수준이면서 MIT 라이선스로 완전 자유롭습니다. 744B이므로 단일 소비자 GPU로는 불가능하지만, 엔터프라이즈 자체 호스팅의 최강 오픈소스입니다.
🏆 2026 코딩 에이전트 최강 모델 — SWE-bench Pro 기준 순위
SWE-bench Pro는 실제 GitHub 버그 수정 작업 능력을 측정하는 2026년 표준 코딩 벤치마크입니다.
| 순위 | 모델 | SWE-bench Pro | 로컬 실행 | 라이선스 |
|---|---|---|---|---|
| 🥇 1위 | Kimi K2.6 | 58.6% | 멀티GPU 필요 | MIT |
| 2위 | MiMo-V2-Flash | 73.4% (SWE-Verified) | 멀티GPU | Proprietary |
| 3위 | GLM-5.1 | 77.8% (SWE-Verified) | 멀티GPU | MIT |
| 🎖️ 소비자GPU 1위 | Qwen 3.6 27B | SWE-Verified 77.2% | RTX 4090 (24GB) ✅ | Apache 2.0 |
| 소비자GPU 2위 | Nemotron-Cascade-2 | 최상위 | RTX 4090 (24GB) ✅ | NVIDIA Open |
| 소비자GPU 3위 | Qwen3.5-35B-A3B | 높음 | RTX 4090 (24GB) ✅ | Apache 2.0 |
🤖 Kimi K2.6 — SWE-Bench Pro 오픈 모델 세계 1위
- SWE-Bench Pro 58.6% — GPT-5.4 고성능 설정(57.7%)을 초과. 오픈 모델 최초
- MIT 라이선스 — 완전 자유. 상업 배포 가능
- 에이전트 스웜(Agent Swarm) — 여러 Kimi K2.6 인스턴스가 협업하는 다중 에이전트 아키텍처 지원
- 1M+ 컨텍스트 — 대형 코드베이스 전체를 컨텍스트에 올릴 수 있음
- 하드웨어 — MoE 구조이지만 전체 파라미터 로딩 필요. 4× A100 이상 권장
🎵 MiniMax M 시리즈 — 음성+멀티모달 오픈웨이트
| 모델 | 출시 | SWE-bench | 특징 |
|---|---|---|---|
| MiniMax M3 🆕 | 2026.06 (최신!) | 미공개 | 2026년 6월 최신. 음성+멀티모달+코딩 통합 |
| MiniMax M2.7 | 2026.03 | 78% | 음성 입출력 지원. 실시간 음성 채팅 가능 |
| MiniMax M2.5 | 2026.02 | 80.2% | 오픈웨이트 최강급 SWE-bench. 230B |
MiniMax M 시리즈는 다른 오픈소스 LLM과 달리 텍스트·이미지·영상·오디오 입력과 텍스트·음성 출력을 모두 지원합니다. 실시간 음성 대화 AI 서비스를 로컬로 구현할 때 현재 최선의 선택입니다. MiniMax M3은 2026년 6월에 막 출시된 최신 버전입니다.
🔮 DeepSeek V3.2 / V4 시리즈 — 계속 진화하는 최강 모델
| 모델 | 출시 | 파라미터 | 라이선스 | 핵심 |
|---|---|---|---|---|
| DeepSeek V3.2 | 2026.03 | 685B MoE | MIT | V3 업그레이드. DeepSeek-V3.2-Speciale-671B-A37B 포함 |
| DeepSeek V4 Flash | 2026.04 | MoE | MIT | 1M 컨텍스트, GPT-5 대비 5~30배 저렴, 저렴한 API |
| DeepSeek V4 Pro | 2026.04 | MoE | MIT | 프론티어급 성능, DeepClaude 통합 시 SWE-bench Tier A |
| DeepSeek V4 Plus | 2026.04.27 | MoE | MIT | 프론티어 격차 해소 |
DeepSeek V4 시리즈는 685B+ 규모의 MoE 모델로 완전한 로컬 실행을 위해서는 수백GB의 VRAM이 필요합니다. 일반 사용자는 DeepSeek 공식 API(api.deepseek.com)를 통해 저렴하게 사용하는 것이 현실적입니다. 로컬 실행은 멀티 DGX 서버 수준의 하드웨어가 있는 기업 환경에서만 가능합니다.
🤖 GPT-OSS 120B — OpenAI의 Apache 2.0 오픈웨이트
| 항목 | 내용 |
|---|---|
| 개발사 | OpenAI |
| 파라미터 | 117B (MoE 구조) |
| 라이선스 | Apache 2.0 — OpenAI 최초 완전 오픈 |
| Q4 VRAM | ~70GB → 2× A100 80GB 또는 L40S × 2 |
| 컨텍스트 | 128K |
| 특징 | GPT-4o 수준, 가장 많이 다운로드된 미국산 오픈웨이트 모델 (GPT-OSS 20B와 함께) |
GPT-OSS 120B는 Apache 2.0으로 공개된 OpenAI의 오픈웨이트 대형 모델입니다. 20B 버전이 소비자 GPU에서 실행된다면, 120B는 2× A100 80GB 또는 L40S 서버급 환경이 필요합니다. 그러나 Apache 2.0 완전 자유 라이선스라 엔터프라이즈 셀프호스팅에서 폭발적인 인기를 얻고 있습니다.
📊 신규 모델 반영 — 업데이트된 GPU별 최고 추천
신규 모델로 인해 일부 티어의 추천 순위가 바뀌었습니다. 특히 8GB · 24GB 구간에서 변화가 큽니다.
VRAM 8GB GPU — 신규 추가 모델
| 모델 | VRAM | 이유 | 추천도 |
|---|---|---|---|
| Qwen3.5-9B 🆕 | ~6.5GB | GPQA Diamond 81.7% — 120B 모델 이김, 멀티모달 기본! | ⭐⭐⭐⭐⭐ NEW 1위 |
| MiMo-7B-RL 🆕 | ~5.5GB | AIME 2024 80.1% — 수학 특화 7B | ⭐⭐⭐⭐ 수학용 |
| Qwen3-8B (기존) | ~5.5GB | 여전히 강력, 한국어 최강 | ⭐⭐⭐⭐⭐ |
VRAM 12GB GPU — 신규 추가 모델
| 모델 | VRAM | 이유 | 추천도 |
|---|---|---|---|
| Qwen3.5-9B Q8 🆕 | ~9.5GB | Q8 고품질 + 멀티모달 | ⭐⭐⭐⭐⭐ 멀티모달 필요 시 |
| Qwen3-14B (기존) | ~9.5GB | 순수 텍스트 성능 여전히 최강 | ⭐⭐⭐⭐⭐ |
VRAM 24GB GPU — 신규 추가 모델 (가장 큰 변화!)
| 모델 | VRAM | tok/s | 이유 | 추천도 |
|---|---|---|---|---|
| Qwen3.5-35B-A3B 🆕🔥 | ~21.4GB | 112 tok/s! | 24GB에서 가장 빠른 고성능 모델. 멀티모달 기본 | ⭐⭐⭐⭐⭐ 속도 왕 |
| Nemotron-Cascade-2 🆕 | ~20GB | ~54 tok/s | 수학·코딩 최강. IMO 금메달 | ⭐⭐⭐⭐⭐ 수학·코딩 |
| Qwen 3.6 27B 🆕 | ~18GB | ~55 tok/s | SWE-bench 77.2%. 1M 컨텍스트. 코딩 1위 | ⭐⭐⭐⭐⭐ 코딩 |
| DeepSeek R1 32B (기존) | ~20GB | ~60 tok/s | 추론 특화, 여전히 강력 | ⭐⭐⭐⭐⭐ 추론 |
| Qwen3.5-27B 🆕 | ~18GB | ~45 tok/s | 멀티모달(영상포함) + SWE-bench 72.4% | ⭐⭐⭐⭐ 멀티모달 |
속도 최강: Qwen3.5-35B-A3B — 112 tok/s, 멀티모달 기본
코딩 최강: Qwen 3.6 27B — SWE-bench 77.2%, 1M 컨텍스트
수학·IMO 최강: Nemotron-Cascade-2 — 금메달 수준 수학, 24GB 단독
💻 신규 모델 Ollama 명령어 모음
# ─── Qwen3.5 시리즈 (멀티모달 기본 포함) ─── # Ollama 0.17.4+ 먼저 업데이트! ollama run qwen3.5:9b # 8GB GPU — GPQA 81.7%, 멀티모달 ollama run qwen3.5:27b # 24GB GPU — 멀티모달 27B ollama run qwen3.5:35b-a3b # 24GB GPU — 112 tok/s 속도 왕! # ─── Qwen3.6 시리즈 ─── ollama run qwen3.6:27b # 24GB GPU — SWE-bench 77.2% # ─── Nemotron-Cascade-2 ─── ollama run nemotron-cascade2 # 24GB GPU — IMO 금메달 수학 # ─── MiMo-7B-RL ─── ollama run mimo:7b-rl # 8GB GPU — AIME 80.1% 수학 # ─── Qwen3.5 멀티모달 이미지 테스트 ─── ollama run qwen3.5:9b >>> [이미지 드래그 앤 드롭 또는] >>> /path/to/image.jpg 이 이미지를 설명해줘 >>> /path/to/video.mp4 이 영상에서 무슨 일이 일어나나요?
2026년 6월 5일 기준 — 결론 정리
| 분야 | 소비자 GPU 최강 (24GB) | 서버급 최강 |
|---|---|---|
| 🚀 속도 | Qwen3.5-35B-A3B (112 tok/s) | Nemotron-Cascade-2 (54 tok/s) |
| 💻 코딩 | Qwen 3.6 27B (SWE 77.2%) | Kimi K2.6 (SWE-Pro 58.6%) |
| 🧮 수학 | Nemotron-Cascade-2 (IMO 금) | MiMo-V2-Flash (AIME 94.1%) |
| 🖼️ 멀티모달 | Qwen3.5-27B (영상+이미지) | MiniMax M3 (음성+영상) |
| 🤖 에이전트 | Qwen 3.6 27B | GLM-5.1 / Kimi K2.6 |
| 🇰🇷 한국어 | EXAONE 3.5 32B (변동 없음) | – |
| 🆓 완전 자유 | Qwen3.5-35B-A3B (Apache 2.0) | MiMo-V2.5 / GLM-5.1 (MIT) |
🤖 2026년 6월 5일 현재 결론: Qwen3.5의 등장으로 모든 크기의 로컬 모델이 멀티모달을 갖추게 됐습니다. Qwen3.5-35B-A3B는 RTX 3090/4090에서 112 tok/s로 “빠르고 똑똑한 로컬 AI”를 완성합니다. 서버급을 원한다면 GLM-5.1 또는 Kimi K2.6이 MIT 라이선스로 완전 무료입니다. 로컬 LLM은 이제 단일 GPU 성능으로 2년 전 데이터센터 수준을 넘어섰습니다.

