- AI
- LLM
- open-source
- Qwen3
- agentic coding
- benchmarks
Qwen3.6-35B-A3B FP8 przy 256k kontekście — jak wypada na tle innych modeli?

16 kwietnia 2026 roku zespół Qwen z Alibaby opublikował Qwen3.6-35B-A3B na licencji Apache 2.0 — udostępniając jeden z najlepszych otwartoźródłowych modeli do kodowania do lokalnego uruchomienia. Przez ostatnie dwa tygodnie porównywaliśmy wersję FP8 na naszym NVIDIA DGX Spark z czołowymi modelami własnościowymi. Oto co znaleźliśmy i kiedy naprawdę warto wybrać lokalny model zamiast chmurowego API.
Architektura: dlaczego MoE zmienia rachunek
Qwen3.6-35B-A3B to rzadki model Mixture-of-Experts. Liczby w nazwie mówią wszystko: 35 miliardów parametrów łącznie, ale tylko 3 miliardy aktywowane przy każdym tokenie podczas wnioskowania. Dla porównania: gęsty model 7B aktywuje wszystkie 7B parametrów przy każdym forward pass. Architektura MoE oznacza jakość zbliżoną do 35B przy ułamku kosztu obliczeniowego — to kluczowy powód, dla którego model osiąga wyniki znacznie powyżej swojej klasy wagowej.
Kwantyzacja FP8 (8-bitowy float) zmniejsza zużycie pamięci o połowę w stosunku do BF16 z zaniedbywalną utratą jakości na GPU NVIDIA Ada i Hopper. Wagi FP8 zajmują około 35 GB; w trakcie działania z narzutem aktywacji model zużywa od 40 do 42 GB VRAM. Na H100 80 GB pozostaje ponad 30 GB na KV cache — wystarczająco, by realnie korzystać z okna kontekstowego 262 144 tokenów.
Okno 262k tokenów — i dlaczego ma znaczenie przy agentycznym kodowaniu
Większość benchmarków testuje generowanie izolowanych funkcji. Agentyczne kodowanie to zupełnie inne zadanie: model musi przeczytać całe repozytorium, prześledzić grafy wywołań między plikami, zrozumieć oczekiwania testów i wprowadzić zmiany wewnętrznie spójne. Kontekst 128k mieści około 80–100k tokenów kodu Python. Kontekst 262k pozwala wrzucić kompletny projekt średniej wielkości — źródła, testy, konfigurację CI i logi błędów — w jednym prompcie. Natywny kontekst Qwen3.6-35B-A3B można rozszerzyć powyżej 1 miliona tokenów przez skalowanie YaRN, co ma znaczenie dla dużych monorepo.
Wyniki benchmarków: 73,4% na SWE-bench Verified
SWE-bench Verified to najbliższy rzeczywistości test inżynierii oprogramowania: model dostaje zgłoszenie z GitHuba i musi wyprodukować działającą łatkę. Qwen3.6-35B-A3B osiąga 73,4% — stawiając go obok Claude Sonnet 4 w agentycznym kodowaniu i wyprzedzając modele kilkakrotnie większe w przeliczeniu na koszt wnioskowania. Ewaluacje używały wewnętrznego scaffoldu agenta z narzędziami bash i edycji plików, temperatura 1,0, top_p 0,95, pełny kontekst 200k.
Nasze wewnętrzne wyniki w trzech kategoriach (problemy algorytmiczne, refaktoring wieloplikowy FastAPI + Next.js, instancje SWE-bench Verified):
- vs Claude Sonnet 4: zbliżony przy izolowanych zadaniach algorytmicznych; nieco słabszy przy złożonych wieloetapowych łańcuchach narzędziowych
- vs GPT-4o: konkurencyjny przy backendzie Python/FastAPI; słabszy przy TypeScript i zadaniach frontendowych
- vs Gemini 1.5 Pro: konsekwentnie lepszy przy zadaniach Python-heavy; zbliżony przy mieszanym full-stacku
Uruchomienie na DGX Spark: konfiguracja i realne liczby
Serwujemy Qwen3.6-35B-A3B-FP8 przez vLLM z kernelami CUDA FP8. Zalecana komenda uruchomienia od zespołu Qwen:
vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3
Przepustowość przy pełnym kontekście 256k: około 15–25 tokenów na sekundę na DGX Spark. Przy włączonym Multi-Token Prediction (MTP) i dekodowniu spekulatywnym społeczność raportuje do 80 tok/s przy mniejszych oknach kontekstowych. Dla naszych zastosowań — pipeline'y code review, kontrola jakości w CI, wewnętrzne narzędzia — profil latency jest w pełni akceptowalny. Co kluczowe: całe wnioskowanie pozostaje on-premise. Żaden token nie opuszcza naszej sieci.
Kiedy używać — a kiedy nie
- Kod zawiera własnościową logikę biznesową, która prawnie nie może opuścić Twojej infrastruktury
- NDA klienta zabrania przesyłania do zewnętrznych API chmurowych
- Potrzebujesz odtwarzalnego wnioskowania przypiętego do konkretnej wersji modelu, bez dryfu między uruchomieniami
- RODO lub inne regulacje wymagają, by dane pozostały w zdefiniowanej jurysdykcji
Modele chmurowe pozostają lepszym wyborem, gdy potrzebujesz szerokiej wiedzy ogólnej połączonej z kodowaniem, gdy liczy się latency lub gdy kod nie dotyka wrażliwych danych. To nie są konkurencyjne podejścia — obsługują różne profile ryzyka i możliwości. Używamy obu, zależnie od projektu.
Podsumowanie
Qwen3.6-35B-A3B FP8 to najsilniejszy otwartoźródłowy model do kodowania, jaki uruchomiliśmy lokalnie. Wynik 73,4% na SWE-bench to nie laboratoryjny eksperyment — przekłada się na realną zdolność wieloplikowego refaktoringu przy 262k kontekście, której w lokalnej, prywatności zachowującej formie po prostu nie było sześć miesięcy temu. Jeśli Twój zespół obsługuje kod chroniony NDA lub regulacjami i masz dostęp do H100 lub DGX Spark — ten model jest wart kosztu konfiguracji.

