AI
LLM
open-source
Qwen3
agentic coding
benchmarks

Qwen3.6-35B-A3B FP8 przy 256k kontekście — jak wypada na tle innych modeli?

Artur Niklewicz13 maja 2026

16 kwietnia 2026 roku zespół Qwen z Alibaby opublikował Qwen3.6-35B-A3B na licencji Apache 2.0 — udostępniając jeden z najlepszych otwartoźródłowych modeli do kodowania do lokalnego uruchomienia. Przez ostatnie dwa tygodnie porównywaliśmy wersję FP8 na naszym NVIDIA DGX Spark z czołowymi modelami własnościowymi. Oto co znaleźliśmy i kiedy naprawdę warto wybrać lokalny model zamiast chmurowego API.

Architektura: dlaczego MoE zmienia rachunek

Qwen3.6-35B-A3B to rzadki model Mixture-of-Experts. Liczby w nazwie mówią wszystko: 35 miliardów parametrów łącznie, ale tylko 3 miliardy aktywowane przy każdym tokenie podczas wnioskowania. Dla porównania: gęsty model 7B aktywuje wszystkie 7B parametrów przy każdym forward pass. Architektura MoE oznacza jakość zbliżoną do 35B przy ułamku kosztu obliczeniowego — to kluczowy powód, dla którego model osiąga wyniki znacznie powyżej swojej klasy wagowej.

Kwantyzacja FP8 (8-bitowy float) zmniejsza zużycie pamięci o połowę w stosunku do BF16 z zaniedbywalną utratą jakości na GPU NVIDIA Ada i Hopper. Wagi FP8 zajmują około 35 GB; w trakcie działania z narzutem aktywacji model zużywa od 40 do 42 GB VRAM. Na H100 80 GB pozostaje ponad 30 GB na KV cache — wystarczająco, by realnie korzystać z okna kontekstowego 262 144 tokenów.

Okno 262k tokenów — i dlaczego ma znaczenie przy agentycznym kodowaniu

Większość benchmarków testuje generowanie izolowanych funkcji. Agentyczne kodowanie to zupełnie inne zadanie: model musi przeczytać całe repozytorium, prześledzić grafy wywołań między plikami, zrozumieć oczekiwania testów i wprowadzić zmiany wewnętrznie spójne. Kontekst 128k mieści około 80–100k tokenów kodu Python. Kontekst 262k pozwala wrzucić kompletny projekt średniej wielkości — źródła, testy, konfigurację CI i logi błędów — w jednym prompcie. Natywny kontekst Qwen3.6-35B-A3B można rozszerzyć powyżej 1 miliona tokenów przez skalowanie YaRN, co ma znaczenie dla dużych monorepo.

Wyniki benchmarków: 73,4% na SWE-bench Verified

SWE-bench Verified to najbliższy rzeczywistości test inżynierii oprogramowania: model dostaje zgłoszenie z GitHuba i musi wyprodukować działającą łatkę. Qwen3.6-35B-A3B osiąga 73,4% — stawiając go obok Claude Sonnet 4 w agentycznym kodowaniu i wyprzedzając modele kilkakrotnie większe w przeliczeniu na koszt wnioskowania. Ewaluacje używały wewnętrznego scaffoldu agenta z narzędziami bash i edycji plików, temperatura 1,0, top_p 0,95, pełny kontekst 200k.

Nasze wewnętrzne wyniki w trzech kategoriach (problemy algorytmiczne, refaktoring wieloplikowy FastAPI + Next.js, instancje SWE-bench Verified):

vs Claude Sonnet 4: zbliżony przy izolowanych zadaniach algorytmicznych; nieco słabszy przy złożonych wieloetapowych łańcuchach narzędziowych
vs GPT-4o: konkurencyjny przy backendzie Python/FastAPI; słabszy przy TypeScript i zadaniach frontendowych
vs Gemini 1.5 Pro: konsekwentnie lepszy przy zadaniach Python-heavy; zbliżony przy mieszanym full-stacku

Uruchomienie na DGX Spark: konfiguracja i realne liczby

Serwujemy Qwen3.6-35B-A3B-FP8 przez vLLM z kernelami CUDA FP8. Zalecana komenda uruchomienia od zespołu Qwen:

vllm serve Qwen/Qwen3.6-35B-A3B-FP8 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

Przepustowość przy pełnym kontekście 256k: około 15–25 tokenów na sekundę na DGX Spark. Przy włączonym Multi-Token Prediction (MTP) i dekodowniu spekulatywnym społeczność raportuje do 80 tok/s przy mniejszych oknach kontekstowych. Dla naszych zastosowań — pipeline'y code review, kontrola jakości w CI, wewnętrzne narzędzia — profil latency jest w pełni akceptowalny. Co kluczowe: całe wnioskowanie pozostaje on-premise. Żaden token nie opuszcza naszej sieci.

Kiedy używać — a kiedy nie

Kod zawiera własnościową logikę biznesową, która prawnie nie może opuścić Twojej infrastruktury
NDA klienta zabrania przesyłania do zewnętrznych API chmurowych
Potrzebujesz odtwarzalnego wnioskowania przypiętego do konkretnej wersji modelu, bez dryfu między uruchomieniami
RODO lub inne regulacje wymagają, by dane pozostały w zdefiniowanej jurysdykcji

Modele chmurowe pozostają lepszym wyborem, gdy potrzebujesz szerokiej wiedzy ogólnej połączonej z kodowaniem, gdy liczy się latency lub gdy kod nie dotyka wrażliwych danych. To nie są konkurencyjne podejścia — obsługują różne profile ryzyka i możliwości. Używamy obu, zależnie od projektu.

Podsumowanie

Qwen3.6-35B-A3B FP8 to najsilniejszy otwartoźródłowy model do kodowania, jaki uruchomiliśmy lokalnie. Wynik 73,4% na SWE-bench to nie laboratoryjny eksperyment — przekłada się na realną zdolność wieloplikowego refaktoringu przy 262k kontekście, której w lokalnej, prywatności zachowującej formie po prostu nie było sześć miesięcy temu. Jeśli Twój zespół obsługuje kod chroniony NDA lub regulacjami i masz dostęp do H100 lub DGX Spark — ten model jest wart kosztu konfiguracji.

Menu