LAUNCH · 1 MAJA 2026

BezChmury launch:
6 miesięcy, 11B parametrów, local-first

Opublikowano: 01.05.2026 Czas czytania: 13 min Autor: Dominik Witanowski

Pivot z Villa Mamma SEO do AI compliance dla polskich firm. Sześć miesięcy treningu na BezChmury 11B v3, dwa GPU RTX 5090, 41 016 par treningowych - i decyzja, żeby ani jednej faktury nie wysyłać do USA.

Autor: Dominik Witanowski Publikacja: 1 maja 2026 ~13 min czytania

SEKCJA 1 · GENEZA

Z sali weselnej do AI compliance

BezChmury nie zaczęło się od pomysłu na startup AI. Zaczęło się od pytań, które zaczęły padać przy stoliku, gdzie zwykle rozmawialiśmy o liczbie krzeseł na sali weselnej.

Przez kilka lat prowadziłem SEO dla Villa Mammy - sali weselnej w Nadarzynie pod Warszawą. To był dobry biznes: lokalny, mocno polski, z bardzo konkretnymi klientami. W kręgu rodzinnym i klienckim Villa Mammy było kilkoro księgowych. Pod koniec 2024 roku zaczęli zadawać pytania, które brzmiały coraz częściej tak samo: „Słuchaj, a Wy używacie tego ChataGPT? Dałbyś mu naszą pełną rozliczeniówkę?”. Albo: „Czy ja mogę wkleić tam JPK_V7M? Dane klienta? Dane mojego klienta?”.

Pierwsze testy ChatGPT-4 z polskimi fakturami dały trzy rzeczy. Po pierwsze - halucynacje. Model był pewny, że KSeF działa od 2024 roku, podczas gdy w rzeczywistości obowiązkowy KSeF został przesunięty harmonogramem etapowym (duzi podatnicy 1 lutego 2026, małe podmioty od 1 kwietnia 2026). Po drugie - brak wiedzy o FA(3), najnowszej strukturze logicznej e-Faktury obowiązującej w 2026 roku. Po trzecie - najgorsze: każde pytanie z konkretnym NIP-em klienta to był transfer danych do serwerów OpenAI w USA.

Schrems II z 2020 roku unieważnił Privacy Shield. Data Privacy Framework z 2023 roku to częściowo go zastąpił, ale nie wszyscy główni dostawcy są w nim potwierdzeni jako certyfikowani - na 1 maja 2026 roku status OpenAI i Anthropic w DPF wymaga weryfikacji per provider. To znaczy, że w najgorszym scenariuszu polski księgowy wysyłał do amerykańskiego centrum danych dane klienta, których w ogóle nie miał prawa nikomu pokazać.

W Q4 2024 i Q1 2025 zacząłem szukać polskich modeli językowych. Patrzyłem na PLLuM (projekt zakończony 31 grudnia 2024 - model dostępny, ale roadmap zamknięty), na Trurl (good, ale nie dla naszych use case), i wreszcie na rodzinę Bielik ze SpeakLeash. BezChmury 11B wyglądał na coś zupełnie innego niż reszta: open-weights, polski tokenizer, polski zespół, polskie dane treningowe. Decyzja nie była nawet trudna - pytanie brzmiało nie „czy budować na BezChmury 11B”, tylko „jak szybko zacząć”.

SEKCJA 2 · PIVOT

Plan A: Llama 70B. Plan B: BezChmury 11B v3.

Pierwsza wersja BezChmury miała stać na Llamie 70B. Po dwóch miesiącach prototypowania całkowicie zmieniliśmy ścieżkę.

Trzy problemy z Llamą 70B

Rozmiar. Llama 70B w pełnej precyzji to plik rzędu 75 GB. Po kwantyzacji do Q4_K_M zostaje ~40 GB - i to nadal jest poza zasięgiem konsumenckiego sprzętu, na którym chcielibyśmy wdrażać produkt u biur rachunkowych. MacBook M2 16 GB? Nie ma szans. RTX 4060 12 GB? Też nie.
Tokenizer. Llama używa tokenizera optymalizowanego pod angielski. Polski tekst - z odmianami, fleksją, znakami diakrytycznymi - przechodzi przez tokenizer o 2-3 razy bardziej rozdrobniony niż tekst angielski. To znaczy wolniejsza inferencja, mniejszy efektywny kontekst, więcej zużycia VRAM.
Licencja i geopolityka. Llama license od Meta dopuszcza komercyjne użycie, ale wprowadza ograniczenia (np. dla podmiotów z 700M+ MAU). Ważniejsze: cały produkt zbudowany na Llamie to produkt zbudowany na cudzym ekosystemie z innej strefy regulacyjnej. BezChmury jest pomyślane jako antyteza „AI z USA”. Trudno sprzedawać polskim księgowym „prywatne, lokalne AI”, jeśli pod spodem siedzi model z Menlo Park.

Dlaczego BezChmury 11B v3

W kwietniu 2026 roku zrobiliśmy pivot do BezChmury 11B v3 ze SpeakLeash. Konkretne fakty z oficjalnych kart modelu (dostęp 1 maja 2026):

Licencja Apache-2.0 - pełna swoboda komercyjna, zero ograniczeń typu MAU.
Bazą jest Mistral-7B-v0.2 skalowane do 11B parametrów. Trening prowadzony przez SpeakLeash we współpracy z ACK Cyfronet AGH, na infrastrukturze PLGrid (superkomputery Athena i Helios).
Tokenizer APT4 - zacytuję dosłownie z model card: „after replacing its tokenizer to the APT4 tokenizer optimized specifically for the Polish language”. Ten jeden szczegół rozwiązuje od razu problem polskiej fleksji, którego Llama nigdy by nie naprawiła.
Wariant Minitron 7.35B - oficjalnie opisany jako kompresja modelu 11B, redukcja z 11,04 mld do 7,35 mld parametrów (-33,4%). Sweet spot dla starszych laptopów i deploymentu mobile.
bielik-papers na GitHub - repozytorium z osobnymi materiałami dla v1, v2, v3, v3_minitron, v3_small. Otwarta dokumentacja, ewaluacja, ścieżka audytowa.

BezChmury 11B v3 w kwantyzacji Q4_K_M to plik rzędu 6,5 GB. Mieści się komfortowo na MacBooku M2 z 16 GB pamięci. Mieści się też na PC z RTX 4060 / 4070. To samo, co Llama 70B robiła w teorii, BezChmury 11B robi w praktyce - i robi po polsku.

Note kontekstowy. PLLuM jako odrębny projekt został sformalizowanie zakończony 31 grudnia 2024 roku. Następcze inicjatywy (HIVE AI i pochodne) są komunikowane publicznie, ale roadmap pełnego, otwartego modelu na licencji Apache-2.0 z polskim tokenizerem na 1 maja 2026 jest nadal jasny tylko po stronie rodziny modeli polskich - dlatego BezChmury stoi na BezChmury 11B.

SEKCJA 3 · TRAINING

Sześć miesięcy treningu na 2× RTX 5090

Świadomie nie wrzucam tu wykresów loss / wykresów eval / liczb procentowych z benchmarków. Powód jest prosty - dla rodziny BezChmury 11B v3 nie znalazłem publicznie potwierdzonego zestawu standardowych benchmarków, którymi mógłbym rzetelnie porównać moją wersję dotreningowaną do baseline'u. Zamiast wymyślać liczby, opisuję metodologię. Chętnym pokażę pełne raporty pod NDA.

Stage 1 - mega 2B warm-up (Q4 2025)

BezChmury 11B bazowo trenowany jest na ogólnym polskim. My dokładamy bardzo wąską, domenową wiedzę: KSeF, ZUS, VAT, JPK, RODO, kodeksy. Jeśli wjedziemy w model agresywnym SFT bez warm-up, ryzykujemy catastrophic forgetting - model „zapomni” podstawowy polski, żeby zrobić miejsce dla nowej wiedzy.

Stage 1 to delikatne LoRA z parametrami: LR 1.0–1.2e-5, LoRA r=32, krótki przebieg. Zadanie: nauczyć model „klimatu” domeny BezChmury bez ruszania bazowych wag.

Stage 2 - supervised fine-tuning (Q1 2026)

Pełny SFT na 41 016 parach treningowych. Dataset zbudowany ręcznie + półautomatycznie z trzech źródeł: oficjalna dokumentacja KSeF/ZUS/VAT, własny korpus pytań od księgowych (Villa Mamma + sieć), oraz syntetyczne wzbogacenia generowane przez większe modele z weryfikacją po polsku.

Parametry Stage 2: LR 3.0–3.5e-6, 1 epoka, sekwencja długa (chunking + multi-chunk + hierarchia + map-reduce + explicit uncertainty). Eksperyment canary A/B: dwa LR-y jednocześnie na dwóch GPU, 7B Mini i 11B v3 obok siebie - dwa razy szybciej niż sekwencyjnie.

Stage 2.5 - anti-forgetting

Krótki pass z LR 1.0e-6, replay generalnej wiedzy polskiej (90% PL / 10% EN). Cel: gdy SFT okaże się zbyt agresywny, ten etap przywraca część bazowej wiedzy bez psucia świeżych umiejętności. Insurance przeciw catastrophic forgetting.

Stage 2.6 - targeted microfact pack (Q2 2026)

Pakiet 2 000 par podzielony na 5 bloków: (1) IKE/IKZE anti-stale - naprawia stałe halucynacje na limitach; (2) fresh facts top fails - najczęstsze błędy z eval probe; (3) no-EN - twardo blokuje EN „leak” w odpowiedziach po polsku; (4) long-context PL grounding - pełne polskie konteksty; (5) retention - zabezpieczenie wcześniejszych etapów.

Parametry: LR 6e-7 (11B) / LR 8e-7 (Mini), 1 epoka. Powód, dla którego ten etap musiał się pojawić - wcześniejsze próby Stage 3 DPO dały regresję (Mini EN-leak: 12 → 21 GORZEJ). DPO uczy preferencji, nie wbija liczb. Mikrofakty wymagają SFT.

Stage 3 - DPO (opcjonalny, lekki)

Direct Preference Optimization, parametry LR 5e-7, beta 0.1. Dla v3 jest to etap opcjonalny i lekki - SpeakLeash już zrobił po swojej stronie DPO-P (114k par) i GRPO (143k par), więc nie dublujemy ich pracy. Robimy tylko domenowe „dopieszczenie” na ~1,5–3k par BezChmury.

Hardware i thermal

Trenujemy na dwóch RTX 5090. Tj Max chipa to 90°C, soft throttle rozpoczyna się przy ~87–88°C - i to są realne liczby, nie 83°C jak na starszych GPU. Power asymetryczny: 500W na GPU 0 i 550W na GPU 1 (GPU 0 historycznie ma gorszą termikę, dochodziło do 92°C peak).

Najtańszy thermal upgrade całego setupu to nie była dodatkowa karta, tylko Vornado #1 jako intake. Wpięty pod biurko jako wymuszony chłodny powiew dał nam −13°C przy jednoczesnym +25% power budget. Plan na lato 2026: drugie Vornado i klimatyzacja Cool 16°C → docelowo 575W/575W.

Każda zmiana w środowisku PC robiona jest na żywo - bez restartu maszyny. Powód praktyczny: 8× 32 GB DDR5 to zestaw memory training-friendly, ale wyjmowanie kości po reboocie potrafi zająć godziny. systemctl reload > restart każdego dnia.

SEKCJA 4 · MANIFESTO

Pięć zasad BezChmury

Cały produkt jest zbudowany wokół pięciu zasad, które są twardymi inżynierskimi decyzjami, a nie tylko marketingowym sloganem.

Lokalnie po instalacji. Model uruchamiany lokalnie - na laptopie księgowego, na PC w kancelarii albo na serwerze on-prem. Bez domyślnego call-home produktu i bez automatycznej telemetrii. Update wiedzy (Update Pack) raz w roku, manualnie lub według ustaleń umownych.
RODO-aware by design. Każde wdrożenie ma własny DPIA template, audit log per zapytanie i konfigurację minimalizującą transfer danych. Pseudonimizacja w logach. Ocena Schrems II / Cloud Act / FISA 702 zależy od konfiguracji wdrożenia.
Polski model + polskie dane. BezChmury 11B v3 (open-weights, Apache-2.0) + nasz SSoT v34 z 95 operacyjnymi faktami i 17 spornymi punktami zweryfikowanymi przez GPT-5.4 Pro. Nie zgadujemy, czy w 2026 roku zwrot VAT to 60 dni czy 40 dni - sprawdzone, zafiksowane, audytowalne.
Audit-ready. Każde pytanie i każda odpowiedź są logowane w formacie JSONL, z timestampem, hash IP, klasyfikacją intencji i listą cytowanych faktów. Pięć lat retencji. Replay capability - ten sam input zawsze daje ten sam output (deterministyczny resolver).
Transparency. BezChmury 11B open-weights na Hugging Face, otwarta metodologia (probe 150 par, 147/150 PASS), publiczny release log. Klient Enterprise (od 49 900 zł) dostaje ścieżkę audytu kodu pod NDA.

Kontekst regulacyjny - w skrócie

AI Act 2024/1689 - Annex III high-risk obowiązki nakładane od 2 sierpnia 2026 roku. BezChmury w obecnym kształcie nie jest klasyfikowany jako high-risk (asystent informacyjny, nie podejmuje decyzji administracyjnych ani sędziowskich za człowieka), ale projektujemy z myślą o najmocniejszych standardach Annex III - po prostu z niższym tarciem operacyjnym.

Schrems II + DPF 2023 - jak pisałem wyżej: status OpenAI i Anthropic w Data Privacy Framework wymaga weryfikacji per provider. Polski podmiot prawny przetwarzający dane klienta nie ma luksusu czekania - albo dane zostają w Polsce, albo wpadamy w lukę regulacyjną.

Cloud Act 2018 + FISA 702 - fundamentalna asymetria: jakikolwiek dostawca z USA może być zmuszony przez prawo amerykańskie do wydania danych europejskiego klienta bez jego wiedzy, niezależnie od europejskich gwarancji DPF. To nie jest hipotetyczne ryzyko, to ryzyko strukturalne.

Trend UODO 2024–2026. Decyzja DKN.5131.3.2025 podkreśla obowiązek analizy ryzyka przed wdrożeniem AI. 13 sierpnia 2024 - kara 1,5 mln zł dla podmiotu medycznego. Nie potrzebujemy prorokować, żeby przewidzieć, że w 2026–2027 zaczną się pierwsze decyzje UODO dotyczące biur rachunkowych przesyłających dane klientów do publicznych chatbotów. Lepiej być po właściwej stronie tej historii.

SEKCJA 5 · ROADMAP

Co dalej - Q2–Q4 2026

Roadmap jest świadomie ostrożny. Wpisuję tylko to, co umiem już dziś technicznie zrealizować - żadnych „nice to have” bez pokrycia w kodzie.

Q2 2026 - pricing public + 100 betatesterów

Cztery pakiety wchodzą publicznie: KSeF Lite (1 490 zł), KSeF Private (4 990 zł), Księgowy Private (9 990 zł), RODO Pro Bundle (14 900 zł). Update Packs roczne 990–5 990 zł. Wariant Enterprise on-prem od 49 900 zł (custom scoping pod NDA). Program Beta - 100 miejsc: 30 dni darmowego trialu KSeF Private, onboarding 1:1 ze mną, wpływ na priorytety roadmap Q3.

Q3 2026 - BezChmury Mobile (Bielik Minitron 7.35B)

Wariant Bielik-PL-Minitron-7B-v3.0-Instruct (-33,4% vs 11B) jako baza dla wersji mobilnej. Target: starsze laptopy 8–12 GB RAM. Use case: quick lookup poza biurem (kontrola w terenie, telefon do klienta z windą, szybkie sprawdzenie kodu KSeF na komórce po Wi-Fi do laptopa).

Q4 2026 - BezChmury Pro 11B v3.1

Plan zakłada update do BezChmury 11B v3.1, gdy taka wersja zostanie wydana przez SpeakLeash (data nieznana, śledzimy bielik-papers). Update pack roczny dla obecnych klientów Pro: nowy SSoT (zmiany VAT, nowe kody błędów), nowe weights jeśli baseline się zmieni. Roadmap explicit „NOT committed” - decyzja zapadnie research-driven, nie by date.

2027 i dalej

ISO 27001 - droga zaplanowana, certyfikacja w toku w 2027. Enterprise on-prem multi-tenant - wdrożenia dla większych podmiotów (sieci kancelarii, duże biura rachunkowe 10+ pracowników). EN locale - wsparcie języka angielskiego w UI dla polskich firm z międzynarodowymi klientami. Wszystko to są kierunki, nie obietnice.

SEKCJA 6 · DLA WAS

Otwarte zaproszenie - 100 miejsc beta

Jeśli prowadzisz biuro rachunkowe, kancelarię prawną z naciskiem na RODO/healthcare, albo średnią spółkę medyczną - chcę z Tobą porozmawiać.

Program Beta to nie „lista oczekujących”. To 100 miejsc dla osób, które chcą realnie wpłynąć na produkt, zanim wejdzie publicznie. Co dostajesz:

30 dni darmowego trialu KSeF Private - pełna funkcjonalność, lokalna instalacja, brak ograniczeń pytań.
Onboarding 1:1 ze mną (1 godzina) - instalacja, pierwsze pytania, setup pod Twoich klientów.
Wpływ na roadmap Q3 - priorytety klientów Beta = priorytety BezChmury. Brakuje Ci modułu? Powiedz, zobaczę.
Cena Beta - fixowana w momencie zakupu pełnej licencji po końcu trialu, niższa niż public pricing Q3.

Aplikacja zajmuje 5 minut. Wypełnij formularz demo - w polu „source” dopiszę automatycznie tag blog-launch, żebym wiedział, że przyszedłeś stąd.

Zamknięcie

Wreszcie polski AI compliance, który nie wysyła Twoich faktur do USA. Sześć miesięcy treningu, 11 miliardów parametrów, dwie karty graficzne, jeden Vornado pod biurkiem, lokalny model. Zacznijmy razem.

Aplikuj do Beta (15 min) Zobacz KSeF Private → Sprawdź cennik →

Dominik Witanowski

Buduje BezChmury od 2024 r. 10 lat w IT, ex-SEO Villa Mamma, autor pipeline KSeF Private z 147/150 PASS na własnym probe 150 par testowych (własny benchmark BezChmury, NIE oficjalny benchmark Ministerstwa Finansów).

ŹRÓDŁA

Oficjalne źródła i odniesienia

[1]
bielik-papers (GitHub) - SpeakLeash https://github.com/speakleash/bielik-papers · dostęp: 2026-05-01
[2]
Bielik-PL-11B-v3.0-Instruct (model card) - Hugging Face https://huggingface.co/speakleash/Bielik-PL-11B-v3.0-Instruct · dostęp: 2026-05-01
[3]
ACK Cyfronet AGH (PLGrid: Athena, Helios) - Cyfronet AGH https://www.cyfronet.pl · dostęp: 2026-05-01
[4]
AI Act (Rozporządzenie UE 2024/1689) - EUR-Lex https://eur-lex.europa.eu/eli/reg/2024/1689/oj · dostęp: 2026-05-01
[5]
Wyrok TSUE C-311/18 (Schrems II) - CURIA https://curia.europa.eu/juris/liste.jsf?num=C-311/18 · dostęp: 2026-05-01
[6]
Apache License 2.0 - Apache Software Foundation https://www.apache.org/licenses/LICENSE-2.0 · dostęp: 2026-05-01

Wszystkie cytaty dosłowne w artykule pochodzą z powyższych oficjalnych źródeł. Inline odniesienia oznaczone [N] linkują do tej listy.

Chcesz zobaczyć prywatne AI
dla swojej firmy?

Krótkie demo KSeF Private (15 min). Pokażemy lokalne działanie, pytania kontrolne, bazę źródeł i sposób, w jaki BezChmury ogranicza ryzyko halucynacji.

Umów demo (15 min, bezpłatnie) Zobacz KSeF Private →