Co to jest prywatne KI?
Definicja prywatnego AI, architektura on-premise, BezChmury 11B jako sweet spot 2026.
Pivot z Villa Mamma SEO do AI compliance dla polskich firm. Sześć miesięcy treningu na BezChmury 11B v3, dwa GPU RTX 5090, 41 016 par treningowych - i decyzja, żeby ani jednej faktury nie wysyłać do USA.
BezChmury nie zaczęło się od pomysłu na startup AI. Zaczęło się od pytań, które zaczęły padać przy stoliku, gdzie zwykle rozmawialiśmy o liczbie krzeseł na sali weselnej.
Przez kilka lat prowadziłem SEO dla Villa Mammy - sali weselnej w Nadarzynie pod Warszawą. To był dobry biznes: lokalny, mocno polski, z bardzo konkretnymi klientami. W kręgu rodzinnym i klienckim Villa Mammy było kilkoro księgowych. Pod koniec 2024 roku zaczęli zadawać pytania, które brzmiały coraz częściej tak samo: „Słuchaj, a Wy używacie tego ChataGPT? Dałbyś mu naszą pełną rozliczeniówkę?”. Albo: „Czy ja mogę wkleić tam JPK_V7M? Dane klienta? Dane mojego klienta?”.
Pierwsze testy ChatGPT-4 z polskimi fakturami dały trzy rzeczy. Po pierwsze - halucynacje. Model był pewny, że KSeF działa od 2024 roku, podczas gdy w rzeczywistości obowiązkowy KSeF został przesunięty harmonogramem etapowym (duzi podatnicy 1 lutego 2026, małe podmioty od 1 kwietnia 2026). Po drugie - brak wiedzy o FA(3), najnowszej strukturze logicznej e-Faktury obowiązującej w 2026 roku. Po trzecie - najgorsze: każde pytanie z konkretnym NIP-em klienta to był transfer danych do serwerów OpenAI w USA.
Schrems II z 2020 roku unieważnił Privacy Shield. Data Privacy Framework z 2023 roku to częściowo go zastąpił, ale nie wszyscy główni dostawcy są w nim potwierdzeni jako certyfikowani - na 1 maja 2026 roku status OpenAI i Anthropic w DPF wymaga weryfikacji per provider. To znaczy, że w najgorszym scenariuszu polski księgowy wysyłał do amerykańskiego centrum danych dane klienta, których w ogóle nie miał prawa nikomu pokazać.
W Q4 2024 i Q1 2025 zacząłem szukać polskich modeli językowych. Patrzyłem na PLLuM (projekt zakończony 31 grudnia 2024 - model dostępny, ale roadmap zamknięty), na Trurl (good, ale nie dla naszych use case), i wreszcie na rodzinę Bielik ze SpeakLeash. BezChmury 11B wyglądał na coś zupełnie innego niż reszta: open-weights, polski tokenizer, polski zespół, polskie dane treningowe. Decyzja nie była nawet trudna - pytanie brzmiało nie „czy budować na BezChmury 11B”, tylko „jak szybko zacząć”.
Pierwsza wersja BezChmury miała stać na Llamie 70B. Po dwóch miesiącach prototypowania całkowicie zmieniliśmy ścieżkę.
W kwietniu 2026 roku zrobiliśmy pivot do BezChmury 11B v3 ze SpeakLeash. Konkretne fakty z oficjalnych kart modelu (dostęp 1 maja 2026):
BezChmury 11B v3 w kwantyzacji Q4_K_M to plik rzędu 6,5 GB. Mieści się komfortowo na MacBooku M2 z 16 GB pamięci. Mieści się też na PC z RTX 4060 / 4070. To samo, co Llama 70B robiła w teorii, BezChmury 11B robi w praktyce - i robi po polsku.
Świadomie nie wrzucam tu wykresów loss / wykresów eval / liczb procentowych z benchmarków. Powód jest prosty - dla rodziny BezChmury 11B v3 nie znalazłem publicznie potwierdzonego zestawu standardowych benchmarków, którymi mógłbym rzetelnie porównać moją wersję dotreningowaną do baseline'u. Zamiast wymyślać liczby, opisuję metodologię. Chętnym pokażę pełne raporty pod NDA.
BezChmury 11B bazowo trenowany jest na ogólnym polskim. My dokładamy bardzo wąską, domenową wiedzę: KSeF, ZUS, VAT, JPK, RODO, kodeksy. Jeśli wjedziemy w model agresywnym SFT bez warm-up, ryzykujemy catastrophic forgetting - model „zapomni” podstawowy polski, żeby zrobić miejsce dla nowej wiedzy.
Stage 1 to delikatne LoRA z parametrami: LR 1.0–1.2e-5,
LoRA r=32, krótki przebieg. Zadanie: nauczyć model „klimatu”
domeny BezChmury bez ruszania bazowych wag.
Pełny SFT na 41 016 parach treningowych. Dataset zbudowany ręcznie + półautomatycznie z trzech źródeł: oficjalna dokumentacja KSeF/ZUS/VAT, własny korpus pytań od księgowych (Villa Mamma + sieć), oraz syntetyczne wzbogacenia generowane przez większe modele z weryfikacją po polsku.
Parametry Stage 2: LR 3.0–3.5e-6, 1 epoka, sekwencja długa
(chunking + multi-chunk + hierarchia + map-reduce + explicit uncertainty).
Eksperyment canary A/B: dwa LR-y jednocześnie na dwóch GPU, 7B Mini i 11B v3 obok siebie -
dwa razy szybciej niż sekwencyjnie.
Krótki pass z LR 1.0e-6, replay generalnej wiedzy polskiej (90% PL / 10% EN).
Cel: gdy SFT okaże się zbyt agresywny, ten etap przywraca część bazowej wiedzy
bez psucia świeżych umiejętności. Insurance przeciw catastrophic forgetting.
Pakiet 2 000 par podzielony na 5 bloków: (1) IKE/IKZE anti-stale - naprawia stałe halucynacje na limitach; (2) fresh facts top fails - najczęstsze błędy z eval probe; (3) no-EN - twardo blokuje EN „leak” w odpowiedziach po polsku; (4) long-context PL grounding - pełne polskie konteksty; (5) retention - zabezpieczenie wcześniejszych etapów.
Parametry: LR 6e-7 (11B) / LR 8e-7 (Mini), 1 epoka.
Powód, dla którego ten etap musiał się pojawić - wcześniejsze próby Stage 3 DPO
dały regresję (Mini EN-leak: 12 → 21 GORZEJ). DPO uczy preferencji,
nie wbija liczb. Mikrofakty wymagają SFT.
Direct Preference Optimization, parametry LR 5e-7, beta 0.1.
Dla v3 jest to etap opcjonalny i lekki - SpeakLeash już zrobił po swojej stronie
DPO-P (114k par) i GRPO (143k par), więc nie dublujemy ich pracy. Robimy tylko
domenowe „dopieszczenie” na ~1,5–3k par BezChmury.
Trenujemy na dwóch RTX 5090. Tj Max chipa to 90°C, soft throttle
rozpoczyna się przy ~87–88°C - i to są realne liczby, nie 83°C jak na starszych GPU.
Power asymetryczny: 500W na GPU 0 i 550W na GPU 1
(GPU 0 historycznie ma gorszą termikę, dochodziło do 92°C peak).
Najtańszy thermal upgrade całego setupu to nie była dodatkowa karta, tylko Vornado #1 jako intake. Wpięty pod biurko jako wymuszony chłodny powiew dał nam −13°C przy jednoczesnym +25% power budget. Plan na lato 2026: drugie Vornado i klimatyzacja Cool 16°C → docelowo 575W/575W.
Każda zmiana w środowisku PC robiona jest na żywo - bez restartu maszyny.
Powód praktyczny: 8× 32 GB DDR5 to zestaw memory training-friendly,
ale wyjmowanie kości po reboocie potrafi zająć godziny.
systemctl reload > restart każdego dnia.
Cały produkt jest zbudowany wokół pięciu zasad, które są twardymi inżynierskimi decyzjami, a nie tylko marketingowym sloganem.
AI Act 2024/1689 - Annex III high-risk obowiązki nakładane od 2 sierpnia 2026 roku. BezChmury w obecnym kształcie nie jest klasyfikowany jako high-risk (asystent informacyjny, nie podejmuje decyzji administracyjnych ani sędziowskich za człowieka), ale projektujemy z myślą o najmocniejszych standardach Annex III - po prostu z niższym tarciem operacyjnym.
Schrems II + DPF 2023 - jak pisałem wyżej: status OpenAI i Anthropic w Data Privacy Framework wymaga weryfikacji per provider. Polski podmiot prawny przetwarzający dane klienta nie ma luksusu czekania - albo dane zostają w Polsce, albo wpadamy w lukę regulacyjną.
Cloud Act 2018 + FISA 702 - fundamentalna asymetria: jakikolwiek dostawca z USA może być zmuszony przez prawo amerykańskie do wydania danych europejskiego klienta bez jego wiedzy, niezależnie od europejskich gwarancji DPF. To nie jest hipotetyczne ryzyko, to ryzyko strukturalne.
Trend UODO 2024–2026. Decyzja DKN.5131.3.2025 podkreśla obowiązek analizy ryzyka przed wdrożeniem AI. 13 sierpnia 2024 - kara 1,5 mln zł dla podmiotu medycznego. Nie potrzebujemy prorokować, żeby przewidzieć, że w 2026–2027 zaczną się pierwsze decyzje UODO dotyczące biur rachunkowych przesyłających dane klientów do publicznych chatbotów. Lepiej być po właściwej stronie tej historii.
Roadmap jest świadomie ostrożny. Wpisuję tylko to, co umiem już dziś technicznie zrealizować - żadnych „nice to have” bez pokrycia w kodzie.
Cztery pakiety wchodzą publicznie: KSeF Lite (1 490 zł), KSeF Private (4 990 zł), Księgowy Private (9 990 zł), RODO Pro Bundle (14 900 zł). Update Packs roczne 990–5 990 zł. Wariant Enterprise on-prem od 49 900 zł (custom scoping pod NDA). Program Beta - 100 miejsc: 30 dni darmowego trialu KSeF Private, onboarding 1:1 ze mną, wpływ na priorytety roadmap Q3.
Wariant Bielik-PL-Minitron-7B-v3.0-Instruct (-33,4% vs 11B) jako baza dla wersji mobilnej. Target: starsze laptopy 8–12 GB RAM. Use case: quick lookup poza biurem (kontrola w terenie, telefon do klienta z windą, szybkie sprawdzenie kodu KSeF na komórce po Wi-Fi do laptopa).
Plan zakłada update do BezChmury 11B v3.1, gdy taka wersja zostanie wydana
przez SpeakLeash (data nieznana, śledzimy bielik-papers).
Update pack roczny dla obecnych klientów Pro: nowy SSoT (zmiany VAT, nowe kody błędów),
nowe weights jeśli baseline się zmieni. Roadmap explicit „NOT committed” -
decyzja zapadnie research-driven, nie by date.
ISO 27001 - droga zaplanowana, certyfikacja w toku w 2027. Enterprise on-prem multi-tenant - wdrożenia dla większych podmiotów (sieci kancelarii, duże biura rachunkowe 10+ pracowników). EN locale - wsparcie języka angielskiego w UI dla polskich firm z międzynarodowymi klientami. Wszystko to są kierunki, nie obietnice.
Jeśli prowadzisz biuro rachunkowe, kancelarię prawną z naciskiem na RODO/healthcare, albo średnią spółkę medyczną - chcę z Tobą porozmawiać.
Program Beta to nie „lista oczekujących”. To 100 miejsc dla osób, które chcą realnie wpłynąć na produkt, zanim wejdzie publicznie. Co dostajesz:
Aplikacja zajmuje 5 minut.
Wypełnij formularz demo - w polu „source”
dopiszę automatycznie tag blog-launch, żebym wiedział, że
przyszedłeś stąd.
Wreszcie polski AI compliance, który nie wysyła Twoich faktur do USA. Sześć miesięcy treningu, 11 miliardów parametrów, dwie karty graficzne, jeden Vornado pod biurkiem, lokalny model. Zacznijmy razem.
LISTA BETA · ZNIŻKA 30% PRZED LAUNCH
Dołącz do listy beta – ekskluzywny krąg wczesnych testerów BezChmury. Co 2 tygodnie wysyłam dziennik dewelopera: co buduję, co łamie, co decyduję.
ŹRÓDŁA
Wszystkie cytaty dosłowne w artykule pochodzą z powyższych oficjalnych źródeł.
Inline odniesienia oznaczone [N] linkują do tej listy.
Krótkie demo KSeF Private (15 min). Pokażemy lokalne działanie, pytania kontrolne, bazę źródeł i sposób, w jaki BezChmury ogranicza ryzyko halucynacji.