Pomiń do treści głównej
EDUKACJA · PODSTAWY AI

Co to jest prywatne KI?
Dlaczego księgowi i prawnicy
potrzebują AI bez chmury

Praktyczny przewodnik po lokalnym AI dla zawodów z tajemnicą zawodową. RODO, Schrems II, DPF, on-premise architektura, BezChmury 11B v3 i realne kompromisy modelu uruchamianego na własnym laptopie.

Autor: Dominik Witanowski Publikacja: 1 maja 2026 ~12 min czytania
SEKCJA 1

Czym jest prywatne KI?

Prywatne KI (sztuczna inteligencja, ang. private AI) to model językowy uruchamiany lokalnie na sprzęcie firmy lub użytkownika - bez wysyłania pytań i dokumentów do zewnętrznych serwerów. Synonimy w obiegu rynkowym: on-premise AI, lokalne AI, AI bez chmury. Wszystkie opisują tę samą architekturę: model, tokenizer i baza wiedzy mieszczą się w obrębie urządzenia klienta.

Kontrast jest prosty. Cloud AI - czyli ChatGPT (OpenAI), Claude (Anthropic), Microsoft Copilot czy Google Gemini - działa na serwerach dostawcy. Każde Twoje pytanie wraz z kontekstem (skopiowanym fragmentem umowy, fakturą, danymi klienta) leci jako żądanie HTTP do data center, najczęściej zlokalizowanego w USA. Odpowiedź wraca tą samą drogą. W modelu on-prem - cały ten dialog odbywa się na Twoim laptopie albo serwerze biura.

Prosty przykład księgowej Anny. Anna pyta: „Co oznacza kod błędu 440 w KSeF i jak go naprawić?”. W cloud AI to pytanie razem z kontekstem (numer faktury, NIP klienta, fragment XML faktury, jeśli wkleiła) zostaje wysłane do USA, przetworzone przez model i wraca jako odpowiedź. W modelu on-prem to samo pytanie nie opuszcza laptopa - wszystkie 16 tysięcy tokenów kontekstu plus odpowiedź modelu pozostają w pamięci RAM jej komputera.

To nie jest wyłącznie debata techniczna. To jest decyzja o tym, gdzie fizycznie znajdują się dane Twojego klienta w momencie, gdy pytasz model o pomoc.

Trend adopcji jest realny. Według raportu Wolters Kluwer „AI w księgowości i kadrach” opartego na badaniu 581 specjalistów w październiku-listopadzie 2025 r., ponad 80% respondentów już korzysta z narzędzi AI w codziennej pracy. Badanie obejmuje działy księgowe, kadry, biura rachunkowe i kancelarie podatkowe w Polsce. Pytanie nie brzmi już „czy używać AI”, tylko „które AI nie wyśle danych klienta poza Polskę”.

W sektorze prawnym proporcje są nawet wyższe. Raport Future Ready Lawyer 2026 Wolters Kluwer obejmujący 810 prawników z USA, Chin i 9 krajów europejskich (w tym Polski) podaje, że 92% prawników używa co najmniej jednego narzędzia AI, a 62% oszczędza dzięki AI 6-20% tygodniowego czasu pracy. Dane na poziomie samej Polski nie są w publicznej zajawce wyodrębnione, ale obecność polskich respondentów w próbie jest potwierdzona oficjalnym komunikatem. Polski rynek odpowiedział produktami: LEX Expert AI (Wolters Kluwer), Libra by Wolters Kluwer, Beck-Noxtua (C.H. Beck/Legalis). Każde z tych narzędzi pracuje jednak w trybie cloud - co prowadzi do następnej sekcji.

Warto też podkreślić jeden niuans terminologiczny. „Prywatne KI” w naszym rozumieniu nie oznacza tylko „aplikacja na własnym serwerze”. Oznacza defensywny łańcuch lokalności: brak domyślnej telemetrii, brak domyślnego call-home, brak supportowego dostępu dostawcy do produkcyjnych danych bez odrębnej umowy. Dostawca chmurowy może oferować „EU data center”, ale wciąż mieć dostęp administracyjny do logów, mechanizm obowiązkowych aktualizacji push i serwery zarządzające zlokalizowane poza UE. On-prem w sensie compliance to architektura, w której dostawca po instalacji fizycznie nie może dostać się do danych klienta - bo nie ma kanału komunikacji.

SEKCJA 2

Dlaczego cloud AI nie pasuje księgowym i prawnikom?

Architektura SaaS sprawdza się w wielu zastosowaniach. W zawodach z tajemnicą zawodową - księgowy, doradca podatkowy, radca prawny, adwokat, lekarz - wprowadza jednak cztery konkretne ryzyka, które trudno zaadresować samym dobrym kontraktem.

RODO: art. 32 i obowiązek „odpowiednich środków”

Rozporządzenie 2016/679 (RODO) w art. 32 wymaga od administratora danych „odpowiednich środków technicznych i organizacyjnych”, w tym przy transferach do państw trzecich. UODO w komunikatach z lat 2024-2026 konsekwentnie pokazuje, że organ pyta nie o modne hasła, tylko o udokumentowaną analizę ryzyka. W decyzji DKN.5131.3.2025 organ żądał od administratora wskazania, czy przeprowadził analizę ryzyka niezbędną do oceny, czy incydent skutkował naruszeniem praw lub wolności osób fizycznych (orzeczenia.uodo.gov.pl).

Schrems II: SCC nie wystarczają

Wyrok Schrems II w sprawie C-311/18 zapadł 16 lipca 2020 r. Trybunał Sprawiedliwości UE podtrzymał ważność standardowych klauzul umownych (SCC) co do zasady, ale unieważnił Privacy Shield i potwierdził test „essentially equivalent” dla transferów poza Europejski Obszar Gospodarczy. Praktyczny wniosek: kontrakt nie wystarcza, jeżeli prawo państwa trzeciego pozwala organom publicznym na nadmierny dostęp do danych (curia.europa.eu).

„The protection afforded by that mechanism must, in practice, be actionable.”

Tłumaczenie robocze: „Ochrona zapewniana przez ten mechanizm musi być w praktyce możliwa do wyegzekwowania.”

Źródło: sprawa C-311/18, par. 184, CURIA.

DPF 2023: kogo na liście NIE MA

EU-US Data Privacy Framework wszedł na poziomie decyzji wykonawczej UE 2023/1795 dnia 10 lipca 2023 r. Komisja Europejska uznała, że USA zapewniają adekwatny poziom ochrony - ale tylko dla organizacji formalnie certyfikowanych w DPF (eur-lex.europa.eu).

Na publicznej liście DPF udało się potwierdzić obecność Google LLC (/participant/5780) i Microsoft Corporation (/participant/6474). Natomiast - w research stanu z 1 maja 2026 r. - nie udało się potwierdzić oficjalnych wpisów uczestnictwa OpenAI ani Anthropic. To nie dowodzi braku jakiejkolwiek podstawy transferowej, ale oznacza, że nie należy im automatycznie przypisywać statusu „DPF-certified” bez bieżącego, osobnego sprawdzenia.

CLOUD Act i FISA 702: prawo USA wciąż obowiązuje

CLOUD Act (2018) i sekcja FISA 702 przewidują mechanizmy pozyskiwania danych przez amerykańskie organy bezpieczeństwa od podmiotów podlegających jurysdykcji USA. Z punktu widzenia RODO kluczowe jest to, że DPF i SCC regulują transfer, ale nie wyłączają obowiązywania prawa USA wobec amerykańskiego dostawcy. To jest główny argument za on-premise dla klientów chcących maksymalnie obniżyć ryzyko transferowe i ryzyko dostępu władz państwa trzeciego.

Audit trail i lock-in

Dwa pomniejsze, ale realne ryzyka. Po pierwsze - audit trail w cloud AI jest ograniczony. Klient zazwyczaj nie ma pełnej kontroli nad logami zapytań ani nad tym, które wersje modelu zostały użyte do której odpowiedzi. Dla audytora UODO, kontroli z KIRP albo wewnętrznej procedury compliance to brak deterministycznego śladu. Po drugie - vendor lock-in. Cena zmienia się jednostronnie, terms of service zmienia się jednostronnie, a model, z którym wczoraj pracowałeś, dziś może mieć inne zachowanie po cichej aktualizacji po stronie dostawcy.

UODO sygnalizował te ryzyka w decyzjach z 2024-2026 r. Najgłośniejszy publicznie potwierdzony przypadek: kara prawie 1,5 mln zł dla spółki medycznej z 13 sierpnia 2024 r. po ataku hakerskim, w którym „nieuprawnione osoby uzyskały dostęp do danych pacjentów i pracowników spółki” (uodo.gov.pl). To nie jest case przeciwko AI - to case przeciwko niewystarczającym środkom technicznym i organizacyjnym, które dotyczą każdego pipeline'u przetwarzającego dane wrażliwe.

Wniosek operacyjny. Model „EU data center, ale dostawca z USA” jest bezpieczniejszy operacyjnie niż zwykły SaaS, ale nie daje tak twardej pozycji jak lokalne wdrożenie on-prem oparte o infrastrukturę klienta. Ten wniosek wynika z logiki Schrems II i reżimu USA - to nie jest literalny cytat z rozporządzenia, lecz interpretacja compliance, którą spotkasz w komunikatach UODO, CNIL i opiniach EROD.

SEKCJA 3

Architektura on-premise - jak to działa

Lokalne AI nie jest magicznym pudełkiem. To trzy warstwy oprogramowania zainstalowane na sprzęcie klienta: model językowy, tokenizer i warstwa wyszukiwania w bazie wiedzy (RAG), spakowane w aplikacji desktop.

Schemat lokalnego AI on-premise Trzy bloki połączone strzałkami: laptop księgowej (po lewej), lokalny silnik BezChmury 11B + RAG (środek), odpowiedź z cytatem (po prawej). Wszystkie strzałki pozostają wewnątrz obrysu „Twoje urządzenie - bez internetu”. TWOJE URZĄDZENIE · BEZ INTERNETU Pytanie Anny Kod 440? Jak naprawić? BezChmury 11B + RAG Lokalny model + 630 faktów SSoT (KSeF/VAT/ZUS/RODO) Odpowiedź + cytat Źródło: Podręcznik KSeF 2.0
Schemat upraszcza realny pipeline. Wszystkie strzałki pozostają w obrębie urządzenia klienta.

Trzy wzorce wdrożeniowe

Lokalny model można uruchomić na kilka sposobów, w zależności od sprzętu i skali. Public repozytorium Bielik-PL-11B v3 GGUF (model bazowy SpeakLeash) wymienia kwantyzacje Q4_K_M, Q5_K_M, Q6_K i Q8_0 (huggingface.co).

  • GGUF (llama.cpp / Ollama / LM Studio): najprostszy desktop. Plik z modelem ma dla BezChmury 11B Q4_K_M ok. 6 GB i bezpiecznie chodzi na laptopach z 16-32 GB RAM.
  • MLX (Apple Silicon): warianty M1 / M2 / M3 z unified memory. Publiczne karty Q4 MLX pokazują plik ~5,9 GB i peak memory ~6,4 GB; wariant Q8 MLX to ~11 GB pliku i ~11,9 GB peak memory na Apple Silicon (LibraxisAI/Bielik-PL-11B-v3.0-Instruct-mlx-q4).
  • FP8 + vLLM: ścieżka serwerowa dla wdrożeń wieloosobowych. Oficjalna karta FP8-Dynamic wymaga vLLM ≥ 0.5.0 lub SGLang oraz GPU z compute capability > 8.9 (architektury Ada Lovelace / Hopper) (huggingface.co).

Komponenty stacka

Pełna aplikacja typu BezChmury składa się z czterech warstw zainstalowanych jako jeden installer (DMG na macOS, EXE na Windows). Najpierw model BezChmury 11B (lokalna inferencja, kwantyzacja Q4_K_M dla laptopa). Następnie tokenizer APT4, zoptymalizowany pod język polski. Trzeci element to warstwa RAG - lokalna baza wiedzy SSoT (Source of Truth), w przypadku KSeF Private to 630 zweryfikowanych faktów. Czwarty element to UI Electron, czyli okno chatu zachowujące się jak ChatGPT, ale komunikujące się wyłącznie z lokalnym backendem na 127.0.0.1.

Wymagania sprzętowe

  • Laptop księgowy: MacBook Pro M2 / M3 z 16+ GB unified memory albo PC z RTX 3060 / 4060 (12 GB VRAM). Wystarczy do pracy jednego użytkownika z modelem 11B Q4.
  • Stacja desktop biura: 32 GB RAM + GPU 16-24 GB (RTX 4080 / 5080). Margines na większe konteksty i równoległe procesy.
  • Serwer firmowy multi-user: 64+ GB RAM, GPU klasy data center (A100, H100, RTX 5090) i vLLM jako warstwa serwująca. Zalecane przy 5+ jednoczesnych użytkownikach.

Twardych benchmarków „tokens/s” dla BezChmury 11B na konkretnych konfiguracjach M2 Pro / M3 Pro / RTX 4060 / RTX 5090 nie ma jeszcze opublikowanych w jednym, oficjalnym dokumencie. Realnie spotykany zakres na sprzęcie konsumenckim z modelem 11B Q4 to 30-60 tokens/s przy generacji odpowiedzi - wystarczająco dla scenariuszy Q&A, w których jedna odpowiedź ma 200-400 tokenów.

Praktyczna heurystyka: llama.cpp i Ollama wygrywają prostotą lokalnego desktopu i laptopów; vLLM wygrywa dopiero wtedy, gdy wchodzisz w GPU server, FP8 i większy throughput. To nie jest absolutna prawda - to skrót decyzyjny dla osoby, która pierwszy raz wybiera stack pod biuro rachunkowe. Linuxowy serwer biurowy z 5 jednoczesnymi użytkownikami w 90% przypadków radzi sobie z pojedynczym GPU klasy RTX 4090 albo RTX 5080 i Q5_K_M.

Jest jeszcze jedna warstwa, której często brakuje w opisach „lokalnego AI”: RAG jako oddzielny komponent. RAG (Retrieval-Augmented Generation) to mechanizm, w którym model przed wygenerowaniem odpowiedzi przeszukuje lokalną bazę wiedzy (np. 630 faktów SSoT BezChmury, dokumentacja MF, polityki wewnętrzne biura) i jako kontekst dla swojej odpowiedzi otrzymuje konkretne fragmenty tych dokumentów. Praktyczny efekt: model nie „zgaduje” odpowiedzi z parametrów, tylko cytuje konkretne, sprawdzone fragmenty. To jest klucz do deterministycznego cytatu źródła - bez RAG każda odpowiedź AI jest tak naprawdę halucynacją (mniej lub bardziej trafioną).

SEKCJA 4

Kompromisy modelu lokalnego

Lokalne AI ma cztery realne tradeoffy, których nie ma sensu ukrywać. Kupujesz prywatność i kontrolę za cenę pewnych ograniczeń.

Rozmiar modelu vs SOTA

BezChmury 11B ma 11 miliardów parametrów. To nie jest GPT-4 ani Claude Opus, których oszacowania mówią o 1-2 bilionach parametrów. Mniejszy model = niższe wyniki na ogólnych benchmarkach typu MMLU. Z drugiej strony - w specjalistycznych zadaniach (Q&A o KSeF, walidacja FA(3), diagnoza kodu błędu 440) różnica między 11B a 1T zanika, bo decyduje o niej jakość bazy wiedzy (RAG), nie surowy rozmiar modelu. To jest świadomy tradeoff: oddajesz kawałek SOTA na rzecz prywatności i polskiego języka.

Krzywa uczenia się

Instalacja lokalnego AI w 2024 r. wymagała znajomości Pythona, CUDA i terminala. W 2026 r. jest dużo prościej - Ollama i LM Studio mają instalator one-click. Aplikacje typu BezChmury idą jeszcze dalej: jeden plik DMG (Mac) albo EXE (Windows), kliknięcie, gotowe. Realnie biuro rachunkowe potrzebuje nadal IT-supportu na pierwszy deployment (firewall, uprawnienia, dystrybucja licencji), ale to godzina pracy, nie tydzień.

Cykl aktualizacji

Cloud AI aktualizuje się sam - w nocy, bez Twojej wiedzy. To wygodne, ale oznacza, że model, z którym pracowałeś wczoraj, dziś może mieć inne zachowanie. Lokalny model - przeciwnie. Aktualizujesz go ręcznie, kiedy SpeakLeash wypuści BezChmury 11B v3.1 albo v3.2. W modelu BezChmury aktualizacje są spakowane w roczny Update Pack - jednorazowy zakup aplikacji + opcjonalnie pakiet rocznych aktualizacji bazy wiedzy SSoT i samego modelu.

Cutoff danych treningowych

Każdy LLM ma datę odcięcia danych treningowych (training cutoff). Po tej dacie model nie zna wydarzeń ani zmian prawnych „z głowy”. Rozwiązanie nie polega na ciągłym retreningu - to zbyt kosztowne. Zamiast tego stosujemy RAG: lokalna baza faktów SSoT jest aktualizowana bez potrzeby retrenowania samego modelu. Gdy 1 lutego 2026 r. zaszła zmiana KSeF (FA(3) jako wzór obowiązkowy), wystarczyło dodać kilkadziesiąt faktów do SSoT - nie trzeba było przerabiać silnika.

„Do wszystkich faktur ustrukturyzowanych wystawianych od 1 lutego 2026 r. stosuje się strukturę logiczną FA(3).”

SEKCJA 5

BezChmury 11B v3 jako sweet spot

Polski ekosystem LLM ma kilka projektów. Dla on-prem deployment w biurze rachunkowym albo kancelarii BezChmury 11B v3 daje najlepszy balans między rozmiarem, jakością języka polskiego i licencją.

Co wiemy publicznie

  • Licencja Apache-2.0 - pełna otwartość, można używać komercyjnie (huggingface.co).
  • 11 miliardów parametrów - model card mówi po prostu o „11B”, nie o „11,2B”.
  • Baza: Mistral-7B-v0.2, skalowane do 11B parametrów - wersja Bielik-11B-v3-Base-20250730 (SpeakLeash).
  • Twórcy: SpeakLeash we współpracy z ACK Cyfronet AGH, infrastruktura PLGrid (superkomputery Athena, Helios).
  • Tokenizer: APT4, optimized for Polish. Karty modelu wprost wspominają o zastąpieniu poprzedniego tokenizera tym zoptymalizowanym pod polszczyznę.
  • Repozytorium dokumentacyjne: bielik-papers na GitHubie zawiera materiały dla wersji v1, v2, v3, v3_minitron i v3_small (github.com/speakleash/bielik-papers).

„Bielik-PL-11B-v3.0-Instruct is a generative text model featuring 11 billion parameters.”

„...after replacing its tokenizer to the APT4 tokenizer optimized specifically for the Polish language.”

Rodzina v3 na 1 maja 2026

  • BezChmury 11B v3.0 Instruct - pełny model, instruct-tuned, plik Q4_K_M ok. 6 GB.
  • Bielik-PL-Minitron-7B-v3.0-Instruct - kompresja przez Minitron (technika NVIDIA), 7,35 mld parametrów (redukcja z 11,04B do 7,35B, czyli o 33,4%) (huggingface.co).

„...reduce the model's parameter count by 33.4% (from 11.04B to 7.35B).”

Źródło: model card BezChmury 11B Minitron, Hugging Face.

Czego nie obiecujemy

Świadomie nie publikujemy w tym artykule konkretnych wyników benchmarków typu MT-Bench PL, MMLU PL czy Open LLM Leaderboard PL. Powód jest prosty: na 1 maja 2026 r. nie ma jednego, oficjalnego dokumentu spinającego porównywalnie wyniki BezChmury 11B vs PLLuM vs Trurl 2 dla wszystkich tych benchmarków. Branżowe zajawki sugerują, że BezChmury 11B v3 plasuje się w czołówce polskich modeli (My Company Polska), ale przed publikacją twardej tabeli porównawczej trzeba zrobić własne testy z opisaną metodologią.

Z tego samego powodu nie używamy w komunikacji nazwy „Krakowiak” jako modelu - w research stanu z 1 maja 2026 r. nie udało się potwierdzić takiego projektu z publicznej, wiarygodnej karty modelu albo repozytorium. Do momentu znalezienia oficjalnego źródła traktujemy go jako niezweryfikowaną nazwę.

Nie publikujemy też konkretnej liczby „+30% efficiency for Polish” dla tokenizera APT4. Karty modelu wspominają o zoptymalizowaniu tokenizera pod polszczyznę, ale liczbowe uzasadnienie tej delty wymaga ręcznej lektury pełnego PDF (huggingface.co/papers/2601.11579), a tego w naszym research jeszcze nie zrobiliśmy.

SEKCJA 6 · CASE

Praktyczny przykład - Anna analizuje fakturę

Persona ilustracyjna. Scenariusz typowy dla biur rachunkowych w Polsce w 2026 r., NIE realny pomiar pojedynczego klienta. Czas i kroki oparte o opis branżowy „biuro 50 NIP-ów” oraz reguły FA(3) z broszury MF.

Anna prowadzi biuro rachunkowe obsługujące 50 klientów. Dostaje od jednego z klientów fakturę z odrzuceniem KSeF - kod błędu 440 „Duplikat faktury”. Klient pyta przez telefon, dlaczego faktura nie przeszła i jak to naprawić.

Workflow z lokalnym AI (BezChmury)

  1. Anna otwiera BezChmury - aplikację desktop działającą bez internetu. Cała sesja chatu pozostaje na jej laptopie.
  2. Pyta: „Co oznacza kod KSeF 440 i jak go naprawić?”. Klasyfikator pytań rozpoznaje zapytanie jako error code lookup i kieruje je do odpowiedniej kolekcji SSoT.
  3. Lokalny silnik (BezChmury 11B + RAG) generuje odpowiedź z deterministycznym cytatem: „kod 440 to duplikat faktury wykryty przez KSeF na podstawie NIP sprzedawcy, numeru faktury (P_2) i rodzaju faktury; unikalność jest sprawdzana 10 lat wstecz”. Cytat źródła: Podręcznik KSeF 2.0 cz. II.
  4. Anna otrzymuje konkretny fix: „zastosuj idempotency key na NIP+P_2+hash XML i sprawdź, czy w archiwum klienta nie ma faktury o identycznym numerze z poprzednich 10 lat”.
  5. Audit log zostaje zapisany lokalnie: pytanie, źródło SSoT, timestamp, hash zapytania - gotowy do późniejszego replay i kontroli.

Czas do uzyskania prawidłowej odpowiedzi: 2-3 minuty. Czas alternatywnego procesu (wyszukiwanie w broszurze MF, odpytanie kolegi z biura, zadzwonienie na infolinię): 30-45 minut. Te liczby są ilustracyjne - bardziej rzetelny benchmark dla całego rynku wymagałby wyceny ręcznego procesu KSeF, dla której branżowy opis biura 50 NIP mówi o 3-4 godzinach dziennie bez automatyzacji (drukarkaksef.pl).

Klucz w tym scenariuszu nie jest sama szybkość. Klucz to cytat źródła. Anna może przekazać klientowi nie tylko fix, ale też podstawę: „podręcznik MF, część II, rozdział o duplikatach”. Klient wie, skąd pochodzi odpowiedź. Jeśli za rok KIRP albo UODO zapyta, dlaczego biuro doradziło ten konkretny fix, Anna ma w archiwum cytat. Tego nie da chatbot bez audit trail.

Drugi krytyczny element tej sceny: żadne dane klienta nie opuściły urządzenia Anny. Numer faktury, NIP klienta, fragment XML - wszystko zostało w pamięci RAM jej laptopa, przetworzone przez lokalny model i zapisane w lokalnym audit logu. Gdyby Anna użyła ChatGPT, ten sam dialog wygenerowałby żądanie HTTP do serwerów OpenAI w USA, z metadanymi sesji, tokenem konta i pełnym kontekstem zapytania. Z perspektywy art. 32 RODO to istotny krok - a raczej jego brak.

Co do liczb: nie publikujemy „średniej oszczędności 40 godzin miesięcznie” jako twardej obietnicy produktowej. Spotykane w branżowych zajawkach liczby (3-4 godziny dziennie na ręczną logistykę KSeF dla biura 50 NIP, redukcja do 30-45 minut z odpowiednim narzędziem) pochodzą z zajawki jednego dostawcy, nie z reprezentatywnego badania całego rynku. W twardych deklaracjach komunikacyjnych BezChmury pozostajemy ostrożni - pokazujemy mechanizm, nie magiczne procenty.

Pełny opis tego scenariusza znajdziesz w case study Anny.

FAQ

Najczęstsze pytania

Co to jest prywatne AI?
Model AI uruchamiany lokalnie na sprzęcie firmy, bez wysyłania danych do zewnętrznych serwerów. Antonim: cloud AI (ChatGPT, Claude). Polecane dla księgowych i prawników ze względu na RODO i Schrems II. Sweet spot: BezChmury 11B v3 Apache-2.0. Więcej: Architektura on-premise.
Czym różni się on-premise AI od cloud AI?
On-premise = model lokalny, dane zostają na komputerze użytkownika. Cloud = każdy prompt wysyłany do serwerów dostawcy (zwykle USA). Konsekwencje: cloud AI wymaga DPIA + ocena adekwatności transferu USA (Schrems II). On-premise eliminuje 80% ryzyk. Pełen kontekst: RODO i AI w 2026.
Czy prywatne AI jest legalne dla biura rachunkowego?
Tak. Prywatne AI on-premise nie wysyła danych do zewnętrznych podmiotów, więc nie wymaga oceny transferu RODO. Wymaga DPIA wg Art. 35 GDPR (ale krótszego niż cloud). Trigger: kary UODO 1,5 mln zł (spółka medyczna 13.08.2024). Zob. DPIA template w 7 krokach.
Ile kosztuje prywatne AI dla małej firmy?
BezChmury KSeF Lite od 1 490 zł jednorazowo (1 stanowisko, 12 mies. aktualizacji). Pakiety wyższe: KSeF Private 4 990 zł, Księgowy Private 9 990 zł, Pro Bundle 14 900 zł, Enterprise od 49 900 zł. Brak subskrypcji. Pełen cennik.
Jakie wymagania sprzętowe ma BezChmury 11B?
Q4_K_M kwantyzacja: ~6,5 GB plik, RAM 16 GB minimum (MacBook M2/M3 16 GB lub PC z RTX 3060+ 12 GB VRAM). Dla wielu użytkowników firmowy serwer 64+ GB RAM + RTX 5090 / A100. Latency: 30-60 tokens/s na konsumenckim GPU. Więcej w architektura BezChmury.
Czy BezChmury 11B jest darmowy?
Tak - model Apache-2.0 open-source, dostępny na Hugging Face (speakleash/Bielik-PL-11B-v3.0-Instruct). Twórcy: SpeakLeash + ACK Cyfronet AGH. BezChmury jako produkt = aplikacja desktop (DMG/EXE) zbudowana na bazie Bielika - model engine darmowy, aplikacja płatna jednorazowo. Zob. cennik BezChmury.
BezChmury 11B vs ChatGPT - który lepszy?
Inne kategorie. ChatGPT (GPT-4) = SOTA general-purpose, cloud-only, transfer USA. BezChmury 11B = polski-language-optimized (tokenizer APT4), open-source Apache-2.0, działa lokalnie. Dla compliance polskiego (KSeF, ZUS, RODO) - BezChmury 11B wygrywa kontrolą + brak risk transferu. Dla ogólnego problem solving - ChatGPT większy model. Zob. analizę cloud vs on-prem.
Co to jest Apache-2.0 license?
Open-source license dopuszczająca komercyjne użycie, modyfikacje, dystrybucję bez ograniczeń typu Llama (Meta CCA wymaga licencji dla MAU >700M). BezChmury 11B na Apache-2.0 = możesz fine-tune, deploy, sprzedawać produkty bez zgody twórców. Pełen tekst licencji: apache.org. Więcej w sekcji BezChmury 11B sweet spot.
Czy AI on-premise wymaga internetu?
Po instalacji NIE. Aplikacja BezChmury działa offline. Internet wymagany tylko przy: (1) update bazy wiedzy SSoT (raz na kwartał), (2) update silnika (gdy nowa wersja v3.1+). Audit log + odpowiedzi = lokalne. Kontekst: trust signal "działa offline po instalacji". Zob. architektura BezChmury KSeF Private.
Jak długo trwa instalacja BezChmury?
Faza 1 (DMG/EXE download): ~5 min. Faza 2 (instalacja + pierwsze uruchomienie modelu): 10-15 min na MacBook M2 16 GB. Faza 3 (integracja z systemem księgowym): 1-3 dni roboczych z opieką BezChmury (Pro+ pakiet). Faza 4 (tutorial zespołu): 2-3 godziny. Pełen plan w case study Anny.
Czy mogę zobaczyć source code BezChmury 11B?
Tak. Model BezChmury 11B v3 = open-source Apache-2.0 na Hugging Face: speakleash/Bielik-PL-11B-v3.0-Instruct. Zawiera weights + config + tokenizer. Training data partly open (SpeakLeash GitHub). Aplikacja BezChmury = closed-source (audit kodu możliwy dla Enterprise klientów). Więcej: RODO + AI on-premise.
Czy istnieje BezChmury Mobile?
Q3 2026 plan: BezChmury Mobile na bazie Bielik-PL-Minitron-7B-v3.0 (7,35B params, redukcja −33,4% vs 11B). Target: starsze laptopy 8-12 GB RAM. Quick lookup poza biurem. Etap rozwoju: research, brak committed release date. Aktualnie: BezChmury desktop na 16 GB RAM minimum. Zob. aktualne pakiety.

Więcej kontekstu prawnego znajdziesz w artykule RODO i AI on-premise - pełny przewodnik compliance.

PODSUMOWANIE

Lokalne AI to nie hype. To architektura compliance.

Jeśli prowadzisz biuro rachunkowe, kancelarię prawną albo dział compliance - pytanie nie brzmi „czy używać AI”, tylko „które AI nie wyśle danych klienta poza Polskę”. BezChmury to nasza odpowiedź. Polski model BezChmury 11B v3, lokalna baza wiedzy SSoT, cytaty deterministyczne, działanie bez internetu, jednorazowy zakup. Dane klienta zostają tam, gdzie powinny - na Twoim sprzęcie.

Umów demo (15 min) Zobacz KSeF Private → Sprawdź cennik →
Dominik Witanowski

Buduje BezChmury od 2024 r. 10 lat w IT, ex-SEO Villa Mamma, autor pipeline KSeF Private z 147/150 PASS na własnym probe 150 par testowych (własny benchmark BezChmury, NIE oficjalny benchmark Ministerstwa Finansów).

LISTA BETA · ZNIŻKA 30% PRZED LAUNCH

Bądź pierwszy gdy ruszamy w Q3 2026

Dołącz do listy beta – ekskluzywny krąg wczesnych testerów BezChmury. Co 2 tygodnie wysyłam dziennik dewelopera: co buduję, co łamie, co decyduję.

SŁOWNIK POJĘĆ

Słownik pojęć użytych w tym artykule

On-premise AI
Sztuczna inteligencja uruchamiana lokalnie na sprzęcie firmy lub użytkownika, bez wysyłania danych do zewnętrznych serwerów. Antonim: cloud AI.
BezChmury 11B v3
Polski model językowy LLM, 11 miliardów parametrów, baza Mistral-7B-v0.2 skalowana, twórcy: SpeakLeash + ACK Cyfronet AGH. Licencja Apache-2.0.
Apache-2.0
Open-source license dopuszczająca komercyjne użycie, modyfikacje, dystrybucję. Bez ograniczeń typu Llama (Meta CCA).
APT4 tokenizer
Tokenizer BezChmury 11B optymalizowany dla języka polskiego. Specyficzne wsparcie dla polskich diakrytyków i fleksji.
GGUF
Format pliku modelu LLM dla llama.cpp / Ollama / LM Studio. Plik 4-8 GB dla BezChmury 11B Q4_K_M, RAM 16-32 GB.
MLX
Apple Silicon native framework dla LLM. Wykorzystuje unified memory M1/M2/M3, szybsza inferencja niż GGUF na MacBookach.
FP8
Quantization 8-bitowa floating-point dla high-end serving (vLLM, GPU >8.9 compute capability). Mniejsza niż FP16, większa niż Int4.
Q4_K_M
Schemat kwantyzacji 4-bitowy z różnymi precyzjami per layer. Najpopularniejsza opcja dla konsumenckiego sprzętu (mniejsze pliki, akceptowalna utrata jakości).
RAG
Retrieval-Augmented Generation - model AI z dostępem do lokalnej bazy wiedzy (np. SSoT BezChmury z 630 rekordami). Każda odpowiedź = generated + retrieved.
RODO
Polskie określenie dla GDPR (General Data Protection Regulation, Rozporządzenie 2016/679). Przepisy o ochronie danych osobowych w UE.

ŹRÓDŁA

Oficjalne źródła i odniesienia

  1. [1]
    Bielik-PL-11B-v3.0-Instruct (model card) - Hugging Face https://huggingface.co/speakleash/Bielik-PL-11B-v3.0-Instruct · dostęp: 2026-05-01
  2. [2]
    Rozporządzenie (UE) 2024/1689 (AI Act) - EUR-Lex https://eur-lex.europa.eu/eli/reg/2024/1689/oj · dostęp: 2026-05-01
  3. [3]
    Rozporządzenie (UE) 2016/679 (RODO/GDPR) - EUR-Lex https://eur-lex.europa.eu/eli/reg/2016/679/oj · dostęp: 2026-05-01
  4. [4]
    bielik-papers (GitHub repo) - SpeakLeash https://github.com/speakleash/bielik-papers · dostęp: 2026-05-01
  5. [5]
    Apache License 2.0 - Apache Software Foundation https://www.apache.org/licenses/LICENSE-2.0 · dostęp: 2026-05-01
  6. [6]
    AI usage in accounting/HR (581 respondents X-XI 2025) - Wolters Kluwer Polska https://www.wolterskluwer.com/pl-pl · dostęp: 2026-05-01

Wszystkie cytaty dosłowne w artykule pochodzą z powyższych oficjalnych źródeł. Inline odniesienia oznaczone [N] linkują do tej listy.

Chcesz zobaczyć prywatne AI
dla swojej firmy?

Krótkie demo KSeF Private (15 min). Pokażemy lokalne działanie, pytania kontrolne, bazę źródeł i sposób, w jaki BezChmury ogranicza ryzyko halucynacji.

Zapisz się na listę betalub umów demo →