Innerhalb von zwei Wochen haben Google und Meta die Open-Source-KI-Welt auf den Kopf gestellt: Gemma 4 (erschienen 31. März / 2. April 2026) und Llama 4 (erschienen 5. April 2026) setzen neue Maßstäbe dafür, was kostenlos verfügbare KI-Modelle leisten können.
Für Unternehmen, die KI lokal betreiben wollen – ohne Cloud-Abhängigkeit, ohne monatliche API-Kosten, mit vollständiger Datenkontrolle – ist diese Entwicklung bedeutsam. Aber welches Modell ist das Richtige, und wann lohnt sich der Einstieg in Open-Source-KI überhaupt?
Was ist Open-Source-KI – und warum ist sie für Unternehmen interessant?
Bei proprietären Modellen wie ChatGPT (OpenAI), Claude (Anthropic) oder Gemini (Google) werden Ihre Anfragen über externe Server verarbeitet. Daten verlassen das Unternehmen, Kosten entstehen pro API-Aufruf, und Sie sind von der Verfügbarkeit und den Preispolitiken des Anbieters abhängig.
Open-Source- oder „Open-Weight"-Modelle wie Gemma 4 und Llama 4 können Sie dagegen auf Ihrer eigenen Infrastruktur betreiben – lokal auf einem Server, auf einer GPU-Workstation oder in Ihrer privaten Cloud. Das bedeutet:
- Volle Datensouveränität – keine Daten verlassen das Unternehmen
- DSGVO-Konformität ohne Aufwand
- Einmalige Einrichtungskosten statt laufender API-Gebühren
- Anpassbarkeit durch Fine-Tuning auf Ihre Fachbegriffe und Prozesse
Der Haken: Sie brauchen die technischen Ressourcen für Betrieb und Wartung – oder einen Partner, der das übernimmt.
Gemma 4 von Google DeepMind
Google DeepMind veröffentlichte Gemma 4 am 2. April 2026. Die Modellreihe umfasst vier Varianten – von sehr kleinen Modellen für Edge-Geräte bis hin zu leistungsstarken Server-Modellen:
- E2B / E4B: Winzige Modelle für mobile Geräte und IoT
- 26B A4B (MoE): Mittelgroße Variante mit Mixture-of-Experts-Architektur
- 31B (Dense): Das leistungsstärkste Gemma-4-Modell für Server-Einsatz
Was Gemma 4 besonders macht
Reasoning und Coding. Gemma 4 31B erreicht auf dem AIME-2026-Mathematik-Benchmark 89,2 % und auf LiveCodeBench v6 (Coding) 80,0 % – damit schlägt es Llama 4 Scout in beiden Disziplinen.
256.000-Token-Kontextfenster. Die 31B-Variante verarbeitet Dokumente mit bis zu 256.000 Token in einem einzigen Aufruf – das entspricht etwa 200 Seiten Text.
Eingebauter Thinking-Modus. Gemma 4 kann auf Anfrage einen expliziten Reasoning-Schritt einschalten, bei dem es komplexe Probleme Schritt für Schritt durchdenkt, bevor es antwortet. Das ist besonders nützlich für Analyse-Aufgaben, juristische Prüfungen oder technische Fehlersuche.
Native Function Calling für KI-Agenten. Gemma 4 wurde von Grund auf für den Einsatz in Agenten-Workflows konzipiert. Es kann externe Werkzeuge aufrufen, Kalender befragen, Datenbanken abfragen oder APIs ansprechen.
140+ Sprachen. Gemma 4 ist stark mehrsprachig – Deutsch wird vollständig unterstützt.
Lizenz: Apache 2.0 – vollständig kommerziell nutzbar, keine Einschränkungen, kein Branding-Zwang.
Benchmarks im Überblick (Gemma 4 31B)
| Benchmark | Gemma 4 31B | Llama 4 Scout |
|---|---|---|
| AIME 2026 (Mathematik) | 89,2 % | 88,3 % |
| LiveCodeBench v6 (Coding) | 80,0 % | 77,1 % |
| GPQA Diamond (Wissenschaft) | 84,3 % | 82,3 % |
| Kontextfenster | 256K Token | 10M Token |
| Arena AI ELO (April 2026) | Rang 3 Open Models | Rang 5 |
Wo ist Gemma 4 verfügbar?
- Google Cloud Vertex AI – direkt über GCP buchbar
- Hugging Face – für eigene Deployments
- Android AI Core – für mobile Anwendungen
Llama 4 von Meta
Meta veröffentlichte Llama 4 am 5. April 2026 und setzte damit einen neuen Standard für Open-Weight-Modelle. Die wichtigste Neuerung: Llama 4 ist das erste Modell der Reihe, das nativ multimodal ist (Text, Bilder und Videos als Input) und eine Mixture-of-Experts (MoE)-Architektur verwendet.
Die drei Llama-4-Varianten
Llama 4 Scout:
- 17 Milliarden aktive Parameter (109 Mrd. gesamt, 16 Experten)
- 10-Millionen-Token-Kontextfenster – das größte aller Open-Weight-Modelle weltweit
- Für Aufgaben mit extrem langen Dokumenten oder großen Codebasen ideal
Llama 4 Maverick:
- 17 Milliarden aktive Parameter (400 Mrd. gesamt, 128 Experten)
- Schlägt GPT-4o und Gemini 2.0 Flash auf breiter Benchmark-Basis
- Inferenzkosten: ca. 0,19 $ pro Million Token – außergewöhnlich günstig
- Über 1,2 Milliarden Downloads seit Veröffentlichung
Llama 4 Behemoth:
- ~288 Mrd. aktive / ~2 Billionen Parameter gesamt
- Noch nicht öffentlich verfügbar – dient als Forschungsmodell und Lehrer für Scout und Maverick
Stärken von Llama 4
Das Hauptalleinstellungsmerkmal von Llama 4 Scout ist das 10-Millionen-Token-Kontextfenster. Kein anderes Open-Weight-Modell verarbeitet auch nur annähernd so viel Text in einem Aufruf. Das ist relevant für:
- Analyse gesamter Vertragsdatenbanken
- Verarbeitung sehr großer Codebasen
- Dokumentations-Mining über ganze Archive hinweg
Llama 4 Maverick punktet mit Preis-Leistung: Für 0,19 $ pro Million Token erhält man ein Modell auf GPT-4o-Niveau – das ist für Anwendungen mit hohem Durchsatz wirtschaftlich attraktiv.
Lizenz: Nicht vollständig offen
Hier ist Vorsicht geboten: Llama 4 steht unter der Meta Community License, die kommerziell nutzbar ist – aber Einschränkungen hat. Dienste mit mehr als 700 Millionen monatlichen aktiven Nutzern müssen eine spezielle Lizenz erwerben. Außerdem ist das „Built with Llama"-Branding vorgeschrieben. Das ist für die meisten deutschen KMU kein Problem, sollte aber beim Vertragsrecht geprüft werden.
Gemma 4 vs. Llama 4: Was passt zu welchem Unternehmen?
| Kriterium | Gemma 4 | Llama 4 |
|---|---|---|
| Lizenz | Apache 2.0 (völlig frei) | Community License (Einschränkungen) |
| Stärke | Reasoning, Coding, Agenten | Lange Dokumente, Multimodal |
| Kontextfenster | 256K Token (31B) | 10M Token (Scout) |
| Edge-Deployment | Ja (ab 2B möglich) | Nein (min. 109B gesamt) |
| Mehrsprachigkeit | 140+ Sprachen | Primär Englisch |
| Enterprise-Anbindung | Google Cloud, Hugging Face | IBM watsonx, AWS, Dell |
| Ideal für | DSGVO-sichere Agenten, Coding | Dokumentenanalyse, Kostendruck |
Unsere Empfehlung für den deutschen Mittelstand
Wenn Datenschutz und DSGVO-Konformität im Vordergrund stehen: Gemma 4. Die Apache-2.0-Lizenz, die starke Mehrsprachigkeit und die exzellenten Reasoning-Fähigkeiten machen es zur soliden Wahl für lokale Deployments in deutschen Unternehmen.
Wenn extrem lange Dokumente verarbeitet werden müssen: Llama 4 Scout. Kein anderes Open-Source-Modell kommt an das 10-Millionen-Token-Fenster heran.
Wenn Kosten im Fokus stehen und eine Cloud-Anbindung akzeptabel ist: Llama 4 Maverick über AWS oder IBM watsonx – mit Inferenzkosten von 0,19 $ pro Million Token kaum zu unterbieten.
Was Open-Source-KI für Unternehmen konkret bedeutet
Laut einem Databricks-Bericht aus 2026 setzen mehr als 75 % der Unternehmen inzwischen zwei oder mehr LLM-Familien parallel ein. Die Kombination aus einem proprietären Modell (z. B. Claude Sonnet 4.6 für Kundenkommunikation) und einem lokalen Open-Source-Modell (z. B. Gemma 4 für interne Dokumentenverarbeitung) ist dabei die häufigste Strategie.
Der Grund: Nicht alle Aufgaben erfordern das teuerste Modell. Und nicht alle Daten dürfen die eigenen Server verlassen.
Für den deutschen Mittelstand bedeutet das konkret: Eine hybride KI-Architektur – Cloud-API für unkritische Aufgaben, lokales Open-Source-Modell für sensible Daten – ist technisch heute realistisch und kostenmäßig attraktiver als je zuvor.
Möchten Sie prüfen, ob ein lokales KI-Modell wie Gemma 4 oder Llama 4 für Ihr Unternehmen in Frage kommt? ScaleWise berät KMU in Niederbayern und Bayern zu lokaler KI (On-Premise) und hybriden KI-Architekturen – persönlich vor Ort, BAFA-gefördert.