
Wir sprechen darüber, wie man aktuelle Sprach- und Bildmodelle zu Hause betreiben kann, welche Hardware dafür realistisch ist und warum das Thema gerade zwischen Datenschutz, Kostenkontrolle und digitaler Souveränität interessant wird. Schepp erzählt von seinem Setup mit einem gebrauchten Mac Studio, LM Studio, ComfyUI, lokalen Modellen und Open WebUI als Weboberfläche für die Familie.
Dabei geht es nicht nur um die Technik, sondern auch um die Frage, wie nachhaltig die aktuellen Abo- und Credit-Modelle großer AI-Anbieter sind, wie viel RAM Modelle und Kontextfenster wirklich brauchen und wo lokale LLMs im Alltag schon nützlich sind.
Im Webcafé, dem Podcast zu Webentwicklung, Webdesign und Unternehmenskultur, nehmen euch Felix und Kay mit auf eine spannende Reise durch die Welt moderner Softwareentwicklung. Gerade ihre unterschiedliche Perspektive macht dabei den Reiz aus: Felix schaut als Geschäftsführer der Geenen IT-Systeme GmbH auf Strategie, Führung und Unternehmensentwicklung, Kay bringt als Technical Lead den Blick auf Technik, Tools und Architektur ein. Genau daraus entstehen ehrliche, fundierte und persönliche Gespräche über Webtechnologien, Zusammenarbeit und die Herausforderungen digitaler Arbeit.
Jetzt reinhören: geenen-it-systeme.de
Technisch landet man schnell bei Speicherfragen: Modelle müssen in den RAM passen, und zusätzlich braucht das Kontextfenster eigenen Speicher. Schepp erklärt grob die Faustregel, dass große Modelle mit vielen Parametern entsprechend viel Speicher benötigen, und dass zusätzliche Kontextlänge schnell mehrere Gigabyte belegen kann. In LM Studio lassen sich Open-Weights-Modelle wie Qwen oder Gemma von Huggingface, dem NPM der KI-Modelle, laden und austauschen. Die ganz großen Frontier-Modelle von OpenAI, Anthropic oder Google bekommt man lokal allerdings nicht.
Ein wichtiger Hebel ist Quantisierung: Statt Modelle in voller 16-Bit-Auflösung zu betreiben, werden sie auf kleinere Bitbreiten komprimiert, zum Beispiel 4 Bit. Dadurch werden sie deutlich kleiner und laufen auf erschwinglicherer Hardware, verlieren aber je nach Modell und Grad der Quantisierung an Genauigkeit. Schepp erwähnt außerdem Mixture-of-Experts-Modelle, bei denen zwar das ganze Modell im Speicher liegt, aber pro Anfrage nur ein Teil aktiv arbeitet.
Für Bildgenerierung nutzt Schepp