Sprachmodelle lokal betreiben: Fünf Tools vorgestellt

KI-Experten nutzen llama.cpp, um Sprachmodelle lokal einzusetzen, eine in C++ geschriebene Bibliothek, die Tensoroperationen auf verschiedenen CPU- und GPU-Architekturen effektiv ausführt. Neben x86 und Nvidias CUDA unterstützt sie auch ARM, Vulcan für AMD-GPUs sowie Apples Metal-API.
Anzeige
iX-tract Ollama stellt eine komfortable Schnittstelle zu vielen großen Sprachmodellen auf dem lokalen System zur Verfügung, inklusive API-Server, CLI und Modellverwaltung.
Desktop-Applikationen wie Jan AI, LM Studio oder Msty bringen den Chat mit Sprachmodellen und Retrieval Augmented Generation auf den eigenen Laptop.
Im lokalen Netz ermöglichen Open WebUI und AnythingLLM die Nutzung lokaler KI-Modelle für Teams oder ganze Unternehmen.
Ursprünglich für die Llama-Modellfamilie entwickelt, kann sie inzwischen auch mit Mistral-, Qwen- und anderen Modelle umgehen. Zum llama.cpp-Projekt gehören ein einfaches Kommandozeilenprogramm und ein kleiner API-Server. Beispielsweise würde der Befehl
./llama-server --model ./DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --ctx-size 1024 --n-gpu-layers 40
ein quantisiertes DeepSeek-Modell aus dem aktuellen Verzeichnis laden und dabei 40 Schichten des neuronalen Netzes in die GPU auslagern. Anschließend würde auf Port 8080 eine OpenAI-kompatible API auf Interaktionen warten, deren Kontextlänge bis zu 1.024 Token betragen kann. llama.cpp reicht also prinzipiell aus, um Sprachmodelle lokal oder im Netz zur Verfügung zu stellen. Doch setzt es voraus, dass man alle Sprachmodelle selbst verwaltet, sich mit den Hunderten Optionen des Programms und den Fähigkeiten der eigenen Hardware auseinandersetzt. Wer das nicht will, hat Alternativen. Um llama.cpp herum ist ein ganzes Universum aus Werkzeugen und Anwendungen entstanden, die den Gebrauch lokaler Sprachmodelle vereinfachen. Im Folgenden werden einige davon vorgestellt, die ein eigenes User Interface zur Verfügung stellen, also keine Frameworks, Libraries, API-Clients oder dergleichen.
Ollama
Das bekannteste und zugleich am einfachsten zu handhabende Werkzeug, um mit lokalen Sprachmodellen zu interagieren, und eine Art Wrapper um llama.cpp ist Ollama (für Optimized Llama). Vorausgesetzt, man kennt keine Shell-Angst und scheut sich nicht, ein über Curl gezogenes Installationsskript als Root auszuführen, ist Ollama schnell installiert und die Interaktion gestaltet sich für häufige Aufgaben sehr geradlinig. Doch obwohl sich Ollama als minimalistisches CLI-Tool präsentiert, greift es bei der Installation stark in das System ein, legt unter Linux einen eigenen User an, startet einen Service und exponiert seine API auf Port 11434 des localhost.
Anzeige
Ollama erkennt vorhandene GPUs von Nvidia und AMD und verwendet sie automatisch, und zwar bis hinunter zu Nvidias Compute Capabilities 5.0. Damit schließt es auch sehr alte Modelle wie etwa eine GTX 750 ein, aber natürlich auch aktuelle High-End-Consumer-Modelle wie die RTX 4090 mit den Capabilities in Version 8.9.
Der Umgang mit Ollama auf der Kommandozeile könnte nicht einfacher sein: Der Befehl ollama run