KI-Experten nutzen llama.cpp, um Sprachmodelle lokal einzusetzen, eine in C++ geschriebene Bibliothek, die Tensoroperationen auf verschiedenen CPU- und GPU-Architekturen effektiv ausführt. Neben x86 und Nvidias CUDA unterstützt sie auch ARM, Vulcan für AMD-GPUs sowie Apples Metal-API. Anzeige iX-tract Ollama stellt eine komfortable Schnittstelle zu vielen großen Sprachmodellen auf dem lokalen System zur Verfügung, inklusive API-Server, CLI und Modellverwaltung. Desktop-Applikationen wie Jan AI, LM Studio oder Msty bringen den Chat mit Sprachmodellen und Retrieval Augmented Generation auf den eigenen Laptop. Im lokalen Netz ermöglichen Open WebUI und AnythingLLM die Nutzung lokaler KI-Modelle für Teams oder ganze Unternehmen. Ursprünglich für die Llama-Modellfamilie entwickelt, kann sie inzwischen auch mit Mistral-, Qwen- und anderen Modelle umgehen. Zum llama.cpp-Projekt gehören ein einfaches Kommandozeilenprogramm und ein kleiner API-Server. Beispielsweise würde der Befehl ./llama-server --model ./DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --ctx-size 1024 --n-gpu-layers 40 ein quantisiertes DeepSeek-Modell aus dem aktuellen Verzeichnis laden und dabei 40 Schichten des neuronalen Netzes in die GPU auslagern. Anschließend würde auf Port 8080 eine OpenAI-kompatible API auf Interaktionen warten, deren Kontextlänge bis zu 1.024 Token betragen kann. llama.cpp reicht also prinzipiell aus, um Sprachmodelle lokal oder im Netz zur Verfügung zu stellen. Doch setzt es voraus, dass man alle Sprachmodelle selbst verwaltet, sich mit den Hunderten Optionen des Programms und den Fähigkeiten der eigenen Hardware auseinandersetzt. Wer das nicht will, hat Alternativen. Um llama.cpp herum ist ein ganzes Universum aus Werkzeugen und Anwendungen entstanden, die den Gebrauch lokaler Sprachmodelle vereinfachen. Im Folgenden werden einige davon vorgestellt, die ein eigenes User Interface zur Verfügung stellen, also keine Frameworks, Libraries, API-Clients oder dergleichen. Ollama Das bekannteste und zugleich am einfachsten zu handhabende Werkzeug, um mit lokalen Sprachmodellen zu interagieren, und eine Art Wrapper um llama.cpp ist Ollama (für Optimized Llama). Vorausgesetzt, man kennt keine Shell-Angst und scheut sich nicht, ein über Curl gezogenes Installationsskript als Root auszuführen, ist Ollama schnell installiert und die Interaktion gestaltet sich für häufige Aufgaben sehr geradlinig. Doch obwohl sich Ollama als minimalistisches CLI-Tool präsentiert, greift es bei der Installation stark in das System ein, legt unter Linux einen eigenen User an, startet einen Service und exponiert seine API auf Port 11434 des localhost. Anzeige Ollama erkennt vorhandene GPUs von Nvidia und AMD und verwendet sie automatisch, und zwar bis hinunter zu Nvidias Compute Capabilities 5.0. Damit schließt es auch sehr alte Modelle wie etwa eine GTX 750 ein, aber natürlich auch aktuelle High-End-Consumer-Modelle wie die RTX 4090 mit den Capabilities in Version 8.9. Der Umgang mit Ollama auf der Kommandozeile könnte nicht einfacher sein: Der Befehl ollama run startet einen Chat mit einem der vielen unterstützten Modelle. Falls das noch nicht lokal vorhanden ist, installiert es Ollama automatisch. Will man diese mitunter etwas zeitfressende Aufgabe in den Hintergrund schieben, benutzt man zunächst den Befehl ollama pull , der das Modell nur lädt, und startet es später. Ollama kann nicht nur Modelle ausführen, sondern auch schnell angepasste Varianten vorhandener Modelle erzeugen, die sich im Systemprompt und den Metaparametern vom Elternmodell unterscheiden. Zusätzlich lassen sich aber auch Modelle aus dem Safetensors-Format generieren, die mit einem Feintuning-Framework erzeugt wurden, oder große Modelle mit verschiedenen Methoden quantisieren, denn auch das gehört zu den Aufgaben des zugrunde liegenden llama.cpp. Ollamas REST-API ist einfach und hinreichend dokumentiert. Mithilfe der üblichen Standardbibliotheken für URI-Requests und JSON-Manipulation sind in jeder Programmiersprache schnell kleine Skripte geschrieben. Wer es bequemer will und eine weitere Abhängigkeit in Kauf nimmt, nutzt eine Clientbibliothek. Für Python und JavaScript bietet das Projekt selbst welche an, für Rust, Go, Ruby und viele weitere Sprachen finden sich mehr oder weniger gut gepflegte Repositorys auf GitHub. Teilweise ist die API mit der von OpenAI kompatibel, sodass unter Umständen auch schon vorhandene Programme funktionieren oder nur minimale Anpassungen benötigen. Die meisten Open-Source-Frameworks für Retrieval Augmented Generation (RAG) und den Bau von KI-Agenten lassen sich an Ollama anbinden. Durch die API eignet es sich aber auch gut für kleine Webapplikationen, erstellt mit einem beliebigen Framework wie Gradio oder Streamlit oder mit speziell für generative KI entwickelten fertigen Webanwendungen.