Sprachmodelle lokal betreiben: Fünf Tools vorgestellt

KI-Experten nutzen llama.cpp, um Sprachmodelle lokal einzusetzen, eine in C++ geschriebene Bibliothek, die Tensoroperationen auf verschiedenen CPU- und GPU-Architekturen effektiv ausführt. Neben x86 und Nvidias CUDA unterstützt sie auch ARM, Vulcan für AMD-GPUs sowie Apples Metal-API. Anzeige iX-tract Ollama stellt eine komfortable Schnittstelle zu vielen großen Sprachmodellen auf dem lokalen System zur Verfügung, inklusive API-Server, CLI und Modellverwaltung. Desktop-Applikationen wie Jan AI, LM Studio oder Msty bringen den Chat mit Sprachmodellen und Retrieval Augmented Generation auf den eigenen Laptop. Im lokalen Netz ermöglichen Open WebUI und AnythingLLM die Nutzung lokaler KI-Modelle für Teams oder ganze Unternehmen. Ursprünglich für die Llama-Modellfamilie entwickelt, kann sie inzwischen auch mit Mistral-, Qwen- und anderen Modelle umgehen. Zum llama.cpp-Projekt gehören ein einfaches Kommandozeilenprogramm und ein kleiner API-Server. Beispielsweise würde der Befehl ./llama-server --model ./DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --ctx-size 1024 --n-gpu-layers 40 ein quantisiertes DeepSeek-Modell aus dem aktuellen Verzeichnis laden und dabei 40 Schichten des neuronalen Netzes in die GPU auslagern. Anschließend würde auf Port 8080 eine OpenAI-kompatible API auf Interaktionen warten, deren Kontextlänge bis zu 1.024 Token betragen kann. llama.cpp reicht also prinzipiell aus, um Sprachmodelle lokal oder im Netz zur Verfügung zu stellen. Doch setzt es voraus, dass man alle Sprachmodelle selbst verwaltet, sich mit den Hunderten Optionen des Programms und den Fähigkeiten der eigenen Hardware auseinandersetzt. Wer das nicht will, hat Alternativen. Um llama.cpp herum ist ein ganzes Universum aus Werkzeugen und Anwendungen entstanden, die den Gebrauch lokaler Sprachmodelle vereinfachen. Im Folgenden werden einige davon vorgestellt, die ein eigenes User Interface zur Verfügung stellen, also keine Frameworks, Libraries, API-Clients oder dergleichen. Ollama Das bekannteste und zugleich am einfachsten zu handhabende Werkzeug, um mit lokalen Sprachmodellen zu interagieren, und eine Art Wrapper um llama.cpp ist Ollama (für Optimized Llama). Vorausgesetzt, man kennt keine Shell-Angst und scheut sich nicht, ein über Curl gezogenes Installationsskript als Root auszuführen, ist Ollama schnell installiert und die Interaktion gestaltet sich für häufige Aufgaben sehr geradlinig. Doch obwohl sich Ollama als minimalistisches CLI-Tool präsentiert, greift es bei der Installation stark in das System ein, legt unter Linux einen eigenen User an, startet einen Service und exponiert seine API auf Port 11434 des localhost. Anzeige Ollama erkennt vorhandene GPUs von Nvidia und AMD und verwendet sie automatisch, und zwar bis hinunter zu Nvidias Compute Capabilities 5.0. Damit schließt es auch sehr alte Modelle wie etwa eine GTX 750 ein, aber natürlich auch aktuelle High-End-Consumer-Modelle wie die RTX 4090 mit den Capabilities in Version 8.9. Der Umgang mit Ollama auf der Kommandozeile könnte nicht einfacher sein: Der Befehl ollama run startet einen Chat mit einem der vielen unterstützten Modelle. Falls das noch nicht lokal vorhanden ist, installiert es Ollama automatisch. Will man diese mitunter etwas zeitfressende Aufgabe in den Hintergrund schieben, benutzt man zunächst den Befehl ollama pull , der das Modell nur lädt, und startet es später. Ollama kann nicht nur Modelle ausführen, sondern auch schnell angepasste Varianten vorhandener Modelle erzeugen, die sich im Systemprompt und den Metaparametern vom Elternmodell unterscheiden. Zusätzlich lassen sich aber auch Modelle aus dem Safetensors-Format generieren, die mit einem Feintuning-Framework erzeugt wurden, oder große Modelle mit verschiedenen Methoden quantisieren, denn auch das gehört zu den Aufgaben des zugrunde liegenden llama.cpp. Ollamas REST-API ist einfach und hinreichend dokumentiert. Mithilfe der üblichen Standardbibliotheken für URI-Requests und JSON-Manipulation sind in jeder Programmiersprache schnell kleine Skripte geschrieben. Wer es bequemer will und eine weitere Abhängigkeit in Kauf nimmt, nutzt eine Clientbibliothek. Für Python und JavaScript bietet das Projekt selbst welche an, für Rust, Go, Ruby und viele weitere Sprachen finden sich mehr oder weniger gut gepflegte Repositorys auf GitHub. Teilweise ist die API mit der von OpenAI kompatibel, sodass unter Umständen auch schon vorhandene Programme funktionieren oder nur minimale Anpassungen benötigen. Die meisten Open-Source-Frameworks für Retrieval Augmented Generation (RAG) und den Bau von KI-Agenten lassen sich an Ollama anbinden. Durch die API eignet es sich aber auch gut für kleine Webapplikationen, erstellt mit einem beliebigen Framework wie Gradio oder Streamlit oder mit speziell für generative KI entwickelten fertigen Webanwendungen.

heise online

2025-04-08

Malik Johnson

Related News

Politics

Kärcher-Chef Hartmut Jenner: „Die schwierigste Zeit liegt noch vor uns“

Eine Zahl hat sich im Vergleich zum Vorjahr nicht verändert. Die Zahl nämlich, die den Anteil des Umsatzes bemisst, den das schwäbische Familienunternehmen Kärcher im Ausland erwirtschaftet: Es sind … [+507 chars]

Faz.net

few moment ago

Politics

Ungebremstes Wachstum: Revolut mit Umsatzsteigerung und Rekordgewinn

Die britische Neobank Revolut hat im vergangenen Jahr in allen Geschäftsbereichen deutliches Wachstum verzeichnet und ihren Umsatz um 72 Prozent auf 3,1 Milliarden Britische Pfund (3,7 Milliarden Eur… [+2741 chars]

heise online

few moment ago

Politics

Statistik: Zahl der E-Auto-Ladepunkte um fast ein Viertel gestiegen

In Mecklenburg-Vorpommern gibt es zunehmend mehr öffentliche Ladepunkte für Elektroautos. Zu Jahresbeginn wies das Bundesland 2.141 solcher Schnittstellen auf, wie aus einer Statistik der Bundesnetza… [+710 chars]

Die Zeit

few moment ago

Politics

Alphabet wächst weiter, setzt gute Aktienwetten

Vor 20 Jahren, am 23. April 2005, wurde das erste Youtube-Video hochgeladen. Im Jahr darauf erwarb Google Youtube im Tausch gegen ein Aktienpaket im damaligen Wert von 1,65 Milliarden US-Dollar. Heut… [+4605 chars]

heise online

few moment ago

Politics

Mobilfunk-Regelwerk: EWE klagt gegen Handynetz-Entscheidung der Netzagentur

Nach einer Handynetz-Entscheidung der Bundesnetzagentur zieht das Telekommunikationsunternehmen EWE Tel vor Gericht. Man habe Klage beim Verwaltungsgericht Köln eingereicht, teilte die Oldenburger Fi… [+1684 chars]

Die Zeit

few moment ago

Politics

Intel übertrifft Erwartungen, macht aber weiter Minus

Intels erstes Quartal 2025 sieht in Anbetracht der Umstände besser aus als befürchtet. Der Umsatz liegt mit 12,7 Milliarden Dollar am oberen Ende der vorangegangenen Prognose. Verglichen mit Anfang 2… [+2643 chars]

heise online

few moment ago

Politics

Auf dem Heimflug: US-Vizepräsident Vance legt Zwischenstopp in Ramstein ein

US-Vizepräsident JD Vance hat auf dem Heimflug aus Indien bei einem Zwischenstopp die US-Luftwaffenbasis im pfälzischen Ramstein besucht. Auf Bildern und Videos war zu sehen, wie der Republikaner Bie… [+659 chars]

Die Zeit

few moment ago

Politics

Schulen: Lehrermangel bleibt ein Problem in Sachsen-Anhalt

Sachsen-Anhalt ist weiter deutlich entfernt von einer vollen Unterrichtsversorgung an den allgemeinbildenden Schulen. Die Quote lag bei der jüngsten Erhebung am ersten Unterrichtstag nach den Winterf… [+1353 chars]

Die Zeit

few moment ago

Politics

Unfallstatistik: Jeder sechste Verkehrstote war ein Radfahrer

Jeder Sechste im Straßenverkehr Getötete war mit dem Fahrrad unterwegs - das zeigen Unfallzahlen des Statistischen Bundesamts. Im vergangenen Jahr starben nach vorläufigen Ergebnissen insgesamt 441 R… [+595 chars]

Die Zeit

few moment ago

Politics

#heiseshow: EU-Bußgelder, Smart-TV überwacht Emotionen, heise-Chatbot

Anna Kalinowsky, heise-online-Chefredakteur Dr. Volker Zota und Malte Kirchner sprechen in dieser Ausgabe der #heiseshow unter anderem über folgende Themen: <ul><li>Taschengeld-Strafe? EU-Kommission… [+1401 chars]

heise online

few moment ago

Politics

Am Klinikum Oldenburg: Gedenkstätte für Opfer von Ex-Pfleger Niels Högel

Ein neuer Gedenkort am Klinikum Oldenburg erinnert an die Opfer des ehemaligen Pflegers Niels Högel. «Mit der Gedenkstätte möchten wir einen Raum schaffen, der sowohl an die Opfer erinnert als auch A… [+1909 chars]

Die Zeit

few moment ago

Politics

Arbeitgeber warnen vor 15 Euro Mindestlohn

Der Arbeitgeberverband Gesamtmetall warnt die SPD vor einer von der Politik festgelegten Anhebung des Mindestlohns auf 15 Euro pro Stunde. Eine politisch erzwungene Anhebung auf 15 Euro würde einen A… [+3301 chars]

Faz.net

few moment ago

Politics

F.A.Z. Faktencheck: Menschenrechtszitat von WEF-Vorsitzendem verfälscht

Die Polizei Thüringen berichtet auf X, Huhn Henrietta werde zukünftig das Team der Behörde bereichern. Sie sei das erste Drogenspürhuhn und habe wochenlang ein intensives Training für diese Aufgabe d… [+740 chars]

Faz.net

few moment ago

Politics

Erstklässler ertrunken: Ermittlungen nach Tod von sechsjährigem Pawlos

Nach dem Tod des über Wochen vermissten sechsjährigen Pawlos in Weilburg führt die Staatsanwaltschaft Limburg ein Todesermittlungsverfahren. Dabei werde auch geprüft, ob Anhaltspunkte für eine Verlet… [+2056 chars]

Die Zeit

few moment ago

Politics

heise+ | Per Gesetz: Angriffe auf die Privatheit der Messenger-Kommunikation

Inhaltsverzeichnis Weltweit gibt es verschiedene Vorstöße, die Ende-zu-Ende-Verschlüsselung in Messengern per Gesetz anzugreifen. Das hierzulande wohl prominenteste Beispiel ist die sogenannte Chatk… [+2986 chars]

heise online

few moment ago

Politics

Erdbeben der Stärke 6,2 erschüttert Istanbul

Stand: 23.04.2025 12:35 Uhr Ein Erdbeben der Stärke 6,2 hat die türkische Millionenmetropole Istanbul erschüttert. Über mögliche Opfer und Schäden ist noch nichts bekannt. Erst vor zwei Jahren hatte… [+1164 chars]

tagesschau.de

few moment ago

Politics

Atmos Space Cargo testet erfolgreich seinen Weltraumcontainer

Das baden-württembergische Raumfahrtunternehmen Atmos Space Cargo hat sein Transportsystem Phoenix getestet, das Nutzlasten ins All und wieder zurück auf die Erde bringen soll. Der Test verlief erfol… [+3144 chars]

heise online

few moment ago

Politics

Ukraine-Gespräche in London haben begonnen: Viele Absagen und Russlands Finte

In London hat die jüngste Gesprächsrunde über ein Ende des Ukrainekrieges ohne den amerikanischen Außenminister Marco Rubio und den Sondergesandten Steve Witkoff begonnen, auch der französische Außen… [+8463 chars]

Faz.net

few moment ago

Theme

Select Language

Sprachmodelle lokal betreiben: Fünf Tools vorgestellt

Related News