Skip to main content

Du willst Large Language Models (LLMs) auf deinem eigenen Mac unabhängig testen? Auf Macs mit Apple Silicon (M1/M2) gibt es da einige Herausforderungen, insbesondere bei der Nutzung von LLMs, die GPU-Beschleunigung erfordern. Nach einigen fehlgeschlagenen Tests habe ich herausgefunden, wie man OpenWebUI in Kombination mit LM Studio installiert, um die volle Leistung der Metal GPU-Schnittstelle des Macs zu nutzen und größere LLMs effizienter auszuführen. Hier kommt eine Schritt-für-Schritt Anleitung aus der Praxis:

Einführung: LLMs und lokale Nutzung

Die meisten Open-Source-LLMs konnten bisher nur mit Tools wie Ollama oder OpenWebUI im Docker-Container verwendet werden. Diese Implementierungen sind allerdings problematisch, da Docker nicht auf die Apple Silicon GPUs zugreifen kann, was die Ausführung von LLMs auf dem Mac sehr verlangsamt. Es gibt aber eine Lösung, mit der du OpenWebUI (ein Graphical User Interface für LLMs) in Verbindung mit LM Studio nutzen kannst, um die Metal GPU-Schnittstelle zu aktivieren und so die Leistung zu steigern.

Was ist OpenWebUI?

OpenWebUI ist ein lokaler GUI-Server, der wie ChatGPT funktioniert und es dir ermöglicht, LLMs lokal auf deinem Rechner zu hosten. Du kannst damit unabhängig von Cloud-Diensten arbeiten, was nicht nur den Datenschutz verbessert, sondern auch die Flexibilität erhöht.

Was ist LM Studio?

LM Studio ist eine Software, die speziell entwickelt wurde, um LLMs auf PCs und Macs mit Apple Silicon Chips effizient zu nutzen. Der größte Vorteil von LM Studio ist die Unterstützung der Metal API, die es ermöglicht, die Leistung der GPU-Kerne voll auszuschöpfen. Das sorgt für eine wesentlich bessere Performance, insbesondere bei größeren Modellen. Ausserdem kannst du hier alle OpenSource LLMs von Huggingface nutzten und sehr viele Konfigurationen vornehmen im Gegensatz zur Ollama App, die mehr oder weniger als Blackbox im Hintergrund arbeitet.

Anleitung: OpenWebUI und LM Studio auf dem Mac installieren

1. Voraussetzungen

Bevor du beginnst, stelle sicher, dass du die folgenden Voraussetzungen erfüllst:

Ein Mac mit Apple Silicon (M1, M2, M3), genügend RAM, aktuelles macOS ab 14.0, genügend Festplattenspeicher für den Download der LLMs.

2. Schritt: Installation von LM Studio

  1. Gehe auf die offizielle LM Studio-Website und lade die .dmg-Datei für Mac herunter.
  2. Installiere LM Studio, indem du die .dmg-Datei ausführst und den Anweisungen folgst.
  3. Öffne nach der Installation LM Studio und stelle sicher, dass das Metal Plugin aktiviert ist, um die GPU-Beschleunigung zu nutzen. (Developer -> LM Runtimes -> Metal llama.cpp -> Install)

3. Schritt: LLM suchen und installieren

  1. In LM Studio kannst du nun ein LLM auswählen. Entweder suchst du direkt über LM Studio nach einem Modell oder du installierst eines über Hugging Face.
  2. Achte darauf, dass das gewählte Modell kleiner ist als der verfügbare Hauptspeicher deines Macs. Bei zu großen Modellen kann es zu Verlangsamungen, Abstürzen oder schlechter Leistung kommen.

4. Schritt: Manuelle Installation von OpenWebUI ohne Docker

OpenWebUI lässt sich auch ohne Docker installieren, indem du es manuell in einer venv (virtuellen Umgebung) einrichtest. Wichtig ist, dass Python 3.11 verwendet wird, da neuere Versionen aktuell noch nicht unterstützt werden. Wenn du Phyton bereits installiert hast, dann erstelle die Installation in einer virtuellen Umgebung.

ACHTUNG: Nichts für Anfänger! Ihr solltet also wissen wie man mit dem Terminal arbeitet und wie Ihr alles notfalls rückgängig machen könnt.

1. Homebrew installieren


      /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    

2. Python 3.11 mit Homebrew installieren


      brew install python@3.11
    

3. Installation verifizieren


      python3.11 --version
    

4. Virtuelle Umgebung erstellen mit Python und OpenwebUI


      python3.11 -m venv openwebui-venv
    

5. Python-Umgebung aktivieren


      source openwebui-venv/bin/activate
    

6. OpenWebUI installieren


      pip install open-webui
    

7. OpenWebUI-Server starten (dauert knapp eine halbe Minute, also nicht wundern wenn es nicht gleich läuft)


      open-webui serve
    


Sobald der Server gestartet ist, kannst du auf OpenWebUI zugreifen, indem du im Browser http://localhost:8080 aufrufst. Die Installation umfasst alle notwendigen Abhängigkeiten, sodass die Einrichtung einfach und effizient ist. Beenden kann man den Server übrigens später per Ctrl+C im Terminal.

Nun musst du einen OpenWebUI-Account anlegen und dich damit anmelden.

Bis hierher alles klar?
Achtung, jetzt kommt der Trick!

Um die Leistung von LM Studio mit der Flexibilität von OpenWebUI zu nutzen, musst du den LM Studio Server aktivieren und verbinden.

1. Starte den LM Studio Server: In LM Studio kannst du den integrierten Server aktivieren. Dieser ist über http://localhost:1234/v1 erreichbar und nutzt standardmäßig das Passwort lm-studio.

LM Studio Server starten

LM Studio Server starten

2. Integration in OpenWebUI: Gehe nun in den Admin-Bereich von OpenWebUI und ändere die Einstellungen, da OpenWebUI standardmäßig auf die Ollama API eingestellt ist. Trage die Serveradresse von LM Studio (http://localhost:1234/v1) und das Passwort lm-studio ein.

Openwebui Servereinstellungen

Openwebui Servereinstellungen

3. Als nächstes musst du in der GUI die in LM-Studio laufende LLM auswählen.

LLM in Openwebui auswählen

LLM in Openwebui auswählen

Jetzt hast du die Möglichkeit, die Stärken beider Anwendungen zu verbinden: LM Studio für GPU-beschleunigte Modelle und OpenWebUI als GUI zur Verwaltung und Nutzung deiner LLMs.

Warum diese Lösung Sinn macht:

Durch die Kombination von LM Studio und OpenWebUI kannst du die GPU-Beschleunigung auf deinem Mac mit Apple Silicon vollständig nutzen. Das bedeutet, dass du größere und komplexere LLMs ausführen kannst, ohne dass es zu Leistungseinbußen kommt. Zudem bietet OpenWebUI eine benutzerfreundliche Oberfläche, mit der du die Modelle effizient verwalten kannst.

Noch ein Tipp zum Schluss:

Mit der Kombination aus OpenWebUI und LM Studio kannst du Open-Source LLMs effizient und schnell auf deinem Mac mit Apple Silicon nutzen. Durch die Nutzung der Metal GPU-Schnittstelle erzielst du deutlich bessere Ergebnisse, insbesondere bei größeren Modellen. Diese Lösung ist ideal für Anwender, die eine lokal betriebene, datenschutzfreundliche Umgebung für LLMs suchen und gleichzeitig die Hardware ihres Macs optimal nutzen möchten.

Hinweis zur Wahl des passenden LLMs:

Wenn du ein Modell auswählst, solltest du darauf achten, dass der verfügbare Arbeitsspeicher (RAM) deines Macs groß genug ist, um das Modell zu unterstützen. Generell gilt:

•8 GB RAM: Kleine bis mittelgroße Modelle (bis ca. 1B Parameter) funktionieren gut, z.B. Meta-Llama-3.1-8B

•16 GB RAM: Mittelgroße Modelle (bis ca. 8B Parameter) sind möglich, jedoch können größere Modelle die Performance beeinträchtigen.

•32 GB RAM und mehr: Große Modelle (bis ca. 20B Parameter) können stabil und mit guter Performance laufen, besonders bei Modellen um die 20B Parameter.

•128 GB RAM: Größere Modelle (bis ca. 100B Parameter), z.B. Meta-Llama-3.1-70B[/vc_column_text][/vc_column][/vc_row]

Senticon Redaktion

Author Senticon Redaktion

More posts by Senticon Redaktion