Ollama-Install mit Docker: Schritt für Schritt zum eigenen Ollama-Server

Inhaltsverzeichnis

Je nach geplantem Einsatz kann für den Betrieb von Ollama ein anderer Servertyp sinnvoll sein: Für kleine Chatbots genügt oft ein größerer VPS, während Agenten, Coding-Workloads oder sehr große Modelle meist eine GPU oder sogar dedizierte Hardware benötigen. Ollama erleichtert den lokalen oder serverseitigen Betrieb großer Sprachmodelle deutlich, indem es Modelle verwaltet, startet und über eine einfache API bereitstellt.

Free VPS Trial

vServer kostenlos testen für 30 Tage

Lassen Sie sich von den Vorteilen überzeugen. Probieren Sie Ihren Virtual Server ganz in Ruhe 30 Tage lang aus!

Was ist Ollama?

Ollama ist eine Software, mit der Sie große Sprachmodelle wie Gemma, Qwen, DeepSeek oder andere kompatible Modelle lokal oder auf einem eigenen Server ausführen können. Die Plattform stellt dafür eine einfache Kommandozeilenoberfläche sowie eine REST-API bereit, über die sich Modelle starten und in eigene Anwendungen integrieren lassen. Ollama eignet sich auf diese Weise nicht nur zum Chatten im Terminal, sondern auch als Modell-Backend für eigene Tools, Assistenten oder Entwicklungsumgebungen.

Besonders attraktiv ist Ollama für Nutzerinnen und Nutzer, die Modelle nicht über einen fremden Cloud-Dienst ansprechen, sondern auf eigener Infrastruktur betreiben möchten. Die Interaktionen erfolgen lokal und die Software übernimmt das Laden und Ausführen der Modelle sowie den Zugriff per CLI oder API. Für Einsteigerinnen und Einsteiger ist das praktisch, weil sie kein komplettes Inferenz-Setup von Grund auf selbst bauen müssen, sondern mit wenigen Befehlen starten können.

Hinweis

Ollama dient in vielen KI-Projekten lediglich als Modell-Backend, das Sprachmodelle lokal oder auf einem Server ausführt und über eine API bereitstellt. Darauf aufbauend können Agent-Frameworks wie OpenClaw mit Ollama genutzt werden, um komplexe Workflows zu automatisieren. In solchen Setups übernimmt Ollama die eigentliche Modell-Inferenz, während OpenClaw Aufgaben wie Tool-Nutzung, mehrstufige Agentenprozesse oder automatisierte Aktionen steuert.

Welcher Server passt zu Ihrem Vorhaben?

Bevor Sie mit der Installation beginnen, sollten Sie festlegen, wofür Sie Ollama tatsächlich einsetzen möchten. Nicht jede Anwendung braucht eine GPU, aber sobald Antworten flüssig kommen sollen, mehrere Anfragen parallel laufen oder größere KI-Modelle eingesetzt werden, steigen die Anforderungen schnell an. Die Modellgröße ist dabei ein entscheidender Faktor: Ollama nennt für 7B-Modelle mindestens 8 GB RAM, für 13B-Modelle mindestens 16 GB RAM und für 70B-Modelle mindestens 64 GB RAM als grobe Orientierung. Zusätzlich spielt die verfügbare VRAM-Ausstattung der GPU eine wichtige Rolle, weil sie Geschwindigkeit, Kontextlänge und praktische Nutzbarkeit stark beeinflusst.

Use Case 1: Einfache Textaufgaben, Tests und kleine Chatbots

Wenn Sie Ollama vor allem zum Ausprobieren, für einfache Textgenerierung, kleine Hilfsbots oder interne Tests nutzen möchten, reicht oft ein leistungsstärkerer VPS ohne dedizierte GPU aus. In diesem Szenario laufen typischerweise kleinere KI-Modelle. Diese benötigen mindestens 8 GB RAM, wobei in der Praxis etwas Reserve sinnvoll ist, damit Betriebssystem, Docker und Hintergrundprozesse den Server nicht ausbremsen. Für einen Einstiegs-Ollama-Server sind daher 16 GB RAM meist die vernünftigere Untergrenze. Rechnen Sie außerdem mit zusätzlichem Speicherplatz, denn neben dem Docker-Setup müssen auch die Modelldateien abgelegt werden, die schnell mehrere Gigabyte groß sein können.

Der große Vorteil eines VPS liegt in den überschaubaren Kosten und der einfachen Bereitstellung. Der Nachteil ist die deutlich geringere Geschwindigkeit im Vergleich zu GPU-Servern. Für Lernzwecke, Demo-Projekte und einfache API-Endpunkte ist ein VPS mit 4 vCPU, 16 GB RAM und SSD-Speicher dennoch oft ein sinnvoller Einstieg.

Use Case 2: Interne Wissensbots, kleine APIs und Embeddings

Wenn Sie Ollama als Backend für eine kleine interne Wissensdatenbank, für Retrieval-Augmented-Generation oder für Embeddings nutzen möchten, steigen die Anforderungen bereits an. Hier geht es nicht nur um eine einzelne Chat-Ausgabe, sondern oft um wiederholte API-Aufrufe, Hintergrundverarbeitung und eine stabilere Laufzeit. Zwar können solche Szenarien weiterhin auf einem CPU-Server oder großen VPS laufen, sinnvoll wird aber mehr Arbeitsspeicher, damit Modelle und Daten nicht ständig neu geladen werden müssen. Ein Server mit 16 bis 32 GB RAM ist für solche Aufgaben deutlich angenehmer.

Wenn zusätzlich mehrere Nutzerinnen und Nutzer gleichzeitig auf den Dienst zugreifen, lohnt sich eine CPU mit mehr Kernen oder der Umstieg auf einen GPU-Server. Ollama unterstützt neben Textgenerierung auch Embeddings über die API, was es auch für Such- und Wissensanwendungen interessant macht. Für kleine Teams oder interne Tools kann deshalb ein großer VPS oder ein kleiner Dedicated Server ohne GPU bereits ausreichen, sofern keine extrem niedrigen Antwortzeiten erwartet werden. Wer allerdings eine sichtbar flüssige Benutzererfahrung möchte, sollte auch in diesem Bereich eine GPU in Erwägung ziehen. Grundsätzlich gilt: Je interaktiver und je paralleler Ihr Dienst genutzt wird, desto eher stößt ein reiner CPU-Server an seine Grenzen.

Use Case 3: Coding-Assistenten und flüssig laufende Agenten

Sobald Ollama für Coding-Assistenten, halbautonome Agenten oder andere interaktive Workflows genutzt werden soll, wird eine GPU deutlich empfehlenswerter. Der Grund ist simpel: Solche Anwendungen profitieren massiv davon, wenn Antworten schnell generiert werden und Modelle mit größerem Kontext flüssig arbeiten können. Dabei hängen die Standard-Kontextlängen unter anderem von der verfügbaren VRAM-Größe ab. Für Agenten, Websuche, Coding-Tools oder längere Arbeitskontexte empfiehlt die Dokumentation mindestens 32.000 bis 64.000 AI-Tokens Kontext.

Damit wird klar, dass ein einfacher CPU-VPS für solche Vorhaben meist nicht die ideale Wahl ist. Besser geeignet ist ein GPU-Cloud-Server mit aktueller NVIDIA-GPU, kombiniert mit ausreichend RAM und schnellem NVMe-Speicher. Damit lassen sich mittelgroße Modelle deutlich angenehmer betreiben. Auch mehrstufige Agenten-Workflows werden auf diese Weise praktikabel. Für ambitionierte Einzelprojekte, Prototypen und Entwicklungsteams ist dies häufig der beste Mittelweg zwischen Kosten und Leistung.

Use Case 4: Professionelle Anwendungen mit mehreren Usern

Wenn Sie Ollama als festen Bestandteil einer professionellen Anwendung einsetzen möchten, ändern sich die Anforderungen erneut. Dann geht es nicht mehr nur darum, ob ein Modell grundsätzlich läuft, sondern ob es stabil, reproduzierbar und unter Last performant arbeitet. In solchen Szenarien sollten Sie an genügend RAM, eine leistungsfähige GPU, Reserven für mehrere parallele Prozesse, Monitoring und ausreichend Speicherplatz für mehrere Modelle denken. Da Ollama Modelle per API bereitstellt, kann es gut als internes Modell-Backend dienen, aber die Serverauswahl muss auf Verfügbarkeit und Lastverhalten ausgelegt sein.

Ein leistungsfähiger GPU-Dedicated-Server oder ein professioneller GPU-Cloud-Server ist hier in aller Regel die bessere Wahl als ein kleiner VPS. Sinnvoll sind in diesem Bereich oft 64 GB RAM oder mehr, dazu eine starke NVIDIA-GPU und ein sauberer Betriebsaufbau mit Persistenz für Modelldateien. Gerade bei produktiven Anwendungen ist außerdem wichtig, dass Docker und gegebenenfalls die NVIDIA-Container-Toolkit-Konfiguration sauber eingerichtet werden, damit die GPU im Docker-Container auch wirklich genutzt werden kann.

Use Case 5: Sehr große Modelle und High-End-Inferenz

Wenn Sie sehr große Modelle im Bereich 70B oder darüber ausführen möchten, bewegen Sie sich klar im High-End-Segment. Ollama nennt für 70B-Modelle mindestens 64 GB RAM als grobe Mindestanforderung. In der Praxis reichen Server basierend auf Virtualisierung hier meist nicht aus, insbesondere wenn die Antwortzeiten gut sein sollen oder mehrere Prozesse parallel laufen. Für solche Szenarien ist ein dedizierter Server mit sehr leistungsfähiger GPU-Hardware deutlich realistischer als ein normaler VPS.

Im professionellen Umfeld kommen dafür typischerweise spezialisierte GPU-Systeme mit viel VRAM infrage, etwa Server mit NVIDIA-A100- oder NVIDIA-H100-Karten oder vergleichbar ausgestattete Hochleistungsumgebungen. Das ist kostspielig, aber für große Modelle, lange Kontexte und produktive High-End-Workloads quasi alternativlos.

Übersicht: Welcher Server für welchen Zweck?

Ziel	Empfohlene Hardware	Kosten (geschätzt)
Einfacher Bot / API	VPS mit 4 vCPU, 16 GB RAM, SSD	+
Interne Wissensbots / Embeddings	Großer VPS oder kleiner Dedicated Server mit 16–32 GB RAM	+ / ++
Coding und Agenten	GPU-Cloud-Server mit moderner GPU	++
Professionelle Anwendungen	Leistungsstarker GPU-Cloud-Server oder Dedicated Server mit viel RAM	++ / +++
High-End (70B+)	Dedicated Server mit A100/H100 oder vergleichbarer High-End-GPU	+++

Kostenlegende: + = gering, ++ = mittel, +++ = hoch

Ollama auf einem Server mit Docker installieren: Schritt für Schritt

Im folgenden Abschnitt zeigen wir den Ollama-Install auf einem Linux-Server mit Docker. Für Einsteigerinnen und Einsteiger ist die Kombination von Ollama und Docker besonders praktisch, weil Ollama dabei in einem Container läuft und Sie weniger manuell im System verändern müssen. Für GPU-Betrieb unter Linux mit NVIDIA-GPU benötigen Sie zusätzlich das NVIDIA Container Toolkit, damit Docker die GPU an den Container durchreichen kann.

Schritt 1: Mit dem Server verbinden

Verbinden Sie sich zunächst per SSH mit Ihrem Server. Dazu benötigen Sie die IP-Adresse des Servers sowie einen User mit sudo-Rechten.

ssh BENUTZERNAME@SERVER-IP

bash

Wenn Sie sich zum ersten Mal verbinden, fragt Ihr System in der Regel nach einer Bestätigung des Host-Schlüssels. Geben Sie yes ein und anschließend Ihr Passwort oder verwenden Sie Ihren SSH-Schlüssel. Danach befinden Sie sich im Terminal Ihres Servers und können mit der Einrichtung beginnen.

Schritt 2: System aktualisieren

Bevor Sie Docker und Ollama installieren, sollten Sie die Paketlisten aktualisieren und vorhandene Pakete auf den neuesten Stand bringen. Damit stellen Sie sicher, dass Ihr System aktuelle Sicherheitsupdates und Paketversionen verwendet. Gerade auf frisch bereitgestellten Servern ist das ein sinnvoller erster Schritt, bevor weitere Software installiert wird.

sudo apt update && sudo apt upgrade -y

bash

Schritt 3: Docker installieren

Für Ubuntu 24.04 empfiehlt Docker die Installation über das offizielle APT-Repository. Dabei wird die aktuelle Repository-Datei im Deb822-Format unter /etc/apt/sources.list.d/docker.sources eingerichtet. Unterstützt werden unter anderem Ubuntu 24.04 sowie mehrere Architekturen wie beispielsweise amd64 und arm64. Installieren Sie hierzu zunächst die benötigten Hilfspakete:

sudo apt install ca-certificates curl -y

bash

Erstellen Sie danach das Verzeichnis für den Schlüsselbund:

sudo install -m 0755 -d /etc/apt/keyrings

bash

Laden Sie anschließend den offiziellen Docker-Schlüssel herunter:

sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc

bash

Richten Sie nun wie folgt das Docker-Repository ein:

sudo tee /etc/apt/sources.list.d/docker.sources <<EOF
Types: deb
URIs: https://download.docker.com/linux/ubuntu
Suites: $(. /etc/os-release && echo "${UBUNTU_CODENAME:-$VERSION_CODENAME}")
Components: stable
Signed-By: /etc/apt/keyrings/docker.asc
EOF

bash

Aktualisieren Sie anschließend erneut die Paketliste:

sudo apt update

bash

Installieren Sie außerdem die Docker Engine inklusive Compose-Plugin:

sudo apt install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y

bash

Überprüfen Sie danach, ob Docker korrekt läuft:

sudo systemctl status docker

bash

Sie sollten die Anzeige „active (running)“ sehen, die bestätigt, dass Docker läuft.

Die Anzeige „active“ bestätigt, dass Docker läuft.

Zusätzlich können Sie einen Testcontainer starten:

sudo docker run hello-world

bash

Wenn dabei eine Bestätigungsmeldung erscheint, ist Docker erfolgreich installiert.

Wenn Docker erfolgreich installiert ist, können Sie den Hello-World-Container als ersten Test starten.

Schritt 4: Optional Docker ohne sudo verwenden

Standardmäßig wird Docker unter Linux meist mit sudo ausgeführt. Wenn Sie Docker dennoch ohne sudo verwenden möchten, führen Sie diese Befehle aus:

sudo groupadd docker
sudo usermod -aG docker $USER
newgrp docker

bash

Danach können Sie testen, ob Docker ohne sudo funktioniert:

docker run hello-world

bash

Schritt 5: Bei NVIDIA-GPU das NVIDIA Container Toolkit installieren

Diesen Schritt benötigen Sie nur dann, wenn Ihr Server eine NVIDIA-GPU besitzt und Ollama die GPU im Docker-Container nutzen soll. Installieren Sie zunächst die nötigen Pakete:

sudo apt-get update && sudo apt-get install -y --no-install-recommends ca-certificates curl gnupg2

bash

Fügen Sie dann das NVIDIA-Repository hinzu:

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

bash

Aktualisieren Sie die Paketliste und installieren Sie das Toolkit:

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

bash

Konfigurieren Sie Docker für den NVIDIA-Runtime-Support:

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

bash

Wenn Ihre GPU-Treiber korrekt installiert sind, kann Docker danach GPU-Ressourcen an Container durchreichen.

Schritt 6: Ollama-Container starten

Nun können Sie Ollama selbst als Docker-Container starten. Das offizielle Image heißt ollama/ollama. Für den reinen CPU-Betrieb verwenden Sie folgenden Befehl:

sudo docker run -d \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama

bash

Wenn Sie eine NVIDIA-GPU verwenden und bereits Schritt 5 abgeschlossen haben, starten Sie den Container stattdessen so:

sudo docker run -d \
--gpus=all \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama

bash

Schritt 7: Prüfen, ob der Container läuft

Kontrollieren Sie nun mit folgendem Terminalbefehl, ob der Container auf Ihrem Ollama-Server erfolgreich gestartet wurde:

sudo docker ps

bash

In der Ausgabe sollte ein Container mit dem Namen ollama erscheinen. Zusätzlich sollte zu sehen sein, dass Port 11434 veröffentlicht wurde. Genau dort stellt Ollama später die API bereit.

Der Befehl „docker ps“ liefert eine Anzeige über Ihre Container. Hier sollte nun der Ollama-Container zu sehen sein.

Schritt 8: Ein erstes Modell herunterladen und starten

Sobald der Container läuft, können Sie ein Modell starten. Das offizielle Image zeigt als Beispiel den Aufruf per docker exec. Dadurch führen Sie den Ollama-Befehl direkt im laufenden Container aus.

sudo docker exec -it ollama ollama run llama3

bash

Beim ersten Start lädt Ollama das Modell zunächst herunter. Das kann je nach Modellgröße und Serveranbindung einige Zeit dauern. Anschließend landen Sie in einer interaktiven Konsole, in der Sie direkt Fragen stellen können.

Nachdem Sie Llama3 (oder ein anderes Sprachmodell) gestartet haben, können Sie in der Chatkonsole mit der LLM interagieren.

Wenn Sie lieber ein anderes Modell als Llama3 ausprobieren möchten, können Sie entsprechend einen anderen Modellnamen verwenden. Welche Modelle verfügbar sind, finden Sie in der Ollama-Bibliothek. Die Dokumentation nennt dort unter anderem aktuelle Modelle wie Gemma 3, Qwen3, DeepSeek-R1 und weitere.

Schritt 9: Die Ollama-API testen

Ollama stellt nach dem Start automatisch eine API zur Verfügung. Laut offizieller Dokumentation lautet die Standardbasis http://localhost:11434/api. Einen einfachen Test können Sie direkt auf dem Server mit curl ausführen.

Ein Beispiel für eine einfache Generierungsanfrage könnte in etwa so aussehen:

curl http://localhost/api/generate -d '{
"model": "gemma3",
"prompt": "Erkläre in zwei Sätzen, was Ollama ist.",
"stream": false
}'

bash

Wenn alles korrekt funktioniert, erhalten Sie eine JSON-Antwort oder einen gestreamten Output vom Modell. Damit wissen Sie, dass nicht nur der Container läuft, sondern auch die API ordnungsgemäß erreichbar ist.

Die API liefert Ihnen die Antwort direkt im JSON-Format.

Schritt 10: Alternativ mit Docker Compose arbeiten

Für einen dauerhaft betriebenen Server ist Docker Compose oft angenehmer als ein langer docker run-Befehl. Damit können Sie die Konfiguration in einer Datei speichern und später einfacher anpassen. Erstellen Sie hierzu zunächst ein Verzeichnis für Ihr Setup:

mkdir -p ~/ollama
cd ~/ollama

bash

Erstellen Sie dann eine Datei namens compose.yaml. Wir nutzen hierfür den Editor nano, Sie können aber jeden beliebigen Texteditor verwenden:

nano compose.yaml

bash

Fügen Sie für CPU-Betrieb diesen Inhalt ein:

services:
    ollama:
        image: ollama/ollama
        container_name: ollama
        ports:
            - "11434:11434"
        volumes:
            - ollama:/root/.ollama
        restart: unless-stopped
volumes:
    ollama:

yaml

Für NVIDIA-GPU-Betrieb können Sie je nach Docker-Umgebung eine GPU-Konfiguration ergänzen. In der Praxis ist die einfachste und am häufigsten nachvollziehbare Variante für Anfängerinnen und Anfänger oft weiterhin der direkte Start mit docker run --gpus=all, weil Compose-Setups je nach Docker-Version leicht unterschiedlich aussehen können. Entscheidend ist in jedem Fall, dass Docker die NVIDIA-Runtime korrekt nutzt. Diese Voraussetzung beschreibt NVIDIA in seiner Toolkit-Dokumentation ausdrücklich.

Starten Sie den Dienst anschließend mit folgendem Befehl:

sudo docker compose up -d

bash

Ein Start des Ollama-Containers mit Docker Compose ist angenehmer bei häufiger Nutzung.

Prüfen Sie erneut den Status:

sudo docker compose ps

bash

Sie können sich mit compose ebenfalls den Status Ihres Ollama-Containers anzeigen lassen.

Schritt 11: Wichtige Hinweise für den praktischen Betrieb

Wenn Sie Ollama produktiv oder für andere Geräte im Netzwerk bereitstellen möchten, sollten Sie den Dienst nicht unüberlegt offen ins Internet hängen. Zwar nutzt Ollama standardmäßig Port 11434, im hier gezeigten Docker-Setup wird die API durch -p 11434:11434 jedoch auf dem Host veröffentlicht. Je nach Netzwerk- und Firewall-Konfiguration kann sie damit auch von außen erreichbar sein. Wenn Sie den Zugriff auf den Server selbst beschränken möchten, binden Sie den Port stattdessen nur an 127.0.0.1, etwa mit -p 127.0.0.1:11434:11434, und setzen Sie Ihre Firewall-Regeln entsprechend restriktiv.

Außerdem sollten Sie bedenken, dass Modelle lokal gespeichert werden und daher genügend Speicherplatz verfügbar sein muss. Unter Windows nennt die Dokumentation bereits mehrere Gigabyte nur für die Binärinstallation und zusätzlich teils sehr große Modell-Dateien; auf Linux gilt derselbe Grundgedanke: Modelle brauchen Platz, und zwar nicht zu knapp. Für längere Kontexte, Agenten oder Coding-Anwendungen ist außerdem die verfügbare VRAM-Größe wichtig, weil Ollama die Standard-Kontextlänge an der VRAM-Ausstattung ausrichtet.

10 Jahre Digital Guide: Eine Erfolgsgeschichte

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

Proxmox auf einem Bare-Metal-Server installieren

Proxmox ist eine beliebte Virtualisierungsplattform für Bare-Metal-Server. In dieser Schritt-für-Schritt-Anleitung zeigen wir Ihnen, wie Sie Ihren Server vorbereiten, das BIOS konfigurieren und das bootfähige Installationsmedium für den Proxmox-Install erstellen. Sie erfahren,…

Tutorials
Proxmox

Virrage Imagesshutterstock

Bare-Metal-Server – dedizierte Hardware für anspruchsvolle Webprojekte

„Bare Metal“ – die neueste Produktschöpfung auf dem Webhosting-Markt hört auf einen martialischen Namen. Tatsächlich steht bei Servern mit diesem Beinamen die leistungsstarke Hardware im Fokus. Bei einem Bare-Metal-Server reicht der Zugriff des Nutzers quasi bis aufs blanke…

Datenbank
Linux

sakkmesterkeshutterstock

Cloud GPU auswählen: So finden Sie die passende GPU für Ihr Projekt

Welche Cloud GPU passt zu Ihrem Projekt? Dieser Ratgeber erklärt, wofür Cloud GPUs eingesetzt werden, welche Use Cases es gibt und welche Auswahlkriterien in der Praxis entscheidend sind. Sie erfahren, warum VRAM oft limitiert, wie Rechenleistung richtig bewertet wird und wie Sie…

Ratgeber
GPU Hosting

Connect worldshutterstock

Was sind GPU Server?

Mittlerweile spielen GPU-Server für viele Anwendungen eine zentrale Rolle: Die Fähigkeit, die enorme Rechenleistung der Grafikkarten in Anspruch zu nehmen, hilft in vielen modernen Anwendungsgebieten wie zum Beispiel Machine Learning. Doch was genau ist ein GPU-Server, welche…

Lexikon
GPU Hosting

jijomathaidesignersshutterstock

Was ist eine Private Cloud?

ollten Unternehmen auf eine Private Cloud oder eine Public Cloud setzen? Eine Private Cloud bietet exklusive IT-Ressourcen, hohe Sicherheit und individuelle Anpassungsmöglichkeiten. Sie eignet sich besonders für Firmen mit hohen Datenschutzanforderungen. Erfahren Sie, wie eine…

Lexikon
Private Cloud
Cloud Computing

NDAB Creativityshutterstock

Docker auf Ubuntu 22.04 installieren – Schritt-für-Schritt-Anleitung

Für Entwicklerinnen und Entwickler, die häufig mit Linux-Systemen arbeiten, ist Docker ein alltägliches Tool. Daher überrascht es kaum, dass die Installation unter Linux eine Sache weniger Minuten ist. Wir zeigen Ihnen in diesem Artikel, wie Sie Docker unter Ubuntu 22.04…

Linux
Tutorials
Docker

Ollama-Install mit Docker: Schritt für Schritt zum eigenen Ollama-Server

Was ist Ollama?

Welcher Server passt zu Ihrem Vorhaben?

Use Case 1: Einfache Text­auf­ga­ben, Tests und kleine Chatbots

Use Case 2: Interne Wis­sens­bots, kleine APIs und Em­bed­dings

Use Case 3: Coding-As­sis­ten­ten und flüssig laufende Agenten

Use Case 4: Pro­fes­sio­nel­le An­wen­dun­gen mit mehreren Usern

Use Case 5: Sehr große Modelle und High-End-Inferenz

Übersicht: Welcher Server für welchen Zweck?

Ollama auf einem Server mit Docker in­stal­lie­ren: Schritt für Schritt

Schritt 1: Mit dem Server verbinden

Schritt 2: System ak­tua­li­sie­ren

Schritt 3: Docker in­stal­lie­ren

Schritt 4: Optional Docker ohne sudo verwenden

Schritt 5: Bei NVIDIA-GPU das NVIDIA Container Toolkit in­stal­lie­ren

Schritt 6: Ollama-Container starten

Schritt 7: Prüfen, ob der Container läuft

Schritt 8: Ein erstes Modell her­un­ter­la­den und starten

Schritt 9: Die Ollama-API testen

Schritt 10: Al­ter­na­tiv mit Docker Compose arbeiten

Schritt 11: Wichtige Hinweise für den prak­ti­schen Betrieb

Use Case 1: Einfache Textaufgaben, Tests und kleine Chatbots

Use Case 2: Interne Wissensbots, kleine APIs und Embeddings

Use Case 3: Coding-Assistenten und flüssig laufende Agenten

Use Case 4: Professionelle Anwendungen mit mehreren Usern

Ollama auf einem Server mit Docker installieren: Schritt für Schritt

Schritt 2: System aktualisieren

Schritt 3: Docker installieren

Schritt 5: Bei NVIDIA-GPU das NVIDIA Container Toolkit installieren

Schritt 8: Ein erstes Modell herunterladen und starten

Schritt 10: Alternativ mit Docker Compose arbeiten

Schritt 11: Wichtige Hinweise für den praktischen Betrieb