Je nach geplantem Einsatz kann für den Betrieb von Ollama ein anderer Servertyp sinnvoll sein: Für kleine Chatbots genügt oft ein größerer VPS, während Agenten, Coding-Workloads oder sehr große Modelle meist eine GPU oder sogar de­di­zier­te Hardware benötigen. Ollama er­leich­tert den lokalen oder ser­ver­sei­ti­gen Betrieb großer Sprach­mo­del­le deutlich, indem es Modelle verwaltet, startet und über eine einfache API be­reit­stellt.

Free VPS Trial
vServer kostenlos testen für 30 Tage

Lassen Sie sich von den Vorteilen über­zeu­gen. Probieren Sie Ihren Virtual Server ganz in Ruhe 30 Tage lang aus!

Was ist Ollama?

Ollama ist eine Software, mit der Sie große Sprach­mo­del­le wie Gemma, Qwen, DeepSeek oder andere kom­pa­ti­ble Modelle lokal oder auf einem eigenen Server ausführen können. Die Plattform stellt dafür eine einfache Kom­man­do­zei­len­ober­flä­che sowie eine REST-API bereit, über die sich Modelle starten und in eigene An­wen­dun­gen in­te­grie­ren lassen. Ollama eignet sich auf diese Weise nicht nur zum Chatten im Terminal, sondern auch als Modell-Backend für eigene Tools, As­sis­ten­ten oder Ent­wick­lungs­um­ge­bun­gen.

Besonders attraktiv ist Ollama für Nut­ze­rin­nen und Nutzer, die Modelle nicht über einen fremden Cloud-Dienst an­spre­chen, sondern auf eigener In­fra­struk­tur betreiben möchten. Die In­ter­ak­tio­nen erfolgen lokal und die Software übernimmt das Laden und Ausführen der Modelle sowie den Zugriff per CLI oder API. Für Ein­stei­ge­rin­nen und Ein­stei­ger ist das praktisch, weil sie kein kom­plet­tes Inferenz-Setup von Grund auf selbst bauen müssen, sondern mit wenigen Befehlen starten können.

Hinweis

Ollama dient in vielen KI-Projekten lediglich als Modell-Backend, das Sprach­mo­del­le lokal oder auf einem Server ausführt und über eine API be­reit­stellt. Darauf aufbauend können Agent-Frame­works wie OpenClaw mit Ollama genutzt werden, um komplexe Workflows zu au­to­ma­ti­sie­ren. In solchen Setups übernimmt Ollama die ei­gent­li­che Modell-Inferenz, während OpenClaw Aufgaben wie Tool-Nutzung, mehr­stu­fi­ge Agen­ten­pro­zes­se oder au­to­ma­ti­sier­te Aktionen steuert.

Welcher Server passt zu Ihrem Vorhaben?

Bevor Sie mit der In­stal­la­ti­on beginnen, sollten Sie festlegen, wofür Sie Ollama tat­säch­lich einsetzen möchten. Nicht jede Anwendung braucht eine GPU, aber sobald Antworten flüssig kommen sollen, mehrere Anfragen parallel laufen oder größere KI-Modelle ein­ge­setzt werden, steigen die An­for­de­run­gen schnell an. Die Mo­dell­grö­ße ist dabei ein ent­schei­den­der Faktor: Ollama nennt für 7B-Modelle min­des­tens 8 GB RAM, für 13B-Modelle min­des­tens 16 GB RAM und für 70B-Modelle min­des­tens 64 GB RAM als grobe Ori­en­tie­rung. Zu­sätz­lich spielt die ver­füg­ba­re VRAM-Aus­stat­tung der GPU eine wichtige Rolle, weil sie Ge­schwin­dig­keit, Kon­text­län­ge und prak­ti­sche Nutz­bar­keit stark be­ein­flusst.

Use Case 1: Einfache Text­auf­ga­ben, Tests und kleine Chatbots

Wenn Sie Ollama vor allem zum Aus­pro­bie­ren, für einfache Text­ge­ne­rie­rung, kleine Hilfsbots oder interne Tests nutzen möchten, reicht oft ein leis­tungs­stär­ke­rer VPS ohne de­di­zier­te GPU aus. In diesem Szenario laufen ty­pi­scher­wei­se kleinere KI-Modelle. Diese benötigen min­des­tens 8 GB RAM, wobei in der Praxis etwas Reserve sinnvoll ist, damit Be­triebs­sys­tem, Docker und Hin­ter­grund­pro­zes­se den Server nicht aus­brem­sen. Für einen Einstiegs-Ollama-Server sind daher 16 GB RAM meist die ver­nünf­ti­ge­re Un­ter­gren­ze. Rechnen Sie außerdem mit zu­sätz­li­chem Spei­cher­platz, denn neben dem Docker-Setup müssen auch die Mo­dell­da­tei­en abgelegt werden, die schnell mehrere Gigabyte groß sein können.

Der große Vorteil eines VPS liegt in den über­schau­ba­ren Kosten und der einfachen Be­reit­stel­lung. Der Nachteil ist die deutlich geringere Ge­schwin­dig­keit im Vergleich zu GPU-Servern. Für Lern­zwe­cke, Demo-Projekte und einfache API-Endpunkte ist ein VPS mit 4 vCPU, 16 GB RAM und SSD-Speicher dennoch oft ein sinn­vol­ler Einstieg.

Use Case 2: Interne Wis­sens­bots, kleine APIs und Em­bed­dings

Wenn Sie Ollama als Backend für eine kleine interne Wis­sens­da­ten­bank, für Retrieval-Augmented-Ge­ne­ra­ti­on oder für Em­bed­dings nutzen möchten, steigen die An­for­de­run­gen bereits an. Hier geht es nicht nur um eine einzelne Chat-Ausgabe, sondern oft um wie­der­hol­te API-Aufrufe, Hin­ter­grund­ver­ar­bei­tung und eine stabilere Laufzeit. Zwar können solche Szenarien weiterhin auf einem CPU-Server oder großen VPS laufen, sinnvoll wird aber mehr Ar­beits­spei­cher, damit Modelle und Daten nicht ständig neu geladen werden müssen. Ein Server mit 16 bis 32 GB RAM ist für solche Aufgaben deutlich an­ge­neh­mer.

Wenn zu­sätz­lich mehrere Nut­ze­rin­nen und Nutzer gleich­zei­tig auf den Dienst zugreifen, lohnt sich eine CPU mit mehr Kernen oder der Umstieg auf einen GPU-Server. Ollama un­ter­stützt neben Text­ge­ne­rie­rung auch Em­bed­dings über die API, was es auch für Such- und Wis­sens­an­wen­dun­gen in­ter­es­sant macht. Für kleine Teams oder interne Tools kann deshalb ein großer VPS oder ein kleiner Dedicated Server ohne GPU bereits aus­rei­chen, sofern keine extrem niedrigen Ant­wort­zei­ten erwartet werden. Wer al­ler­dings eine sichtbar flüssige Be­nut­zer­er­fah­rung möchte, sollte auch in diesem Bereich eine GPU in Erwägung ziehen. Grund­sätz­lich gilt: Je in­ter­ak­ti­ver und je par­al­le­ler Ihr Dienst genutzt wird, desto eher stößt ein reiner CPU-Server an seine Grenzen.

Use Case 3: Coding-As­sis­ten­ten und flüssig laufende Agenten

Sobald Ollama für Coding-As­sis­ten­ten, halb­au­to­no­me Agenten oder andere in­ter­ak­ti­ve Workflows genutzt werden soll, wird eine GPU deutlich emp­feh­lens­wer­ter. Der Grund ist simpel: Solche An­wen­dun­gen pro­fi­tie­ren massiv davon, wenn Antworten schnell generiert werden und Modelle mit größerem Kontext flüssig arbeiten können. Dabei hängen die Standard-Kon­text­län­gen unter anderem von der ver­füg­ba­ren VRAM-Größe ab. Für Agenten, Websuche, Coding-Tools oder längere Ar­beits­kon­tex­te empfiehlt die Do­ku­men­ta­ti­on min­des­tens 32.000 bis 64.000 AI-Tokens Kontext.

Damit wird klar, dass ein einfacher CPU-VPS für solche Vorhaben meist nicht die ideale Wahl ist. Besser geeignet ist ein GPU-Cloud-Server mit aktueller NVIDIA-GPU, kom­bi­niert mit aus­rei­chend RAM und schnellem NVMe-Speicher. Damit lassen sich mit­tel­gro­ße Modelle deutlich an­ge­neh­mer betreiben. Auch mehr­stu­fi­ge Agenten-Workflows werden auf diese Weise prak­ti­ka­bel. Für am­bi­tio­nier­te Ein­zel­pro­jek­te, Pro­to­ty­pen und Ent­wick­lungs­teams ist dies häufig der beste Mittelweg zwischen Kosten und Leistung.

Use Case 4: Pro­fes­sio­nel­le An­wen­dun­gen mit mehreren Usern

Wenn Sie Ollama als festen Be­stand­teil einer pro­fes­sio­nel­len Anwendung einsetzen möchten, ändern sich die An­for­de­run­gen erneut. Dann geht es nicht mehr nur darum, ob ein Modell grund­sätz­lich läuft, sondern ob es stabil, re­pro­du­zier­bar und unter Last per­for­mant arbeitet. In solchen Szenarien sollten Sie an genügend RAM, eine leis­tungs­fä­hi­ge GPU, Reserven für mehrere parallele Prozesse, Mo­ni­to­ring und aus­rei­chend Spei­cher­platz für mehrere Modelle denken. Da Ollama Modelle per API be­reit­stellt, kann es gut als internes Modell-Backend dienen, aber die Ser­ver­aus­wahl muss auf Ver­füg­bar­keit und Last­ver­hal­ten ausgelegt sein.

Ein leis­tungs­fä­hi­ger GPU-Dedicated-Server oder ein pro­fes­sio­nel­ler GPU-Cloud-Server ist hier in aller Regel die bessere Wahl als ein kleiner VPS. Sinnvoll sind in diesem Bereich oft 64 GB RAM oder mehr, dazu eine starke NVIDIA-GPU und ein sauberer Be­triebs­auf­bau mit Per­sis­tenz für Mo­dell­da­tei­en. Gerade bei pro­duk­ti­ven An­wen­dun­gen ist außerdem wichtig, dass Docker und ge­ge­be­nen­falls die NVIDIA-Container-Toolkit-Kon­fi­gu­ra­ti­on sauber ein­ge­rich­tet werden, damit die GPU im Docker-Container auch wirklich genutzt werden kann.

Use Case 5: Sehr große Modelle und High-End-Inferenz

Wenn Sie sehr große Modelle im Bereich 70B oder darüber ausführen möchten, bewegen Sie sich klar im High-End-Segment. Ollama nennt für 70B-Modelle min­des­tens 64 GB RAM als grobe Min­dest­an­for­de­rung. In der Praxis reichen Server basierend auf Vir­tua­li­sie­rung hier meist nicht aus, ins­be­son­de­re wenn die Ant­wort­zei­ten gut sein sollen oder mehrere Prozesse parallel laufen. Für solche Szenarien ist ein de­di­zier­ter Server mit sehr leis­tungs­fä­hi­ger GPU-Hardware deutlich rea­lis­ti­scher als ein normaler VPS.

Im pro­fes­sio­nel­len Umfeld kommen dafür ty­pi­scher­wei­se spe­zia­li­sier­te GPU-Systeme mit viel VRAM infrage, etwa Server mit NVIDIA-A100- oder NVIDIA-H100-Karten oder ver­gleich­bar aus­ge­stat­te­te Hoch­leis­tungs­um­ge­bun­gen. Das ist kost­spie­lig, aber für große Modelle, lange Kontexte und pro­duk­ti­ve High-End-Workloads quasi al­ter­na­tiv­los.

Übersicht: Welcher Server für welchen Zweck?

Ziel Emp­foh­le­ne Hardware Kosten (geschätzt)
Einfacher Bot / API VPS mit 4 vCPU, 16 GB RAM, SSD +
Interne Wis­sens­bots / Em­bed­dings Großer VPS oder kleiner Dedicated Server mit 16–32 GB RAM + / ++
Coding und Agenten GPU-Cloud-Server mit moderner GPU ++
Pro­fes­sio­nel­le An­wen­dun­gen Leis­tungs­star­ker GPU-Cloud-Server oder Dedicated Server mit viel RAM ++ / +++
High-End (70B+) Dedicated Server mit A100/H100 oder ver­gleich­ba­rer High-End-GPU +++

Kos­ten­le­gen­de: + = gering, ++ = mittel, +++ = hoch

Ollama auf einem Server mit Docker in­stal­lie­ren: Schritt für Schritt

Im folgenden Abschnitt zeigen wir den Ollama-Install auf einem Linux-Server mit Docker. Für Ein­stei­ge­rin­nen und Ein­stei­ger ist die Kom­bi­na­ti­on von Ollama und Docker besonders praktisch, weil Ollama dabei in einem Container läuft und Sie weniger manuell im System verändern müssen. Für GPU-Betrieb unter Linux mit NVIDIA-GPU benötigen Sie zu­sätz­lich das NVIDIA Container Toolkit, damit Docker die GPU an den Container durch­rei­chen kann.

Schritt 1: Mit dem Server verbinden

Verbinden Sie sich zunächst per SSH mit Ihrem Server. Dazu benötigen Sie die IP-Adresse des Servers sowie einen User mit sudo-Rechten.

ssh BENUTZERNAME@SERVER-IP
bash

Wenn Sie sich zum ersten Mal verbinden, fragt Ihr System in der Regel nach einer Be­stä­ti­gung des Host-Schlüs­sels. Geben Sie yes ein und an­schlie­ßend Ihr Passwort oder verwenden Sie Ihren SSH-Schlüssel. Danach befinden Sie sich im Terminal Ihres Servers und können mit der Ein­rich­tung beginnen.

Schritt 2: System ak­tua­li­sie­ren

Bevor Sie Docker und Ollama in­stal­lie­ren, sollten Sie die Pa­ket­lis­ten ak­tua­li­sie­ren und vor­han­de­ne Pakete auf den neuesten Stand bringen. Damit stellen Sie sicher, dass Ihr System aktuelle Si­cher­heits­up­dates und Pa­ket­ver­sio­nen verwendet. Gerade auf frisch be­reit­ge­stell­ten Servern ist das ein sinn­vol­ler erster Schritt, bevor weitere Software in­stal­liert wird.

sudo apt update && sudo apt upgrade -y
bash

Schritt 3: Docker in­stal­lie­ren

Für Ubuntu 24.04 empfiehlt Docker die In­stal­la­ti­on über das of­fi­zi­el­le APT-Re­po­si­to­ry. Dabei wird die aktuelle Re­po­si­to­ry-Datei im Deb822-Format unter /etc/apt/sources.list.d/docker.sources ein­ge­rich­tet. Un­ter­stützt werden unter anderem Ubuntu 24.04 sowie mehrere Ar­chi­tek­tu­ren wie bei­spiels­wei­se amd64 und arm64. In­stal­lie­ren Sie hierzu zunächst die be­nö­tig­ten Hilfs­pa­ke­te:

sudo apt install ca-certificates curl -y
bash

Erstellen Sie danach das Ver­zeich­nis für den Schlüs­sel­bund:

sudo install -m 0755 -d /etc/apt/keyrings
bash

Laden Sie an­schlie­ßend den of­fi­zi­el­len Docker-Schlüssel herunter:

sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc
bash

Richten Sie nun wie folgt das Docker-Re­po­si­to­ry ein:

sudo tee /etc/apt/sources.list.d/docker.sources <<EOF
Types: deb
URIs: https://download.docker.com/linux/ubuntu
Suites: $(. /etc/os-release && echo "${UBUNTU_CODENAME:-$VERSION_CODENAME}")
Components: stable
Signed-By: /etc/apt/keyrings/docker.asc
EOF
bash

Ak­tua­li­sie­ren Sie an­schlie­ßend erneut die Pa­ket­lis­te:

sudo apt update
bash

In­stal­lie­ren Sie außerdem die Docker Engine inklusive Compose-Plugin:

sudo apt install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y
bash

Über­prü­fen Sie danach, ob Docker korrekt läuft:

sudo systemctl status docker
bash

Sie sollten die Anzeige „active (running)“ sehen, die bestätigt, dass Docker läuft.

Bild: Statusanzeige von Docker auf Ihrem Ollama-Server
Die Anzeige „active“ bestätigt, dass Docker läuft.

Zu­sätz­lich können Sie einen Test­con­tai­ner starten:

sudo docker run hello-world
bash

Wenn dabei eine Be­stä­ti­gungs­mel­dung erscheint, ist Docker er­folg­reich in­stal­liert.

Bild: Hello-World-Container auf Ihrem Ollama-Server
Wenn Docker er­folg­reich in­stal­liert ist, können Sie den Hello-World-Container als ersten Test starten.

Schritt 4: Optional Docker ohne sudo verwenden

Stan­dard­mä­ßig wird Docker unter Linux meist mit sudo aus­ge­führt. Wenn Sie Docker dennoch ohne sudo verwenden möchten, führen Sie diese Befehle aus:

sudo groupadd docker
sudo usermod -aG docker $USER
newgrp docker
bash

Danach können Sie testen, ob Docker ohne sudo funk­tio­niert:

docker run hello-world
bash

Schritt 5: Bei NVIDIA-GPU das NVIDIA Container Toolkit in­stal­lie­ren

Diesen Schritt benötigen Sie nur dann, wenn Ihr Server eine NVIDIA-GPU besitzt und Ollama die GPU im Docker-Container nutzen soll. In­stal­lie­ren Sie zunächst die nötigen Pakete:

sudo apt-get update && sudo apt-get install -y --no-install-recommends ca-certificates curl gnupg2
bash

Fügen Sie dann das NVIDIA-Re­po­si­to­ry hinzu:

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
bash

Ak­tua­li­sie­ren Sie die Pa­ket­lis­te und in­stal­lie­ren Sie das Toolkit:

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
bash

Kon­fi­gu­rie­ren Sie Docker für den NVIDIA-Runtime-Support:

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
bash

Wenn Ihre GPU-Treiber korrekt in­stal­liert sind, kann Docker danach GPU-Res­sour­cen an Container durch­rei­chen.

Schritt 6: Ollama-Container starten

Nun können Sie Ollama selbst als Docker-Container starten. Das of­fi­zi­el­le Image heißt ollama/ollama. Für den reinen CPU-Betrieb verwenden Sie folgenden Befehl:

sudo docker run -d \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
bash

Wenn Sie eine NVIDIA-GPU verwenden und bereits Schritt 5 ab­ge­schlos­sen haben, starten Sie den Container statt­des­sen so:

sudo docker run -d \
--gpus=all \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
bash

Schritt 7: Prüfen, ob der Container läuft

Kon­trol­lie­ren Sie nun mit folgendem Ter­mi­nal­be­fehl, ob der Container auf Ihrem Ollama-Server er­folg­reich gestartet wurde:

sudo docker ps
bash

In der Ausgabe sollte ein Container mit dem Namen ollama er­schei­nen. Zu­sätz­lich sollte zu sehen sein, dass Port 11434 ver­öf­fent­licht wurde. Genau dort stellt Ollama später die API bereit.

Bild: Screenshot der Ausgabe von docker ps
Der Befehl „docker ps“ liefert eine Anzeige über Ihre Container. Hier sollte nun der Ollama-Container zu sehen sein.

Schritt 8: Ein erstes Modell her­un­ter­la­den und starten

Sobald der Container läuft, können Sie ein Modell starten. Das of­fi­zi­el­le Image zeigt als Beispiel den Aufruf per docker exec. Dadurch führen Sie den Ollama-Befehl direkt im laufenden Container aus.

sudo docker exec -it ollama ollama run llama3
bash

Beim ersten Start lädt Ollama das Modell zunächst herunter. Das kann je nach Mo­dell­grö­ße und Ser­ver­an­bin­dung einige Zeit dauern. An­schlie­ßend landen Sie in einer in­ter­ak­ti­ven Konsole, in der Sie direkt Fragen stellen können.

Bild: Ollama mit Llama3
Nachdem Sie Llama3 (oder ein anderes Sprach­mo­dell) gestartet haben, können Sie in der Chat­kon­so­le mit der LLM in­ter­agie­ren.

Wenn Sie lieber ein anderes Modell als Llama3 aus­pro­bie­ren möchten, können Sie ent­spre­chend einen anderen Mo­dell­na­men verwenden. Welche Modelle verfügbar sind, finden Sie in der Ollama-Bi­blio­thek. Die Do­ku­men­ta­ti­on nennt dort unter anderem aktuelle Modelle wie Gemma 3, Qwen3, DeepSeek-R1 und weitere.

Schritt 9: Die Ollama-API testen

Ollama stellt nach dem Start au­to­ma­tisch eine API zur Verfügung. Laut of­fi­zi­el­ler Do­ku­men­ta­ti­on lautet die Stan­dard­ba­sis http://localhost:11434/api. Einen einfachen Test können Sie direkt auf dem Server mit curl ausführen.

Ein Beispiel für eine einfache Ge­ne­rie­rungs­an­fra­ge könnte in etwa so aussehen:

curl http://localhost/api/generate -d '{
"model": "gemma3",
"prompt": "Erkläre in zwei Sätzen, was Ollama ist.",
"stream": false
}'
bash

Wenn alles korrekt funk­tio­niert, erhalten Sie eine JSON-Antwort oder einen ge­stream­ten Output vom Modell. Damit wissen Sie, dass nicht nur der Container läuft, sondern auch die API ord­nungs­ge­mäß er­reich­bar ist.

Bild: Aufruf an die Ollama-API
Die API liefert Ihnen die Antwort direkt im JSON-Format.

Schritt 10: Al­ter­na­tiv mit Docker Compose arbeiten

Für einen dauerhaft be­trie­be­nen Server ist Docker Compose oft an­ge­neh­mer als ein langer docker run-Befehl. Damit können Sie die Kon­fi­gu­ra­ti­on in einer Datei speichern und später einfacher anpassen. Erstellen Sie hierzu zunächst ein Ver­zeich­nis für Ihr Setup:

mkdir -p ~/ollama
cd ~/ollama
bash

Erstellen Sie dann eine Datei namens compose.yaml. Wir nutzen hierfür den Editor nano, Sie können aber jeden be­lie­bi­gen Text­edi­tor verwenden:

nano compose.yaml
bash

Fügen Sie für CPU-Betrieb diesen Inhalt ein:

services:
    ollama:
        image: ollama/ollama
        container_name: ollama
        ports:
            - "11434:11434"
        volumes:
            - ollama:/root/.ollama
        restart: unless-stopped
volumes:
    ollama:
yaml

Für NVIDIA-GPU-Betrieb können Sie je nach Docker-Umgebung eine GPU-Kon­fi­gu­ra­ti­on ergänzen. In der Praxis ist die ein­fachs­te und am häu­figs­ten nach­voll­zieh­ba­re Variante für An­fän­ge­rin­nen und Anfänger oft weiterhin der direkte Start mit docker run --gpus=all, weil Compose-Setups je nach Docker-Version leicht un­ter­schied­lich aussehen können. Ent­schei­dend ist in jedem Fall, dass Docker die NVIDIA-Runtime korrekt nutzt. Diese Vor­aus­set­zung be­schreibt NVIDIA in seiner Toolkit-Do­ku­men­ta­ti­on aus­drück­lich.

Starten Sie den Dienst an­schlie­ßend mit folgendem Befehl:

sudo docker compose up -d
bash
Bild: Container starten mit compose
Ein Start des Ollama-Con­tai­ners mit Docker Compose ist an­ge­neh­mer bei häufiger Nutzung.

Prüfen Sie erneut den Status:

sudo docker compose ps
bash
Bild: Container-Status
Sie können sich mit compose ebenfalls den Status Ihres Ollama-Con­tai­ners anzeigen lassen.

Schritt 11: Wichtige Hinweise für den prak­ti­schen Betrieb

Wenn Sie Ollama produktiv oder für andere Geräte im Netzwerk be­reit­stel­len möchten, sollten Sie den Dienst nicht un­über­legt offen ins Internet hängen. Zwar nutzt Ollama stan­dard­mä­ßig Port 11434, im hier gezeigten Docker-Setup wird die API durch -p 11434:11434 jedoch auf dem Host ver­öf­fent­licht. Je nach Netzwerk- und Firewall-Kon­fi­gu­ra­ti­on kann sie damit auch von außen er­reich­bar sein. Wenn Sie den Zugriff auf den Server selbst be­schrän­ken möchten, binden Sie den Port statt­des­sen nur an 127.0.0.1, etwa mit -p 127.0.0.1:11434:11434, und setzen Sie Ihre Firewall-Regeln ent­spre­chend re­strik­tiv.

Außerdem sollten Sie bedenken, dass Modelle lokal ge­spei­chert werden und daher genügend Spei­cher­platz verfügbar sein muss. Unter Windows nennt die Do­ku­men­ta­ti­on bereits mehrere Gigabyte nur für die Bi­när­in­stal­la­ti­on und zu­sätz­lich teils sehr große Modell-Dateien; auf Linux gilt derselbe Grund­ge­dan­ke: Modelle brauchen Platz, und zwar nicht zu knapp. Für längere Kontexte, Agenten oder Coding-An­wen­dun­gen ist außerdem die ver­füg­ba­re VRAM-Größe wichtig, weil Ollama die Standard-Kon­text­län­ge an der VRAM-Aus­stat­tung aus­rich­tet.

Zum Hauptmenü