零基础用 VPS 搭建本地大模型：Ollama + DeepSeek/Llama3 保姆级实战教程

KUKU • 2026年1月10日 09:28 • Linux • 阅读 368

本文详细介绍了如何在VPS或本地电脑上使用Ollama工具搭建私有AI大模型的完整教程。文章首先阐述了自建AI模型的核心价值在于保障隐私安全、数据可控及免受外部内容审查限制。接着，它说明了运行模型对硬件的基本要求，并推荐了在无GPU的VPS上可选的配置。教程的核心部分是使用Ollama这一模型管理工具，通过几条命令即可下载和运行如DeepSeek-R1或Qwen3等主流开源模型。此外，文章还指导用户通过Docker部署Open WebUI，以提供更友好的网页交互界面。最后，教程解答了关于安全性、硬件需求及资源占用等常见问题，指出整个过程比想象中简单，让用户能拥有一个专属的本地AI助手。

本来我也想让 AI 帮我写这段开头，但试了几次之后发现，那种光鲜却“千篇一律”的引言一眼就能看出是机器写的，反而少了真实体验感。既然主题是“自建 AI 模型”，更合适的做法，就是老老实实用人手写完，用自己的话讲清楚：我为什么要在服务器上搭一个专属 AI 助手，以及整个过程到底有多简单、哪些坑需要注意。

这篇文章会从选机器、选模型，到命令操作、Web 面板接入，一步一步拆开讲，零基础也能照着做下来，把属于自己的 AI 大模型跑在 VPS 或电脑上。

一、为什么要自己搭建 AI？

现在几乎所有人都在用 AI：写文案、写代码、查资料、做总结……我平时写博客、折腾 VPS 时，也经常把问题丢给 AI，让它当“随叫随到的工具人”。

但用久了，总有几件事让我不太安心，也正是这些原因，让我决定自己搭一个“私人 AI 助手”。

1、隐私问题

公开内容丢给在线 AI 没什么心理负担，可一旦涉及这些类型的信息，我基本不会用云端 AI 来处理：

公司合同、项目方案、内部运营文档
身份证、护照等个人隐私材料
各种账号密码、服务器 IP、配置文件等敏感信息

无论服务商写了多少“严格保护隐私”“不会泄露数据”，从技术上讲，只要运算在别人的机器上，对方就有能力看到你的输入，更难保证这些数据未来不会被纳入训练集继续用来喂模型。

2、数据安全与可控性

很多在线大模型服务的条款里都写得很清楚：你在产品中输入的内容，可能被用于“优化服务”或“提升模型质量”。
对闲聊来说没什么大问题，但如果是：

自家产品的业务逻辑
客户数据、订单信息
独特算法思路或代码结构

被服务商拿去当训练素材，总还是有点别扭。自建模型的一个重要好处就是：算力在自己的机器上，训练与推理的数据掌握在自己手里，输入输出是否持久化、日志怎么留、要不要加额外加密，全部由你自己决定。

3、审查和限制

公有云上的 AI 往往带着较严格的内容审查和话题限制。很多时候你只是想了解一些“边缘但不违法”的技术或理论，比如：

某些隐私、医学相关的细节概念
一些网络安全、攻防原理类问题

不少国内 AI 会直接回一句“作为一个 AI 语言模型，我不能……”顺带给你上一堂“道德规范课”。
而在自建模型里，你可以自己划定边界。模型本身可能还有一些基础安全策略，但整体已经不再受平台风控、关键字黑名单这些外部策略的强约束。当然，这也意味着：你要对自己的使用结果负责。

总结一下，自建 AI 的核心价值就三个关键词：

体验更自由、隐私可控、数据更安全。

二、自建 AI 模型对电脑或服务器配置要求

要在本地电脑或 VPS 上比较顺畅地跑大模型，硬件配置不能太“拉垮”。理论上几乎任何机器都能跑，但硬件越弱，生成一个字要等的时间就越长，体验会从“稍慢”一路掉到“完全不能用”。

1. 在本地电脑上跑（Windows / macOS）

Windows 建议：

显卡：建议至少 GTX 960 / GTX 1060 往上
内存：16 GB 起步会舒服很多
硬盘：预留几十 GB 放模型和缓存

如果显卡过于老旧或者显存太小，模型是能跑，但输出速度可能慢到你怀疑人生——比如连续几秒才蹦出一个字。

macOS 建议：

芯片：Apple Silicon（M 系列） 优先
内存：16 GB 更稳妥，尤其是想跑 8B 级别模型时
硬盘：同样建议至少预留几十 GB 空间

M 系列的 NPU/GPU 对这类推理任务挺友好，很多时候一台 M1/M2 笔记本的体验都能比老台式机更好。

2. 在 VPS / 服务器上跑（无 GPU 场景）

如果你不想占用自己电脑的资源，或者希望在外面也能随时连上自己的模型，那么在云服务器上跑 AI 模型 是非常合适的方案。[5]

以我自己的实践为例：
我用的是 Netcup 的 Root Server RS 1000 G12，配置如下：

4 核 CPU
8 GB 内存
256 GB SSD

在这个配置上跑 4B/8B 模型，虽然算不上“飞快”，但日常问答、写文案已经够用。

无 GPU 场景的最低推荐配置：

CPU：4 核起步（2 核也能跑，只是响应会明显偏慢）
内存：8 GB 更合适，4 GB 基本只能跑非常小的模型
硬盘：至少预留 20–50 GB 给模型和环境（多个模型的话还要更多）

如果你 VPS 预算有限，也可以参照一些针对轻量场景的 VPS 选型文章中对配置和流量的建议进行取舍。[6]

三、自建 AI 模型需要提前了解的事情

刚开始看到“自建 AI 模型”这几个字时，我也以为是个异常复杂的大工程，要搭一堆依赖、自己编译模型、调环境变量之类。
真正查完资料并动手实践一次后，会发现这件事本质上就像安装一个比较吃资源的软件，步骤主要集中在：

安装一个叫 Ollama 的“模型管理器”（类似应用商店 + 运行时）
通过几条命令下载你想用的模型
通过命令行或 Web 界面连接上去聊天或做推理

整体流程比想象中简单得多，多数时候就是三到五条命令的事，复杂度远低于手工部署一套邮件系统、CDN 或家用 NAS 服务。[3][4]

四、Ollama 是什么？为什么选择它？

Ollama 是目前在本地/服务器运行大语言模型（如 GPT-OSS、Gemma 3、DeepSeek-R1、Qwen3 等）最简单的工具之一。可以把它理解成：

一套统一的本地推理引擎
外加一个“模型应用市场”

主流开源模型基本都可以在它的模型库中直接拉取，省去了自己找权重、对接各种推理框架的麻烦。

Ollama 支持三个主流平台：Windows、macOS 和 Linux。无论是本地电脑还是云服务器，只要系统符合要求，都能通过统一命令部署。

Ollama 官方主页：https://ollama.com
Ollama 下载页：https://ollama.com/download
Ollama 官方 GitHub 仓库：https://github.com/ollama/ollama/

五、热门自建 AI 模型都有哪些？

在 Ollama 的官方模型库页面，可以查看目前支持的所有模型、更新时间和下载热度。
DeepSeek 这类模型的下载量非常高，说明在自建圈子里已经成了“常客”。

下面是按机构/公司简单梳理的一张模型概览表（以目前常见开源或开放权重模型为主）：

公司 / 机构	代表模型（开源/开放权重）	简要定位
Meta（Facebook）	Llama 3.1 / Llama 3.3 / Llama 4	目前生态影响力最大的一类通用开源模型，性能稳、社区活跃。
阿里巴巴 / 通义（Qwen）	Qwen3、Qwen2.5、Qwen3-VL、Qwen-Coder	中文能力突出，多模态和代码能力都很强，适合作为综合型助手。
DeepSeek	DeepSeek-R1、DeepSeek-V3、DeepSeek-Coder	推理能力强，性价比高，中英文环境都表现很好。
Mistral AI（欧洲）	Mistral Large、Mistral Small、Mixtral	以轻量高效著称，企业应用和 API 场景友好。
微软（Microsoft）	Phi-4、Phi-4-mini、Phi 系列	高质量“小模型”代表，适合本地部署和边缘设备。
Google / DeepMind	Gemma2、Gemma3、Gemma-Vision、Embedding Gemma	模型高效易部署，多模态能力不错，单机可用。
智谱 AI（ZhipuAI）	GLM-4 / GLM-4.6	在中文场景表现优异，对话和推理能力兼顾。
OpenAI（开放权重）	GPT-OSS、GPT-OSS-Safeguard	更偏开发者与工具调用方向的模型。

关于模型中的 “B” 是什么意思？

你可能会注意到很多模型名字后面都有类似 2B、4B、8B、14B 这样的尾缀。
这里的 B 是 “Billion”（十亿） 的缩写，用来表示模型参数数量（Parameters）。

你可以把“参数”粗略理解成大脑里的“神经元连接”，参数越多，潜在表达能力越强，但对硬件的要求也越苛刻。

大致可以这样理解：

0.6B ≈ 6 亿参数：极简“迷你脑”，适合极低配环境或简单任务
4B ≈ 40 亿参数：中等规模模型，兼顾效果和资源占用
8B ≈ 80 亿参数：主流级别，效果明显更好，但对内存、算力要求更高
14B / 32B：大模型，需要高端显卡、足够显存才能舒适使用
200B+：超大规模模型，一般要多卡服务器或集群才能带得动

对于一台无 GPU 的 VPS，这个“B 数量”直接影响三个核心指标：

模型的“智力/逻辑能力”
内存（RAM）占用
CPU 上的运行速度

结合 CPU 场景，可以粗略给一个参考表（不同模型会有差异，仅作为选型方向）：

尾缀（参数量）	智力 / 逻辑能力	所需内存（大致）	CPU 运行速度	推荐场景
0.6B / 1.7B	比较“笨”，适合非常简单任务	1–2 GB	非常快（每秒几十字）	极低配置设备、简单分类/翻译。
4B	中等水平	3–4 GB	流畅（每秒 5–10 字）	多数 VPS 的最佳选择，日常对话和问答。
8B	效果明显更好，接近主流水平	6–8 GB	偏慢（每秒 1–3 字）	有耐心、对质量要求更高的场景。
14B / 32B	能力很强	10–24 GB	CPU 上几乎不可用	建议只在高端 GPU 服务器上跑。
200B+	顶级模型尺度	100 GB+	普通 VPS 完全跑不动	需要专业算力集群。

对于一般家用电脑或配置还不错的 VPS：

有 GPU：优先考虑 8B 甚至更大的模型
无 GPU：推荐从 4B 起步，如果机器性能较弱，可以退到 1.7B/3B 这种档位

初次折腾时可以先选一个保守的 4B 模型，体验顺滑之后，再逐步尝试 8B 或更大的版本。

六、使用 Ollama 部署 AI 模型的步骤

Windows 和 macOS 的安装基本就是下载安装包后“一路下一步”，没有太多坑，因此下面重点讲 在云服务器（Linux）上完整搭建流程。

这里我用的服务器是 Netcup 的 Root Server RS 1000 G12（4 核 CPU / 8 GB 内存 / 256 GB SSD），操作系统可以是 Ubuntu 24.04 或 Debian 13，其它主流发行版也类似。

目标是：在这台无 GPU 的 VPS 上，跑一个 4B/8B 的模型，把它当成远程 AI 助手。

1. 更新系统并安装基础工具

`bash

更新系统

sudo apt update && sudo apt upgrade -y

安装常用工具（curl、git 等）

sudo apt install -y curl git
`

Ollama 部署前：先把系统更新到最新，并安装好 curl、git 等基础工具，后续下载脚本和拉取代码都会用到。

2. 一条命令安装 Ollama

官方提供了一个快速安装脚本（适用于大部分主流 Linux 发行版）：

bash curl -fsSL https://ollama.com/install.sh | sh

执行完之后，可以通过版本命令验证是否安装成功：

bash ollama -v

如果终端输出了 Ollama 的版本号，就说明安装已经就绪。

如果系统上曾装过旧版本，官方建议先删除旧的 /usr/lib/ollama 目录，然后再用脚本安装一次，以避免版本冲突和残留配置问题。

3. 启动 Ollama 服务

执行：

bash ollama serve

这条命令会启动一个本地推理服务，默认监听在 127.0.0.1:11434，后续所有模型加载和推理请求都会走这个端口。

你可以先保持这个终端窗口开着，后台跑服务；或者配合 systemd 做成系统服务，后面我们会进一步调整让它支持外部访问。

4. 运行一个你想用的模型

例如，你想体验 DeepSeek-R1 的 8B 模型，或者其它在模型库里看到的模型，命令形式大致如下：

bash ollama run deepseek-r1:8b

首次运行会自动从官方仓库下载模型权重。下载完成后就会进入一个交互式的命令行界面，你可以直接开始对话。

真快！

以我这台服务器为例，5.2G 左右的 DeepSeek-R1 8B 模型在良好网络条件下，几秒钟就能拉完，带宽跑到两百多 MB/s，体验还是相当丝滑的。

模型的准确名称、参数量等，都可以在官方模型库查到：
https://ollama.com/library

5. 在命令行里测试效果

进入交互界面后，直接输入问题即可，比如：

text >>> 请介绍一下你自己

要退出交互界面，可以使用快捷键 Ctrl + D，或者输入 /bye。

在这台 4 核 8G 的服务器上跑 8B DeepSeek-R1，响应速度虽然比不上带显卡的机器，但日常问答的体验还算不错。

CPU 和内存占用情况

从系统监控可以看到：在这台 4 核 8G 的 VPS 上运行 DeepSeek-R1 8B 时：

CPU 几乎被吃满
内存占用接近 75%

这也从侧面验证了：大模型是真“吃硬件”的，尤其是在纯 CPU 场景下。

6. 切换其它模型

如果你发现 8B 对机器压力太大、输出速度不够理想，可以换一个更轻量的模型。
先用 Ctrl + D 或 /bye 退出当前会话，然后用类似下面的命令切换：

bash ollama run qwen3:4b

像 Qwen3 这种 4B 模型，推理质量虽然略逊于 8B，但在 CPU 上响应会明显更快，非常适合配置一般的 VPS 或老电脑。

七、使用浏览器访问

纯命令行虽然轻量，但日常使用不够直观。更好的方式是给 Ollama 接上一个 Web 前端，这样就能在浏览器里愉快聊天、管理会话、上传文件等。

社区里比较流行的前端面板之一是 Open WebUI，它提供了一个类 ChatGPT 的网页界面，支持多模型管理、对话记录、文件知识库等功能。

项目地址：
https://github.com/open-webui/open-webui

部署 Open WebUI 最简单的办法是使用 Docker 容器运行，这样不用在系统里手动装一堆依赖。参考容器部署方式也可以用来搭建其它服务，比如 301 重定向或私有 DNS 的 Docker 应用。[1][3]

1、使用官方一键脚本安装 Docker

先在服务器上安装 Docker：

bash curl -fsSL https://get.docker.com -o get-docker.sh sudo sh ./get-docker.sh

脚本会自动完成 Docker Engine 的安装和基础配置，执行完后可以用 docker version 检查是否安装成功。

2、使用 Docker 命令安装 Open WebUI

Docker 就绪后，一条命令即可拉取并运行 Open WebUI：

bash docker run -d \ -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui \ --restart always \ ghcr.io/open-webui/open-webui:main

然后用下面的命令查看容器状态：

bash docker ps

如果在 STATUS 一栏看到 Up ...，说明 Open WebUI 已经成功启动。

3、使用浏览器访问

在浏览器地址栏输入：http://服务器IP:3000
比如示例中的：

http://159.195.37.171:3000/

部分浏览器可能会提示“连接不安全”，这是因为我们用的是 HTTP 而不是 HTTPS，只要你确认 IP 属于自己，就可以选择继续访问。

此时会出现 Open WebUI 的初始化页面，提示你创建第一个管理员账号。

4、创建管理员

按照界面提示，输入名称、邮箱和密码，点击 “创建管理员账号” 即可。

账号创建成功后，就能进入主界面。

5、Open WebUI 搭建成功

这个时候你已经可以在浏览器中看到一个类似 ChatGPT 的界面，只是左上角的「模型选择」里还没有任何可用模型，因为我们还没让 WebUI 访问到 Ollama。

6、配置 Ollama 允许外部连接

目前 Ollama 默认只监听 127.0.0.1，只能本机访问。要让 Docker 容器里的 Open WebUI 能够调用它，需要把监听地址改为 0.0.0.0，即对所有网卡开放。

核心操作是：设置 OLLAMA_HOST=0.0.0.0 环境变量，并重新加载服务。

第一步：写入 systemd 覆盖配置

执行下面的命令（会自动创建目录和配置文件，无需手动编辑）：

`bash
sudo mkdir -p /etc/systemd/system/ollama.service.d

echo ‘[Service]
Environment=”OLLAMA_HOST=0.0.0.0″‘ | sudo tee /etc/systemd/system/ollama.service.d/override.conf
`

这会在 systemd 中为 ollama.service 添加一个 override 配置，使服务在启动时读取新的环境变量。

第二步：重新加载并重启 Ollama

写入配置后，需要让 systemd 重新加载服务定义，并重启 Ollama：

bash sudo systemctl daemon-reload sudo systemctl restart ollama

第三步：验证是否生效

用下面的命令查看环境变量：

bash systemctl show ollama | grep Environment

如果输出中包含 Environment=OLLAMA_HOST=0.0.0.0，说明配置已经生效。

接着回到浏览器，刷新 Open WebUI 页面，在模型选择列表中应该就能看到通过 Ollama 拉取的模型，界面也可以正式开始工作了。

到这里，你已经完成了：

在 VPS 上部署 Ollama
拉取并运行至少一个模型
用 Docker 部署 Open WebUI
配置 Ollama 对外监听，并让 WebUI 连接上模型

整套流程下来的复杂度，实际上比自建一套邮件邮局系统要简单不少。[3][4]

八、常见疑问解答

Q1：自建 AI 模型是不是就“绝对安全”了？

自建只能达到“相对安全”，不存在绝对安全。
如果你部署的模型本身带有后门、或从不可信来源下载了被篡改的权重，即使运行在自己服务器上，也有被攻击或数据泄漏的风险。
正确的做法是：

尽量用可信官方或知名社区提供的模型
服务器本身做好系统安全、防火墙、账号权限与更新
不在有安全隐患的环境中处理过于敏感的绝密资料

Q2：一定要有显卡（GPU）才能自建 AI 吗？

不是必须。

有 GPU：同样的模型会快很多，并且可以考虑 8B 以上甚至更大的模型
没 GPU：只要选对体量，4B / 8B 模型在 CPU 上依然可用，只是速度会慢一些

如果你的使用场景主要是：写博客、日常总结、轻量代码辅助、处理中小段文本，纯 CPU + 4B/8B 模型完全够用。[5]

Q3：自建 AI 会不会特别费流量？

大部分本地大模型的主要开销在 CPU/GPU 算力 + 硬盘空间，网络流量主要来自：

你通过浏览器访问 WebUI 产生的 HTTP 流量
如果使用外网访问 VPS 的 Web 界面，则多一段公网往返流量

只做文本对话的话，流量开销一般不大，比起视频流媒体或大文件下载差远了。
真正费流量的是：上传/下载大文件、生成图片/视频/音频等多媒体结果。

Q4：模型大概占多少硬盘？需要预留多少空间？

不同模型差异较大，可以粗略按照参数规模估算：

迷你模型（1B 内）：几百 MB ~ 1–2 GB
4B 级别：约 4–8 GB
8B 级别：约 10–20 GB
更大模型：几十 GB、上百 GB 都很常见

如果你只计划同时用 1–2 个 4B/8B 模型，预留 30–50 GB 空间就比较充裕；如果想折腾一堆不同模型，需要为此多规划一些磁盘容量，以免影响其它服务（如邮件系统、Web 站点等）。[3][6]

Q5：适合新手入门的模型怎么选？

可以按以下思路来选：

重视推理能力：尝试 DeepSeek-R1 等偏“思维链”的模型，但要接受速度可能略慢
中文和综合能力兼顾：Qwen 系列、DeepSeek 系列都是不错选择
以英文或国际场景为主：Llama3 系列、Gemma 系列
机器配置一般：优先 4B / 7B 这类中等规模模型，再视情况升级

结合你 VPS 的内存和 CPU 情况，先从体量偏小的版本试起，确认体验可接受后再往上加。

九、总结

整体搭建下来可以说非常顺利：
从更新系统、安装 Ollama，到拉模型、跑起来，再用 Docker 搭起 Open WebUI 前端，实际操作步骤不多，对日常用 Linux 跑 Docker 的人来说难度不高。[1][3]

唯一稍微有点遗憾的是：在 4 核 8G 的 VPS 上，通过浏览器使用前端面板时，首次加载模型、生成长文本的等待时间会比纯命令行略长，交互体验也稍显“笨重”。
如果换在更高配的机器上，比如后续计划试试 Netcup 的 RS 2000 G12（8 核 16G）这类配置，推理速度和并发体验应该都会有明显提升。

不管怎样，一旦你把第一套自建 AI 环境跑起来，就会发现：

自建并没有想象中那么“高门槛”
数据和权限在自己手里，更安心
可以按需更换模型、升级配置、甚至把它接入到自己的各类应用里

从这一步开始，你就真正拥有了一个属于自己的“本地版智能助手”。

评论列表（8条）

哈呼呼博士 2026年1月10日 09:32

挺实用的，跟着走就行。
奶昔昔 2026年1月10日 12:32

看完教程后，我在VPS上跑起了DeepSeek，速度比想象中快不少，真的省心。
蒜蓉粉丝蒸扇贝 2026年1月12日 11:04

别忘了防火墙放通11434端口。
混沌无形 2026年1月13日 11:21

这个4核8G的配置，跑8B模型会不会卡死？有什么调优技巧吗？比如CPU占用怎么监控，内存是否会爆满？
VoidSpecter 2026年1月20日 08:44

并不是所有云服务都在偷看，自己搭也不是绝对安全。
云终端 2026年1月24日 10:25

我前几天也在Netcup上装了Ollama，刚开始慢得要死，调了swap后顺畅多了。
银月剑士 2026年2月2日 12:36

有人说VPS跑模型是噱头，实际体验还能接受。
幽魂小客 2026年2月3日 21:31

如果换成更高配的8核16G服务器，响应速度提升几倍，会不会影响模型的安全策略？想了解实际部署时的防护措施，大家有经验分享吗？👍