保姆级教程：零成本在本地跑AI大模型

保姆级教程：零成本在本地跑 AI 大模型——Ollama 从安装到实战

手把手教你，用自己的电脑跑起来满血版 Qwen/DeepSeek/Llama，不需要 API Key，不需要云服务器

预计完成时间： 2-3 小时
所需技能： 会用命令行（3条命令够了）
适合人群： 想玩 AI 大模型但不想花钱、担心隐私泄露、喜欢折腾的同学

前言：为什么要在本地跑大模型？

用过 ChatGPT、DeepSeek 的同学应该知道，每次调用都是要花钱的——DeepSeek-V3 每次 API 调用虽然便宜，但日积月累也不是小数目。

更重要的是，你的数据安全吗？ 把公司代码、隐私文档发给第三方 API，谁也说不准数据会不会被拿去训练。

而 Ollama 解决了这三个问题：

💰 完全免费：模型跑在你自己的电脑上，没有调用次数限制
🔒 隐私安全：数据不离开本机，代码文档随便扔给 AI
⚡ 离线可用：断网也能跑大模型（只要硬件够用）
🔧 可定制：想微调、想接 API、想集成到自己的软件里，都可以

一句话：Ollama 就是 AI 时代的"本地版 Python"——装一个工具，跑各种模型。

一、先搞懂：Ollama 到底是什么？

1.1 不用术语，用大白话

Ollama 是一个帮你管理 AI 大模型的工具。

你可以把它理解成：

像 Docker 一样，你不需要手动下载模型文件、配置环境，Ollama 一条命令帮你搞定
像 pip 一样，你不需要关心模型在哪，一条命令就能"安装"模型

安装 Ollama 之后，你就拥有了一个本地 AI 大模型仓库：

1# 安装一个模型（跟安装软件一样简单）
2ollama pull qwen2.5:7b     # 约5GB，7B参数模型，中文能力不错
3ollama pull deepseek-r1:7b # 约4.5GB，推理能力强
4ollama pull llama3:8b      # 约4.7GB，英文为主
5

1.2 Ollama 能做什么？

功能	说明
直接对话	终端里跟 AI 聊，像 ChatGPT 一样
API 服务	启动一个本地 API 服务，代码里调用
模型管理	一台电脑装多个模型，随时切换
定制模型	上传自己的数据，创建专属问答模型
GPU 加速	自动用你的 NVIDIA/AMD 显卡加速推理

1.3 硬件要求

最低配置（能跑 7B 模型）：

CPU：4核以上（建议 8核）
内存：8GB（推荐 16GB）
显卡：非必须，但有 NVIDIA 显卡会快很多

流畅配置（跑 14B+ 模型）：

内存：16GB+
显卡：NVIDIA 6GB 显存以上（如 RTX 3060）
硬盘：至少 20GB 可用空间

💡 没有显卡？ 可以跑！只是慢一点——CPU 推理也能用，只是生成速度比 GPU 慢 5-10 倍。

第一阶段：安装 Ollama（10 分钟）

第 1 步：下载 Ollama

Windows（推荐）：

打开官网：https://ollama.com

点击"Download" → 选择 Windows → 下载安装包（约 200MB）

下载完双击运行，安装过程一路点"下一步"即可。

macOS：

1# 方法1：官网下载 dmg 文件
2# 方法2：用 Homebrew 安装
3brew install ollama
4

Linux（WSL 或实体机）：

1curl -fsSL https://ollama.com/install.sh | sh
2

⚠️ WSL 环境下如果有 NVIDIA 显卡，需要安装 WSL 专用驱动才能用 GPU 加速。

验证安装成功：

打开一个新的终端（PowerShell / CMD / 终端），输入：

1ollama --version
2

看到类似 ollama version 0.5.x 就说明装好了。

第 2 步：目录结构

1# 创建工作目录
2mkdir -p ollama-workspace
3cd ollama-workspace
4
5# 创建子目录
6mkdir -p models      # 存放下载的模型
7mkdir -p projects    # 存放你的项目代码
8mkdir -p data       # 存放知识库文件
9
10# 进入工作目录
11cd ollama-workspace
12

第 3 步：配置环境变量（可选）

如果你的模型下载到默认目录，想换一个位置：

Windows（PowerShell）：

1# 临时设置（只对当前窗口有效）
2$env:OLLAMA_MODELS = "D:\ollama-models"
3

永久设置——Windows：

按 Win + R，输入 sysdm.cpl，回车
点击"高级" → “环境变量”
在用户变量里新建：
- 变量名：OLLAMA_MODELS
- 变量值：D:\ollama-models（换成你的目标路径）

macOS / Linux：

1# 编辑配置文件
2nano ~/.bashrc   # 或 ~/.zshrc
3
4# 在最后添加一行
5export OLLAMA_MODELS=/你的路径/ollama-models
6
7# 保存后刷新
8source ~/.bashrc
9

第二阶段：下载和运行模型（15 分钟）

第 4 步：拉取第一个模型

Ollama 的模型从哪里来？答案是 Ollama Library——官方模型市场，里面有几百个模型。

先来下载一个最适合中文的轻量模型练练手：

1ollama pull qwen2.5:3b
2

这会下载一个约 2GB 的模型文件，下载速度取决于你的网络，通常 5-10 分钟。

💡 后缀数字是什么意思？

qwen2.5:3b → 3B = 30亿参数，模型大小约 2GB，内存 6GB 够跑

qwen2.5:7b → 7B = 70亿参数，模型大小约 5GB，内存 8GB 够跑

qwen2.5:14b → 14B = 140亿参数，模型大小约 10GB，内存 16GB 够跑

参数越多越聪明，但越慢、越吃硬件。7B 是性价比最高的选择。

第 5 步：查看已安装的模型

1ollama list
2

你会看到类似这样的输出：

1NAME                ID          SIZE      MODIFIED
2qwen2.5:3b         a8f1bdc3b4fa  1.8GB    3 minutes ago
3

第 6 步：直接对话测试

输入一条命令，Ollama 会直接启动对话：

1ollama run qwen2.5:3b
2

你会看到类似这样的输出：

1>>> 你好，介绍一下你自己
2你好！我是通义千问 2.5，一个由阿里云开发的大型语言模型。……
3

直接在终端里输入你的问题，按回车，AI 就会回复。按 Ctrl + D 退出对话。

测试几个问题：

1# 测试中文能力
2>>> 用简单的语言解释什么是大语言模型
3
4# 测试代码能力
5>>> 用 Python 写一个快速排序
6
7# 测试知识
8>>> 秦始皇统一六国是在哪一年
9

💡 如果你的电脑没有显卡，Ollama 会自动用 CPU 运行，速度会慢一些，但结果是正确的。

第 7 步：下载更多常用模型

以下是我推荐的几个模型，全部在 Ollama Library 中有：

1# 强烈推荐：DeepSeek R1（推理能力强，中文好）
2ollama pull deepseek-r1:7b
3
4# 推荐：通义千问 2.5 7B（中文能力强，性价比高）
5ollama pull qwen2.5:7b
6
7# 英文为主：Llama 3（Meta出品，通用能力强）
8ollama pull llama3:8b
9
10# 内存不够时的选择：1.5B 超轻量版
11ollama pull qwen2.5:1.5b
12

📌 建议先下 qwen2.5:3b 练手，熟悉了再下载大模型。

第三阶段：启动本地 API 服务（10 分钟）

第 8 步：为什么需要 API？

前面 ollama run 是直接在终端里对话，但如果你想把 AI 接入到自己的程序里（Python 脚本、网站、App），就需要 API 服务了。

Ollama 内置了一个兼容 OpenAI 格式的 API 服务，启动它：

启动 API 服务：

1ollama serve
2

你会看到类似输出：

1🚀 Ollama API server running at http://127.0.0.1:11434
2

保持这个窗口开着，然后打开另一个终端窗口继续操作。

第 9 步：用 Python 调用 Ollama API

新建一个 Python 文件 test_ollama.py：

1"""
2Ollama API 调用示例
3兼容 OpenAI 格式，用 Python 轻松调用本地大模型
4"""
5
6from openai import OpenAI
7
8# 连接到本地 Ollama 服务
9client = OpenAI(
10    base_url="http://127.0.0.1:11434/v1",
11    api_key="ollama"  # 本地服务不需要真实 API Key，随便填
12)
13
14# 发送对话请求
15response = client.chat.completions.create(
16    model="qwen2.5:3b",  # 使用刚才下载的模型
17    messages=[
18        {"role": "system", "content": "你是一个有帮助的助手，用简洁的语言回答。"},
19        {"role": "user", "content": "用一句话解释为什么天空是蓝色的。"}
20    ],
21    temperature=0.7,
22    max_tokens=200
23)
24
25# 打印回复
26print("AI 回复：")
27print(response.choices[0].message.content)
28

运行：

1pip install openai   # 如果还没安装 openai 库
2python test_ollama.py
3

输出：

1AI 回复：
2天空呈现蓝色是因为大气层中的气体分子对阳光进行散射……
3

第 10 步：实现流式输出

上面的代码会等 AI 全部生成完再返回，有时候模型思考时间长，体验不好。改成流式输出，边想边显示：

1"""
2流式输出示例：AI 回答像打字机一样逐字显示
3"""
4
5from openai import OpenAI
6import sys
7
8client = OpenAI(
9    base_url="http://127.0.0.1:11434/v1",
10    api_key="ollama"
11)
12
13print("AI 回复：", end="", flush=True)
14
15stream = client.chat.completions.create(
16    model="qwen2.5:3b",
17    messages=[
18        {"role": "user", "content": "写一个 Python 快速排序函数，并解释每一行代码"}
19    ],
20    stream=True  # 开启流式输出
21)
22
23# 逐字打印，像打字机效果
24for chunk in stream:
25    if chunk.choices[0].delta.content:
26        print(chunk.choices[0].delta.content, end="", flush=True)
27
28print()  # 换行
29

第四阶段：构建本地 AI 知识库助手（30 分钟）

第 11 步：知识库是什么？

普通 AI 只知道训练数据里的知识，你的私有文档（公司文档、个人笔记、技术文档）它不知道。

知识库的作用就是：让 AI 能够回答关于你自己文档的问题。

工作原理：

1你的文档 → 切分成小块 → 转换成向量 → 存入向量数据库
2                                                ↓
3用户提问 → 查向量数据库 → 找到相关片段 → 一起发给 AI → 生成回答
4

第 12 步：安装依赖

1pip install langchain langchain-community \
2    sentence-transformers qdrant-client \
3    openai python-dotenv tqdm
4

第 13 步：创建知识库脚本

新建 knowledge_base.py：

1"""
2本地知识库问答系统
3基于 Ollama + LangChain + Qdrant
4"""
5
6import os
7from langchain_community.document_loaders import TextLoader
8from langchain.text_splitter import RecursiveCharacterTextSplitter
9from langchain_community.embeddings import OllamaEmbeddings
10from langchain_community.vectorstores import Qdrant
11from langchain_community.chat_models import ChatOllama
12from langchain.chains import RetrievalQA
13
14# ── 配置 ──────────────────────────────────────────────────────
15OLLAMA_BASE_URL = "http://127.0.0.1:11434"
16EMBEDDING_MODEL = "nomic-embed-text"   # 专门做向量化的模型
17LLM_MODEL = "qwen2.5:7b"              # 做回答的大模型
18COLLECTION_NAME = "my_knowledge_base"
19QDRANT_PATH = "./qdrant_storage"
20
21# ── 步骤1：加载文档 ──────────────────────────────────────────
22print("📂 加载文档...")
23
24# 自动加载 data/ 目录下的所有 .txt 文件
25documents = []
26for filename in os.listdir("data"):
27    if filename.endswith(".txt"):
28        loader = TextLoader(f"data/{filename}", encoding="utf-8")
29        documents.extend(loader.load())
30        print(f"  ✅ 加载：{filename}")
31
32if not documents:
33    print("⚠️  data/ 目录下没有 .txt 文件，先放入一些文档试试！")
34    print("   示例：把一些技术笔记、公司文档复制到 data/ 目录")
35    exit()
36
37# ── 步骤2：切分文档 ──────────────────────────────────────────
38print("\n✂️ 切分文档...")
39splitter = RecursiveCharacterTextSplitter(
40    chunk_size=500,      # 每段最多500字符
41    chunk_overlap=50     # 段之间重叠50字符，保持上下文连贯
42)
43chunks = splitter.split_documents(documents)
44print(f"  ✅ 切分完成，共 {len(chunks)} 个片段")
45
46# ── 步骤3：向量化并存储 ───────────────────────────────────────
47print(f"\n🔢 生成向量（使用 {EMBEDDING_MODEL}）...")
48
49# 先下载 embedding 模型
50os.system(f"ollama pull {EMBEDDING_MODEL}")
51
52embeddings = OllamaEmbeddings(
53    model=EMBEDDING_MODEL,
54    base_url=OLLAMA_BASE_URL
55)
56
57# 存入本地 Qdrant 向量数据库
58vectorstore = Qdrant.from_documents(
59    documents=chunks,
60    embedding=embeddings,
61    path=QDRANT_PATH,
62    collection_name=COLLECTION_NAME
63)
64print("  ✅ 向量入库完成")
65
66# ── 步骤4：构建问答 Chain ─────────────────────────────────────
67print(f"\n🤖 启动 AI 助手（使用 {LLM_MODEL}）...")
68
69llm = ChatOllama(
70    model=LLM_MODEL,
71    base_url=OLLAMA_BASE_URL,
72    temperature=0.3   # 低温度=更准确的回答
73)
74
75qa_chain = RetrievalQA.from_chain_type(
76    llm=llm,
77    chain_type="stuff",  # 把相关片段塞进一个 Prompt
78    retriever=vectorstore.as_retriever(search_kwargs={"k": 3})
79)
80
81# ── 步骤5：开始问答 ───────────────────────────────────────────
82print("\n" + "=" * 50)
83print("📚 知识库问答助手已就绪！")
84print("=" * 50)
85print("输入问题，AI 会基于 data/ 目录下的文档回答")
86print("输入 'quit' 退出\n")
87
88while True:
89    try:
90        question = input("你：").strip()
91        if not question:
92            continue
93        if question.lower() in ["quit", "exit", "q"]:
94            print("👋 再见！")
95            break
96
97        print("🤖 AI：", end="", flush=True)
98        result = qa_chain.invoke({"query": question})
99        print(result["result"])
100        print()
101
102    except (KeyboardInterrupt, EOFError):
103        print("\n👋 再见！")
104        break
105    except Exception as e:
106        print(f"\n⚠️ 出错了：{e}")
107

第 14 步：准备测试文档

1mkdir -p data
2
3# 创建一个测试文档
4cat > data/技术笔记.txt << 'EOF'
5Python Web 框架选型指南：
6
71. Django：全功能框架，适合企业级项目。
8   内置 ORM、管理后台、认证系统。
9   适合：后台管理系统、电商平台、数据平台。
10
112. FastAPI：现代异步框架，适合 API 开发。
12   自动生成 OpenAPI 文档，支持类型提示。
13   适合：微服务、AI 后端、高并发 API。
14
153. Flask：轻量级框架，灵活度高。
16   需要手动安装扩展来增加功能。
17   适合：小型项目、原型开发、学习目的。
18
19数据库推荐：
20- PostgreSQL：功能最全，生产首选
21- MySQL：生态成熟，稳定可靠
22- SQLite：零配置，嵌入式/轻量场景
23EOF
24
25echo "✅ 测试文档已创建到 data/技术笔记.txt"
26

第 15 步：运行知识库

1python knowledge_base.py
2

效果：

1📂 加载文档...
2  ✅ 加载：技术笔记.txt
3
4✂️ 切分文档...
5  ✅ 切分完成，共 8 个片段
6
7🔢 生成向量...
8  ✅ 向量入库完成
9
10🤖 启动 AI 助手...
11==================================================
12📚 知识库问答助手已就绪！
13==================================================
14
15你：FastAPI 适合什么场景？
16
17🤖 AI：FastAPI 是一个现代异步 Python Web 框架，特别适合以下场景：
181. 微服务架构
192. AI 应用后端（因为异步处理高并发）
203. 需要高并发处理的 RESTful API
214. 需要自动生成 OpenAPI 文档的项目
22
23根据文档，FastAPI 的主要特点是支持类型提示和自动生成 API 文档。
24

第五阶段：Ollama + Cherry Studio 可视化界面（10 分钟）

第 16 步：为什么需要图形界面？

命令行对话没问题，但用久了你肯定想要一个更好看的界面。

Cherry Studio 是一个免费开源的 Ollama 图形客户端，功能类似 ChatGPT，但完全本地运行。

下载： https://github.com/kangmove/cherry-studio/releases

Windows 用户下载 .exe 安装包，macOS 用户下载 .dmg，安装后：

Step 1：配置 Ollama 连接

打开 Cherry Studio
设置 → 模型服务 → Ollama
地址填：http://127.0.0.1:11434

Step 2：下载模型到 Cherry Studio

模型管理 → 下载模型
搜索 qwen2.5:7b → 下载

Step 3：开始对话

新建对话 → 选择模型 → 开始聊天

Cherry Studio 的优点：

✅ 对话历史自动保存
✅ 支持多模型切换对比
✅ 内置提示词模板
✅ 支持知识库功能（比命令行更简单）

第六阶段：进阶技巧（15 分钟）

第 17 步：自定义模型参数

每次 ollama run 可以加参数，控制 AI 的行为：

1# temperature：控制创造性（0=保守准确，1=有创意）
2# 0.3=适合编程和回答问题
3# 0.8=适合写小说和创意内容
4ollama run qwen2.5:7b --temperature 0.3
5
6# num_ctx：上下文窗口大小（越大能记住越多内容）
7# 7B 模型默认 4096 tokens（约3000汉字）
8# 增加到 8192 可以处理更长的文档
9ollama run qwen2.5:7b --num_ctx 8192
10
11# top_p 和 top_k：控制输出的多样性
12ollama run qwen2.5:7b --top_k 20 --top_p 0.9
13

第 18 步：创建自定义模型（医学问答示例）

Ollama 支持用 Modelfile 定制专属模型：

Step 1：创建配置文件

1mkdir -p projects/medical-bot
2cd projects/medical-bot
3
4cat > Modelfile << 'EOF'
5FROM qwen2.5:7b
6
7# 设置系统提示词
8SYSTEM """
9你是一个专业的医学科普助手。你的职责是：
101. 用通俗易懂的语言解释医学概念
112. 不确定的问题要明确说明并建议就医
123. 不提供具体的医疗诊断或用药建议
134. 所有建议仅供参考，以医生诊断为准
14
15回答格式：
16- 先给出简要回答
17- 再提供详细解释
18- 最后加上"温馨提示：本回答仅供参考"
19"""
20
21# 设置默认参数
22PARAMETER temperature 0.3
23PARAMETER num_ctx 4096
24EOF
25

Step 2：创建模型

1ollama create medical-assistant -f Modelfile
2

Step 3：使用自定义模型

1ollama run medical-assistant
2
3>>> 感冒了怎么办
4你好！根据你的情况，以下是一些建议：
5
6【简要回答】
7普通感冒通常一周左右可以自愈，多休息、多喝水是关键……
8
9【温馨提示：本回答仅供参考，如有严重症状请及时就医】
10

第 19 步：Ollama 作为 DeepSeek API 的替代

如果你的代码原本用的是 DeepSeek 或 OpenAI 的 API，可以无缝切换到 Ollama：

1"""
2将 OpenAI/DeepSeek API 调用改为 Ollama
3只需要改 base_url 和 api_key，其他代码不变
4"""
5
6from openai import OpenAI
7
8# ── 原来的 DeepSeek API 调用 ──────────────────────────────────
9# client = OpenAI(
10#     api_key="sk-xxxx",                          # 付费 API Key
11#     base_url="https://api.deepseek.com"         # 官方服务器
12# )
13
14# ── 改成 Ollama（完全免费） ──────────────────────────────────
15client = OpenAI(
16    api_key="ollama",                             # 随便填，本地不需要真实 Key
17    base_url="http://127.0.0.1:11434/v1"         # Ollama 本地服务
18)
19
20# ── 其他代码完全不变！ ─────────────────────────────────────────
21response = client.chat.completions.create(
22    model="qwen2.5:7b",   # 改成你的本地模型名
23    messages=[
24        {"role": "system", "content": "你是助手"},
25        {"role": "user", "content": "写一个快速排序"}
26    ],
27    temperature=0.3,
28    max_tokens=500
29)
30
31print(response.choices[0].message.content)
32

第 20 步：多模型对比

一个模型回答不满意？同时问几个模型，对比答案：

1"""
2多模型对比：同时问 Qwen 和 Llama，看谁答得好
3"""
4
5from openai import OpenAI
6
7client = OpenAI(
8    api_key="ollama",
9    base_url="http://127.0.0.1:11434/v1"
10)
11
12models = ["qwen2.5:7b", "deepseek-r1:7b", "llama3:8b"]
13question = "用Python写一个装饰器，测量函数执行时间"
14
15for model in models:
16    print(f"\n{'='*50}")
17    print(f"🤖 模型：{model}")
18    print('='*50)
19
20    response = client.chat.completions.create(
21        model=model,
22        messages=[{"role": "user", "content": question}],
23        temperature=0.3
24    )
25    print(response.choices[0].message.content)
26

第七阶段：常见问题与排错

Q：模型下载很慢怎么办？

1# Ollama 默认从官方 CDN 下载，国内可能较慢
2# 解决方案：使用镜像站或挂代理
3
4# 方式1：设置代理
5export HTTP_PROXY=http://127.0.0.1:7890
6export HTTPS_PROXY=http://127.0.0.1:7890
7ollama pull qwen2.5:7b
8
9# 方式2：直接从 ModelScope 手动下载
10# 访问 https://modelscope.cn/models 搜索对应模型
11

Q：内存不够用，OOM 了怎么办？

1# 1. 换更小的模型
2ollama pull qwen2.5:1.5b    # 1.5B 版本，4GB 内存即可
3
4# 2. 减少同时加载的模型数量
5# 先把之前的模型卸载
6ollama rm qwen2.5:7b
7ollama list   # 确认只剩需要的模型
8
9# 3. 设置最大内存使用
10# Windows：OLLAMA_MAX_LOADED_MODELS=1
11# Linux/macOS：export OLLAMA_MAX_LOADED_MODELS=1
12

Q：Ollama serve 启动了但连不上？

1# 1. 检查服务是否在运行
2curl http://127.0.0.1:11434/api/tags
3
4# 2. 检查端口是否被占用
5netstat -ano | findstr 11434   # Windows
6lsof -i :11434                  # macOS/Linux
7
8# 3. 指定特定 IP 监听（允许局域网其他设备访问）
9OLLAMA_HOST=0.0.0.0 ollama serve
10

Q：GPU 没有被用上，还是 CPU 在跑？

1# 1. 确认有 NVIDIA 显卡
2nvidia-smi
3
4# 2. 确认安装了 CUDA 驱动
5# 下载：https://developer.nvidia.com/cuda-downloads
6
7# 3. 确认 Ollama 能检测到显卡
8ollama show qwen2.5:7b
9
10# 如果显示 "Name: NVIDIA GeForce RTX 3060" 说明 GPU 加速正常
11

Q：模型回答很慢，生成一个句子要等很久？

1# 1. 如果有 NVIDIA 显卡，确认正在使用 GPU 加速
2# GPU 推理速度通常比 CPU 快 10-20 倍
3
4# 2. 减少上下文长度（能提升速度但减少记忆）
5ollama run qwen2.5:7b --num_ctx 2048
6
7# 3. 使用量化模型（牺牲少量精度换取速度）
8# 4bit 量化版比原版快 30%，体积小 75%
9ollama pull qwen2.5:7b-instruct-q4_K_M
10

完整代码结构

1ollama-workspace/
2├── data/
3│   └── 技术笔记.txt          ← 你的知识库文档
4├── models/                   ← 存放下载的模型（可选路径）
5├── projects/
6│   └── medical-bot/
7│       └── Modelfile        ← 自定义模型配置
8├── qdrant_storage/           ← 向量数据库存储
9├── test_ollama.py           ← API 调用测试
10├── stream_test.py           ← 流式输出测试
11├── knowledge_base.py         ← 本地知识库问答
12├── multi_model_compare.py   ← 多模型对比
13└── .env                     ← 环境变量（可选）
14

总结：你学到了什么？

知识点	掌握程度
Ollama 安装与基本使用	✅
下载和管理多个模型	✅
启动本地 API 服务	✅
Python 代码调用 Ollama	✅
流式输出（打字机效果）	✅
构建本地知识库问答系统	✅
Cherry Studio 图形界面	✅
自定义模型（Modelfile）	✅
多模型对比	✅
API 兼容（替换 DeepSeek）	✅

下一步探索

学会 Ollama 之后，可以继续探索：

🔗 Ollama + Dify：用 Dify 可视化编排 AI 工作流（下一篇教程预告）
🔗 Ollama + AnythingLLM：更强大的本地知识库工具
🔗 Ollama + Continue：VS Code 插件，AI 帮你写代码
🔗 Ollama + RAG：高级检索增强生成，结合向量数据库做精准问答
🔗 模型微调：用自己数据微调模型，打造专属 AI

💬 看完有收获？点个赞收藏一下吧！有问题欢迎评论区交流～

🔖 相关教程：

《保姆级教程：从零手写一个 RAG 系统》

《保姆级教程：从零搭建你的第一个 AI Agent》

《保姆级教程：从零搭建 AI 系统权限控制系统》

《保姆级教程：零成本在本地跑AI大模型_Ollama》是转载文章，点击查看原文。