保姆级教程:零成本在本地跑AI大模型_Ollama

作者:凤年徐日期:2026/5/8

在这里插入图片描述

保姆级教程:零成本在本地跑 AI 大模型——Ollama 从安装到实战

手把手教你,用自己的电脑跑起来满血版 Qwen/DeepSeek/Llama,不需要 API Key,不需要云服务器

预计完成时间: 2-3 小时
所需技能: 会用命令行(3条命令够了)
适合人群: 想玩 AI 大模型但不想花钱、担心隐私泄露、喜欢折腾的同学


前言:为什么要在本地跑大模型?

用过 ChatGPT、DeepSeek 的同学应该知道,每次调用都是要花钱的——DeepSeek-V3 每次 API 调用虽然便宜,但日积月累也不是小数目。

更重要的是,你的数据安全吗? 把公司代码、隐私文档发给第三方 API,谁也说不准数据会不会被拿去训练。

而 Ollama 解决了这三个问题:

  • 💰 完全免费:模型跑在你自己的电脑上,没有调用次数限制
  • 🔒 隐私安全:数据不离开本机,代码文档随便扔给 AI
  • 离线可用:断网也能跑大模型(只要硬件够用)
  • 🔧 可定制:想微调、想接 API、想集成到自己的软件里,都可以

一句话:Ollama 就是 AI 时代的"本地版 Python"——装一个工具,跑各种模型。


一、先搞懂:Ollama 到底是什么?

1.1 不用术语,用大白话

Ollama 是一个帮你管理 AI 大模型的工具

你可以把它理解成:

  • 像 Docker 一样,你不需要手动下载模型文件、配置环境,Ollama 一条命令帮你搞定
  • 像 pip 一样,你不需要关心模型在哪,一条命令就能"安装"模型

安装 Ollama 之后,你就拥有了一个本地 AI 大模型仓库:

1# 安装一个模型(跟安装软件一样简单)
2ollama pull qwen2.5:7b     # 约5GB,7B参数模型,中文能力不错
3ollama pull deepseek-r1:7b # 约4.5GB,推理能力强
4ollama pull llama3:8b      # 约4.7GB,英文为主
5

1.2 Ollama 能做什么?

功能说明
直接对话终端里跟 AI 聊,像 ChatGPT 一样
API 服务启动一个本地 API 服务,代码里调用
模型管理一台电脑装多个模型,随时切换
定制模型上传自己的数据,创建专属问答模型
GPU 加速自动用你的 NVIDIA/AMD 显卡加速推理

1.3 硬件要求

最低配置(能跑 7B 模型):

  • CPU:4核以上(建议 8核)
  • 内存:8GB(推荐 16GB)
  • 显卡:非必须,但有 NVIDIA 显卡会快很多

流畅配置(跑 14B+ 模型):

  • 内存:16GB+
  • 显卡:NVIDIA 6GB 显存以上(如 RTX 3060)
  • 硬盘:至少 20GB 可用空间

💡 没有显卡? 可以跑!只是慢一点——CPU 推理也能用,只是生成速度比 GPU 慢 5-10 倍。


第一阶段:安装 Ollama(10 分钟)

第 1 步:下载 Ollama

Windows(推荐):

打开官网:https://ollama.com

点击"Download" → 选择 Windows → 下载安装包(约 200MB)

下载完双击运行,安装过程一路点"下一步"即可。

macOS:

1# 方法1:官网下载 dmg 文件
2# 方法2:用 Homebrew 安装
3brew install ollama
4

Linux(WSL 或实体机):

1curl -fsSL https://ollama.com/install.sh | sh
2

⚠️ WSL 环境下如果有 NVIDIA 显卡,需要安装 WSL 专用驱动才能用 GPU 加速。

验证安装成功:

打开一个新的终端(PowerShell / CMD / 终端),输入:

1ollama --version
2

看到类似 ollama version 0.5.x 就说明装好了。

第 2 步:目录结构

1# 创建工作目录
2mkdir -p ollama-workspace
3cd ollama-workspace
4
5# 创建子目录
6mkdir -p models      # 存放下载的模型
7mkdir -p projects    # 存放你的项目代码
8mkdir -p data       # 存放知识库文件
9
10# 进入工作目录
11cd ollama-workspace
12

第 3 步:配置环境变量(可选)

如果你的模型下载到默认目录,想换一个位置:

Windows(PowerShell):

1# 临时设置(只对当前窗口有效)
2$env:OLLAMA_MODELS = "D:\ollama-models"
3

永久设置——Windows:

  1. Win + R,输入 sysdm.cpl,回车
  2. 点击"高级" → “环境变量”
  3. 在用户变量里新建:
    • 变量名:OLLAMA_MODELS
    • 变量值:D:\ollama-models(换成你的目标路径)

macOS / Linux:

1# 编辑配置文件
2nano ~/.bashrc   #  ~/.zshrc
3
4# 在最后添加一行
5export OLLAMA_MODELS=/你的路径/ollama-models
6
7# 保存后刷新
8source ~/.bashrc
9

第二阶段:下载和运行模型(15 分钟)

第 4 步:拉取第一个模型

Ollama 的模型从哪里来?答案是 Ollama Library——官方模型市场,里面有几百个模型。

先来下载一个最适合中文的轻量模型练练手:

1ollama pull qwen2.5:3b
2

这会下载一个约 2GB 的模型文件,下载速度取决于你的网络,通常 5-10 分钟。

💡 后缀数字是什么意思?

  • qwen2.5:3b → 3B = 30亿参数,模型大小约 2GB,内存 6GB 够跑
  • qwen2.5:7b → 7B = 70亿参数,模型大小约 5GB,内存 8GB 够跑
  • qwen2.5:14b → 14B = 140亿参数,模型大小约 10GB,内存 16GB 够跑

参数越多越聪明,但越慢、越吃硬件。7B 是性价比最高的选择。

第 5 步:查看已安装的模型

1ollama list
2

你会看到类似这样的输出:

1NAME                ID          SIZE      MODIFIED
2qwen2.5:3b         a8f1bdc3b4fa  1.8GB    3 minutes ago
3

第 6 步:直接对话测试

输入一条命令,Ollama 会直接启动对话:

1ollama run qwen2.5:3b
2

你会看到类似这样的输出:

1>>> 你好,介绍一下你自己
2你好!我是通义千问 2.5,一个由阿里云开发的大型语言模型。……
3

直接在终端里输入你的问题,按回车,AI 就会回复。按 Ctrl + D 退出对话。

测试几个问题:

1# 测试中文能力
2>>> 用简单的语言解释什么是大语言模型
3
4# 测试代码能力
5>>>  Python 写一个快速排序
6
7# 测试知识
8>>> 秦始皇统一六国是在哪一年
9

💡 如果你的电脑没有显卡,Ollama 会自动用 CPU 运行,速度会慢一些,但结果是正确的。

第 7 步:下载更多常用模型

以下是我推荐的几个模型,全部在 Ollama Library 中有:

1# 强烈推荐:DeepSeek R1(推理能力强,中文好)
2ollama pull deepseek-r1:7b
3
4# 推荐:通义千问 2.5 7B(中文能力强,性价比高)
5ollama pull qwen2.5:7b
6
7# 英文为主:Llama 3(Meta出品,通用能力强)
8ollama pull llama3:8b
9
10# 内存不够时的选择:1.5B 超轻量版
11ollama pull qwen2.5:1.5b
12

📌 建议先下 qwen2.5:3b 练手,熟悉了再下载大模型。


第三阶段:启动本地 API 服务(10 分钟)

第 8 步:为什么需要 API?

前面 ollama run 是直接在终端里对话,但如果你想把 AI 接入到自己的程序里(Python 脚本、网站、App),就需要 API 服务了。

Ollama 内置了一个兼容 OpenAI 格式的 API 服务,启动它:

启动 API 服务:

1ollama serve
2

你会看到类似输出:

1🚀 Ollama API server running at http://127.0.0.1:11434
2

保持这个窗口开着,然后打开另一个终端窗口继续操作。

第 9 步:用 Python 调用 Ollama API

新建一个 Python 文件 test_ollama.py

1"""
2Ollama API 调用示例
3兼容 OpenAI 格式,用 Python 轻松调用本地大模型
4"""
5
6from openai import OpenAI
7
8# 连接到本地 Ollama 服务
9client = OpenAI(
10    base_url="http://127.0.0.1:11434/v1",
11    api_key="ollama"  # 本地服务不需要真实 API Key,随便填
12)
13
14# 发送对话请求
15response = client.chat.completions.create(
16    model="qwen2.5:3b",  # 使用刚才下载的模型
17    messages=[
18        {"role": "system", "content": "你是一个有帮助的助手,用简洁的语言回答。"},
19        {"role": "user", "content": "用一句话解释为什么天空是蓝色的。"}
20    ],
21    temperature=0.7,
22    max_tokens=200
23)
24
25# 打印回复
26print("AI 回复:")
27print(response.choices[0].message.content)
28

运行:

1pip install openai   # 如果还没安装 openai 
2python test_ollama.py
3

输出:

1AI 回复:
2天空呈现蓝色是因为大气层中的气体分子对阳光进行散射……
3

第 10 步:实现流式输出

上面的代码会等 AI 全部生成完再返回,有时候模型思考时间长,体验不好。改成流式输出,边想边显示:

1"""
2流式输出示例:AI 回答像打字机一样逐字显示
3"""
4
5from openai import OpenAI
6import sys
7
8client = OpenAI(
9    base_url="http://127.0.0.1:11434/v1",
10    api_key="ollama"
11)
12
13print("AI 回复:", end="", flush=True)
14
15stream = client.chat.completions.create(
16    model="qwen2.5:3b",
17    messages=[
18        {"role": "user", "content": "写一个 Python 快速排序函数,并解释每一行代码"}
19    ],
20    stream=True  # 开启流式输出
21)
22
23# 逐字打印,像打字机效果
24for chunk in stream:
25    if chunk.choices[0].delta.content:
26        print(chunk.choices[0].delta.content, end="", flush=True)
27
28print()  # 换行
29

第四阶段:构建本地 AI 知识库助手(30 分钟)

第 11 步:知识库是什么?

普通 AI 只知道训练数据里的知识,你的私有文档(公司文档、个人笔记、技术文档)它不知道。

知识库的作用就是:让 AI 能够回答关于你自己文档的问题

工作原理:

1你的文档  切分成小块  转换成向量  存入向量数据库
2                                                
3用户提问  查向量数据库  找到相关片段  一起发给 AI  生成回答
4

第 12 步:安装依赖

1pip install langchain langchain-community \
2    sentence-transformers qdrant-client \
3    openai python-dotenv tqdm
4

第 13 步:创建知识库脚本

新建 knowledge_base.py

1"""
2本地知识库问答系统
3基于 Ollama + LangChain + Qdrant
4"""
5
6import os
7from langchain_community.document_loaders import TextLoader
8from langchain.text_splitter import RecursiveCharacterTextSplitter
9from langchain_community.embeddings import OllamaEmbeddings
10from langchain_community.vectorstores import Qdrant
11from langchain_community.chat_models import ChatOllama
12from langchain.chains import RetrievalQA
13
14# ── 配置 ──────────────────────────────────────────────────────
15OLLAMA_BASE_URL = "http://127.0.0.1:11434"
16EMBEDDING_MODEL = "nomic-embed-text"   # 专门做向量化的模型
17LLM_MODEL = "qwen2.5:7b"              # 做回答的大模型
18COLLECTION_NAME = "my_knowledge_base"
19QDRANT_PATH = "./qdrant_storage"
20
21# ── 步骤1:加载文档 ──────────────────────────────────────────
22print("📂 加载文档...")
23
24# 自动加载 data/ 目录下的所有 .txt 文件
25documents = []
26for filename in os.listdir("data"):
27    if filename.endswith(".txt"):
28        loader = TextLoader(f"data/{filename}", encoding="utf-8")
29        documents.extend(loader.load())
30        print(f"   加载:{filename}")
31
32if not documents:
33    print("⚠️  data/ 目录下没有 .txt 文件,先放入一些文档试试!")
34    print("   示例:把一些技术笔记、公司文档复制到 data/ 目录")
35    exit()
36
37# ── 步骤2:切分文档 ──────────────────────────────────────────
38print("\n✂️ 切分文档...")
39splitter = RecursiveCharacterTextSplitter(
40    chunk_size=500,      # 每段最多500字符
41    chunk_overlap=50     # 段之间重叠50字符,保持上下文连贯
42)
43chunks = splitter.split_documents(documents)
44print(f"   切分完成,共 {len(chunks)} 个片段")
45
46# ── 步骤3:向量化并存储 ───────────────────────────────────────
47print(f"\n🔢 生成向量(使用 {EMBEDDING_MODEL})...")
48
49# 先下载 embedding 模型
50os.system(f"ollama pull {EMBEDDING_MODEL}")
51
52embeddings = OllamaEmbeddings(
53    model=EMBEDDING_MODEL,
54    base_url=OLLAMA_BASE_URL
55)
56
57# 存入本地 Qdrant 向量数据库
58vectorstore = Qdrant.from_documents(
59    documents=chunks,
60    embedding=embeddings,
61    path=QDRANT_PATH,
62    collection_name=COLLECTION_NAME
63)
64print("   向量入库完成")
65
66# ── 步骤4:构建问答 Chain ─────────────────────────────────────
67print(f"\n🤖 启动 AI 助手(使用 {LLM_MODEL})...")
68
69llm = ChatOllama(
70    model=LLM_MODEL,
71    base_url=OLLAMA_BASE_URL,
72    temperature=0.3   # 低温度=更准确的回答
73)
74
75qa_chain = RetrievalQA.from_chain_type(
76    llm=llm,
77    chain_type="stuff",  # 把相关片段塞进一个 Prompt
78    retriever=vectorstore.as_retriever(search_kwargs={"k": 3})
79)
80
81# ── 步骤5:开始问答 ───────────────────────────────────────────
82print("\n" + "=" * 50)
83print("📚 知识库问答助手已就绪!")
84print("=" * 50)
85print("输入问题,AI 会基于 data/ 目录下的文档回答")
86print("输入 'quit' 退出\n")
87
88while True:
89    try:
90        question = input("你:").strip()
91        if not question:
92            continue
93        if question.lower() in ["quit", "exit", "q"]:
94            print("👋 再见!")
95            break
96
97        print("🤖 AI:", end="", flush=True)
98        result = qa_chain.invoke({"query": question})
99        print(result["result"])
100        print()
101
102    except (KeyboardInterrupt, EOFError):
103        print("\n👋 再见!")
104        break
105    except Exception as e:
106        print(f"\n⚠️ 出错了:{e}")
107

第 14 步:准备测试文档

1mkdir -p data
2
3# 创建一个测试文档
4cat > data/技术笔记.txt << 'EOF'
5Python Web 框架选型指南:
6
71. Django:全功能框架,适合企业级项目。
8   内置 ORM、管理后台、认证系统。
9   适合:后台管理系统、电商平台、数据平台。
10
112. FastAPI:现代异步框架,适合 API 开发。
12   自动生成 OpenAPI 文档,支持类型提示。
13   适合:微服务、AI 后端、高并发 API。
14
153. Flask:轻量级框架,灵活度高。
16   需要手动安装扩展来增加功能。
17   适合:小型项目、原型开发、学习目的。
18
19数据库推荐:
20- PostgreSQL:功能最全,生产首选
21- MySQL:生态成熟,稳定可靠
22- SQLite:零配置,嵌入式/轻量场景
23EOF
24
25echo "✅ 测试文档已创建到 data/技术笔记.txt"
26

第 15 步:运行知识库

1python knowledge_base.py
2

效果:

1📂 加载文档...
2   加载:技术笔记.txt
3
4✂️ 切分文档...
5   切分完成,共 8 个片段
6
7🔢 生成向量...
8   向量入库完成
9
10🤖 启动 AI 助手...
11==================================================
12📚 知识库问答助手已就绪!
13==================================================
14
15你:FastAPI 适合什么场景?
16
17🤖 AI:FastAPI 是一个现代异步 Python Web 框架,特别适合以下场景:
181. 微服务架构
192. AI 应用后端(因为异步处理高并发)
203. 需要高并发处理的 RESTful API
214. 需要自动生成 OpenAPI 文档的项目
22
23根据文档,FastAPI 的主要特点是支持类型提示和自动生成 API 文档。
24

第五阶段:Ollama + Cherry Studio 可视化界面(10 分钟)

第 16 步:为什么需要图形界面?

命令行对话没问题,但用久了你肯定想要一个更好看的界面。

Cherry Studio 是一个免费开源的 Ollama 图形客户端,功能类似 ChatGPT,但完全本地运行。

下载: https://github.com/kangmove/cherry-studio/releases

Windows 用户下载 .exe 安装包,macOS 用户下载 .dmg,安装后:

Step 1:配置 Ollama 连接

Step 2:下载模型到 Cherry Studio

  • 模型管理 → 下载模型
  • 搜索 qwen2.5:7b → 下载

Step 3:开始对话

  • 新建对话 → 选择模型 → 开始聊天

Cherry Studio 的优点:

  • ✅ 对话历史自动保存
  • ✅ 支持多模型切换对比
  • ✅ 内置提示词模板
  • ✅ 支持知识库功能(比命令行更简单)

第六阶段:进阶技巧(15 分钟)

第 17 步:自定义模型参数

每次 ollama run 可以加参数,控制 AI 的行为:

1# temperature:控制创造性(0=保守准确,1=有创意)
2# 0.3=适合编程和回答问题
3# 0.8=适合写小说和创意内容
4ollama run qwen2.5:7b --temperature 0.3
5
6# num_ctx:上下文窗口大小(越大能记住越多内容)
7# 7B 模型默认 4096 tokens(约3000汉字)
8# 增加到 8192 可以处理更长的文档
9ollama run qwen2.5:7b --num_ctx 8192
10
11# top_p  top_k:控制输出的多样性
12ollama run qwen2.5:7b --top_k 20 --top_p 0.9
13

第 18 步:创建自定义模型(医学问答示例)

Ollama 支持用 Modelfile 定制专属模型:

Step 1:创建配置文件

1mkdir -p projects/medical-bot
2cd projects/medical-bot
3
4cat > Modelfile << 'EOF'
5FROM qwen2.5:7b
6
7# 设置系统提示词
8SYSTEM """
9你是一个专业的医学科普助手。你的职责是:
101. 用通俗易懂的语言解释医学概念
112. 不确定的问题要明确说明并建议就医
123. 不提供具体的医疗诊断或用药建议
134. 所有建议仅供参考,以医生诊断为准
14
15回答格式:
16- 先给出简要回答
17- 再提供详细解释
18- 最后加上"温馨提示:本回答仅供参考"
19"""
20
21# 设置默认参数
22PARAMETER temperature 0.3
23PARAMETER num_ctx 4096
24EOF
25

Step 2:创建模型

1ollama create medical-assistant -f Modelfile
2

Step 3:使用自定义模型

1ollama run medical-assistant
2
3>>> 感冒了怎么办
4你好!根据你的情况,以下是一些建议:
5
6【简要回答】
7普通感冒通常一周左右可以自愈,多休息、多喝水是关键……
8
9【温馨提示:本回答仅供参考,如有严重症状请及时就医】
10

第 19 步:Ollama 作为 DeepSeek API 的替代

如果你的代码原本用的是 DeepSeek 或 OpenAI 的 API,可以无缝切换到 Ollama:

1"""
2 OpenAI/DeepSeek API 调用改为 Ollama
3只需要改 base_url  api_key,其他代码不变
4"""
5
6from openai import OpenAI
7
8# ── 原来的 DeepSeek API 调用 ──────────────────────────────────
9# client = OpenAI(
10#     api_key="sk-xxxx",                          # 付费 API Key
11#     base_url="https://api.deepseek.com"         # 官方服务器
12# )
13
14# ── 改成 Ollama(完全免费) ──────────────────────────────────
15client = OpenAI(
16    api_key="ollama",                             # 随便填,本地不需要真实 Key
17    base_url="http://127.0.0.1:11434/v1"         # Ollama 本地服务
18)
19
20# ── 其他代码完全不变! ─────────────────────────────────────────
21response = client.chat.completions.create(
22    model="qwen2.5:7b",   # 改成你的本地模型名
23    messages=[
24        {"role": "system", "content": "你是助手"},
25        {"role": "user", "content": "写一个快速排序"}
26    ],
27    temperature=0.3,
28    max_tokens=500
29)
30
31print(response.choices[0].message.content)
32

第 20 步:多模型对比

一个模型回答不满意?同时问几个模型,对比答案:

1"""
2多模型对比:同时问 Qwen  Llama,看谁答得好
3"""
4
5from openai import OpenAI
6
7client = OpenAI(
8    api_key="ollama",
9    base_url="http://127.0.0.1:11434/v1"
10)
11
12models = ["qwen2.5:7b", "deepseek-r1:7b", "llama3:8b"]
13question = "用Python写一个装饰器,测量函数执行时间"
14
15for model in models:
16    print(f"\n{'='*50}")
17    print(f"🤖 模型:{model}")
18    print('='*50)
19
20    response = client.chat.completions.create(
21        model=model,
22        messages=[{"role": "user", "content": question}],
23        temperature=0.3
24    )
25    print(response.choices[0].message.content)
26

第七阶段:常见问题与排错

Q:模型下载很慢怎么办?

1# Ollama 默认从官方 CDN 下载,国内可能较慢
2# 解决方案:使用镜像站或挂代理
3
4# 方式1:设置代理
5export HTTP_PROXY=http://127.0.0.1:7890
6export HTTPS_PROXY=http://127.0.0.1:7890
7ollama pull qwen2.5:7b
8
9# 方式2:直接从 ModelScope 手动下载
10# 访问 https://modelscope.cn/models 搜索对应模型
11

Q:内存不够用,OOM 了怎么办?

1# 1. 换更小的模型
2ollama pull qwen2.5:1.5b    # 1.5B 版本,4GB 内存即可
3
4# 2. 减少同时加载的模型数量
5# 先把之前的模型卸载
6ollama rm qwen2.5:7b
7ollama list   # 确认只剩需要的模型
8
9# 3. 设置最大内存使用
10# Windows:OLLAMA_MAX_LOADED_MODELS=1
11# Linux/macOS:export OLLAMA_MAX_LOADED_MODELS=1
12

Q:Ollama serve 启动了但连不上?

1# 1. 检查服务是否在运行
2curl http://127.0.0.1:11434/api/tags
3
4# 2. 检查端口是否被占用
5netstat -ano | findstr 11434   # Windows
6lsof -i :11434                  # macOS/Linux
7
8# 3. 指定特定 IP 监听(允许局域网其他设备访问)
9OLLAMA_HOST=0.0.0.0 ollama serve
10

Q:GPU 没有被用上,还是 CPU 在跑?

1# 1. 确认有 NVIDIA 显卡
2nvidia-smi
3
4# 2. 确认安装了 CUDA 驱动
5# 下载:https://developer.nvidia.com/cuda-downloads
6
7# 3. 确认 Ollama 能检测到显卡
8ollama show qwen2.5:7b
9
10# 如果显示 "Name: NVIDIA GeForce RTX 3060" 说明 GPU 加速正常
11

Q:模型回答很慢,生成一个句子要等很久?

1# 1. 如果有 NVIDIA 显卡,确认正在使用 GPU 加速
2# GPU 推理速度通常比 CPU  10-20 
3
4# 2. 减少上下文长度(能提升速度但减少记忆)
5ollama run qwen2.5:7b --num_ctx 2048
6
7# 3. 使用量化模型(牺牲少量精度换取速度)
8# 4bit 量化版比原版快 30%,体积小 75%
9ollama pull qwen2.5:7b-instruct-q4_K_M
10

完整代码结构

1ollama-workspace/
2├── data/
3   └── 技术笔记.txt           你的知识库文档
4├── models/                    存放下载的模型(可选路径)
5├── projects/
6   └── medical-bot/
7       └── Modelfile         自定义模型配置
8├── qdrant_storage/            向量数据库存储
9├── test_ollama.py            API 调用测试
10├── stream_test.py            流式输出测试
11├── knowledge_base.py          本地知识库问答
12├── multi_model_compare.py    多模型对比
13└── .env                      环境变量(可选)
14

总结:你学到了什么?

知识点掌握程度
Ollama 安装与基本使用
下载和管理多个模型
启动本地 API 服务
Python 代码调用 Ollama
流式输出(打字机效果)
构建本地知识库问答系统
Cherry Studio 图形界面
自定义模型(Modelfile)
多模型对比
API 兼容(替换 DeepSeek)

下一步探索

学会 Ollama 之后,可以继续探索:

  • 🔗 Ollama + Dify:用 Dify 可视化编排 AI 工作流(下一篇教程预告)
  • 🔗 Ollama + AnythingLLM:更强大的本地知识库工具
  • 🔗 Ollama + Continue:VS Code 插件,AI 帮你写代码
  • 🔗 Ollama + RAG:高级检索增强生成,结合向量数据库做精准问答
  • 🔗 模型微调:用自己数据微调模型,打造专属 AI

💬 看完有收获?点个赞收藏一下吧!有问题欢迎评论区交流~

🔖 相关教程

  • 《保姆级教程:从零手写一个 RAG 系统》
  • 《保姆级教程:从零搭建你的第一个 AI Agent》
  • 《保姆级教程:从零搭建 AI 系统权限控制系统》


保姆级教程:零成本在本地跑AI大模型_Ollama》 是转载文章,点击查看原文


相关推荐


我让 AI 当了回老师,把 Claude Code 从头到尾盘了一遍 🔥
LinDaiDai_霖呆呆2026/4/29

前言 你盼世界,我盼望你无bug。Hello 大家好,我是霖呆呆! 最近尝试在用 Claude Code 写项目,建仓库、修 bug、代码审查什么的都用它。但说实话,用是用了,总感觉自己就是个"面向弹窗编程"选手 —— 它弹窗我就点确认,它问我就说好,至于它到底是怎么运作的?权限模式有几种?Hooks 能干嘛?emmm...😅 直到我发现三元写了个 skill(名为 sigma) ,安装完后在 claudeCode 里使用 /sigma 你想学习的知识 命令,它就能变身 AI 1v1 家教,


拒绝低效!这款神器,让你的终端效率起飞 | 深度解析 fzf 终极指南
GetcharZp2026/4/20

还在手动敲 cd 和 ls?还在繁琐的 history 中翻找命令?是时候换个方式工作了。一篇文章带你彻底掌握命令行模糊找回神器 fzf,从安装到进阶玩法,助你效率翻倍! 身为开发者,我们每天大部分的时间都花在了终端(Terminal)里。不论是切换目录、搜索文件,还是翻阅历史命令,这些细碎的操作如果效率低下,积少成多便会吞噬掉大量专注力。 你是否也曾经历过: 想找一个深层目录下的文件,却记不清完整路径,只能不断 ls 确认? 按 Ctrl+R 搜索历史命令,结果搜出来的不是自己想要的?


OpenClaw实操指南13|用AI接管飞书多维表格:自动建表、写数据、做分析,一条指令搞定
Rubin智造社2026/4/12

飞书多维表格是很多团队的数据中枢——项目管理、内容选题、客户跟进、数据分析,全在里面。 但维护它是个体力活:手动建字段、逐条录数据、定期整理……重复劳动大量消耗精力。 这篇教程教你用OpenClaw的lark全套技能,把飞书多维表格的常见操作全部交给AI。 一条指令建表,一条指令批量写数据,一条指令做分析汇总。你只需要告诉AI你要什么,剩下的它来做。 核心概要 这篇解决什么问题? 安装并配置lark全套技能,实现飞书多维表格的AI自动化操作:建表、字段管理、数据读写、视图


别再把 LangChain 当成 API 胶水:Runnable 才是把 AI 流程工程化的关键接口
swipe2026/4/4

很多人第一次接触 LangChain,会把它理解成一组“帮你调模型”的工具类:PromptTemplate 负责拼 prompt,ChatOpenAI 负责调模型,OutputParser 负责解析结果。这样理解没错,但只对了一半。 真正到了工程里,问题很快就不是“怎么调一次模型”,而是“怎么把一条会持续演化的 AI 流程组织好”。 比如一个看起来简单的企业问答助手,往往很快就会长成这样: 先清洗用户问题 再决定这是闲聊、任务型问题,还是知识问答 不同类型走不同 prompt 有的分支要结构化


【35天从0开始备战蓝桥杯 -- Day6】
小年糕是糕手2026/3/26

🫧个人主页:小年糕是糕手 💫个人专栏:《C++》《Linux》《数据结构》《C语言》 🎨你不能左右天气,但你可以改变心情;你不能改变过去,但你可以决定未来! 目录 一、进制转换 1.1、二进制转十进制 1.2、十进制转二进制 1.3、二进制转八进制 1.4、二进制转十六进制 1.5、原码、反码、补码 练习 1°10 进制转 x 进制 2°x 进制转 10 进制 3°进制转换1 4°进制转换2 二、位运算操作符 2.1、左移操作符 2.2、右移操


【养虾日记】Openclaw操作浏览器自动化发文
卷福同学2026/3/18

用QClaw操作本地浏览器,登录自媒体平台,实现自动发文 1.更新 Openclaw在3.13版本更新后,加入了Chrome DevTools MCP 官方支持,就是可以控制浏览器了。 Openclaw虽然自带内置浏览器,但是打开后完全没有登录信息和安装的扩展插件,这次升级后就能用上我们自己的浏览器了,比较方便。 这里小卷用QClaw做演示,如何让它操作浏览器干活 2.打开浏览器调试 我们需要用到Chrome浏览器 打开chrome://inspect/#remote-debugging


OpenClaw 卸载教程,一篇讲透
不惑_2026/3/10

有些朋友尝鲜体验后,觉得不太适合自己,想要完全卸载却不知道如何操作。以下是完整的卸载步骤: 1. 打开终端,输入以下命令: openclaw uninstall 2. 使用鼠标上下移动光标,按空格键勾选所有选项,然后按回车键确认。 3. 选择 yes 并按回车,此命令会自动删除 OpenClaw 的工作目录。 4. 卸载 npm 包: 如果使用 npm 安装:npm rm -g openclaw 如果使用 pnpm 安装:pnpm remove -g openclaw 如果使用 bun


弃用html2pdf.js,这个html转pdf方案能力是它的几十倍
刘发财2026/3/2

欢迎转载文章 在前端开发中,“把网页变成 PDF”是个老生常谈的需求。无论是生成发票、报告还是简历,用户总希望点一下按钮就能带走一份格式完美的文档。 目前主流的前端html转pdf方案是通过html2canvas将网页渲染成canvas,再通过jsPDF将canvas转换为pdf。代表方案就是 html2pdf.js,npm包周下载量达到了80万,为广大开发者所接受。但是因为它基于html2canvas和jsPDF,会有一些无法解决的问题,比如: 生成速度慢 生成的pdf文件体积大 生成的pd


【大模型面试突击】03_大模型架构演进与对比
香芋Yu2026/2/21

2026大模型面试:大模型架构演进与对比必考28题(含答案) 精选自176道采集题目,保留最高频最核心的28题 | 难度:⭐基础 ⭐⭐进阶 ⭐⭐⭐深入 一、GPT与LLaMA系列演进(7题) 1. ⭐⭐ [字节/高频] GPT系列从GPT-1到GPT-4的架构演进主要脉络是什么? 一句话秒答: 四代GPT走的是一条"预训练范式→暴力出奇迹→多模态融合"的进化路线,每一步都在重新定义规模的上限。 展开来说: GPT-1其实干了一件很简单但当时很大胆的事——把Transformer Decod


2025 年客户端技术盘点与 2026 年技术展望
陆业聪2026/2/13

摘要:2025 年客户端技术围绕三条主线展开:Apple Liquid Glass 与 Android Material 3 Expressive 引领设计革新,端侧 AI 通过 Apple Foundation Models 框架和 Google Gemini 走向开发者可编程化,Flutter、React Native、KMP 等跨平台框架在性能上全面向原生看齐。2026 年的核心看点在于端侧 AI 生态建设、新设计语言落地及鸿蒙全球化验证。 本文基于 2025 年各平台官方发布的公开信

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客