K

开始输入进行搜索… 或尝试

使用 Ollama 和 Docker 构建 RAG 应用程序

本指南演示如何使用 Docker 部署带有 Ollama 的检索增强生成 (RAG) 模型。

20 分钟

将您的应用容器化

开发您的应用程序

« 返回所有指南

使用容器进行 RAG 开发

目录

先决条件

完成将 RAG 应用程序容器化。

概览

在本节中，您将学习如何设置开发环境以访问您的生成式 RAG 应用程序所需的所有服务。这包括

添加本地数据库
添加本地或远程 LLM 服务

**注意**
您可以在 GenAI Stack
您可以使用容器来设置本地服务，例如数据库。在本节中，您将探索 `docker-compose.yaml` 文件中的数据库服务。
要运行数据库服务
在克隆的存储库目录中，使用 IDE 或文本编辑器打开 `docker-compose.yaml` 文件。
在 `docker-compose.yaml` 文件中，您将看到以下内容
services: qdrant: image: qdrant/qdrant container_name: qdrant ports: - "6333:6333" volumes: - qdrant_data:/qdrant/storage
**注意**
要了解有关 Qdrant 的更多信息，请参阅 Qdrant 官方 Docker 镜像
$ docker compose up --build

访问应用程序。打开浏览器并在 http://localhost:8501

示例应用程序支持 Ollama

在容器中运行 Ollama 时，您应该拥有支持 CUDA 的 GPU。虽然您可以在没有受支持 GPU 的情况下在容器中运行 Ollama，但性能可能无法接受。只有 Linux 和 Windows 11 支持对容器的 GPU 访问。

要在容器中运行 Ollama 并提供 GPU 访问权限

安装必备组件。
- 对于 Linux 上的 Docker Engine，请安装 NVIDIA 容器工具包。
- 对于 Windows 10/11 上的 Docker Desktop，请安装最新的 NVIDIA 驱动程序，并确保您使用的是 WSL2 后端。

docker-compose.yaml 文件已包含必要的说明。在您自己的应用程序中，您需要在 docker-compose.yaml 中添加 Ollama 服务。以下是更新后的 docker-compose.yaml

ollama:
  image: ollama/ollama
  container_name: ollama
  ports:
    - "8000:8000"
  deploy:
    resources:
      reservations:
        devices:
          - driver: nvidia
            count: 1
            capabilities: [gpu]

**注意**
有关 Compose 说明的更多详细信息，请参阅使用 Docker Compose 打开 GPU 访问权限。

Ollama 容器启动并运行后，可以使用 tools 文件夹内的 download_model.sh，使用以下命令
. ./download_model.sh <model-name>

拉取 Ollama 模型可能需要几分钟时间。

要在容器外运行 Ollama

安装
$ ollama pull llama2

从 docker-compose.yaml 中删除 ollama 服务，并正确更新 winy 服务中的连接变量。

- OLLAMA=http://ollama:11434
+ OLLAMA=<your-url>

运行您的 RAG 应用程序

此时，您的 Compose 文件中包含以下服务

主 RAG 应用程序的服务器服务
用于在 Qdrant 数据库中存储向量的数据库服务
（可选）用于运行 LLM 服务的 Ollama 服务

应用程序运行后，打开浏览器并在 http://localhost:8501

在本节中，您学习了如何设置开发环境以提供对 GenAI 应用程序所需的所有服务的访问权限。