跳转至主要内容

Ctrl+K

入門指南
模型
使用者指南

GitHub
Telegram
Discord
Twitter

入門指南
模型
使用者指南
示例
API 指南
開發指南
Official Site

GitHub
Telegram
Discord
Twitter

章节导航

推理引擎
用戶端 API
OAuth2 系統（實驗性質）
模型載入指南
Metrics
分散式推理
連續批次處理
Xavier: 多VLLM副本間共享KV Cache

使用者指南

使用者指南#

推理引擎
- llama.cpp
- transformers
- vLLM
- SGLang
- MLX
用戶端 API
- LLM
- Embedding
- 圖片
- Audio
- Rerank
OAuth2 系統（實驗性質）
- 權限
- 開始使用
- 使用
- HTTP 狀態碼
- 注意
模型載入指南
Metrics
- Supervisor Metrics
- Worker Metrics
分散式推理
- 支援的引擎
- 使用
連續批次處理
Xavier: 多VLLM副本間共享KV Cache
- 使用
- 限制

上一頁

模型顯存使用量計算

下一頁

推理引擎

顯示原始碼

© Copyright 2025, Xorbits Inc..

使用 Sphinx 8.1.3 建立。

使用 PyData Sphinx Theme 0.19.0构建.