跳转至主要内容
Ctrl+K
Xinference Xinference
  • 入門指南
  • 模型
  • 使用者指南
    • 示例
    • API 指南
    • 開發指南
    • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter
  • 入門指南
  • 模型
  • 使用者指南
  • 示例
  • API 指南
  • 開發指南
  • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter

章节导航

  • 推理引擎
  • 用戶端 API
  • OAuth2 系統(實驗性質)
  • 模型載入指南
  • Metrics
  • 分散式推理
  • 連續批次處理
  • Xavier: 多VLLM副本間共享KV Cache
  • 使用者指南

使用者指南#

  • 推理引擎
    • llama.cpp
    • transformers
    • vLLM
    • SGLang
    • MLX
  • 用戶端 API
    • LLM
    • Embedding
    • 圖片
    • Audio
    • Rerank
  • OAuth2 系統(實驗性質)
    • 權限
    • 開始使用
    • 使用
    • HTTP 狀態碼
    • 注意
  • 模型載入指南
    • 複本
    • 混合分配策略
    • 設定環境變數
    • 配置模型虛擬空間
    • 批處理 / 連續批處理
    • 思考模式
  • Metrics
    • Supervisor Metrics
    • Worker Metrics
  • 分散式推理
    • 支援的引擎
    • 使用
  • 連續批次處理
    • 使用方式
    • 中止請求
    • 注意事項
  • Xavier: 多VLLM副本間共享KV Cache
    • 使用
    • 限制

上一頁

模型顯存使用量計算

下一頁

推理引擎

顯示原始碼

© Copyright 2025, Xorbits Inc..

使用 Sphinx 8.1.3 建立。

使用 PyData Sphinx Theme 0.19.0构建.