使用者指南# 推理引擎 llama.cpp transformers vLLM SGLang MLX 用戶端 API LLM Embedding 圖片 Audio Rerank OAuth2 系統(實驗性質) 權限 開始使用 使用 HTTP 狀態碼 注意 模型載入指南 複本 混合分配策略 設定環境變數 配置模型虛擬空間 批處理 / 連續批處理 思考模式 Metrics Supervisor Metrics Worker Metrics 分散式推理 支援的引擎 使用 連續批次處理 使用方式 中止請求 注意事項 Xavier: 多VLLM副本間共享KV Cache 使用 限制