分散式推理#

一些語言模型，包括 DeepSeek V3、DeepSeek R1 等，體積過大，無法適配單台機器上的 GPU，Xinference 支援在多台機器上運行這些模型。

在 v1.3.0 版被加入.

支援的引擎#

現在，Xinference 支援以下引擎在多台 worker 上執行模型。

SGLang （在 v1.3.0 中支援）
vLLM （在 v1.4.1 中支援）
:ref:`MLX <mlx_backend>`（自 v1.7.1 起支援）目前在分散式模式下並不支援所有模型。目前支援以下幾種模型類型。如果你有其他需求，歡迎在 `https://github.com/xorbitsai/inference/issues <https://github.com/xorbitsai/inference/issues>`_ 提交 GitHub issue 來請求支援。
- DeepSeek v3 和 R1
- Qwen2.5-instruct 及其他具有相同模型架構的模型。
- Qwen3 及其他具有相同模型架構的模型。
- Qwen3-moe 及其他具有相同模型架構的模型。

使用#

首先，您需要至少 2 個工作節點來支援分散式推理。請參考在叢集中執行 Xinference 以建立包含 supervisor 節點和 worker 節點的 Xinference 叢集。

vLLM（v0.11.0+）注意事項：從vLLM v0.11.0版本開始，使用vLLM進行分散式佈署需要Xinference >= v1.17.1版本。除原有的 --n-worker 參數設定外，啟動模型時還必須同時設定 tensor_parallel_size （將其設定為 GPU數量 ）和 pipeline_parallel_size=1 參數。

然後，如果您使用的是 Web UI，請在可選配置中選擇期望的機器數量作為 worker count；如果您使用的是命令列，啟動模型時請加上 --n-worker <機器數量>。模型將會在多個工作節點上啟動。

使用分散式推理時，在 Web UI 中的 GPU count 或命令列中的 --n-gpu 現在表示每個工作節點的 GPU 數量。