分散式推理#
一些語言模型,包括 DeepSeek V3、DeepSeek R1 等,體積過大,無法適配單台機器上的 GPU,Xinference 支援在多台機器上運行這些模型。
在 v1.3.0 版被加入.
支援的引擎#
現在,Xinference 支援以下引擎在多台 worker 上執行模型。
SGLang (在 v1.3.0 中支援)
vLLM (在 v1.4.1 中支援)
:ref:`MLX <mlx_backend>`(自 v1.7.1 起支援)目前在分散式模式下並不支援所有模型。目前支援以下幾種模型類型。如果你有其他需求,歡迎在 `https://github.com/xorbitsai/inference/issues <https://github.com/xorbitsai/inference/issues>`_ 提交 GitHub issue 來請求支援。
DeepSeek v3 和 R1
Qwen2.5-instruct 及其他具有相同模型架構的模型。
Qwen3 及其他具有相同模型架構的模型。
Qwen3-moe 及其他具有相同模型架構的模型。
使用#
首先,您需要至少 2 個工作節點來支援分散式推理。請參考 在叢集中執行 Xinference 以建立包含 supervisor 節點和 worker 節點的 Xinference 叢集。
vLLM(v0.11.0+)注意事項:從vLLM v0.11.0版本開始,使用vLLM進行分散式佈署需要Xinference >= v1.17.1版本。除原有的 --n-worker 參數設定外,啟動模型時還必須同時設定 tensor_parallel_size (將其設定為 GPU數量 ) 和 pipeline_parallel_size=1 參數。
然後,如果您使用的是 Web UI,請在可選配置中選擇期望的機器數量作為 worker count;如果您使用的是命令列,啟動模型時請加上 --n-worker <機器數量>。模型將會在多個工作節點上啟動。

使用分散式推理時,在 Web UI 中的 GPU count 或命令列中的 --n-gpu 現在表示每個工作節點的 GPU 數量。