分散式推理#

一些語言模型,包括 DeepSeek V3DeepSeek R1 等,體積過大,無法適配單台機器上的 GPU,Xinference 支援在多台機器上運行這些模型。

在 v1.3.0 版被加入.

支援的引擎#

現在,Xinference 支援以下引擎在多台 worker 上執行模型。

使用#

首先,您需要至少 2 個工作節點來支援分散式推理。請參考 在叢集中執行 Xinference 以建立包含 supervisor 節點和 worker 節點的 Xinference 叢集。

vLLM(v0.11.0+)注意事項:從vLLM v0.11.0版本開始,使用vLLM進行分散式佈署需要Xinference >= v1.17.1版本。除原有的 --n-worker 參數設定外,啟動模型時還必須同時設定 tensor_parallel_size (將其設定為 GPU數量 ) 和 pipeline_parallel_size=1 參數。

然後,如果您使用的是 Web UI,請在可選配置中選擇期望的機器數量作為 worker count;如果您使用的是命令列,啟動模型時請加上 --n-worker <機器數量>。模型將會在多個工作節點上啟動。

actor

使用分散式推理時,在 Web UI 中的 GPU count 或命令列中的 --n-gpu 現在表示每個工作節點的 GPU 數量。