Xavier: 多VLLM副本間共享KV Cache#

對於長文件查詢與多輪對話等場景,在推理預填充階段的計算可能特別繁重,這會影響整體吞吐量與單次推理的延遲。Xinference 透過引入 Xavier 框架來增強 vllm 引擎,支援在多個 vllm 實例之間共享 KV 緩存。這使得其他副本計算出的 KV 緩存可以被直接重用,從而避免冗餘計算。

使用#

啟動 vllm 模型時設定選項 enable_xavier=True 即可。

限制#

  • Xavier 要求 vllm 版本不低於 0.7.0 。暫不支援 vllm 版本高於 0.11.0

  • 由於底層通訊無法識別 0.0.0.0 位址,啟動 xinference 時需配置實際的 IP 位址,例如:xinference-local -H 192.168.xx.xx

  • Xavier 只支援 Nvidia 顯示卡。