Xavier: 多VLLM副本間共享KV Cache#
對於長文件查詢與多輪對話等場景,在推理預填充階段的計算可能特別繁重,這會影響整體吞吐量與單次推理的延遲。Xinference 透過引入 Xavier 框架來增強 vllm 引擎,支援在多個 vllm 實例之間共享 KV 緩存。這使得其他副本計算出的 KV 緩存可以被直接重用,從而避免冗餘計算。
使用#
啟動 vllm 模型時設定選項 enable_xavier=True 即可。
限制#
Xavier 要求 vllm 版本不低於
0.7.0。暫不支援 vllm 版本高於0.11.0。由於底層通訊無法識別
0.0.0.0位址,啟動 xinference 時需配置實際的 IP 位址,例如:xinference-local -H 192.168.xx.xx。Xavier 只支援 Nvidia 顯示卡。