Xavier: 多VLLM副本間共享KV Cache#

對於長文件查詢與多輪對話等場景，在推理預填充階段的計算可能特別繁重，這會影響整體吞吐量與單次推理的延遲。Xinference 透過引入 Xavier 框架來增強 vllm 引擎，支援在多個 vllm 實例之間共享 KV 緩存。這使得其他副本計算出的 KV 緩存可以被直接重用，從而避免冗餘計算。