模型顯存使用量計算#

為了更好規劃視訊記憶體使用,Xinference 提供了計算模型視訊記憶體使用量的工具:cal-model-mem

算法來自:RahulSChand/gpu_poor

model_mem, kv_cache, overhead, active_mem

範例:計算 qwen1.5-chat 模型的顯存用量,可以執行以下範例指令:

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

語法#

  • --size-in-billions {model_size}

    • -s {model_size}

    設定模型大小。以十億個參數為單位指定模型大小。參數格式接受形式如 1_8 和 1.8。例如,7 表示 7.0B 的模型大小。

  • --quantization {precision}

    • -q {precision} (可選)

    指定模型的量化配置。例如:Int4 參數表示使用 INT4 量化。

  • --model-name {model_name}

    • -n {model_name} (可選)

    指定模型名稱。如果提供此參數,將從 huggingface/modelscope 中獲取模型配置;如果沒有指定,將使用預設的 layer 參數粗略估計。

  • --context-length {context_length}

    • -c {context_length}

    指定模型的最大上下文長度。

  • --model-format {format}

    • -f {format}

    指定模型的格式,例如:pytorch, ggmlv3, etc.

備註

利用環境變數 HF_ENDPOINT 可設定 HuggingFace 伺服器的 Endpoint。例如,當網路不佳時可以選擇 hf-mirror 作為 Endpoint。更多請參考 此文件