環境變數#

XINFERENCE_ENDPOINT#

Xinference 的服務地址,用來與 Xinference 連接。預設地址是 http://127.0.0.1:9997,可以在日誌中獲得這個地址。

XINFERENCE_MODEL_SRC#

配置模型下載倉庫。預設下載源是 "huggingface",也可以設定為 "modelscope" 作為下載源。

XINFERENCE_HOME#

Xinference 預設使用 <HOME>/.xinference 作為預設目錄來儲存模型以及日誌等必要的檔案。其中 <HOME> 是當前用戶的主目錄。可以透過配置這個環境變數來修改預設目錄。

XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD#

Xinference啟動時允許的最大健康檢查失敗次數。預設值為5。

XINFERENCE_HEALTH_CHECK_INTERVAL#

Xinference啟動時的健康檢查間隔(秒)。預設值為5。

XINFERENCE_HEALTH_CHECK_TIMEOUT#

Xinference啟動時的健康檢查超時時間(秒)。預設值為10。

XINFERENCE_DISABLE_HEALTH_CHECK#

在滿足條件時,Xinference 會自動回報 worker 健康狀況,設定該環境變數為 1 可以停用健康檢查。

XINFERENCE_DISABLE_METRICS#

Xinference 會預設在 supervisor 和 worker 上啟用 metrics exporter。設定環境變數為 1 可以在 supervisor 上停用 /metrics 端點,並在 worker 上停用 HTTP 服務(僅提供 /metrics 端點)。

XINFERENCE_DOWNLOAD_MAX_ATTEMPTS#

模型檔案的最大下載重試次數。預設值為3。

XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE#

通過指定目標圖像尺寸(例如 1024*1024 )為文字轉圖像模型啟用連續批次處理。預設未設定。

XINFERENCE_SSE_PING_ATTEMPTS_SECONDS#

伺服器發送事件保持活動狀態的 ping 間隔(秒)。預設值為 600。

XINFERENCE_MAX_TOKENS#

請求的全域最大 Token 限制覆蓋。預設值為未設定。

XINFERENCE_ALLOWED_IPS#

限制存取特定IP地址或CIDR地址區塊。預設未設定(無限制)。

XINFERENCE_BATCH_SIZE#

啟用批次處理時伺服器使用的預設批次大小。預設值為32。

XINFERENCE_BATCH_INTERVAL#

預設批次處理間隔(秒)。預設值為0.003。

XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU#

是否允許在單個 GPU 上建立多個副本。預設值為 1 (啟用)。

XINFERENCE_LAUNCH_STRATEGY#

副本的GPU分配策略。預設值為 IDLE_FIRST_LAUNCH_STRATEGY

XINFERENCE_MAX_CONCURRENT_LAUNCHES#

Maximum number of model launches that can proceed concurrently on a single worker node. When more replicas are launched than this limit, excess launches queue and proceed as slots free up. This prevents resource exhaustion (fork storms, disk IO saturation, GPU memory contention) that can cause heartbeat timeouts. Default value is 5.

XINFERENCE_ENABLE_VIRTUAL_ENV#

全域啟用模型虛擬環境。預設值為1(啟用,自v2.0版本生效)

XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED#

建立虛擬環境時跳過系統 site-packages 中已存在的套件。預設值為 1。

XINFERENCE_CSG_TOKEN#

CSGHub模型源的認證令牌。預設值為未設定。

XINFERENCE_CSG_ENDPOINT#

CSGHub 模型源端點。預設值為 https://hub-stg.opencsg.com/

XINFERENCE_QWEN3_RERANK_TEMPLATE#

Enable template for Qwen3 rerank model family (0.6B, 4B, 8B,etc) globally. Default value is 1.

XINFERENCE_LAUNCH_HISTORY_DB_PATH#

Path to the SQLite database that stores the model launch configuration history shown in the "Launch Model" drawer of the Web UI. This store is shared across all clients so the history is available from any browser or machine, and it is independent of the authentication database. When authentication is enabled, each record keeps the creator's username (created_by). Default value is <XINFERENCE_HOME>/launch_history.db.