[DONOTMERGE] [TEST-ONLY] vLLM-Base: Full enabling of ALiBi #789

madamczykhabana · 2025-02-06T10:55:09Z

Only for testing: #503

Changes: - Added back alibi biases to decode stage. - Optimized ALiBI memory usage. - Added environment variable "VLLM_PROMPT_ALIBI_MAX_SEQ_LEN" to allow large models to run with restricted prompt lengths. - Prompt biases instantiated once rather than each forward. - Prompt and decode biases are shared across encoder/decoder layers. - Added environment variable "VLLM_ALIBI_USE_FLOAT32_BIASES" to resolve accuracy issue on long sequences. - Works in lazy and eager mode. - ALiBI is restricted to "VLLM_PROMPT_USE_FUSEDSDPA=false", and "VLLM_CONTIGUOUS_PA=true". - NTT patch for GQA Co-authored-by: Tanner Voas <[email protected]> Co-authored-by: Haihao Xiang <[email protected]> Signed-off-by: Tanner Voas <[email protected]>

madamczykhabana closed this Feb 6, 2025

madamczykhabana deleted the test/tannervoas742/restore_alibi_for_flat_pa_final branch February 6, 2025 13:31

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[DONOTMERGE] [TEST-ONLY] vLLM-Base: Full enabling of ALiBi #789

[DONOTMERGE] [TEST-ONLY] vLLM-Base: Full enabling of ALiBi #789

madamczykhabana commented Feb 6, 2025

[DONOTMERGE] [TEST-ONLY] vLLM-Base: Full enabling of ALiBi #789

[DONOTMERGE] [TEST-ONLY] vLLM-Base: Full enabling of ALiBi #789

Conversation

madamczykhabana commented Feb 6, 2025