sgl-project · merrymercy · Aug 15, 2024 · Aug 15, 2024
@@ -38,6 +38,7 @@
     init_distributed_environment,
     initialize_model_parallel,
 )
+from vllm.model_executor.model_loader import get_model
 from vllm.model_executor.models import ModelRegistry
 
 from sglang.global_config import global_config
@@ -168,15 +169,6 @@ def load_model(self):
         if self.model_config.model_overide_args is not None:
             vllm_model_config.hf_config.update(self.model_config.model_overide_args)
 
-        if (
-            self.server_args.efficient_weight_load
-            and "llama" in self.server_args.model_path.lower()
-            and self.server_args.quantization == "fp8"
-        ):
-            from sglang.srt.model_loader.model_loader import get_model
-        else:
-            from vllm.model_executor.model_loader import get_model
-
         self.model = get_model(
             model_config=vllm_model_config,
             device_config=device_config,