InternVL

Running

zyliu commited on Jul 22, 2024

Commit

389bff0

1 Parent(s): 46446a7

update model_worker.py

Files changed (1) hide show

model_worker.py CHANGED Viewed

@@ -183,8 +183,8 @@ class ModelWorker:
         else:
             self.model_name = model_name
         logger.info(f"Loading the model {self.model_name} on worker {worker_id} ...")
         tokenizer = AutoTokenizer.from_pretrained(
             model_path, trust_remote_code=True, use_fast=False
         )
@@ -225,6 +225,18 @@ class ModelWorker:
         )
         self.heart_beat_thread.start()
     def reload_model(self):
         del self.model
         torch.cuda.empty_cache()
@@ -311,15 +323,7 @@ class ModelWorker:
     @spaces.GPU
     @torch.inference_mode()
     def generate_stream(self, params):
-        try:
-            import flash_attn
-        except ImportError:
-            def install_flash_attn():
-                os.system("pip install flash-attn==2.5.9.post1")
-            install_flash_attn()
-            # import flash_attn
         system_message = params["prompt"][0]["content"]
         send_messages = params["prompt"][1:]
         max_input_tiles = params["max_input_tiles"]

         else:
             self.model_name = model_name
+        self.import_flash_attn()
         logger.info(f"Loading the model {self.model_name} on worker {worker_id} ...")
         tokenizer = AutoTokenizer.from_pretrained(
             model_path, trust_remote_code=True, use_fast=False
         )
         )
         self.heart_beat_thread.start()
+    @spaces.GPU
+    def import_flash_attn(self):
+        try:
+            import flash_attn
+        except ImportError:
+            def install_flash_attn():
+                os.system("pip install flash-attn==2.5.9.post1")
+            install_flash_attn()
+            # import flash_attn
     def reload_model(self):
         del self.model
         torch.cuda.empty_cache()
     @spaces.GPU
     @torch.inference_mode()
     def generate_stream(self, params):
         system_message = params["prompt"][0]["content"]
         send_messages = params["prompt"][1:]
         max_input_tiles = params["max_input_tiles"]