Fix image processing in cli.

haotian-liu · haotian-liu · commit 363a96536645 · 2023-11-05T13:29:01.000-06:00
diff --git a/llava/eval/run_llava.py b/llava/eval/run_llava.py
@@ -12,6 +12,7 @@
 from llava.model.builder import load_pretrained_model
 from llava.utils import disable_torch_init
 from llava.mm_utils import (
+    process_images,
     tokenizer_image_token,
     get_model_name_from_path,
     KeywordsStoppingCriteria,
@@ -94,11 +95,11 @@ def eval_model(args):
 
     image_files = image_parser(args)
     images = load_images(image_files)
-    images_tensor = (
-        image_processor.preprocess(images, return_tensors="pt")["pixel_values"]
-        .half()
-        .cuda()
-    )
+    images_tensor = process_images(
+        images,
+        image_processor,
+        model.config
+    ).to(model.device, dtype=torch.float16)
 
     input_ids = (
         tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt")
diff --git a/llava/serve/cli.py b/llava/serve/cli.py
@@ -53,7 +53,7 @@ def main(args):
 
     image = load_image(args.image_file)
     # Similar operation in model_worker.py
-    image_tensor = process_images([image], image_processor, args)
+    image_tensor = process_images([image], image_processor, model.config)
     if type(image_tensor) is list:
         image_tensor = [image.to(model.device, dtype=torch.float16) for image in image_tensor]
     else:
@@ -94,7 +94,7 @@ def main(args):
             output_ids = model.generate(
                 input_ids,
                 images=image_tensor,
-                do_sample=True,
+                do_sample=True if args.temperature > 0 else False,
                 temperature=args.temperature,
                 max_new_tokens=args.max_new_tokens,
                 streamer=streamer,
@@ -120,6 +120,5 @@ def main(args):
     parser.add_argument("--load-8bit", action="store_true")
     parser.add_argument("--load-4bit", action="store_true")
     parser.add_argument("--debug", action="store_true")
-    parser.add_argument("--image-aspect-ratio", type=str, default='pad')
     args = parser.parse_args()
     main(args)