RAG multimodal 3 - snappify.com

CLIP-Notebook.ipynb

outputs = model(**inputs)

>>> outputs.keys()
odict_keys(['logits_per_image', 'logits_per_text',
            'text_embeds', 'image_embeds', 
            'text_model_output', 'vision_model_output'])