laion/CLIP-ViT-B-32-laion2B-s34B-b79K

1. Model Details 3. Training Details 4. Evaluation 5. Acknowledgements 6. Citation 7. How To Get Started With the Model

Overview

Architecture

CLIP

Parameters

151M

Tasks

Encode

Outputs

Dense

Dimensions

Dense: 512

Max Sequence Length

77 tokens

License

mit

general retrieval en

Image-to-text retrieval: retrieve captions from images

Corpus: 31,783 Queries: 1,000

Quality

ndcg at 10 0.7744

map at 10 0.6783

mrr at 10 0.8925

Performance L4 b1 c16

Corpus 1.0K tok/s

Corpus p50 219.4ms

Query 10.1 mpix/s

Query p50 235.4ms