showgan
/

community-events

Automatic Speech Recognition

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

community-events / computer-vision-study-group /Sessions /Blip2.md

showgan's picture

Training in progress, step 1000

09b13b3 verified 6 months ago

|

No virus

947 Bytes

	# BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
	Session by [johko](https://github.com/johko)


	## Recording 📺
	[YouTube](https://www.youtube.com/watch?v=k0DAtZCCl1w&pp=ygUdaHVnZ2luZyBmYWNlIHN0dWR5IGdyb3VwIHN3aW4%3D)


	## Session Slides 🖥️
	[Google Drive](https://docs.google.com/presentation/d/1Y_8Qu0CMlt7jvCd8Jw0c_ILh8LHB0XgnlrvXObe5FYs/edit?usp=sharing)


	## Original Paper 📄
	[Hugging Face](https://huggingface.co/papers/2301.12597) /
	[arxiv](https://arxiv.org/abs/2301.12597)


	## GitHub Repo 🧑🏽‍💻
	https://github.com/salesforce/lavis


	## Additional Resources 📚
	- [BLIP-2 Demo Space](https://huggingface.co/spaces/hysts/BLIP2-with-transformers)
	- [BLIP-2 Transformers Example Notebooks](https://github.com/NielsRogge/Transformers-Tutorials/tree/master/BLIP-2) by Niels Rogge
	- [BLIP-2 Transformers Docs](https://huggingface.co/docs/transformers/model_doc/blip-2)