large-vision-language-models

Here are 22 public repositories matching this topic...

BradyFU / Awesome-Multimodal-Large-Language-Models

✨✨Latest Advances on Multimodal Large Language Models

multi-modality instruction-following in-context-learning large-language-models chain-of-thought instruction-tuning visual-instruction-tuning large-vision-language-model multimodal-instruction-tuning large-vision-language-models multimodal-large-language-models visual-in-context-learning multimodal-in-context-learning visual-chain-of-thought multimodal-chain-of-thought

Updated Jul 11, 2024

ShareGPT4Omni / ShareGPT4Video

Star

An official implementation of ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

gpt sora text-to-video large-language-models chatgpt large-vision-language-models large-multimodal-models gpt-4v large-video-language-models

Updated Jul 8, 2024
Python

NVlabs / DoRA

Star

[ICML2024 (Oral)] Official PyTorch implementation of DoRA: Weight-Decomposed Low-Rank Adaptation

deep-neural-networks deep-learning lora commonsense-reasoning vision-and-language large-language-models parameter-efficient-tuning instruction-tuning large-vision-language-models parameter-efficient-fine-tuning

Updated Jul 6, 2024
Python

Paranioar / Awesome_Matching_Pretraining_Transfering

Star

The Paper List of Large Multi-Modality Model, Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

tutorial awesome-list vision-and-language video-text-recognition cross-modal-retrieval visual-semantic-embedding image-text-matching video-text-retrieval image-text-retrieval multimodal-pretraining large-language-models large-vision-language-models memory-efficient-tuning parameter-efficient-fine-tuning large-vision-models

Updated Jul 11, 2024

BradyFU / Video-MME

Star

✨✨Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

video mme large-language-models large-vision-language-models multimodal-large-language-models video-mme

Updated Jun 18, 2024

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

Star

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

text-to-speech multimodality text-to-image text-to-audio text-to-video text-to-music multimodal-models aigc large-language-models text-to-3d multimodal-generation text-to-sound large-vision-language-models multimodal-large-language-models

Updated Jul 8, 2024
HTML

tianyi-lab / HallusionBench

Star

[CVPR'24] HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

benchmark benchmarks lmm hallucination gpt-4 large-language-models llm llava large-vision-language-models vlms gpt-4v

Updated Mar 17, 2024
Python

burglarhobbit / Awesome-Medical-Large-Language-Models

Star

Curated papers on Large Language Models in Healthcare and Medical domain

large-language-models large-vision-language-models multimodal-large-language-models

Updated Jul 8, 2024

MMStar-Benchmark / MMStar

Star

This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

evaluation multimodality multimodal-learning visual-question-answering multimodal large-language-models llm llms large-vision-language-model large-vision-language-models large-multimodal-models lvlms lvlm

Updated Apr 17, 2024
Python

khuangaf / Awesome-Chart-Understanding

Star

A curated list of recent and past chart understanding work based on our survey paper: From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models.

awesome-list large-vision-language-models chart-understanding chart-question-answering chart-captioning chart-summarization