标签:视觉问答

多模态模型‌ 多模态大模型:基础架构

文章浏览阅读1k次,点赞11次,收藏22次。多模态大型语言模型(MLLM)是人工智能领域的前沿创新,它结合了语言和视觉模型的功能,可以处理复杂的任务,如视觉...

多模态模型‌ 多模态大模型看懂图片也会答错,智源联合多家机构推出多模态模型鲁棒性测试基准

智源研究院联合港科广、北邮、北大以及腾讯优图实验室的最新研究