Navigation menu

新闻中心

智源开源多模态向量模子BGE

BGE 系列模子自宣布以来广受社区好评。克日,智源研讨院结合多所高校开辟了多模态向量模子 BGE-VL,进一步裁减了原有生态系统。BGE-VL 在图文检索、组合图像检索等重要多模态检索义务中均获得了最佳后果。BGE-VL 借助年夜范围分解数据 MegaPairs 练习而成。这一计划具有以下两年夜中心上风:优良的可扩大性:MegaPairs pg电子麻将胡了2免费版联合多模态表征模子、多模态年夜模子跟年夜言语模子,在海量图文语料库中高效发掘多模态三元组数据。其算法可能以极低本钱连续天生多样化且高品质的多模态三元组。本次宣布的版本涵盖 2600 万条样本,为多模态检索模子的练习供给了年夜范围、低价值的数据支撑。出色的数据品质:相较于传统多模态数据,MegaPairs 仅需 1/70 的数据量即可实现更优的练习后果。应用该分解数据,智源练习了多模态检索模子 BGE-VL,明显晋升了多个主流多模态检索基准的机能。BGE-VL 的技巧讲演已宣布,相干数据、模子及代码资本将连续向社区片面开放。论文地点:https://arxiv.org/abs/2412.14475名目主页:https://github.com/VectorSpaceLab/MegaPairs模子地点:https://huggingface.co/BAAI/BGE-VL-MLLM-S1研讨配景在年夜模子时期,信息检索须要满意人们日益多样化的需要,这种需要不只表现在用户的多模态查问输入上,也表现在对多模态信息的需要上。比方,用户可能拍摄一张汽车表面图,并盼望获取该款汽车的指定信息。在这种情形下,多模态检索器须要综公道解用户的图像跟文本指令,并从多种模态的信息中检索出最相干的内容。但是,现有的多模态检索模子平日基于单一情势的跨模态配对数据(如图像 - 文本对)停止练习,这使得它们难以处置庞杂的组合模态输入。比年来,指令微调技巧在文本检索跟年夜言语模子等范畴曾经证实了其加强多义务才能的无效性。但是,以往的多模态检索指令数据集年夜多依附人工标注,限度了年夜范围多样化数据的获取。为处理这一限度,智源 BGE 团队翻新性地提出了 MegaPairs 数据分解方式。该方式经由过程BET9十年信誉备用登录入口从现有年夜范围图像数据会合发掘多样的关系图像对,并应用开源多模态年夜模子跟年夜言语模子停止主动化指令天生,从而构建出高品质、可扩大、泛化性强的多模态检索指令微调数据集。团队基于 MegaPairs 的高品质数据,练习并开源多模态向量模子 BGE-VL 系列,实现了以后最佳的多模态检索才能。MegaPairs 结构MegaPairs 提出从现有年夜范围图文语料库中发掘并结构年夜范围、高品质多模态检索指令数据集。详细地,MegaPairs 的结构重要分为两个要害步调:(1)应用多种类似度模子从图像数据会合发掘多样的图像对;(2)应用开源的多模态年夜模子跟年夜言语模子分解开放域检索指令。以下图为例,MegaPairs 起首从年夜范围图像数据会合采样一对图像 - 文本数据作为查问数据。而后,应用多种图像跟文原形似度模子,发掘出多组关系图像对(比方:同款汽车的外饰与内饰、同款汽车差别涂装、同品牌汽车将来观点图等)。接着,针对这些发掘出的图像对,MegaPairs 采取两阶段标注方式:起首应用多模态年夜言语模子(MLLM)总结两张图片之间的关系关联,而后应用年夜言语模子(LLM)撰写终极的开放域检索指令。值得留神的是,MegaPairs 完整基于开源数据集跟开源模子停止主动化构建跟标注。经由过程引入多个类似度模子跟两阶段标注方式,MegaPairs 可能在无需人工参加的情形下,扩大性地天生年夜范围、高品质且多样化的多模态检索指令数据集。