算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变AI专家

BlueLM-V-3B 是一款由 vivo AI 研究院与香港中文大学联合研发的端侧多模态模型。该模型现已完成对天玑 9300 和 9400 芯片的初步适配，未来将逐步推出手机端应用，为用户带来更智能、更便捷的体验。

近年来，多模态大语言模型（MLLM）的迅猛发展，为我们的日常生活带来了无限可能。手机作为我们形影不离的「智能伴侣」，无疑是 MLLM 最理想的落地平台。它能够将强大的 AI 能力，无缝融入我们的日常任务，让科技真正服务于生活。

然而，要将 MLLM 部署到手机上，并非易事。内存大小和计算能力的限制，就像两座大山，横亘在 MLLM 与手机之间。未经优化的模型，难以在手机上实现流畅、实时的处理，更遑论为用户带来良好的体验。

论文地址：https://arxiv.org/abs/2411.10640

为了攻克这一难题，vivo AI 全球研究院和香港中文大学多媒体实验室共同推出了 BlueLM-V-3B。这是一款专为移动平台量身打造的 MLLM，采用了算法与系统协同设计的创新理念，重新设计了主流 MLLM 的动态分辨率方案，并针对手机硬件特性进行了深度系统优化，从而实现了在手机上高效、流畅地运行 MLLM。

BlueLM-V-3B 具有以下几个显著特点：

算法与系统协同优化

研究团队分析了经典 MLLM 使用的动态分辨率方案，发现了图像过度放大的问题，并提出了针对性的解决方案。

此外，他们还针对硬件感知部署进行了一系列系统设计和优化，使 MLLM 在移动设备上能够更高效地进行推理，充分发挥硬件潜力。

卓越的模型性能

BlueLM-V-3B 在性能上表现出色，在参数规模相似的模型中达到了 SOTA 水平（例如，在 OpenCompass 基准测试中取得了 66.1 的高分）。

更令人惊喜的是，BlueLM-V-3B 甚至超越了一系列参数规模更大的 MLLM（例如，MiniCPM-V-2.6、InternVL2-8B），展现了其强大的实力。

高效的移动端部署

BlueLM-V-3B 在移动端部署方面同样表现优异。以联发科天玑 9300 处理器为例，其内存需求仅为 2.2GB，能够在约 2.1 秒内完成对 768×1536 分辨率图像的编码，并实现 24.4token/s 的 token 输出速度。

这意味着，用户可以在手机上享受到流畅、高效的 MLLM 体验，而无需担心算力瓶颈。

算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变AI专家

干货知识更多>>