微软Phi-3-Vision小型语言模型将图像分析引入移动设备

来源:网界网 | 2024-05-22 09:37:13

微软正在通过引入 Phi-3-vision 来扩展其 Phi-3 系列小型语言模型。与它的兄弟姐妹不同,Phi-3-vision不仅专注于文本,它还是一个多模态模型,也可以分析和理解图像。

这个 42 亿参数的模型专为移动设备设计,擅长一般视觉推理任务。用户可以向 Phi-3-vision 询问有关图像或图表的问题,它将提供有见地的答案。虽然不是像 DALL-E 或 Stable Diffusion 那样的图像生成工具,但 Phi-3-vision 在图像分析和理解方面表现出色。

Phi-3-vision 的到来紧随 Phi-3-mini 之后,Phi-3-mini 是 Phi-3 家族中最小的成员,拥有 38 亿个参数。完整的系列现在包括 Phi-3-mini、Phi-3-vision、Phi-3-small(70 亿个参数)和 Phi-3-medium(140 亿个参数)。

这种对小型模型的关注反映了人工智能发展的增长趋势。较小的型号需要较少的处理能力和内存,因此非常适合移动设备和其他资源受限的环境。Microsoft已经看到了这种方法的成功,据报道,其Orca-Math模型在解决数学问题方面超过了更大的竞争对手。Phi-3-vision 目前提供预览版,而 Phi-3 系列的其余部分(迷你、小型和中型)可以通过 Azure 的模型库访问。

相关阅读

每日精选