苹果 FastVLM 上线:5分钟体验85倍速视觉 AI,数据永不出设备

AI行业资讯2天前发布 墨白
15.8K 0 0

AIbase报道 – Apple 几个月前发布的 FastVLM 视觉语言模型现已向公众开放,用户可在搭载 Apple Silicon 芯片的 Mac 上直接体验这项革命性技术。

FastVLM 是一种能够提供近乎即时高分辨率图像处理的视觉语言模型,基于 Apple 专为 Apple Silicon 设计的开放 ML 框架 MLX 构建。相比同类模型,FastVLM 在视频字幕处理速度上提升了85倍,同时体积缩小了3倍以上。

苹果 FastVLM 上线:5分钟体验85倍速视觉 AI,数据永不出设备

Apple,苹果发布会,iPhone,Apple Watch

多平台可用,浏览器直接体验

Apple 在完善项目后,FastVLM 不仅在 GitHub 上开源,还登陆了 Hugging Face 平台。用户现在可以直接在浏览器中加载轻量级的 FastVLM-0.5B 版本,无需复杂安装过程即可体验其强大功能。

根据实测,在16GB M2Pro MacBook Pro 上,模型加载需要几分钟时间。加载完成后,模型能够实时准确描述用户外貌、背景环境、面部表情以及视野中的各种物体。

智能交互功能丰富

该模型支持多种预设提示,用户可以要求模型:

  • 用一句话描述所见场景
  • 识别衣物颜色
  • 读取可见文本内容
  • 分析情感和动作
  • 识别手中物体

高级用户还可结合虚拟摄像头应用,观察模型如何即时详细描述复杂的多场景视频内容。

本地化运行的隐私优势

FastVLM 的一大亮点是完全在浏览器本地运行,数据永不离开设备,甚至支持离线使用。这种设计为可穿戴设备和辅助技术应用提供了理想解决方案,轻便性和低延迟特性为更广泛的应用场景奠定了基础。

目前浏览器演示使用的是5亿参数的轻量级版本,FastVLM 系列还包含15亿和70亿参数的更强大变体,能够提供更优异的性能表现,尽管这些大型模型可能无法直接在浏览器中运行。

© 版权声明

相关文章

暂无评论

none
暂无评论...