专题:聚焦谷歌2024年I/O开发者大会:实时交互、视频模型登场

谷歌Gemini大模型视觉系统支持阅读文档并解读空间信息  第1张

  新浪科技讯 5月15日凌晨消息,谷歌Gemini大模型展示升级后的视觉识别功能,例如阅读拍摄到的文档内容并进行解读,同时,视觉识别还拥有“记忆力”,能够帮助用户找到“落下的眼镜”。(罗宁)

谷歌Gemini大模型视觉系统支持阅读文档并解读空间信息  第2张