乐鱼视觉模型SegGPT来啦！具备上下文推理能力—新闻

乐鱼视觉模型SegGPT来啦！具备上下文推理能力—新闻—科学网

发布日期：2024-05-30 15:13:16 访问量：53 来源：乐鱼智能

SegGPT是一个哄骗视觉提醒完成肆意支解使命的通用视觉模子，具有上下文推理威力，练习完成后无需微调，只需提供示例便可主动推理并完成对于应支解使命，包孕图象以及视频中的实例、种别、零部件、轮廓、文本、人脸、医学图象等。

Meta AI图象支解根蒂根基模子SAM的邃密标注威力与SegGPT的通用支解标注威力相联合，能把肆意图象从像素阵列剖析为视觉布局单位，像生物视觉那样理解肆意场景。

ChatGPT激发言语年夜模子怒潮，AI另外一个庞大范畴视觉的GPT时刻什么时候到来？

5月28日，北京智源人工智能研究院于2023中关村论坛平行论坛之一的人工智能年夜模子成长论坛上推出通用支解模子SegGPT（Segment Everything In Contex），这是一个哄骗视觉提醒（prompt）完成肆意支解使命的通用视觉模子。

论文地址：https://arxiv.org/abs/2304.03284

标注出一个画面中的彩虹，可批量化支解其他画面中的彩虹。

SegGPT是智源通用视觉模子Painter的衍生模子，针对于支解一切物体的方针做出优化。SegGPT具有上下文推理威力，练习完成后无需微调，只需提供示例便可主动推理并完成对于应支解使命，包孕图象以及视频中的实例、种别、零部件、轮廓、文本、人脸、医学图象等。它的矫捷推理威力撑持肆意数目的视觉提醒。主动视频支解以及追踪威力以第一帧图象以及对于应的物体掩码作为上下文示例，SegGPT可以或许主动对于后续视频帧举行支解，而且可以用掩码的颜色作为物体的ID，实现主动追踪。

用画笔大抵圈出行星环带（上图），于猜测图中正确输出方针图象中的行星环带（下图）。

此前，Meta公司发布了AI图象支解根蒂根基模子SAM，SegGPT与SAM的差异于在，SAM 一触即通，经由过程一个点或者界限框，于待猜测图片上给出交互提醒，辨认支解画面上的指定物体。SegGPT 一通百通，给出一个或者几个示例图象以及用意掩码，模子就能知道用户用意，有样学样地完成近似支解使命。用户于画面上标注辨认一类物体，便可批量化辨认支解同类物体，不管是于当前画面照旧其他画面或者视频情况中。

SegGPT可以或许按照用户提供的宇航员头盔掩码这一上下文（上图），于新的图片中猜测出对于应的宇��APP航员头盔区域（下图）。

不管是一触即通照旧一通百通，都象征着视觉模子已经经理解了图象布局。SAM邃密标注威力与SegGPT的通用支解标注威力相联合，能把肆意图象从像素阵列剖析为视觉布局单位，像生物视觉那样理解肆意场景。

（原标题：北京智源推出通用视觉支解模子SegGPT，具有上下文推理威力）

出格声明：本文转载仅仅是出在流传信息的需要，其实不象征着代表本消息网不雅点或者证明其内容的真实性；如其他媒体、消息网或者小我私家从本消息网转载使用，须保留本消息网注明的“来历”，并自大版权等法令义务；作者假如不但愿被转载或者者接洽转载稿费等事宜，请与咱们联系。/乐鱼

上一篇:乐鱼我国计划在2030年前实现中国人首次登陆月球—新闻—科学网下一篇:乐鱼致敬各行各业每一位科技工作者，致敬心中的每一束光—新闻—科学网