微软写了份GPT-4V说明书：166页讲解又全又详细，提示词demo示例一应俱全 | 附下载

hezhisheng026 运营技巧 2023-10-30 23:45:01 210 0

甚至不告诉GPT-4V影像的种类和位置，它自己也能判断。

这张图中，GPT-4V成功识别出了这是一张脑部的核磁共振（MRI）影像。

同时，GPT-4V还发现存在大量积液，认为很可能是高级别脑胶质瘤。

经过专业人士判断，GPT-4V给出的结论完全正确。

除了这些“正经”的内容之外，当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。

△机器翻译，仅供参考

不仅是解读表情包中的梗，真实世界中人类的表情所表达的情感也能被GPT-4看穿。

除了这些真·图像之外，文本识别也是机器视觉中的一项重要任务。

这方面，GPT-4V除了可以识别拉丁文字拼写的语言之外，中文、日文、希腊文等其他文字也都认识。

甚至是手写的数学公式:

图像推理

前面展示的DEMO，无论多么专业或多么难懂，都还停留在识别的范畴，但这只是GPT-4V技能的冰山一角。

除了看懂图片中的内容，GPT-4V还具有一定的推理能力。

简单一些的，GPT-4V可以发现两张图中的不同（虽然还有些错误）。

下面的一组图中，王冠和蝴蝶结的区别都被GPT-4V发现了。

如果加大难度，GPT-4V还能解决IQ测试当中的图形问题。

上面的这三道题中的特征或逻辑关系都还比较简单，但接下来就要上难度了:

当然难度不是在于图形本身，注意图中的第4条文字说明，原题目中图形的排列方式不是图中展示的样子。

图片标注

除了用文本回答各种问题，GPT-4V还可以在图片中执行一系列操作。

比如我们手里有一张四位AI巨头的合影，要GPT-4V框出其中的人物并标注他们的姓名和简介。

GPT-4V先是用文本回答了这些问题，紧接着便给出了处理之后的图片:

动态内容分析

除了这些静态内容，GPT-4V还能做动态分析，不过不是直接喂给模型一段视频。

下面的五张图是从一段制作寿司的教程视频中截取的，GPT-4V的任务是（在理解内容的基础上）推测这些图片出现的顺序。

而针对同一系列的图片，可能会有不同的理解方式，这是GPT-4V会结合文本提示进行判断。

比如下面的一组图中，人的动作究竟是开门还是关门，会导致排序结果截然相反。

当然，通过多张图片中人物状态的变化，还可以推测出他们正在做的事情。

甚至是预测接下来会发生什么:

“现场学习”

GPT-4V不仅视觉本领强，关键是还能现学现卖。

还是举个例子，让GPT-4V读汽车仪表盘，一开始得出的答案是错误的:

紧接着把方法用文字交给GPT-4V，但这是的答案依然不对:

然后又把例子展示给GPT-4V，答案倒是有样学样，可惜数字是胡编乱造出来的。

只有一个例子的确是有点少，不过随着样本数量的提高（其实只多了一个），终于功夫不负有心人，GPT-4V给出了正确答案。

GPT-4V的效果就展示这么多，当然它还支持更多的领域和任务，这里无法一一展示，感兴趣的话可以阅读原始报告。

那么，GPT-4V这些神器的效果背后，是怎样的一个团队呢?

清华校友领衔

这篇论文的作者一共有7位，均为华人，其中6位是核心作者。

项目领衔作者Lijuan Wang，是微软云计算与AI首席研究经理。

她本科毕业于华中科技大学，在中国清华大学获得博士学位，于2006年加入微软亚洲研究院，并于2016年加入位于雷德蒙德的微软研究院。

她的研究领域是基于多模态感知智能的深度学习和机器学习，具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。

原文地址:

https://arxiv.org/abs/2309.17421

版权声明

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。

本文链接：https://www.16i.cc/post/41340.html

上一篇：三星官翻旗舰店7天机靠谱吗？带你一文读懂
下一篇：姓毛属虎的男孩名字男孩取名字属虎

微软写了份GPT-4V说明书：166页讲解又全又详细，提示词demo示例一应俱全 | 附下载

△机器翻译，仅供参考

图像推理

图片标注

动态内容分析

“现场学习”

清华校友领衔

版权声明

相关文章

最近发表

热门文章

随机文章