网站首页 > 精选文章 正文
上个月GPT-4发布时,我曾写过一篇文章分享过有关GPT-4的几个关键信息。
当时的分享就提到了GPT-4的一个重要特性,那就是多模态能力。
比如发布会上演示的,输入一幅图(手套掉下去会怎么样?)。
GPT-4可以理解并输出给到:它会掉到木板上,并且球会被弹飞。
再比如给GPT-4一张长相奇怪的充电器图片,问为什么这很可笑?
GPT-4回答道,VGA 线充 iPhone。
用户甚至还可以直接画一个网站草图拍照丢给GPT-4,它就可以立马帮助生成代码。
但是时间过去了这么久,GPT-4像这样的识图功能也迟迟没有开放。
就在大家都在等待这个功能开放的时候,一个名为MiniGPT-4的开源项目悄悄做了这件事情。
https://github.com/Vision-CAIR/MiniGPT-4
没错,就是为了增强视觉语言理解。
MiniGPT-4背后团队来自KAUST(沙特阿卜杜拉国王科技大学),是几位博士开发的。
项目除了是开源的之外,而且还提供了网页版的demo,用户可以直接进去体验。
MiniGPT-4也是基于一些开源大模型来训练得到的。
团队把图像编码器与开源语言模型Vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。
训练分为两个阶段。
传统预训练阶段,在4张A100上使用500万图文对,10个小时内就可以完成,此时训练出来的Vicuna已能够理解图像,但生成能力有限。
然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高,单卡A100只需要7分钟。
并且团队正在准备一个更轻量级的版本,部署起来只需要23GB显存,这也就意味着未来可以在一些消费级的显卡中或许就可以进行本地训练了。
这里也给大家看几个例子。
比如丢一张食物的照片进去来获得菜谱。
或者给出一张商品的照片来让其帮忙写一篇文案。
当然也可以像之前GPT-4发布会上演示的那样,画出一个网页,让其帮忙生成代码。
可以说,GPT-4发布会上演示过的功能,MiniGPT-4基本也都有。
这一点可以说非常amazing了!
可能由于目前使用的人比较多,在MiniGPT-4网页demo上试用时会遇到排队的情况,需要在队列中等待。
但是用户也可以自行本地部署服务,过程并不复杂。
首先是下载项目&准备环境:
git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4
然后下载预训练模型:
最后在本地启动Demo:
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml
通过这个项目我们也再一次看出大模型在视觉领域的可行性,未来在图像、音频、视频等方面的应用前景应该也是非常不错的,我们可以期待一下。
好了,今天的分享就到这里了,感谢大家的收看,我们下期见。
猜你喜欢
- 2025-05-22 保姆级教程!全面掌握ComfyUI插件的下载和安装
- 2025-05-22 Ubuntu 22.04安装MySQL : Qwen2.5 模型对话数据收集与微调教程
- 2025-05-22 Windows上的程序、服务安装监控程序
- 2025-05-22 Docker 部署高性能抖音 TikTok数据爬取工具,支持无水印视频下载
- 2025-05-22 Java:实现文件批量导入导出实践(兼容xls,xlsx)
- 2025-05-22 【推荐】一个基于 Vue3 开源免费、高颜值的中后台模版,开箱即用
- 2025-05-22 心心念念的前端代码生成利器,前后端一网打尽
- 2025-05-22 若依
- 2025-05-22 开源零代码平台 敲敲云, Docker 一键安装启动
- 2025-05-22 spider-flow:开源的可视化方式定义爬虫方案
- 05-22如何基于Docker和Jenkins打造面向初创公司的持续集
- 05-22Flutter无脑入门-从零到第一个APP
- 05-22git 子模块
- 05-22我见过的最糟糕代码
- 05-22掌握这 20 个 Git 命令,成为团队协作高手!
- 05-22gitflow的工作流
- 05-22Git详细使用教程
- 05-22git版本管理总有问题,建议使用git flow
- 最近发表
- 标签列表
-
- 向日葵无法连接服务器 (32)
- git.exe (33)
- vscode更新 (34)
- dev c (33)
- git ignore命令 (32)
- gitlab提交代码步骤 (37)
- java update (36)
- vue debug (34)
- vue blur (32)
- vscode导入vue项目 (33)
- vue chart (32)
- vue cms (32)
- 大雅数据库 (34)
- 技术迭代 (37)
- 同一局域网 (33)
- github拒绝连接 (33)
- vscode php插件 (32)
- vue注释快捷键 (32)
- linux ssr (33)
- 微端服务器 (35)
- 导航猫 (32)
- 获取当前时间年月日 (33)
- stp软件 (33)
- http下载文件 (33)
- linux bt下载 (33)