首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

太强了!能看图写代码的多模态大模型DeepSeek-VL

DeepSeek-VL示意图

在人工智能领域,多模态模型的发展正以惊人的速度突飞猛进。 DeepSeekAI,这家得到幻方量化后盾的创新型企业,近期推出了一系列新的多模态大模型:DeepSeek-VL。这一系列模型包含从13亿至70亿的参数量,目标是极大提升机器对图像和文本的理解,同时也针对商业应用提供支持。

以下是一些实际应用场景:

看图写Python代码

当询问:“你能帮我用Python代码重新画一下这张图吗?”,模型的表现如何呢?

输入示例图

模型不仅输出了代码,还附带了详细的代码解释。

代码与解释

将这段代码运行一遍,结果一次成功,无任何错误。生成的图片与原图虽有细微差别,但已经非常接近。对于需要绘制图表的论文作者来说,这无疑是一个好消息。

生成图片与原图对比 人物识别能力

来看另一个例子,模型能够精确地理解镜中的人物形象。

人物识别示例

当然,DeepSeek-VL的应用远不止于此,还包括但不限于识别LaTeX公式、表格等多种功能。

学术Fun已经将以上工具封装成一键启动包,只需简单点击即可使用,避免了配置Python环境可能出现的问题。 下载地址(仅限电脑浏览器访问):https://xueshu.fun/4414/,在该页面右侧区域点击下载。

请注意,电脑配置需满足以下条件:

- Windows 10/11 64位操作系统

- 12G显存以上的NVIDIA显卡

下载与使用教程

解压文件解压后,请确保路径中不包含中文字符。解压完成后,如下图所示,双击启动.exe文件。

解压后的文件夹

浏览器使用界面

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OzeVaK-navfR-NglL1GoM2cg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券