首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >9B小模型也能打,智谱GLM-4.1V-Thinking让我的抖音助手直接起飞

9B小模型也能打,智谱GLM-4.1V-Thinking让我的抖音助手直接起飞

作者头像
1987786399
发布2025-10-11 12:29:28
发布2025-10-11 12:29:28
1310
举报

AI圈今年有个明显趋势,所有新发的模型都集体进入了多模态时代。

智谱作为AI六小龙领头羊,前阵子又放了一个大招:发布GLM-4.1V-9B-Thinking模型。不仅完全开源,还引入了"思考范式",通过课程采样强化学习(RLCS)让模型具备了真正的视觉推理能力。

我看到数据的时候整个人都懵了:这个9B参数的"小模型",在18个榜单任务中竟然能持平甚至超过8倍参数量的Qwen-2.5-VL-72B!

从这个能力雷达图可以看出,GLM-4.1V-9B-Thinking虽然只有9B参数,但综合能力领先许多同类模型,尤其在OCR & Chart、GUI Agents、Coding这几项能力上表现突出。

更让我关注的是,GLM-4.1V-Thinking在视频理解上的表现也相当不错,在同类大小的模型中指标领先。

说实话,我之前一直想给抖音助手加视频分析功能,但视频处理本身就慢,再过一层大模型就更慢了。我想用小模型吧,性能又不够用,一直很纠结。

现在有了GLM-4.1V-Thinking,终于有了性价比更合适的选择。

GLM-4.1V-Thinking终于解决了我的痛点

当我看到GLM-4.1V-Thinking的表现,第一时间就想着能不能用它来增加原生的视频分析能力。

最让我头疼的就是视频分析这个老大难问题。之前我的抖音助手只能"听"不能"看"——只能从音频提取文案脚本,遇到需要分析视频画面、复杂场景的需求时,完全做不了,就像盲人摸象一样。

直到GLM-4.1V-Thinking的出现,我觉得终于可以为我的助手插上眼睛了。

我最关心的还是GLM-4.1V-Thinking的视频分析能力。智谱的bigmodel平台现在支持直接分析视频,正好可以测试一下实际效果。

我去抖音上找了智谱官方的视频来检测GLM-4.1V-Thinking的视频分析能力:

智谱AI视频
智谱AI视频

智谱AI视频

用我的抖音助手把视频下载下来后,让GLM-4.1V-Thinking逐秒分析视频内容。效果超出了我的预期——它能够精细分析每一秒的内容,图中的文字精准获取,整个画面中的气泡、图标等元素都分析得非常准确。

分析视频
分析视频

分析视频

更厉害的是,GLM-4.1V-Thinking还能轻松分析视频的整体结构:

视频结构
视频结构

视频结构

现在,在GLM-4.1V-Thinking的加持下,我的抖音助手终于可以实现从文字、声音,到能够理解图像、视频的全方位AI助手。

9B模型到底有多强?我还测了这三个能力

除了视频理解外,这个模型在其它方面到底有多强?我专门测试了三个核心能力。

1. 网页重构能力:一张截图就能还原整个网站

我随手截了个网页,让GLM-4.1V-Thinking帮我重新实现。结果让我震惊——整体还原度高得吓人!风格一模一样,位置还原度也很高。

原网页:

原网页
原网页

GLM-4.1V-Thinking分析过程:

过程
过程

复现效果:

复现网页
复现网页

看到这个效果,我的第一反应是:前端开发者要失业了吗?

2. 空间定位能力:精准得像GPS一样

接下来测试GLM-4.1V-Thinking的空间理解能力。我打开小红书界面,这个能力主要用在GUI操作上,看能否精准定位元素。

我问它「彩妆」在图片中的位置,GLM-4.1V-Thinking不仅准确找到了,还能理解文字之间的空间关系。这种细致入微的观察力,真的让我叹为观止。

原图
原图

原图

视觉分析
视觉分析

视觉分析

3. 地理识别:一眼认出法国古城堡

最让我惊艳的测试来了:我随便找了张城堡图片,GLM-4.1V-Thinking竟然准确识别出是法国卡尔卡松古城堡

原图
原图

原图

视觉定位
视觉定位

视觉定位

这种把图像语义理解和世界知识完美结合的能力,真的让我看到了多模态AI的无限可能。

智谱这次真的给力

智谱这次的开源力度让我很意外,直接全套开源,提供了多种使用方式:

模型下载:

  • Github:https://github.com/THUDM/GLM-4.1V-Thinking
  • ModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
  • Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d

在线体验:不想部署的话,可以在开源社区直接体验

  • HuggingFace Demo:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
  • 魔搭社区:https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

API接入:需要集成到产品中的话,也可以通过API直接调用

GLM-4.1V-Thinking-Flash API 接口文档
GLM-4.1V-Thinking-Flash API 接口文档
  • 使用指南:https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
  • 接口文档:https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

写在最后

坦白说,给抖音助手添加原生视频分析能力后,功能是强大了,但升级后算力成本也是坐火箭般上升。存储、视频图像处理、下载上传等等都带来了新问题。

涉及到图像、视频处理后,每次分析的成本都让我心疼。所以我还在做最后的成本优化——毕竟做个人开发者不容易,要让更多朋友都用得起才行。

如果你们真的需要这个全新的视频分析能力,请在评论区让我知道!

你们的支持就是我继续优化的动力。人多的话,我就咬咬牙尽快发布正式版。

想深入了解GLM-4.1V-Thinking视觉大模型的核心技术?锁定今晚的技术分享直播。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云中江树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • GLM-4.1V-Thinking终于解决了我的痛点
  • 9B模型到底有多强?我还测了这三个能力
    • 1. 网页重构能力:一张截图就能还原整个网站
    • 2. 空间定位能力:精准得像GPS一样
    • 3. 地理识别:一眼认出法国古城堡
  • 智谱这次真的给力
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档