AI圈今年有个明显趋势,所有新发的模型都集体进入了多模态时代。
智谱作为AI六小龙领头羊,前阵子又放了一个大招:发布GLM-4.1V-9B-Thinking模型。不仅完全开源,还引入了"思考范式",通过课程采样强化学习(RLCS)让模型具备了真正的视觉推理能力。
我看到数据的时候整个人都懵了:这个9B参数的"小模型",在18个榜单任务中竟然能持平甚至超过8倍参数量的Qwen-2.5-VL-72B!

从这个能力雷达图可以看出,GLM-4.1V-9B-Thinking虽然只有9B参数,但综合能力领先许多同类模型,尤其在OCR & Chart、GUI Agents、Coding这几项能力上表现突出。

更让我关注的是,GLM-4.1V-Thinking在视频理解上的表现也相当不错,在同类大小的模型中指标领先。
说实话,我之前一直想给抖音助手加视频分析功能,但视频处理本身就慢,再过一层大模型就更慢了。我想用小模型吧,性能又不够用,一直很纠结。
现在有了GLM-4.1V-Thinking,终于有了性价比更合适的选择。
当我看到GLM-4.1V-Thinking的表现,第一时间就想着能不能用它来增加原生的视频分析能力。
最让我头疼的就是视频分析这个老大难问题。之前我的抖音助手只能"听"不能"看"——只能从音频提取文案脚本,遇到需要分析视频画面、复杂场景的需求时,完全做不了,就像盲人摸象一样。
直到GLM-4.1V-Thinking的出现,我觉得终于可以为我的助手插上眼睛了。
我最关心的还是GLM-4.1V-Thinking的视频分析能力。智谱的bigmodel平台现在支持直接分析视频,正好可以测试一下实际效果。
我去抖音上找了智谱官方的视频来检测GLM-4.1V-Thinking的视频分析能力:

智谱AI视频
用我的抖音助手把视频下载下来后,让GLM-4.1V-Thinking逐秒分析视频内容。效果超出了我的预期——它能够精细分析每一秒的内容,图中的文字精准获取,整个画面中的气泡、图标等元素都分析得非常准确。

分析视频
更厉害的是,GLM-4.1V-Thinking还能轻松分析视频的整体结构:

视频结构
现在,在GLM-4.1V-Thinking的加持下,我的抖音助手终于可以实现从文字、声音,到能够理解图像、视频的全方位AI助手。
除了视频理解外,这个模型在其它方面到底有多强?我专门测试了三个核心能力。
我随手截了个网页,让GLM-4.1V-Thinking帮我重新实现。结果让我震惊——整体还原度高得吓人!风格一模一样,位置还原度也很高。
原网页:

GLM-4.1V-Thinking分析过程:

复现效果:

看到这个效果,我的第一反应是:前端开发者要失业了吗?
接下来测试GLM-4.1V-Thinking的空间理解能力。我打开小红书界面,这个能力主要用在GUI操作上,看能否精准定位元素。
我问它「彩妆」在图片中的位置,GLM-4.1V-Thinking不仅准确找到了,还能理解文字之间的空间关系。这种细致入微的观察力,真的让我叹为观止。

原图

视觉分析
最让我惊艳的测试来了:我随便找了张城堡图片,GLM-4.1V-Thinking竟然准确识别出是法国卡尔卡松古城堡!

原图

视觉定位
这种把图像语义理解和世界知识完美结合的能力,真的让我看到了多模态AI的无限可能。
智谱这次的开源力度让我很意外,直接全套开源,提供了多种使用方式:
模型下载:

在线体验:不想部署的话,可以在开源社区直接体验

API接入:需要集成到产品中的话,也可以通过API直接调用

坦白说,给抖音助手添加原生视频分析能力后,功能是强大了,但升级后算力成本也是坐火箭般上升。存储、视频图像处理、下载上传等等都带来了新问题。
涉及到图像、视频处理后,每次分析的成本都让我心疼。所以我还在做最后的成本优化——毕竟做个人开发者不容易,要让更多朋友都用得起才行。
如果你们真的需要这个全新的视频分析能力,请在评论区让我知道!
你们的支持就是我继续优化的动力。人多的话,我就咬咬牙尽快发布正式版。
想深入了解GLM-4.1V-Thinking视觉大模型的核心技术?锁定今晚的技术分享直播。