9B小模型也能打，智谱GLM-4.1V-Thinking让我的抖音助手直接起飞

1987786399

发布于 2025-10-11 12:29:28

1960

AI圈今年有个明显趋势，所有新发的模型都集体进入了多模态时代。

智谱作为AI六小龙领头羊，前阵子又放了一个大招：发布GLM-4.1V-9B-Thinking模型。不仅完全开源，还引入了"思考范式"，通过课程采样强化学习（RLCS）让模型具备了真正的视觉推理能力。

我看到数据的时候整个人都懵了：这个9B参数的"小模型"，在18个榜单任务中竟然能持平甚至超过8倍参数量的Qwen-2.5-VL-72B！

从这个能力雷达图可以看出，GLM-4.1V-9B-Thinking虽然只有9B参数，但综合能力领先许多同类模型，尤其在OCR & Chart、GUI Agents、Coding这几项能力上表现突出。

更让我关注的是，GLM-4.1V-Thinking在视频理解上的表现也相当不错，在同类大小的模型中指标领先。

说实话，我之前一直想给抖音助手加视频分析功能，但视频处理本身就慢，再过一层大模型就更慢了。我想用小模型吧，性能又不够用，一直很纠结。

现在有了GLM-4.1V-Thinking，终于有了性价比更合适的选择。

当我看到GLM-4.1V-Thinking的表现，第一时间就想着能不能用它来增加原生的视频分析能力。

最让我头疼的就是视频分析这个老大难问题。之前我的抖音助手只能"听"不能"看"——只能从音频提取文案脚本，遇到需要分析视频画面、复杂场景的需求时，完全做不了，就像盲人摸象一样。

直到GLM-4.1V-Thinking的出现，我觉得终于可以为我的助手插上眼睛了。

我最关心的还是GLM-4.1V-Thinking的视频分析能力。智谱的bigmodel平台现在支持直接分析视频，正好可以测试一下实际效果。

我去抖音上找了智谱官方的视频来检测GLM-4.1V-Thinking的视频分析能力：

智谱AI视频

用我的抖音助手把视频下载下来后，让GLM-4.1V-Thinking逐秒分析视频内容。效果超出了我的预期——它能够精细分析每一秒的内容，图中的文字精准获取，整个画面中的气泡、图标等元素都分析得非常准确。

分析视频

更厉害的是，GLM-4.1V-Thinking还能轻松分析视频的整体结构：

视频结构

现在，在GLM-4.1V-Thinking的加持下，我的抖音助手终于可以实现从文字、声音，到能够理解图像、视频的全方位AI助手。

除了视频理解外，这个模型在其它方面到底有多强？我专门测试了三个核心能力。

我随手截了个网页，让GLM-4.1V-Thinking帮我重新实现。结果让我震惊——整体还原度高得吓人！风格一模一样，位置还原度也很高。

原网页：

GLM-4.1V-Thinking分析过程：

复现效果：

看到这个效果，我的第一反应是：前端开发者要失业了吗？

接下来测试GLM-4.1V-Thinking的空间理解能力。我打开小红书界面，这个能力主要用在GUI操作上，看能否精准定位元素。

我问它「彩妆」在图片中的位置，GLM-4.1V-Thinking不仅准确找到了，还能理解文字之间的空间关系。这种细致入微的观察力，真的让我叹为观止。

原图

视觉分析

最让我惊艳的测试来了：我随便找了张城堡图片，GLM-4.1V-Thinking竟然准确识别出是法国卡尔卡松古城堡！

原图

视觉定位

这种把图像语义理解和世界知识完美结合的能力，真的让我看到了多模态AI的无限可能。

智谱这次的开源力度让我很意外，直接全套开源，提供了多种使用方式：

模型下载：

Github：https://github.com/THUDM/GLM-4.1V-Thinking
ModelScope：https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
Hugging Face：https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d

在线体验：不想部署的话，可以在开源社区直接体验

API接入：需要集成到产品中的话，也可以通过API直接调用

使用指南：https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
接口文档：https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking