
阅读收获
👉 划线高亮 观点批注
都说2025年是AI Agent 元年,大家已经习惯日常在豆包、千问等对话应用中做问答搜索,在这一类对话应用中,几乎不需要做什么配置,是真正的开箱即用,随着应用场景的聚焦和专业化,未来会有越来越多应用载体出现,与之对应的交互方式将会出现新形式,但不变的是后端必然需要与大模型交互。
在本系列中,博主将回顾2025年使用强度比较高的几个小工具,这些工具有的生命周期比较长,有的可能在未来会被竞争对手取缔,在快速更替的AI 应用中,大概率都是浮光掠影,但或许能阶段性的提高你我的工作效率。
第一个是与输入法相关的一组应用,核心主题都与 语音输入相关。
作为云计算从业者,本人工作中需要大量的技术内容输入与输出,如何以更高的效率来沟通,并澄清表达是工作的基本要求。
自从将手机端的输入法,从微信输入法切换成豆包输入法后,后者准确的语音输入能力,大大提高了移动端的IO效率,为此也是在想,PC端有没有类似的方案呢?
现阶段 PC端的闪电说,或可一用。
在此之前,使用过几款PC端的语音输入工具,梳理表格如下:
对比维度 | Windows11 语音输入 | WisprFlow (WF) | 闪电说 |
|---|---|---|---|
集成方式 | OS原生支持 | 第三方应用 | 第三方应用 |
联网需求 | 必须联网 | 必须联网 | ASR离线+AI联网 |
识别准确度 | 还算能用 | 不尽人意 | 明显提升 |
识别速度 | 正常 | 较慢(海外LLM时延明显) | 快速(本地ASR无网络影响) |
特色功能 | 无 | AI优化输出+用户习惯沉淀 | 本地ASR+AI语义整合 |
使用成本 | 免费 | 较高 | 较WF更可控 |
主要优势 | 系统级集成,开箱即用 | AI智能优化 | 离线可用,效率与成本兼顾 |
主要不足 | 无法处理表达修正和歧义 | 速率慢,准确度不稳定 | 仍非完美解决方案 |
总结对比要点:
介绍了这么多,如何使用呢?
或者可以通过这个链接,在PC端直接下载 https://download.shandianshuo.cn/windows/shandianshuo_0.5.6_x64-setup.exe
应用本身的UI交互比较简单,下载后需要下载本地ASR模型运行环境 仅1个G大小,这意味着 应用运行将常驻内存,占用近1个G大小,这对老/内存有限的电脑,不太友好。
这里主要介绍 2 个配置项 。

开启智能鼠标模式后,按鼠标中键即可持续录音,按击鼠标中键结束录音,这种方式适合长时间的文本输入,是个比较使用的功能,目前WF似乎还没有。
值得提醒的时,本地ASR模型,每次的录音文件保留在本地电脑,如果长时间使用的话,需要定时清理一下,这是本地低时延ASR的代价。
使用原生基础功能一段时间,发现输入的准确度不是很高,且按原语序识别,往往存在改口的描述,不甚满意。这才配置 AI纠正功能,使用后 顿感振奋,因此萌生写这篇介绍的短文的兴趣。

下面介绍 如何配置AI token 接口
这里推荐使用硅基流动的 API,或者其他实惠的Token平台,关于硅基流动的领取方法,文末有介绍。


主要配置参数,未提及的保存默认即可 :
关于模型推荐这里做个说明,从成本角度来考虑来想,本人最开始准备选择DS-V3.2的,因为它的成本相对比较低,但是配置后测试报错,推测主要原因是:V3.2,可能会输出思考过程,导致语音转化的结果调用出错,选择Minimax-M2后能够正常输出。
另外一方面:平台上Minimax M2的tokens输出 TTFT是比较快的,处理长文本输出的吞吐量 TPS 能达到130tokens/s。
完成上述两个配置后,就能在PC端更快捷的输出内容了,结合过往的经历,以下场景能很好的利用软件功能:
到此,简单介绍了语音输入法-闪电输的使用说明。
Note
闪电说作为PC端语音输入的先行者,可以预测这块的市场,后面互联网大厂肯定会参与进来,通过免费模式,抢占用户语意输出作为第一手信息源。国内市场到底会不会为输入法付费,可能长期来看,并不需要。
在快速发展的AI应用时代,最终能不能商业化的活下来是结果导向,闪电说的快速实现足以说明其开发者的用户意识已然领先。
尽管推测:公众号读者绝大部分都是AI的使用者,但如果仍有一些“漏网之鱼”,还没有真实使用 Token API 的朋友,可以借鉴本文的开箱介绍,通过赛博菩萨-硅基流动推介官活动,领取免费 Token 体验,当然不瞒您说,出现在这里的推介,新用户注册后,平台也会给我 Token 奖励,相当于给我加了个鸡腿。
邀请码,领取Token

生成API密钥
---【本文完】---
👇阅读原文,搜索🔍更多历史文章。

丰子恺-护生画集-生机