2025 都用了哪些小而美的AI工具？- PC端语音输入法闪电说

数据存储前沿技术

发布于 2026-01-28 16:12:03

1.6K0

阅读收获

工具选型参考：掌握Windows11语音输入、WisprFlow、闪电说三款工具的核心差异，可根据自身场景快速选择最适合的语音输入方案
架构理解提升：深入理解本地ASR+云端AI混合架构的技术优势，为后续评估类似产品提供分析框架
配置实操技能：获得闪电说AI纠正功能的完整配置指南，包含模型选择和API对接的实践经验，可直接复用
场景落地指南：了解语音输入在演讲稿撰写、草稿模拟、即时通讯等场景的实战应用方法

👉 划线高亮观点批注

都说2025年是AI Agent 元年，大家已经习惯日常在豆包、千问等对话应用中做问答搜索，在这一类对话应用中，几乎不需要做什么配置，是真正的开箱即用，随着应用场景的聚焦和专业化，未来会有越来越多应用载体出现，与之对应的交互方式将会出现新形式，但不变的是后端必然需要与大模型交互。

在本系列中，博主将回顾2025年使用强度比较高的几个小工具，这些工具有的生命周期比较长，有的可能在未来会被竞争对手取缔，在快速更替的AI 应用中，大概率都是浮光掠影，但或许能阶段性的提高你我的工作效率。

第一个是与输入法相关的一组应用，核心主题都与语音输入相关。

作为云计算从业者，本人工作中需要大量的技术内容输入与输出，如何以更高的效率来沟通，并澄清表达是工作的基本要求。

自从将手机端的输入法，从微信输入法切换成豆包输入法后，后者准确的语音输入能力，大大提高了移动端的IO效率，为此也是在想，PC端有没有类似的方案呢？

现阶段 PC端的闪电说，或可一用。

在此之前，使用过几款PC端的语音输入工具，梳理表格如下：

Windows11 自带的语音输入，通过快捷键 win+H 可以调用语音输入，其优势是OS原生支持，但需要联网支持，语音识别的准确度也还算能用，存在的问题是：只能按语序识别，如果表达过程存在歧义或修正，识别的结果就没有办法作为最终内容输出，对表达过程的准确性要求比较高，而往往口语表达都是说的比想的快
WisprFlow （WF）这块AI 语音输入工具，上个月集中使用了一段时间，交互模式上比较类似，原理上和上述类似，需要联网识别语音，差异在于：WisprFlow 会将转化后的文字，通过AI优化后输出，且在本地维护转化后的文字，长期使用将沉淀用户的表达习惯，来优化每次交互的输出。不完美的地方是：因为需要联网，往往识别的速率比较慢，且应用的LLM在海外，远距离有较明显时延，准确度也不尽人意。
过去一周，在高强度使用闪电说的过程中，也体会到这款工具，可能也并不完美，但与 WF 相比，让本人更倾向的是：闪电说做了一些差异点优化，比如ASR模型在本地运行，因此识别的时延不受互联网影响，可以做到离线使用，在联网配置AI，语意整合后，整体的输入效率和准确度有明显提升，且成本较WF能更可控

对比维度	Windows11 语音输入	WisprFlow (WF)	闪电说
集成方式	OS原生支持	第三方应用	第三方应用
联网需求	必须联网	必须联网	ASR离线+AI联网
识别准确度	还算能用	不尽人意	明显提升
识别速度	正常	较慢（海外LLM时延明显）	快速（本地ASR无网络影响）
特色功能	无	AI优化输出+用户习惯沉淀	本地ASR+AI语义整合
使用成本	免费	较高	较WF更可控
主要优势	系统级集成，开箱即用	AI智能优化	离线可用，效率与成本兼顾
主要不足	无法处理表达修正和歧义	速率慢，准确度不稳定	仍非完美解决方案

总结对比要点：

技术架构差异：Windows11和WF都依赖云端识别，而闪电说采用本地ASR+云端AI的混合架构
使用场景适配：原生方案适合临时轻度使用；WF适合需要AI优化的场景但对延迟敏感；闪电说在效率和成本间取得平衡
用户体验优先级：如需稳定性选原生方案；如需智能优化且能忍受延迟选WF；如追求效率和控制成本选闪电说

介绍了这么多，如何使用呢？

开箱使用

官网下载工具闪电说，AI语音输入法[1]

或者可以通过这个链接，在PC端直接下载 https://download.shandianshuo.cn/windows/shandianshuo_0.5.6_x64-setup.exe

应用本身的UI交互比较简单，下载后需要下载本地ASR模型运行环境仅1个G大小，这意味着应用运行将常驻内存，占用近1个G大小，这对老/内存有限的电脑，不太友好。

应用UI与配置说明

这里主要介绍 2 个配置项。

智能鼠标模式

开启智能鼠标模式后，按鼠标中键即可持续录音，按击鼠标中键结束录音，这种方式适合长时间的文本输入，是个比较使用的功能，目前WF似乎还没有。

值得提醒的时，本地ASR模型，每次的录音文件保留在本地电脑，如果长时间使用的话，需要定时清理一下，这是本地低时延ASR的代价。

AI 纠正功能

使用原生基础功能一段时间，发现输入的准确度不是很高，且按原语序识别，往往存在改口的描述，不甚满意。这才配置 AI纠正功能，使用后顿感振奋，因此萌生写这篇介绍的短文的兴趣。

下面介绍如何配置AI token 接口

这里推荐使用硅基流动的 API，或者其他实惠的Token平台，关于硅基流动的领取方法，文末有介绍。

主要配置参数，未提及的保存默认即可：

提供商：OpenAI 兼容 API
Base URL：https://api.siliconflow.cn/v1
模型：推荐 MiniMaxAI/MiniMax-M2
API Key：在硅基流动平台-左侧 API密钥处，生成获取

关于模型推荐这里做个说明，从成本角度来考虑来想，本人最开始准备选择DS-V3.2的，因为它的成本相对比较低，但是配置后测试报错，推测主要原因是：V3.2，可能会输出思考过程，导致语音转化的结果调用出错，选择Minimax-M2后能够正常输出。

另外一方面：平台上Minimax M2的tokens输出 TTFT是比较快的，处理长文本输出的吞吐量 TPS 能达到130tokens/s。

完成上述两个配置后，就能在PC端更快捷的输出内容了，结合过往的经历，以下场景能很好的利用软件功能：

第一个场景是准备演讲材料，为了提高临场发挥的准确性，通常会写口播稿。之前是要手动来写，现在可以对着PPT来分享，通过转录、整理出完整且符合表达逻辑的口播稿。
写作的草稿模拟，通过口述将文章的大概内容表达出来，然后通过AI转录出完成度80%的草稿，最终只要稍加修改就能作为书面材料。
通讯工具中需要文字表达的任何场景，口说肯定比打字的效率要快。通过AI加成可以提高准确度。

到此，简单介绍了语音输入法-闪电输的使用说明。

Note

闪电说作为PC端语音输入的先行者，可以预测这块的市场，后面互联网大厂肯定会参与进来，通过免费模式，抢占用户语意输出作为第一手信息源。国内市场到底会不会为输入法付费，可能长期来看，并不需要。

在快速发展的AI应用时代，最终能不能商业化的活下来是结果导向，闪电说的快速实现足以说明其开发者的用户意识已然领先。

附录，介绍下如何领取免费 MiniMax-M2 高质量Tokens。

尽管推测：公众号读者绝大部分都是AI的使用者，但如果仍有一些“漏网之鱼”，还没有真实使用 Token API 的朋友，可以借鉴本文的开箱介绍，通过赛博菩萨-硅基流动推介官活动，领取免费 Token 体验，当然不瞒您说，出现在这里的推介，新用户注册后，平台也会给我 Token 奖励，相当于给我加了个鸡腿。