更新: Evan告诉我Whisper已经解决了语音识别问题。他有一个封装程序可以从麦克风录音并在此处打印转录内容。Whisper非常令人印象深刻,唯一的注意事项是它有时会在结尾插入完整的虚构句子。这些单词在上下文中总是有点合理,但没有任何声音可能导致这种情况。根据我的经验,这总是发生在最后,删除它没有问题。因此,请注意这一点,你应该忽略下面所有的内容,因为Whisper是更好的解决方案。
上周的博客文章相当长,而且拼写错误比平时多。(感谢指出错误的人。我想我已经修复了所有被报告的错误。)
这是因为我在评测中看到iOS 17的语音识别应该有很大改进,我想我应该试一试。我一直发现iOS的识别优于Google Docs,而且我有一台适合测试版的旧iPad Pro。
iOS的表现仍然很好,是的,我认为它比iOS 16更好。但它仍然远未达到“神奇”的水平,尤其是在使用技术术语时。以下是从上周文章的原始输出中直接提取的一个段落(我用斜体标出了错误):
它已集成到W3C凭证管理规范中,因此通过
navigator.credentials.create
和navigator.credentials.get
调用。本文档旨在理解支撑Web身份验证的深层结构,而不是详细指南。因此,我们将把许多细节留给网络上已有的众多WebAuthn指南,而是重点关注U2F中的结构如何被继承到WebAuthn中并进行了更新。
虽然很多单词都在那里很好,但错误密度如此之高,进行所有修正意味着它并不明显比打字更好。然而,如今全世界都对LLMs兴奋不已。它们能帮忙吗?
我写了一个脚本来将文本分段,使每段至少500字节,然后将它们发送到gpt-3.5-turbo
,并前缀以下指令,温度为0.6:
以下是一个糟糕的语音识别系统的输出。请纠正其错误并回复修正后的版本,无需任何前言。该系统无法识别的一些不常见单词包括U2F、CTAP、FIDO、CTAP2、JSON、FIDO2、WebAuthn、持有者令牌、哈希、钓鱼、RP ID、通行密钥、caBLE和密码管理器。
这是该段落的清理版本:
它已集成到W3C凭证管理规范中,因此通过
navigator.credentials.create
和navigator.credentials.get
调用。本文档旨在理解支撑Web身份验证的深层结构,而不是其细节指南。因此,我们将把许多细节留给网络上已有的众多WebAuthn指南,而是重点关注U2F中的结构如何被继承到WebAuthn中并进行了更新。
有一个地方它写了“web authentication”而不是“WebAuthn”,但它修复了所有其他问题!
这就是我尝试的方法:我向iOS口述长段落,然后运行脚本用GPT清理,然后在Obsidian中手动编辑。从Obsidian中,pandoc转换为HTML和EPUB格式。
这个提示是一些实验的结果。最初,我要求GPT修复“错误和语法”,但在阅读结果时,一些句子不正确,我发现它“修复”成了无意义的内容。因此我去掉了“和语法”。你可以要求它以Markdown格式输出,我可能应该这样做,但当我想到时,我已经进行了太多手动编辑。
一个奇怪之处是,我用“recognise”(英式拼写)写了指令,但后来认为使用更常见的美式拼写(“recognize”)可能效果更好。但这似乎使它更糟!
一个明显的尝试是使用GPT 4。然而,我误读了OpenAI API的成本,认为他们的收费是按令牌而不是每1000令牌。因此,由于估计偏差了三个数量级,GPT 4对于一个随机实验来说似乎有点太贵了,我对所有内容都使用了GPT 3.5。
我没有用同样的方式写这篇文章,但这个实验效果足够好,我将来可能会对更长的公开写作再次尝试。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。