我不希望我的应用程序在用户电话上控制和执行一些任务,比如设置警报或打电话。我发现很多教程都专注于实现这一点。我希望使用语音识别器API来收集数据,该API可以转到在线服务器,以后可以被多个用户请求。
例如:
"OK Google! find the nearby hospitals for me",我不想这样。
"Facebook was founded by Mark Zuckerberg in 2004",我要这个。
文本数据(从识别api收集)不会有500个字符长,而且由于语音到文本技术可能会出错,我将允许用户进行最终检查,并通过键入进行必要的更改。And
我正在开发一个具有语音识别功能的iOS应用程序。我找到了将Google Web Speech API用于语音识别和文本到语音转换的方法。它工作得很好。我想知道在iOS应用程序中使用Google Web Speech API是否合法?另外,此API是否有使用限制?我试图找到它的任何服务条款,但找不到任何条款。
我正在使用fott.azure网站上的培训工具来训练我的模型,我能够正确地标注字段,但是这个工具删除了所有识别文本中的空格。我对识别API也有同样的问题。
下面是一个例子
实际文本:United States of America
JSON回复:UnitedStatesofAmerica
是否有任何关于培训工具的设置来防止这一问题?
Firebase Ml工具包中的文本识别API不能识别我试图从称重计扫描出来的数字或七段显示数字,有没有办法解决这个问题?
我尝试了flutter应用程序的firebase ml vision的Dart包,并使用了firebaseVisionImage类、文本识别器类和visionText类,如下所示。
// get image file
final File imageFile = File(widget.imagePath);
// create vision image from that file
final FirebaseVisionImage visionImage =