我的目标是使用一个语音到文本模型来处理几个视频。
令人困惑的是,谷歌有两款产品似乎都在做同样的事情。
这些产品的主要区别是什么?
Google语音到文本:
- Speech-to-Text has an "enhanced video" model for interpreting the audio.
谷歌视频智能:
- VI has the option to request a `SPEECH_TRANSCRIPTION` feature
我正在建立一个ruby on rails的网站,将存储和流视频。我使用carrierwave和亚马逊s3上传和存储视频。如果我没记错的话,我可以把文件直接从s3流到我的网站上。
那么,有没有人能解释一下为什么似乎每个人都在使用cloudfront和s3。好处是什么?
这种存储/服务解决方案的平均成本是多少。我将通过html5流式传输视频,所以我不会考虑编码解决方案