









Miso One 是由 Miso Labs 开发的一款开源权重、80亿(8B)参数的文本转语音(TTS)系统。它专门针对生成高度逼真、富有表现力且情感丰富的英文对话式语音而设计,非常适合语音智能体(Voice-Agent)研究和开发者工作流。该系统基于 Sesame 风格的对话式语音模型(CSM)架构,并采用 Mimi 音频编码,具备高度优化的推理能力,官方公布的延迟低至 110 毫秒。除了文本转语音生成外,该模型还支持在明确授信的前提下,通过音频上下文进行语音续写和单样本(One-Shot)声音克隆。
用户可以通过阅读官方代码仓库或 Hugging Face 页面上的模型卡片来评估 Miso One,也可以试用在线 Demo 体验语音质量,或者下载公开的 8B 权重和推理代码,在自己的 CUDA 环境中运行本地基准测试。对于使用云端服务的工作流,用户可以注册并根据每年或每月所需的字符额度选择相应的订阅方案。
更多联系, 访问 the contact us page()
Miso One 公司名字: .
Miso One 公司地理位置: .
更多关于Miso One, 请访问 the about us page().

免费版
$0
包含用于初步测试的免费额度,单次转换最多 120 个字符。
基础版(年付)
每月 $4.95
按年计费(若按月计费则为 $9.90/月)。包含每年 960,000 个 TTS 字符额度、9,600 个语音点数、最多 480 个即时声音克隆、私有语音模型创建以及邮件支持。
专业版(年付)
每月 $14.95
按年计费(若按月计费则为 $29.90/月)。包含每年 4,200,000 个 TTS 字符额度、42,000 个语音点数、最多 2,100 个即时声音克隆,以及语音工作流的优先技术支持。
企业版(年付)
每月 $24.95
按年计费(若按月计费则为 $49.90/月)。包含每年 9,600,000 个 TTS 字符额度、96,000 个语音点数、最多 4,800 个即时声音克隆,以及专属团队的优先技术支持。


社交媒体聆听