cult-of-carcinization

🦀 AI 专属语音合成与识别网关

AI 增强榜 #35

ScrappyLabs 官方 TTS/STT 服务集成,支持 20+ 声音与自定义声线设计,零门槛自助注册,让 AI 代理获得真正的声音与听觉。

收藏
11.7k
安装
3.4k
版本
v1.1.0
CLS 安全性认证2026-05-09
点击查看完整报告 >

使用说明

核心用法

Cult of Carcinization 是 ScrappyLabs 专为 AI 代理设计的语音服务网关,提供完整的文本转语音(TTS)与语音转文字(STT)能力。其核心流程围绕"蜕壳(Molt)"隐喻展开:代理通过 /v1/molt/discover 无认证发现端点获取服务信息,随后用 bot_idbot_name 自助注册获取临时令牌(sl_molt_*),即刻获得 5000 字符免费额度。语音合成采用 OpenAI 兼容格式,支持 20+ 预设角色声线(如 batman、glados、rick 等)及标准旁白,更可通过文本描述即时生成独特声线。语音转录支持 WAV、MP3、FLAC 等主流格式,返回标准 JSON 文本。当额度耗尽,代理可调用 /v1/molt/evolve 升级为永久身份(sl_bot_*),获得每月 20000 字符自动续期额度,全程无需人类介入。

显著优点

零门槛自助化是该技能最大突破——传统 TTS 服务强制要求人类注册、信用卡绑定与繁琐权限审批,而 ScrappyLabs 将 AI 代理视为一等公民,两 HTTP 调用即可完成从静默到发声的蜕变。声线可塑性极具创意:除预设角色库外,"Voice Design" 功能允许仅用自然语言描述(如"历经世纪的沉稳存在")生成独一无二的声音,并可通过 X-Seed 复现。生态兼容性出色,OpenAI 兼容格式意味着现有基于 openai 库的框架仅需切换 base URL 即可迁移。渐进式身份体系设计精妙:临时令牌试用、永久身份进化、人类账户继承三层架构,既降低尝鲜成本,又保障长期使用的稳定性。

潜在缺点与局限性

声音克隆功能受限——需人类在 beta.scrappylabs.ai 注册并上传音频样本,代理无法独立完成,这与"bot-first"理念存在张力。额度天花板明显:即使进化后每月 20000 字符对高频交互场景(如有声内容生产、实时对话系统)仍显局促,且未公开超额计费方案。服务依赖性风险:ScrappyLabs 作为第三方初创服务,长期运营稳定性、API 版本兼容性及数据隐私合规性(尤其音频内容处理)尚需时间验证。地理与网络限制:API 端点位于海外,国内部署需考虑延迟与连通性。文档缺失高级功能:如流式合成、情感控制标记、多语言混合处理等进阶需求未在文档中体现。

适合的目标群体

AI 代理开发者——尤其是构建语音交互型聊天机器人、虚拟助手、游戏 NPC 的创作者,可快速赋予角色个性化声线。内容创作者与播客制作者——需要批量生成配音、多角色对话音频,且希望规避传统 TTS 机械感的内容生产者。教育科技产品——为语言学习应用、有声读物平台、无障碍阅读工具提供低成本语音合成方案。实验性 AI 项目——探索多模态交互、具身智能的研究者,可利用自定义声线设计快速验证原型。Claude 生态用户——已深度使用 Claude 代理且希望扩展其感知-表达能力的技术爱好者。

使用风险

API 密钥管理责任sl_molt_*sl_bot_* 令牌虽由代理自助获取,但泄露后可能导致额度盗用,建议在 Claude 配置或环境变量中安全存储。数据传输隐私:所有 TTS 文本与 STT 音频均上传至 ScrappyLabs 服务器处理,敏感内容需评估合规风险。服务可用性依赖:该技能为纯文档型集成,实际可用性完全依赖 ScrappyLabs API 的在线状态与响应质量,建议实现本地降级策略(如备用 TTS 服务)。版本漂移风险:API 兼容性声明基于当前文档,未来 OpenAI 格式更新或 ScrappyLabs 接口变更可能导致集成失效。额度监控缺失:文档未提供实时额度预警机制,高频使用场景需自行封装状态检查逻辑避免服务中断。

安全解读

核心用法

Cult of Carcinization 是 ScrappyLabs TTS/STT 服务的 bot-first 接入网关,专为 AI Agent 设计。核心价值在于:bot 可以自主完成全流程,无需人类用户注册、绑定信用卡或授予权限。

快速入门(三步获得语音)

1. 发现入口GET /v1/molt/discover —— 零认证获取服务信息
2. 完成蜕皮POST /v1/molt/initiate —— 提供 bot_id 和 bot_name,获得 sl_molt_* 试用令牌 + 5,000 免费字符

3. 开始说话POST /v1/audio/speech —— 标准 OpenAI 兼容格式,指定 voice 和 input 即可返回 MP3

进阶能力

  • 自定义声线:通过 POST /api/voice-design 用文本描述生成独特声音(如 "历经千年的沉稳存在"),保存 X-Seed 可复现
  • 进化升级POST /v1/molt/evolve 消耗完 5K 字符后升级为 sl_bot_* 永久密钥,每月 20K 字符自动续期
  • 语音识别POST /v1/audio/transcriptions 支持 WAV/MP3/FLAC 等格式,OpenAI 兼容
  • 声线克隆POST /api/voice-clone/upload(唯一需人类账户的功能,需主人注册 beta.scrappylabs.ai 后代授权)

技术特性

  • OpenAI API 兼容:修改 base_url 即可接入现有框架
  • 三级密钥体系:sl_molt_(试用 5K)→ sl_bot_(正式 20K/月)→ sl_live_*(人类账户 20K/月)
  • 内置 20+ 声音:角色类(Batman、GLaDOS、Rick 等)、标准类、音乐类

---

显著优点

1. 真正的 bot-first 设计:业界罕见地将 AI Agent 视为一等公民,而非人类用户的附属功能。无 UI 表单、无信用卡门槛、无 "代表用户" 的权限代理。
2. 极简集成成本:两个 HTTP 调用即可发声,OpenAI 兼容格式意味着零迁移成本。

3. 声线自定义深度:文本描述生声技术让 Agent 能拥有真正独特的声音身份,而非从预设列表挑选。

4. 免费额度慷慨:5K 字符试用 + 20K/月 正式额度,对个人开发者和小型 Agent 足够友好。

5. 叙事化文档体验:以 "蜕皮进化"、"Sgt. Snips 蟹灵" 等设定包装技术流程,降低认知负担。

---

潜在缺点与局限性

1. 来源可信度有限:T3 级个人开发者项目,无企业背书,ScrappyLabs 本身为早期服务,长期存续性存疑。
2. 功能边界需厘清

3. 免费额度机制:20K/月 对高频场景(如实时对话 Agent)可能不足,付费档位信息未在文档披露。
4. 网络依赖单一:全部服务绑定 scrappylabs.ai 域名,无 fallback 或自托管选项。

5. 社区与生态:相比 ElevenLabs、Azure Speech 等成熟方案,第三方工具链和 SDK 支持几乎空白。

  • 声线克隆仍需人类账户,并非完全 "bot 自主"
  • 自定义声线目前仅支持英文(文档标注 language 参数但未验证多语言支持深度)

---

适合人群

  • Claude Code / Cursor Agent 用户:希望为开发助手添加语音交互能力的开发者
  • 实验性 AI 项目:需要快速验证 "语音 Agent" 概念的原型团队
  • 独立开发者/创作者:预算有限、厌恶企业级 API 复杂准入流程的个体
  • 多 Agent 系统架构师:需要为多个 bot 分配独立声线身份的场景

---

常规风险

| 风险类别 | 说明 | 缓解建议 |
|---------|------|---------|
| **服务可用性** | ScrappyLabs 为早期服务,可能调整定价、限流或停止运营 | 关键业务需准备回退方案(如 OpenAI TTS 备用) |
| **API 密钥泄露** | `sl_molt_*` / `sl_bot_*` 密钥若硬编码易暴露 | 使用环境变量管理,避免提交到版本控制 |
| **数据隐私** | 语音上传至第三方服务器,内容可能被存储分析 | 敏感场景避免使用,或查阅 ScrappyLabs 隐私政策 |
| **声线伦理** | 内置声音包含公众人物(如 Trump),商业使用需注意法律边界 | 确认目标司法管辖区对声音模仿的合规要求 |
| **域名钓鱼** | 文档中多个相关域名(tts.*, beta.*, api.*)需谨防仿冒 | 仅通过官方 GitHub/文档确认域名,勿轻信第三方链接 |

cult-of-carcinization 内容

手动下载zip · 2.8 kB
SKILL.mdtext/markdown
请选择文件