voice-note-to-midi

🎵 语音哼唱转MIDI的AI音乐助手

设计榜 #7

基于Spotify Basic Pitch模型,将语音备忘录和哼唱旋律智能转换为量化MIDI文件,让音乐灵感瞬间变为可编辑的工程文件。

收藏
18.4k
安装
4k
版本
3.11
CLS 安全性认证2026-05-04
点击查看完整报告 >

使用说明

voice-note-to-midi 是一款面向音乐创作者的开源音频转换工具,能够将语音备忘录、哼唱或任意旋律录音智能转换为标准MIDI文件。该技能基于Spotify开源的Basic Pitch深度学习模型,结合HPSS谐波-打击乐分离技术与音乐理论分析,为音乐人提供从灵感捕捉到工程落地的完整解决方案。无论是街头突发的旋律灵感,还是手机录制的即兴哼唱,都能通过本地AI处理转化为可在Logic、Ableton等DAW中直接编辑的量化音符。

核心用法与技术流程
该技能的 pipeline 架构清晰分为四个阶段:首先通过HPSS(谐波-打击乐源分离)技术隔离鼓点与背景噪音,提取纯净旋律;随后调用Spotify Basic Pitch模型进行多音高检测与起止点估算;接着利用Krumhansl-Kessler调性轮廓算法自动识别音乐调式;最终执行智能量化,支持1/4至1/32拍精度网格对齐,并提供调性感知的音高修正。用户可通过命令行灵活控制量化精度、最小音符时长等参数,甚至可直接处理现有MIDI文件进行重新量化。

显著优势
作为基于工业级开源方案的工具,其最大优势在于完全本地运行,确保音频隐私零泄露。Basic Pitch模型在音高检测准确性上表现优异,配合八度修剪、重叠音符清理、连音合并等后处理算法,输出结果比原始AI检测更为干净。调性感知模式可自动将音符修正至检测到的音阶内,大幅降低后期编辑工作量。此外,支持MP3、M4A、WAV等主流格式输入,且对硬件要求适中,普通笔记本即可流畅运行。

局限与注意事项
该工具当前版本固定输出120BPM,虽保留相对时间位置,但仍需在DAW中手动匹配原速。处理效果高度依赖录音质量,背景噪音、混响或复音乐和声会导致检测结果混乱。极短音符(<50ms)可能被过滤,快速音阶跑动可能出现音符合并。此外,极端音域可能引发八度误判,需人工校验。技术门槛方面,需要用户自行配置Python 3.11+环境及FFmpeg,对非技术背景的音乐人存在使用门槛。

适用人群
本产品最适合需要快速记录音乐灵感的独立音乐人、作曲家及制作人,特别是习惯用手机录制哼唱创意的用户。对于需要将现有音频素材(如人声采样)转换为可编辑MIDI的REMIX工作者,或是学习音乐理论需要分析旋律的学生也具有实用价值。由于完全开源免费,也适合预算有限的卧室音乐制作人作为创作辅助工具。

潜在风险提示
尽管代码本身通过安全审计,但作为T3来源的个人项目,长期维护更新存在不确定性。依赖包未锁定版本号,未来可能出现API变更导致的兼容性问题。性能方面,ML模型推理需要一定计算资源,超长音频处理可能耗时较长。建议用户定期备份生成的MIDI文件,避免项目依赖单一工具链。同时,复杂复音场景下仍需大量人工修正,不宜期待完全自动化的专业级输出质量。

安全解读

核心用法

Voice Note to MIDI 是一款基于机器学习的音频转MIDI工具,专为音乐创作者设计,可将即兴哼唱、语音备忘录快速转换为DAW可用的标准MIDI文件。

处理流程
1. 音源分离 - 使用HPSS算法分离旋律与打击乐/噪音

2. 音高检测 - 调用Spotify开源的Basic Pitch深度学习模型进行多音轨检测

3. 调性分析 - 基于Krumhansl-Kessler调性轮廓自动识别乐曲调性

4. 智能量化 - 支持1/4至1/32音符网格量化,可选调性感知音高校正

5. 后处理优化 - 自动八度修剪、重叠泛音移除、连音合并

典型命令

./hum2midi recording.wav --key-aware --grid 1/16

显著优点

  • 工业级音高检测:核心采用Spotify Basic Pitch,经数百万首歌曲训练,比传统算法更准确
  • 本地化隐私保护:全程本地处理,不上传音频至云端,符合GDPR要求
  • 智能化后处理:自动解决ML模型常见的八度误判、泛音干扰问题
  • 灵活的量化策略:支持原始MIDI输出或严格量化,调性感知模式可自动修正偏音
  • 多格式支持:通过FFmpeg兼容WAV/MP3/M4A/FLAC等主流音频格式

潜在缺点与局限性

  • 单声部优化:多声部/和弦输入会产生混乱输出,更适合独奏旋律
  • 固定120BPM:输出文件速度标记固定,需在DAW中手动匹配原速
  • 短音符过滤:默认过滤<50ms音符,快速装饰音可能丢失
  • ML模型局限:颤音可能被量化为阶梯音高,极端音域可能误判八度
  • 音频质量依赖:背景噪音、混响会显著降低检测精度
  • T3来源可信度:个人开发者维护项目,非商业公司背书

适合人群

  • 灵感捕捉者:快速记录即兴旋律,无需乐器演奏能力
  • 编曲初学者:将哼唱转化为可编辑MIDI,降低音乐制作门槛
  • DAW用户:需要为现有工程添加旋律轨道的制作人
  • 教育工作者:音乐理论教学中分析音高与调性的辅助工具

常规风险

1. 远程代码下载:setup.sh从GitHub下载脚本,虽来源可信但缺乏完整性校验
2. 环境修改:可选地将目录添加至PATH,需用户确认,符合常规安装规范

3. 依赖版本浮动:pip安装未锁定版本,可能因依赖更新产生兼容性问题

4. 处理质量波动:输出质量高度依赖输入音频清晰度,复杂场景需人工后编辑

voice-note-to-midi 内容

手动下载zip · 8.2 kB
QUICKSTART.mdtext/markdown
请选择文件