使用说明

voice-note-to-midi 是一款面向音乐创作者的开源音频转换工具，能够将语音备忘录、哼唱或任意旋律录音智能转换为标准MIDI文件。该技能基于Spotify开源的Basic Pitch深度学习模型，结合HPSS谐波-打击乐分离技术与音乐理论分析，为音乐人提供从灵感捕捉到工程落地的完整解决方案。无论是街头突发的旋律灵感，还是手机录制的即兴哼唱，都能通过本地AI处理转化为可在Logic、Ableton等DAW中直接编辑的量化音符。

核心用法与技术流程
该技能的 pipeline 架构清晰分为四个阶段：首先通过HPSS（谐波-打击乐源分离）技术隔离鼓点与背景噪音，提取纯净旋律；随后调用Spotify Basic Pitch模型进行多音高检测与起止点估算；接着利用Krumhansl-Kessler调性轮廓算法自动识别音乐调式；最终执行智能量化，支持1/4至1/32拍精度网格对齐，并提供调性感知的音高修正。用户可通过命令行灵活控制量化精度、最小音符时长等参数，甚至可直接处理现有MIDI文件进行重新量化。

显著优势
作为基于工业级开源方案的工具，其最大优势在于完全本地运行，确保音频隐私零泄露。Basic Pitch模型在音高检测准确性上表现优异，配合八度修剪、重叠音符清理、连音合并等后处理算法，输出结果比原始AI检测更为干净。调性感知模式可自动将音符修正至检测到的音阶内，大幅降低后期编辑工作量。此外，支持MP3、M4A、WAV等主流格式输入，且对硬件要求适中，普通笔记本即可流畅运行。

局限与注意事项
该工具当前版本固定输出120BPM，虽保留相对时间位置，但仍需在DAW中手动匹配原速。处理效果高度依赖录音质量，背景噪音、混响或复音乐和声会导致检测结果混乱。极短音符（<50ms）可能被过滤，快速音阶跑动可能出现音符合并。此外，极端音域可能引发八度误判，需人工校验。技术门槛方面，需要用户自行配置Python 3.11+环境及FFmpeg，对非技术背景的音乐人存在使用门槛。

适用人群
本产品最适合需要快速记录音乐灵感的独立音乐人、作曲家及制作人，特别是习惯用手机录制哼唱创意的用户。对于需要将现有音频素材（如人声采样）转换为可编辑MIDI的REMIX工作者，或是学习音乐理论需要分析旋律的学生也具有实用价值。由于完全开源免费，也适合预算有限的卧室音乐制作人作为创作辅助工具。

潜在风险提示
尽管代码本身通过安全审计，但作为T3来源的个人项目，长期维护更新存在不确定性。依赖包未锁定版本号，未来可能出现API变更导致的兼容性问题。性能方面，ML模型推理需要一定计算资源，超长音频处理可能耗时较长。建议用户定期备份生成的MIDI文件，避免项目依赖单一工具链。同时，复杂复音场景下仍需大量人工修正，不宜期待完全自动化的专业级输出质量。

安全解读

核心用法

Voice Note to MIDI 是一款基于机器学习的音频转MIDI工具，专为音乐创作者设计，可将即兴哼唱、语音备忘录快速转换为DAW可用的标准MIDI文件。

处理流程：
1. 音源分离 - 使用HPSS算法分离旋律与打击乐/噪音
2. 音高检测 - 调用Spotify开源的Basic Pitch深度学习模型进行多音轨检测
3. 调性分析 - 基于Krumhansl-Kessler调性轮廓自动识别乐曲调性
4. 智能量化 - 支持1/4至1/32音符网格量化，可选调性感知音高校正
5. 后处理优化 - 自动八度修剪、重叠泛音移除、连音合并

典型命令：

./hum2midi recording.wav --key-aware --grid 1/16

显著优点

工业级音高检测：核心采用Spotify Basic Pitch，经数百万首歌曲训练，比传统算法更准确
本地化隐私保护：全程本地处理，不上传音频至云端，符合GDPR要求
智能化后处理：自动解决ML模型常见的八度误判、泛音干扰问题
灵活的量化策略：支持原始MIDI输出或严格量化，调性感知模式可自动修正偏音
多格式支持：通过FFmpeg兼容WAV/MP3/M4A/FLAC等主流音频格式

潜在缺点与局限性

单声部优化：多声部/和弦输入会产生混乱输出，更适合独奏旋律
固定120BPM：输出文件速度标记固定，需在DAW中手动匹配原速
短音符过滤：默认过滤<50ms音符，快速装饰音可能丢失
ML模型局限：颤音可能被量化为阶梯音高，极端音域可能误判八度
音频质量依赖：背景噪音、混响会显著降低检测精度
T3来源可信度：个人开发者维护项目，非商业公司背书

适合人群

灵感捕捉者：快速记录即兴旋律，无需乐器演奏能力
编曲初学者：将哼唱转化为可编辑MIDI，降低音乐制作门槛
DAW用户：需要为现有工程添加旋律轨道的制作人
教育工作者：音乐理论教学中分析音高与调性的辅助工具

常规风险

1. 远程代码下载：setup.sh从GitHub下载脚本，虽来源可信但缺乏完整性校验
2. 环境修改：可选地将目录添加至PATH，需用户确认，符合常规安装规范
3. 依赖版本浮动：pip安装未锁定版本，可能因依赖更新产生兼容性问题
4. 处理质量波动：输出质量高度依赖输入音频清晰度，复杂场景需人工后编辑

content-media automation music audio-processing productivity

voice-note-to-midi 内容

手动下载zip · 8.2 kB

QUICKSTART.mdtext/markdown

请选择文件