发布日期:2025-03-08 07:58 点击次数:182

给 AI 看一眼图,它就能找到对应音乐。
比如一艘海上飘动的海盗船,啪一下,就检索到了加勒比海盗经典配乐。
音乐信息检索(Music Information Retrieval, MIR)一直靠近着多模态数据的复杂性和多说念话文才调路的挑战。
现时的 MIR 系统主要存眷特定模态对(如文本 - 音频或文本 - 曲谱),扫尾了跨模态明白的后劲。
同期,现存的数据集主要以英语为主,枯竭多说念话隐敝,导致 MIR 在非英语环境下的泛化能力受限。
为此,来自中央音乐学院、清华大学、香港科技大学大学、上海纽约大学等机构的接头者推出CLaMP 3(Contrastive Language-Music Pre-training)——一个跨模态、跨说念话的和谐音乐信息检索框架。
通过对比学习,CLaMP 3 初度终明显曲谱、演奏信号、音频灌音等音乐模态与多说念话文本的结伙对都,使得不同模态之间不错通过文本桥接进行高效检索。其多说念话文本编码器八成适合从未见过的说念话,在跨说念话检索任务上弘扬超卓。
CLaMP3 基于检索增强生成(Retrieval-Augmented Generation, RAG)政策,构建了范围达到 2.31M 音乐 - 文本对的 M4-RAG 数据集,并结合醒成见音乐元数据,隐敝27 种说念话、194 个国度的音乐文化。此外,接头团队还推出了WikiMT-X,一个由曲谱、音频和各样化文本描摹构成的 1000 个样本的基准数据集,股东跨模态音乐明白的接头。
本质着力标明,CLaMP 3 在多个 MIR 任务上取得了现时最优性能,不仅大幅高出已有基线模子,还在跨模态、跨说念话的检索任务中展现了超卓的泛化能力。

图 1:CLaMP 3 展现出精深的跨模态和跨说念话泛化能力。监督对都(实线箭头)伙同成对的模态,而娇傲对都(虚线箭头)则弥合未对都的模态。多说念话文本编码器使得在对都经过中未见(灰色气泡)的说念话中也能进行检索。
动机:MIR 需要真确的跨模态、跨说念话对都
音乐是环球性的,但 MIR 的发展仍然靠近以下关节问题:
多模态数据对都难度高:曲谱、MIDI(演奏信号)、音频各自有独到的数据示意形式,传统要领难以和谐处理不同模态。
多说念话音乐信息检索受限:现存数据集以英语为主,枯竭对其他说念话的隐敝,导致 MIR 模子难以泛化到环球音乐语境。
枯竭高质料的多模态 - 多说念话数据:音乐文本数据多为轻便的标签,枯竭醒成见长文本描摹,扫尾了 MIR 系统的明白能力。
为惩处上述问题,CLaMP 3 构建了一个通用的跨模态 - 跨说念话检索框架,通过对比学习构建分享示意空间,使得不同模态的音乐数据不错在无配对查考数据的情况下进行检索。
要领:对比学习 + 检索增强生成,构建和谐音乐示意空间
CLaMP 3 遴荐对比学习(Contrastive Learning)看成中枢优化缠绵,通过多阶段查考政策对都不同模态,并欺诈检索增强生成(RAG)膨胀高质料音乐 - 文本数据。

图 2:CLaMP 3 遴荐对比学习来对都不同模态的特征。曲谱和演奏信号被分割为单元(末节或 MIDI 音问),并由象征音乐编码器处理,而音频则被分割为 5 秒片断,并通过音频特征索要器和音频音乐编码器处理。象征和音频示意均与来自多说念话文本编码器的文本示意对都。
查考政策:多阶段模态对都
CLaMP 3 的查考政策模仿了 ImageBind 的想想,遴荐四阶段跨模态对都:
文本与曲谱对都:查考文本编码器与曲谱编码器。
文本与音频对都:冻结文本编码器,查考音频编码器。
优化文本对都:解冻文本编码器,细调文本 - 音频对都。
修正跨模态漂移:再行对都文本 - 曲谱,以减少前一阶段的对都偏差。
这一政策确保了系数模态最终映射到和谐的示意空间,幸免模态漂移问题。
中枢组件:多模态 Transformer 编码器
CLaMP 3 由多个基于 Transformer 的编码器构成,每个编码器针对不同模态进行处理,以确保跨模态对都和信息和会。
多说念话文本编码器
CLaMP 3 的文本编码器基于XLM-R-base,一个预查考于 2.5TB CommonCrawl 数据的模子,涵盖100 种说念话。该编码用具有12 层 Transformer,荫藏维度为768,具备精深的跨说念话泛化能力,可用于处理未见说念话的数据。
象征音乐编码器
CLaMP 3 遴荐M3看成象征音乐编码器,它是一种自监督学习模子,可处理多轨ABC 记谱形貌和MIDI。
输入形貌:ABC 以末节(bar)为单元分割,MIDI 以音问(message)为单元分割。
模子结构:12 层 Transformer,荫藏层大小 768。
处理能力:撑捏 512 个片断(patches)或 32,768 个字符,可捕捉复杂的象征音乐模式。
音频音乐编码器
CLaMP 3 的音频编码器是一个12 层 Transformer,荫藏维度相同为768,专为音乐音频处理而查考。
特征索要:欺诈 MERT-v1-95M 预查考特征,MERT 看成冻结的音频特征索要器。
输入单元:将音频分割为 5 秒片断,并商量系数 MERT 层的技巧步均值,生成单个镶嵌向量。
处理能力:最多撑捏 128 个镶嵌向量(对应 640 秒音频),八成建模万古音乐特征。
和谐示意空间
系数编码器的输出都经过线性层和平均池化(average pooling)处理,最毕生周密局语义特征,确保不同模态数据在分享示意空间中对都。
数据集:M4-RAG
CLaMP 3 的查考依赖于大范围的高质料多模态多说念话音乐数据集M4-RAG。
数据着手
CLaMP 3 结合象征音乐数据和音频音乐数据以构建多模态学习基础:
象征音乐数据:
WebMusicText(WebMT):1.4M ABC 记谱文献。
Million MIDI Dataset(MMD):1.5M MIDI 文献。
数据调理:MMD 调理为 ABC,WebMT 调理为 MIDI,最终造成 3M 和谐形貌的象征音乐数据。
音频音乐数据:
从汇集网罗 1.8M 音轨,测度 16 万小时音频,并预索要音频特征以减少商量本钱。
元数据处理
CLaMP 3 依赖音乐标题(Title)看成主要检索信号,通过检索增强生成(RAG)从 Web 得回丰富的元数据,包括立场、标签、配景信息等,最终借助 Qwen2.5-72B 构建M4-RAG:
数据量:2.31M 元数据条件。
音乐 - 文本对都:
ABC- 文本:0.58M
MIDI- 文本:0.17M
音频 - 文本:1.56M
元数据涵盖随笔本(如学派、标签)和长文本(如配景先容、音乐分析),提供全面的音乐描摹信息。
表 1:M4-RAG 的元数据概览,按基本信息、审视和翻译进行分类。在审视(Annotations)部分,地区(Region)和说念话(Language)以英语书写,其他字段罢职对应的说念话方法。

说念话 & 地舆隐敝
M4-RAG涵盖 27 种说念话,其中大部分元数据原始说念话为英语。
翻译增强:使用Qwen2.5-72B进行翻译,增多低资源说念话的数据量(如马来语、缅甸语)。
环球隐敝:数据着手于194 个国度,涵盖主流音乐阛阓及各样化的地域音乐立场。

图 3:M4-RAG 华夏始数据和翻译数据的说念话散播,隐敝 27 种说念话。

图 4:M4-RAG 中音乐曲成见国度散播,涵盖 194 个国度。
本质:CLaMP 3 在跨模态、跨说念话检索上高出现存 SOTA
CLaMP 3 在多个 MIR 任务上取得了现时最优(SOTA)性能,比较前代 CLaMP 2 和其他基线模子,如 CLAP、TTMR++,有显耀提高。
跨模态音乐检索
在文本 - 音频、文本 - 曲谱等任务上,CLaMP 3 在WikiMT-X、MidiCaps、MusicCaps-Remake等基准数据集上的 MRR(Mean Reciprocal Rank)均高出基线:
文本 -ABC 检索:MRR 0.4498(提高>10%)
文本 - 音频检索:MRR 0.1985(高出 CLAP 与 TTMR++)
表 2:英文文本到音乐检索任务的着力,涵盖多个基准数据集。WikiMT 和 MidiCaps 各包含 1,010 对样本,Song Describer Dataset ( SDD ) 包含 706 个音频和 1,106 条规本描摹,MusicCaps-Remake ( MC-R ) 包含 2,777 对样本。MC-R 通过使用完竣音频和来自 AudioSet 评估集的重写文本描摹,幸免了数据涌现。

跨说念话音乐检索
在非英语文本到音乐的检索任务中,CLaMP 3 展现了极强的跨说念话泛化能力,即使在查考围聚未见过的说念话上,仍是能取得优异弘扬。举例:
俄语 - 曲谱检索:MRR 0.3614
中语 - 音频检索:MRR 0.1459
芬兰语(未见说念话)- 音频检索:MRR 0.1770
表 3:多说念话文本到音乐检索任务的着力,基于 WikiMT-X 翻译后的配景审视。标有星号(*)的说念话未包含在 M4-RAG 查考数据中。每种说念话下方的 BLEU 分数通过 SeamlessM4T 模子对文本进行回译,并与原始英语文本进行对比商量。

无配对跨模态检索
在莫得配对查考数据的情况下,CLaMP 3 仍是不错进行跨模态检索,举例:
曲谱→音频(S → A):MRR 0.0578
音频→曲谱(A → S):MRR 0.0492
表 4:WikiMT-X 不同音乐模态配对的娇傲跨模态检索着力。S:曲谱(ABC 记谱)、P:演奏信号(MIDI,由 ABC 调理)、A:音频灌音。

论断:CLaMP 3 开启跨模态、跨说念话 MIR 新期间
CLaMP 3 初度终明显曲谱、演奏信号、音频与多说念话文本的和谐示意学习,打破了 MIR 的跨模态与跨说念话扫尾。
神志主页:https://sanderwood.github.io/clamp3
在线 Demo:https://huggingface.co/spaces/sander-wood/clamp3
GitHub 代码:https://github.com/sanderwood/clamp3
— 完 —
投稿请责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿骨子
附上论文 / 神志主页聚会,以及干系形式哦
咱们会(尽量)实时恢复你

一键存眷 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「注重心」
迎接在褒贬区留住你的成见!凯发·k8国际娱乐网


