凯发·k8国际娱乐网不仅大幅高出已有基线模子-凯发k8首页(中国)官方网站登录入口

栏目分类

热点资讯

新闻

你的位置：凯发k8首页(中国)官方网站登录入口 > 新闻 > 凯发·k8国际娱乐网不仅大幅高出已有基线模子-凯发k8首页(中国)官方网站登录入口

发布日期：2025-03-08 07:58 点击次数：191

凯发·k8国际娱乐网不仅大幅高出已有基线模子-凯发k8首页(中国)官方网站登录入口

给 AI 看一眼图，它就能找到对应音乐。

比如一艘海上飘动的海盗船，啪一下，就检索到了加勒比海盗经典配乐。

音乐信息检索（Music Information Retrieval, MIR）一直靠近着多模态数据的复杂性和多说念话文才调路的挑战。

现时的 MIR 系统主要存眷特定模态对（如文本 - 音频或文本 - 曲谱），扫尾了跨模态明白的后劲。

同期，现存的数据集主要以英语为主，枯竭多说念话隐敝，导致 MIR 在非英语环境下的泛化能力受限。

为此，来自中央音乐学院、清华大学、香港科技大学大学、上海纽约大学等机构的接头者推出CLaMP 3（Contrastive Language-Music Pre-training）——一个跨模态、跨说念话的和谐音乐信息检索框架。

通过对比学习，CLaMP 3 初度终明显曲谱、演奏信号、音频灌音等音乐模态与多说念话文本的结伙对都，使得不同模态之间不错通过文本桥接进行高效检索。其多说念话文本编码器八成适合从未见过的说念话，在跨说念话检索任务上弘扬超卓。

CLaMP3 基于检索增强生成（Retrieval-Augmented Generation, RAG）政策，构建了范围达到 2.31M 音乐 - 文本对的 M4-RAG 数据集，并结合醒成见音乐元数据，隐敝27 种说念话、194 个国度的音乐文化。此外，接头团队还推出了WikiMT-X，一个由曲谱、音频和各样化文本描摹构成的 1000 个样本的基准数据集，股东跨模态音乐明白的接头。

本质着力标明，CLaMP 3 在多个 MIR 任务上取得了现时最优性能，不仅大幅高出已有基线模子，还在跨模态、跨说念话的检索任务中展现了超卓的泛化能力。

图 1：CLaMP 3 展现出精深的跨模态和跨说念话泛化能力。监督对都（实线箭头）伙同成对的模态，而娇傲对都（虚线箭头）则弥合未对都的模态。多说念话文本编码器使得在对都经过中未见（灰色气泡）的说念话中也能进行检索。

动机：MIR 需要真确的跨模态、跨说念话对都

音乐是环球性的，但 MIR 的发展仍然靠近以下关节问题：

多模态数据对都难度高：曲谱、MIDI（演奏信号）、音频各自有独到的数据示意形式，传统要领难以和谐处理不同模态。

多说念话音乐信息检索受限：现存数据集以英语为主，枯竭对其他说念话的隐敝，导致 MIR 模子难以泛化到环球音乐语境。

枯竭高质料的多模态 - 多说念话数据：音乐文本数据多为轻便的标签，枯竭醒成见长文本描摹，扫尾了 MIR 系统的明白能力。

为惩处上述问题，CLaMP 3 构建了一个通用的跨模态 - 跨说念话检索框架，通过对比学习构建分享示意空间，使得不同模态的音乐数据不错在无配对查考数据的情况下进行检索。

要领：对比学习 + 检索增强生成，构建和谐音乐示意空间

CLaMP 3 遴荐对比学习（Contrastive Learning）看成中枢优化缠绵，通过多阶段查考政策对都不同模态，并欺诈检索增强生成（RAG）膨胀高质料音乐 - 文本数据。

图 2：CLaMP 3 遴荐对比学习来对都不同模态的特征。曲谱和演奏信号被分割为单元（末节或 MIDI 音问），并由象征音乐编码器处理，而音频则被分割为 5 秒片断，并通过音频特征索要器和音频音乐编码器处理。象征和音频示意均与来自多说念话文本编码器的文本示意对都。

查考政策：多阶段模态对都

CLaMP 3 的查考政策模仿了 ImageBind 的想想，遴荐四阶段跨模态对都：

文本与曲谱对都：查考文本编码器与曲谱编码器。

文本与音频对都：冻结文本编码器，查考音频编码器。

优化文本对都：解冻文本编码器，细调文本 - 音频对都。

修正跨模态漂移：再行对都文本 - 曲谱，以减少前一阶段的对都偏差。

这一政策确保了系数模态最终映射到和谐的示意空间，幸免模态漂移问题。

中枢组件：多模态 Transformer 编码器

CLaMP 3 由多个基于 Transformer 的编码器构成，每个编码器针对不同模态进行处理，以确保跨模态对都和信息和会。

多说念话文本编码器

CLaMP 3 的文本编码器基于XLM-R-base，一个预查考于 2.5TB CommonCrawl 数据的模子，涵盖100 种说念话。该编码用具有12 层 Transformer，荫藏维度为768，具备精深的跨说念话泛化能力，可用于处理未见说念话的数据。

象征音乐编码器

CLaMP 3 遴荐M3看成象征音乐编码器，它是一种自监督学习模子，可处理多轨ABC 记谱形貌和MIDI。

输入形貌：ABC 以末节（bar）为单元分割，MIDI 以音问（message）为单元分割。

模子结构：12 层 Transformer，荫藏层大小 768。

处理能力：撑捏 512 个片断（patches）或 32,768 个字符，可捕捉复杂的象征音乐模式。

音频音乐编码器

CLaMP 3 的音频编码器是一个12 层 Transformer，荫藏维度相同为768，专为音乐音频处理而查考。

特征索要：欺诈 MERT-v1-95M 预查考特征，MERT 看成冻结的音频特征索要器。

输入单元：将音频分割为 5 秒片断，并商量系数 MERT 层的技巧步均值，生成单个镶嵌向量。

处理能力：最多撑捏 128 个镶嵌向量（对应 640 秒音频），八成建模万古音乐特征。

和谐示意空间

系数编码器的输出都经过线性层和平均池化（average pooling）处理，最毕生周密局语义特征，确保不同模态数据在分享示意空间中对都。

数据集：M4-RAG

CLaMP 3 的查考依赖于大范围的高质料多模态多说念话音乐数据集M4-RAG。

数据着手

CLaMP 3 结合象征音乐数据和音频音乐数据以构建多模态学习基础：

象征音乐数据：

WebMusicText（WebMT）：1.4M ABC 记谱文献。

Million MIDI Dataset（MMD）：1.5M MIDI 文献。

数据调理：MMD 调理为 ABC，WebMT 调理为 MIDI，最终造成 3M 和谐形貌的象征音乐数据。

音频音乐数据：

从汇集网罗 1.8M 音轨，测度 16 万小时音频，并预索要音频特征以减少商量本钱。

元数据处理

CLaMP 3 依赖音乐标题（Title）看成主要检索信号，通过检索增强生成（RAG）从 Web 得回丰富的元数据，包括立场、标签、配景信息等，最终借助 Qwen2.5-72B 构建M4-RAG：

数据量：2.31M 元数据条件。

音乐 - 文本对都：

ABC- 文本：0.58M

MIDI- 文本：0.17M

音频 - 文本：1.56M

元数据涵盖随笔本（如学派、标签）和长文本（如配景先容、音乐分析），提供全面的音乐描摹信息。

表 1：M4-RAG 的元数据概览，按基本信息、审视和翻译进行分类。在审视（Annotations）部分，地区（Region）和说念话（Language）以英语书写，其他字段罢职对应的说念话方法。

说念话 & 地舆隐敝

M4-RAG涵盖 27 种说念话，其中大部分元数据原始说念话为英语。

翻译增强：使用Qwen2.5-72B进行翻译，增多低资源说念话的数据量（如马来语、缅甸语）。

环球隐敝：数据着手于194 个国度，涵盖主流音乐阛阓及各样化的地域音乐立场。

图 3：M4-RAG 华夏始数据和翻译数据的说念话散播，隐敝 27 种说念话。

图 4：M4-RAG 中音乐曲成见国度散播，涵盖 194 个国度。

本质：CLaMP 3 在跨模态、跨说念话检索上高出现存 SOTA

CLaMP 3 在多个 MIR 任务上取得了现时最优（SOTA）性能，比较前代 CLaMP 2 和其他基线模子，如 CLAP、TTMR++，有显耀提高。

跨模态音乐检索

在文本 - 音频、文本 - 曲谱等任务上，CLaMP 3 在WikiMT-X、MidiCaps、MusicCaps-Remake等基准数据集上的 MRR（Mean Reciprocal Rank）均高出基线：

文本 -ABC 检索：MRR 0.4498（提高>10%）

文本 - 音频检索：MRR 0.1985（高出 CLAP 与 TTMR++）

表 2：英文文本到音乐检索任务的着力，涵盖多个基准数据集。WikiMT 和 MidiCaps 各包含 1,010 对样本，Song Describer Dataset ( SDD ) 包含 706 个音频和 1,106 条规本描摹，MusicCaps-Remake ( MC-R ) 包含 2,777 对样本。MC-R 通过使用完竣音频和来自 AudioSet 评估集的重写文本描摹，幸免了数据涌现。