META
MusicGen-音乐生成器
MusicGen一款基于 Transformer 模型的 AI 音乐生成器,可以将文本描述转化为 12 秒的音频。 特点#
使用 Meta 的 encodec 音频分词器将音频数据分解成较小的部分,然后预测音乐片段的下一个部分,类似于语言模型预测短语中的下一个字母…
I-JEPA-初步拥有世界模型的图像AI
本文简单记录介绍一下 I-JEPA。 I-JEPA 是一种基于图像联合嵌入预测架构的自监督学习方法。
一、什么是 I-JEPA#
是一种自我监督学习的方法,是基于图像的联合嵌入预测架构,可以从同一图像的其他部分的表示中预测图像的一部分的表示。
二、I…