多模态模型将更多地用于文档处理(但首先需要降低成本/延迟)。
2024年将是AI技术从炒作转向现实的关键时刻。以下是一些可能的趋势:
基于Agent的模型和生成式多媒体的发展,出现更多实验性应用。
出现AI相关的网络犯罪@英特尔首席情报官Michael DeBolt
除了可以从文字生成音乐外,它还支持图像、视频和音频生成音乐,并且还可以编辑已有的音乐。该项目利用了MERT等编码器进行音乐理解,ViT进行图像理解,ViViT进行视频理解,并使用MusicGen/AudioLDM2模型作为音乐生成模型(音乐解码器)。用户可以轻松移除或替换特定乐器,调整音乐的节奏和速度。这使得用户能够创造出符合其独特创意的音乐作品。