梦想大规模实现语义音频修复
我相信,如果我们真正了解唱片磨损,并且能够模拟乐器和人声,我们就能出色地让78 转唱片时代的音乐重焕生机。换句话说,我相信我们可以通过语义建模来消除我们想要消除的噪声和失真,以及对表演者的乐器进行建模,从而重建表演。
按照这个思路——假设我们知道正在分析一首钢琴曲
并且知道在什么类型的钢琴上弹奏了哪些音符,以及每个音符的确切弹奏时间和力度——我们就可以利用这些信息重新演奏并录制下来,从而重建这首曲子。这类似于光学字符识别(OCR)技术处理带有文本的页面图像——它识别语言,找出页面上的文字,然后用完美的字体生成新的页面。事实上,有了OCR识别后的文本,你还可以更改字体、放大字体,并重新排版页面以适应不同的设备。
如果我们对音乐进行光学字符识别(OCR)呢?这对于伴奏部分可能效果很好,因为这样一来,如果有人声的话,我们就可以采用不同的处理方式。我们可以基于这首歌的录音和其他录音,以及这位歌手的所有其他录音,建立一个歌手的声音模型。有了这些模型,我们就可以完全无噪音、无失真地重建人声。
我们会平衡重建信号和原始信号
以保留那些成就精彩表演的细微差别。这样做也是为了营造氛围,因为有时数字电影制作人会添加一些胶片划痕效果。
因此,如果我们深入语义学和大数据分析领域,就可以开发出各种各样的恢复工具。
“伟大78计划”将收集并数字化超过40万张78转唱片,并将其公开发布,从而创建一个丰富的数 WS 数据库 据集,用于大规模分析。这些转录工作同时使用四种不同形状和尺寸的唱针,所有录音均以96kHz/24bit无损采样率和立体声格式进行(尽管唱片本身是单声道,但这可以提供更多关于唱片沟槽轮廓的信息)。这意味着每条沟槽都有8个不同的高分辨率版本,每个版本包含11微米的刻录。此外,同一张唱片通常会有多个拷贝,它们的压印方式和使用方式可能有所不同。因此,对唱片的磨损情况进行建模,并以此重建母带上的内容,或许是可行的。
许多20世纪的重要唱片,例如爵士乐、布鲁斯和拉格泰姆,每张唱片都只有少数几位演奏者,因此对这些演奏者、乐器和演奏进行建模是完全可行的。如今,借助现代计算机,分析整个语料库变得更加容易,这不仅能提供复原之外的洞见,还能帮助我们理解一些鲜为人知的演奏技巧。
如果我们构建乐器
演奏者和乐曲的完整语义模型,甚至可以创造出从未存在过的虚拟演出。想象一下,一位爵士乐演奏家在虚拟世界中演奏一首在他有生之年都未曾创作过的歌曲。我们可以让不同的音乐家组合,或者让歌手以不同的节奏演唱。一旦我们跨越了完整语料库分析和语义建模的门槛,实验的领域将无限广阔。
我们希望本项目所取得的技术成果能够对整个媒体类型产生深远的影响,因为“伟大的78转唱片项目”将数字化并保存1908年至1950年间生产的大部分78转唱片。因此,任何基于这些录音建立的技术都可以用来修复大量的唱片。
頁:
[1]