奥地利维也纳:根据今天(星期二)在欧洲神经科学学会联合会 (FENS) 2024 论坛上发表的研究,人们并不是很擅长区分人类的声音和人工智能 (AI) 产生的声音,但我们的大脑对人类和人工智能的声音的反应确实不同。[1]
该研究由博士研究员 Christine Skjegstad 提出,并由挪威奥斯陆大学 (UiO) 心理学系的 Skjegstad 女士和 Sascha Frühholz 教授进行。
Skjegstad 女士说:“我们已经知道,人工智能生成的声音已经非常先进,几乎与真人的声音没有区别。现在只需几秒钟的录音就可以克隆一个人的声音,骗子利用这项技术模仿陷入困境的亲人并诱骗受害者转账。虽然机器学习专家一直在开发检测人工智能声音的技术解决方案,但人们对人类大脑对这些声音的反应知之甚少。”
这项研究涉及 43 人,他们被要求聆听人类和人工智能生成的声音,这些声音表达了五种不同的情绪:中性、愤怒、恐惧、快乐、愉悦 [2]。他们被要求辨别这些声音是合成的还是自然的,同时使用功能性磁共振成像 (fMRI) 研究他们的大脑。fMRI 用于检测大脑内血流的变化,表明大脑的哪些部分处于活跃状态。参与者还被要求根据自然性、可信度和真实性对他们听到的声音的特征进行评分。
参与者正确识别人类声音的概率仅为 56%,而识别人工智能声音的概率为 50.5%,这意味着他们在识别这两种类型的声音方面同样糟糕。
人们更有可能将“中性”的人工智能声音正确识别为人工智能(75% 的人能正确识别中性的人声为人类的声音,而只有 23% 的人能正确识别),这表明人们认为中性声音更像人工智能。女性人工智能中性声音比男性人工智能中性声音更容易被正确识别。对于快乐的人类声音,正确识别率为 78%,而快乐的人工智能声音只有 32%,这表明人们认为快乐更像人类。
人工智能和人类的中性声音都被认为是最不自然、最不可信和最不真实的,而人类快乐的声音被认为是最自然、最可信和最真实的。
然而,通过观察大脑成像,研究人员发现,人类声音在与记忆(右侧海马体)和同理心(右侧下额叶回)相关的大脑区域引发了更强烈的反应。人工智能声音在与错误检测(右侧前中扣带皮层)和注意力调节(右侧背外侧前额叶皮层)相关的大脑区域引发了更强烈的反应。
Skjegstad 女士说:“我的研究表明,我们在识别声音是人类的还是人工智能生成的方面并不十分准确。参与者还经常表示,他们很难区分不同的声音。这表明,当前的人工智能语音技术可以模仿人类的声音,以至于人们很难准确地区分它们。
“研究结果还表明,人们在感知方面存在偏见,中性声音更有可能被识别为人工智能生成的声音,而快乐的声音更有可能被识别为更人性化的声音,无论它们实际上是否是人类的声音。中性女性人工智能声音尤其如此,这可能是因为我们熟悉 Siri 和 Alexa 等女性语音助手。