快乐的声音被认为是真实的而中性的声音被认为是人工智能

奥地利维也纳：根据今天(星期二)在欧洲神经科学学会联合会 (FENS) 2024 论坛上发表的研究，人们并不是很擅长区分人类的声音和人工智能 (AI) 产生的声音，但我们的大脑对人类和人工智能的声音的反应确实不同。[1]

该研究由博士研究员 Christine Skjegstad 提出，并由挪威奥斯陆大学 (UiO) 心理学系的 Skjegstad 女士和 Sascha Frühholz 教授进行。

Skjegstad 女士说：“我们已经知道，人工智能生成的声音已经非常先进，几乎与真人的声音没有区别。现在只需几秒钟的录音就可以克隆一个人的声音，骗子利用这项技术模仿陷入困境的亲人并诱骗受害者转账。虽然机器学习专家一直在开发检测人工智能声音的技术解决方案，但人们对人类大脑对这些声音的反应知之甚少。”

这项研究涉及 43 人，他们被要求聆听人类和人工智能生成的声音，这些声音表达了五种不同的情绪：中性、愤怒、恐惧、快乐、愉悦 [2]。他们被要求辨别这些声音是合成的还是自然的，同时使用功能性磁共振成像 (fMRI) 研究他们的大脑。fMRI 用于检测大脑内血流的变化，表明大脑的哪些部分处于活跃状态。参与者还被要求根据自然性、可信度和真实性对他们听到的声音的特征进行评分。

参与者正确识别人类声音的概率仅为 56%，而识别人工智能声音的概率为 50.5%，这意味着他们在识别这两种类型的声音方面同样糟糕。

人们更有可能将“中性”的人工智能声音正确识别为人工智能(75% 的人能正确识别中性的人声为人类的声音，而只有 23% 的人能正确识别)，这表明人们认为中性声音更像人工智能。女性人工智能中性声音比男性人工智能中性声音更容易被正确识别。对于快乐的人类声音，正确识别率为 78%，而快乐的人工智能声音只有 32%，这表明人们认为快乐更像人类。

人工智能和人类的中性声音都被认为是最不自然、最不可信和最不真实的，而人类快乐的声音被认为是最自然、最可信和最真实的。

然而，通过观察大脑成像，研究人员发现，人类声音在与记忆(右侧海马体)和同理心(右侧下额叶回)相关的大脑区域引发了更强烈的反应。人工智能声音在与错误检测(右侧前中扣带皮层)和注意力调节(右侧背外侧前额叶皮层)相关的大脑区域引发了更强烈的反应。

Skjegstad 女士说：“我的研究表明，我们在识别声音是人类的还是人工智能生成的方面并不十分准确。参与者还经常表示，他们很难区分不同的声音。这表明，当前的人工智能语音技术可以模仿人类的声音，以至于人们很难准确地区分它们。

“研究结果还表明，人们在感知方面存在偏见，中性声音更有可能被识别为人工智能生成的声音，而快乐的声音更有可能被识别为更人性化的声音，无论它们实际上是否是人类的声音。中性女性人工智能声音尤其如此，这可能是因为我们熟悉 Siri 和 Alexa 等女性语音助手。