在一场鸡尾酒会上,有着丰盛的佳肴,以及来自四面八方的宾客。你与三五好友们正享受着派对的气氛,开心地闲聊彼此的生活。尽管环境中充满各式各样的声音—空调运行的风声、会场的背景音乐、以及隔壁桌的谈笑声,似乎一点也不打断你们之间交谈的乐趣。然而,当你正专注地和眼前的朋友聊天,并聊得浑然忘我时,另一位好友在远方呼唤你的名字,你却能马上回过头去寻找声音的来源,究竟是怎么办到的呢? 身处在派对的吵杂的环境中,我们却能尽情地与朋友们把酒言欢,仿佛一点也不受干扰。Pexels 左耳进,左耳出?鸡尾酒会效应的发现 前面所提到的现象称为 鸡尾酒会效应(cocktail-party effect) ,指的是在环境中其他对话或噪音干扰的情况下,选择性聆听特定声音的能力[1]。鸡尾酒会效应最早是由英国认知科学家 Colin Cherry 于 1953 年提出[2],有趣的是,Cherry 在进行研究时,并没有举办或者参加了很多场鸡尾酒会,而是设计了一项名为 跟读(shadowing) 的实验。 在跟读实验中,受试者会载上耳机,左耳及右耳会听到完全不同的句子,且听到的当下必须马上复诵其中一耳所听到的内容。例如当被要求复诵「右耳」所听到的内容,而左耳听到「在她的野餐篮里,有着花生酱、三明治……」,右耳听到「有只小猫正在追着老鼠…」时,受试者就必须即时回答「有只小猫正在追着老鼠……」。实验结果发现[2],多数的受试者都能正确跟读某一耳所听到的语句,并忽略另一耳的讯息,显示 注意力(attention) 似乎能选择性地投入某个事物上。 在跟读实验里,双耳会分别呈现不同的讯息,而受试者必须注意聆听并覆诵其中一只耳朵听到的内容。雅文基金会 是谁在呼唤我?刻在心底的名字 然而,当受试者正聚精会神地聆听与复诵右耳的句子时,未受注意的左耳所听到的内容,真的就如同耳边风一样,完全没有进入大脑的处理历程吗?其实,有部分的讯息依然可以被我们的大脑所处理。 在刚刚所提到的实验中,Cherry 指出受试者虽然很难回答出未受注意一耳的语句内容,却能察觉到讯息在 语音性质上的变化 —像是从句子变成单音,或是从男性的声音变成女性的声音[2]。更特别的是,后续研究发现当未受注意的一耳出现 自己的名字 时,受试者也能即时察觉,并将注意力转移到原本未受注意的一耳[3]。而这种听到自己名字的现象不仅出现在成人,甚至在五个多月大的婴儿身上就能观察到[4]。 听觉注意力的调节水阀,讯息被减弱但不消失 即使我们特别去注意某些讯息,并忽略环境中的其他 *** ,仍然有部分讯息会被大脑所处理。不论是前面所提到的语音性质变化、或是自己的名字,鸡尾酒会效应显示了讯息的处理似乎不是依循全有或全无的原则(all-or-none law):接收应注意的讯息,并过滤或排除掉所有不需注意的讯息。 为了进一步解释此现象,英国心理学家 Anne Trei *** an 提出了注意力的 减弱模型(attenuation model )[5,6]—这个模型主张注意力系统分为四个阶段:感官收录(sensory register)、 减弱控制(attenuation control) 、知觉历程(perceptual process)和短期记忆(short-term memory),其中最特别的就是「减弱控制」这个部分。 减弱控制就像是 调节讯息的水阀 ,那些未受注意的讯息,由于和当下正在进行的任务无关(如跟读作业),而转为 减弱的状态 存在于系统中。最后,被减弱的讯息会进入短期记忆,再依据各个讯息的阈值(threshold)高低而被受试者察觉。阈值可以想像成是个门槛,不同的讯息有不同的门槛,而门槛越低越容易被觉察。像是自己的名字由于阈值较低,因此我们很容易就能注意到;相反的,一些不常听到的字词,因为阈值较高而较难被察觉[6]。 在 Trei *** an 的减弱模型中,未受注意的讯息以「减弱」的状态存在,而非完全被注意力系统排除。Sternberg et al., 2012 用对方法,背景噪音不干扰 「对不起,你刚说什么?」、「麻烦你说大声一点」在日常生活中,是不是常常听到这些话呢?当环境中充斥着各种噪音时,我们能不能主动采取一些策略,让对方的声音变得更清楚呢?假如你正打算参加一场派对、或是到一间人声嘈杂的餐厅,以下三个方法将更有助于你把注意力焦点放在眼前的对话,而不被环境的噪音轻易打断[1,7]: 留意目标说话者一些明显的声音特性(像是阿霞有烟嗓,声音低沉充满磁性,讲话慢慢的),能有效降低邻近对话内容的干扰。 随着对话音量的提升,环境中的其他声音转为背景音,使对话内容变得更为突出。 不论是眼前的对话,或者是环境中的其他对话或杂音,若能清楚各个声音的来源(如前后、左右或远近位置),更有助于将注意力集中在目标来源上。就像坐在咖啡厅突然听到情侣吵架声,在定位他们的位置后,通常偷听起来就会更轻松。 Google AI 新应用,让机器模仿人类的鸡尾酒会效应 在吵杂环境中,将注意力集中在特定的目标上,藉以分辨不同的声音内容,是人类与生俱来的能力;然而,这件事情对于机器来说却显得格外的困难,原因在于当多人同时说话时,混杂的音讯会影响单一人声的辨识效果。不过,随着科技的进步, 人工智慧技术(artificial intelligence , AI) 的发展,现在机器也能办到同样的事情! 由 Google 研发团队结合 AI 所打造的 视听语音分离模型 (audio-visual speech separation model) 能够有效地增强特定说话者的声音,同时降低环境中其他人声或杂音干扰[8]。这套系统独特的地方,在于它能够同时分析视觉特征和语音讯息, 判读说话者的嘴型与声音的变化 ,建立人与声音之间的对应关系[9]。 这项技术的发展,未来也可望应用在许多领域上:像是在多人对话的影片中,提升自动化字幕生成的正确率。另一方面,也可以用来提升助听辅具的表现,帮助听损人士即使身处在吵杂环境中,依然能够听到清晰的人声。 Google 所开发的视听语音分离模型,能同时判读视觉(嘴型)与听觉(语音)特征,进而独立出特定说话者的声音。Ephrat et al., 2018