2012年12月21日

愛德華、貝拉和麥格克效應：為什麼糟糕的唇形同步如此有趣

本文發表於《大眾科學》的前部落格網路，反映了作者的觀點，不一定反映《大眾科學》的觀點

“你扇了一條魚耳光。你為什麼要那樣做？”

“我想吃海鮮。”

關於支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道：訂閱。透過購買訂閱，您將有助於確保有關塑造我們當今世界的發現和觀點的有影響力的故事的未來。

截至撰寫本文時，這段“糟糕的唇形同步”愛德華和貝拉的影片觀看次數已接近 1600 萬次，客觀上來說非常搞笑。網際網路上充斥著有趣的唇形同步影片，給從米特·羅姆尼到貝恩的每個人都配上了荒謬的臺詞。似乎對嘲笑他人的共同愛好決定了這些影片很有趣，僅此而已。但為什麼呢？最好的“糟糕唇形同步”利用了我們大腦處理語音的方式。

不僅僅是我們聽到的

語音識別是許多不同的內部模式搜尋程式的串聯，所有程式都在尋找從語音的音調和音量到人嘴唇的物理運動的微小變化。因此，不僅僅是你聽到的，還有你看到的。

即使語音主要是聽覺的，我們也會根據上下文（有意識和無意識地）優先考慮我們獲得的資訊型別。例如，在觀看一部特別長的外國電影時，我們學會忽略語音的視覺方面（即嘴唇的運動）和聽覺方面，而只關注螢幕上的文字。這不是我們通常識別的語音，但任何經歷過糟糕配音電影的人都知道，螢幕上的文字與說話者聯絡起來越困難，你就越會意識到你痠痛的後背。我們的大腦試圖將甚至脫離身體的文字與其所有者同步。

同樣，想象一下，你在擁擠的“世界末日”派對上看到一位朋友在房間對面。在“播放江南Style！”的喧囂聲中，他們幾乎聽不見，所以你全神貫注地注視著他們的嘴唇運動。將最少的聽覺輸入新增到“增強”的視覺輸入中，你就勉強能看出他們想要再來一杯啤酒。

因為在語音過程中，減少我們看到的或聽到的都會削弱整體，這表明語音感知不僅僅是像聽覺這樣的一種感官的聚合。它是多模式的。

但對語音的解釋並不是我們大腦交叉多條線路的唯一情況。味覺是另一種多模式感知。例如，當從帶有鐵管的飲水器中噴出的水嚐起來像鐵時，實際上你是在聞鐵的味道，然後在你的大腦中將其與水的“鐵味”結合起來（因為舌頭上沒有“鐵”味覺感受器）。

作為這種聯絡有多強的另一個例子，想想吃綠色的炸薯條或黃色的牛排。即使食物完全正常，我敢打賭你也會猶豫要不要咬一口。或者想想水晶百事可樂的悲慘案例。1992 年，百事可樂決定將其汽水的顏色從棕色改為透明，同時保持相同的調味和成分。汽水的銷量暴跌。它在 1993 年從貨架上撤下。

正如你聞到的和你舌頭上感知到的可以共同構成我們嚐到的味道一樣，當人們說話時我們看到的和我們聽到的結合起來，形成了我們對某人所說內容的感知。

麥格克效應

也許沒有什麼比幻覺更能讓我們質疑我們如何真正感知世界了。它們不僅讓我們驚歎，還為大腦如何處理感官資訊提供了線索。最常見的視錯覺之一，“內克爾立方體”因其不斷變化的深度而如此神秘，因為我們的大腦對立方體應該是什麼樣子有相互競爭的 3D 模型。當它在它們之間任意翻轉時（在一定程度上受對某些細節的關注驅動），我們尋求模式的思維揭示了它們的軟體。也有語音錯覺。

麥格克效應是一種現象，其中一個聲音的聽覺成分與第二個聲音的視覺成分結合，從而產生感知的第三個聲音。為了有效地做到這種錯覺，你需要一個配音影片。在影片中，說話者嘴唇說出音節“va/va/va”，同時在影片上播放“ba/ba/ba”的聲音。然後你看到的東西會覆蓋你聽到的東西，將播放的“ba/ba/ba”聲音在你腦海中變成“va/va/va”，即使音訊從未改變。如果你想讓你的大腦充分震撼這種錯覺，你可以觀看這段 BBC 影片。真正令人驚奇的是，在錯覺發生期間，如果你閉上眼睛，從而關閉語音識別的視覺部分，錯覺會立即消散！（上面連結的影片在指出這一點方面做得非常出色。）這種錯覺的開/關開關再清楚不過了：語音感知遠不止我們聽到的。

這當然使我們回到了《暮光之城》。

嘲笑閃閃發光的蒼白吸血鬼

為了成功地干擾我們的語音感知，《暮光之城》“糟糕的唇形同步”影片中替換的詞語需要有伴隨的嘴唇運動，當說出這些詞語時，會模仿電影中的原始臺詞。幽默感由此產生於這種在看似合理性鋼絲上行走的技巧——唇形同步足夠接近以迷惑我們，但又遠未完美，這非常搞笑。當詞語與嘴唇運動更直接地同步時，它會變得更有趣（對每個角色的良好印象也有幫助，例如這段令人驚歎的貝恩模仿）。將所有這些與你正在觀看貝拉責罵愛德華毆打魚的場景結合起來，你就得到了一個病毒式傳播的影片。

不是你在這些影片中看到的是不正確的語音；事實上，你看到的是不同的語音。正如將炸薯條染成綠色會使其味道令人厭惡一樣，吸血鬼用看似正確的嘴唇動作談論吃蛋糕之所以令人捧腹大笑，是因為我們暫時將其感知為真品。

再次觀看其中一個影片，並注意你如何不可避免地被吸引去研究說話者的嘴唇，看看匹配程度有多接近，以檢查它是否“真實”。即使同步不完美，因為我們希望得到娛樂，我們也會對不可避免地將荒謬的詞語和短語硬塞到影片中給予寬容；荒謬的變成了真實的。

當我們沒有嘴唇可以檢查時，文字可以塑造我們識別為語音的內容。例如，這段影片展示了將古典作品《O Fortuna》誤認為是一首關於男人喜歡乳酪的歌曲是多麼容易（和搞笑）。將唇形同步和文字結合到我們聽到的內容中，你就得到了一個厭倦了巴拉克·奧巴馬的精靈。

我認為這一切都歸結為可信度。我們一開始就不相信愛德華問過老鼠是否有“小弟弟”。但是，如果印象不錯，如果嘴唇運動同步，我們就會暫停懷疑，沉浸在青少年夢幻吸血鬼提出此類問題的現實中。同樣，我們中的許多人都知道大多數音樂影片實際上都是唇形同步的，但我們已經非常擅長同步它們，以至於似乎沒有人介意。對未來的影片製作者的底線是：充分利用我們的多模式語音感知，你可以把任何人變成腹語表演者的傀儡。

特別緊密的同步會立即引起“看起來他們實際上就是這麼說的！”的反應。在某種程度上，確實如此，而且非常有趣。

進一步觀看：更多“糟糕唇形同步”影片