这是个特别好的问题,看上去很轻松,实则非常深刻。
来来来,颜文字语言学小课堂,开课。
当我们讨论「颜文字」时,我们在讨论什么
以下,是独立艺术家徐冰老师「写」的一篇「小说」。
你读读看,是否能读懂这个故事。
上图中这篇「小说」,出自他的作品《地书》。
「地书」之外,徐冰老师还有一系列名为「天书」的作品,是这样的。
你再读读看,能从这些「文字」中读出什么信息?
仔细看,看久了,是不是有种「文字恐怖谷」的感觉,让人头皮发麻?
对比非常明显,「地书」是用不像文字的符号表述了丰富的信息。
而「天书」,则是用文字形状的符号堆砌了一堆无意义的画面。
请问,「天书」与「地书」,究竟那种更像文字?
文字的意义究竟是什么呢?
颜文字,虽然被称为文字,它能不能算作一种「文字」呢?
再想想看,你每天都要收发好多消息。
发这些消息时,你要理解这些消息表达的内容,还要揣测发送这些人的情绪状态和意图,还要琢磨自己发消息时用什么语气合适。
可是,你又怎么能做到,通过几行文字,既传达信息,又表达情绪呢?
既然你看到了这个问题,那我相信,你一定是有办法的,对吧(✿◠‿◠)。
当我们讨论「颜文字」时,我们讨论的究竟是什么。
以上,就构成了我们研究中对于「颜文字」这类符号的定义:
颜文字,是一种文字形式计算机中介通信(computer mediated communication,CMC)过程中的表情符号(Emoticons)。[1]
与「颜文字」功能类似的,还有 emoji,这两种东西,表象虽有不同,但本质是一样的,都属于典型的 CMC 表情符号。(另外,多说一句,在应用心理学研究中,emoji 是更普遍更通用的研究材料,因而后续的讨论我会讲颜文字和 emoji 合在一起讨论,行文时都用颜文字来指代。)
CMC 过程与我们典型的面对面沟通过程(F2F)有很大差异,其最主要的区别体现在两点:
社会存在感(Social Presence)和可见性(Visibility)。
这两个概念都是所见即所得,社会存在感就是在沟通过程中能感知到的他人存在的强度,包括对交流对象的感知、互动的即时性以及社会规范的约束;而可见性则指沟通过程中能观察到的非语言线索,比如面部表情、肢体语言及语气等的程度。
毫无疑问,文字形式的 CMC 过程,在这两个维度上的程度都大大弱于 F2F 过程。
表情符号(Emoticons)的应用,就是为了补充 CMC 过程中的情感因素的缺失。
颜文字是如何传达情绪的
我们需要探讨的下一个问题是,颜文字是如何传达情感的。
乍一看,这个问题似乎没有讨论的必要,颜文字传递的情感信息,都是摆在明面上的,简单直白。
这些颜文字,传递的又是怎样的情感信息呢?
更深入琢磨一下,传达信息这件事儿,它的步骤是这样的:
1.信息表达者的意图——>2.信息表达者表达出来的信息——>3.信息接收者接受到的信息——>4.信息接收者接受到的意图
这其中任何一个环节出错,都有可能出现信息传递的失误。
因而,判断一个颜文字传达的是什么情绪,至少要考量两个维度:
实际研究中,通常会使用二维情感地图来展示颜文字所传达的信息,如下:
这个条形图,红色表述负面情绪,黄色表示中性情绪,绿色表示正面情绪,这个好理解。
而中间那个灰色的色块,表示的是置信区间,简单讲,就是灰色的块约窄,说明大家对这个颜文字所传达的情感信息越确定;反之,这个颜文字传递的信息越模糊。
比如,那个向下的大拇指,表达的就是比较确定的负面情绪,而那块巧克力表达的,就属于比较模糊的,可能是积极也可能是中性的情绪。
心理学家们已经对 751 个最常用的颜文字进行研究[2]。
你可以从下面这个链接中看到大家对颜文字所传达情绪信息的认知。
751 个 emoji 符号的二维情感地图:Emoji Sentiment Ranking v1.0
之后,研究者们又对这些颜文字所表达的情绪状态进行了进一步统计,于是有了下图:
这个图表现的是 751 种颜文字表达的情绪以及日常使用的频次。
横轴是情感正负性得分,越靠左边,表达的情绪越负面;越靠右边,表达的情绪越正面。
而纵轴则是「中性概率」,它表述的是这些颜文字可能用于表达中性信息而非传递情感信息的程度。
而颜文字越大,则说明在日常应用越多。
再整理一下这张图,用下面这种形式展现出来,去掉应用频率信息,只看这些颜文字传达情感的正负状态,于是有了下图:
这个图的横轴是情感正负性得分,越靠左边,颜色越红,表达的情绪越负面;越靠右边,颜色越绿,表达的情绪越正面。
打眼一看,就能发现,绿色的圈圈要比红色和黄色的圈圈多很多。
为什么聊天时加上「颜文字」会有卖萌的感觉?
好了,有了上面的结论,这个问题就好回答了。
我们日常应用的颜文字中,表达正面情绪的数量,客观上就要比表达负面情绪的多很多。
不仅如此,还有研究表明,颜文字可以有效的消除信息中积极情绪的不确定性。[3]
举个例子,假如你收到这样一条消息:「今天我面试了,感觉好紧张。」,显然,这条信息本身所要传达的结果,是不怎么确定的。
到这里,总结一下:
上面两个原因共同作用,使得你在日常生活中见到颜文字时,通常与表达积极情绪有关。
这就是这个问题的答案。
「颜文字」有哪些意想不到的应用领域
读到这里,你是否有思考过,研究者们为什么要如此仔细认真,投入如此之多的精力,去研究这种看上去很随性的表情符号呢?
这是因为,对颜文字感兴趣的,不仅仅是应用心理学家,还有数据科学家和 AI 研究者。
当你与大语言对话时,你会发现,大语言模型对于人类情感的理解越来越精细,因而才有了「大语言模型是否能替代人类心理咨询师」「大语言模型是否能与人类恋爱」等问题的提出。
而大语言模型之所以叫大语言模型,是因为我们训练它们时,给他们投喂的数据,基本都是纯文本的语言资料。
又回到到我们一开始所提到的问题了,我们又怎么能让大模型通过文字信息,高效识别我们的情绪状态呢?
答案呼之欲出了,就是颜文字。
而对颜文字所表达情绪状态的研究,本质上是在做颜文字的向量化。
你能找到很多与 emoji 有关的大语言模型研究项目,例如 MIT 的 DeepMoji,[4]就是以 12 亿条带 emoji 的推文为素材,让大模型学习文本与 emoji 之间的情感关联,从而实现情感分类,并识别「讽刺」、「反讽」等复杂情感的识别。
注意我加粗的部分,「讽刺」、「反讽」。
这是一种几乎只能依靠表情、语气等外在情感线索才能识别的状态。
例如,小明讲了一个笑话,一点也不好笑,小华想讽刺一下他,于是干笑两声,对他说到:「哈哈,你真的太搞笑了!」。
如果是在实际场景中,人际敏感的人是可以很快捕捉到这个讽刺的语气的。
但是,如果全都用文字来表述呢?
小明「%…………&*&(*…………%…&这是一个只有他自己觉得很好笑的笑话&*&(*……」
小华「哈哈,你真的太搞笑了!」
(这个例子举的可能不太好,总之味道是那个味道,日常经常阴阳怪气的朋友们帮帮忙,看能不能帮我举个更形象的例子,先谢过啦。)
如果没有颜文字,我们就得把图片、视频、语音素材一并喂给 AI,才能让 AI 学会人类的讽刺与反讽,这样操作倒也不是不行,多花亿点资源和算力也能实现,这个技术叫做多模态。
而颜文字呢?虽然前文讲了,它不是典型的文字,但它还是用字符的形式存储的,因而这个过程,简直可以称之为「升维多模态训练」。
最后,讲讲颜文字的「幼态」属性
关于颜文字,讨论并没有结束。
以上结论,都是有关颜文字所表达意义和情绪的研究。
进一步深入研究,你会发现不同文化对于同一个颜文字符号所表达的意义,很可能是会有争议的。
例如,同是东亚文化圈的中国和日本,对于这个颜文字的态度,就有很大不同。[5]
中国人认为这个符号代表了「恶魔」和「愤怒」,它传达的是一种类似「恐怖」的负面情感。
而日本人则认为这个符号代表了「顽皮」和「生气」,它传达的是一种类似「开玩笑」的中性情感。
可是无论文化背景如何,对于使用「颜文字」的萌感的认知,是非常一致的。
所以,从颜文字所表达的意义和情绪的角度,并不能完全解释颜文字的「萌感」来源。
颜文字的「萌感」,还来自于它的「幼态」属性。
单纯使用颜文字这个动作,就已经足以让我们感受到使用者的「萌感」。
举个例子,你昨天因为手下办事不利,一时没忍住,把 Ta 骂了一顿。
我再举个例子,你就能明白这种感觉的来源了。
今年是蛇年,而蛇这个字,是这样写的:
对于绝大多数人而言,蛇不是一种会让人觉得可爱的动物,甚至有人看到蛇这个字都会有些不适,所谓「杯弓蛇影」嘛。
可是你再看,甲骨文的「蛇」字。
是不是就有点「萌感」在其中了呢?
人类的文字,都是从最初的象形符号逐步演变成表音或会意文字的,在所有文明中,象形文字都是文字的「幼态」。
你看到这个符号,马上就能知道它表述的是什么,不需要任何认知加工,自然而然。
一旦你开始给这些符号赋予抽象的意义,这种「萌感」也就丧失了。
如果你觉得「蛇」字不够形象,那就再看看「鼎」字。
你能想象,「一言九鼎」、「力能扛鼎」的「鼎」,也可以具有如此「萌感」么?
「幼态」,意味着无害,代表着威胁属性的降低。颜文字,你可以把它理解为一种「电子象形文字」。
而这种对于文字「幼态」的认知,几乎可以算作全人类的集体无意识,是流淌在我们血液中的认知本能。
当我们感觉聊天时使用「颜文字」会有卖萌的感觉时,只是我们讲这种文字的「幼态」投射到使用它的人身上了而已。
扩展阅读: