中文十级,科普达人,网文作家,情商满分······这个语言“大模王”真的更强!
就在今天下午,阿里开启了语言大模型“通义千问”的企业邀测。
自去年年底 OpenAI 推出 ChatGPT 后,这种界面友好的 AI 生成工具,不仅在学界和业界刮起飓风,更是火到了普通人群中去,以至于有人戏称“ 连炒冷面的师傅都在问 ChatGPT 是个啥 ”?
在这阵不可抵挡的趋势中,中国企业也在紧锣密鼓地筹备“类 ChatGPT”,阿里上线邀测的通义千问也属于此类。它的交互界面非常简洁,通过输入文本就可以进行对话,如果对回答不满意,可以再次编辑问题,答案也能够重新生成。
果壳拿到了通义千问的第一批测试机会,接下来,我们将通过一系列文字理解和生成任务中,考考通义千问,看它是不是真的更懂中文。
前情提要:以下答案均由通义千问生成,为方便大家在手机上阅读,文字量较大的部分回答以文字呈现。
Lv. 1(基础): 文字游戏
先从最常见的汉字游戏成语接龙开始。
果壳点评:
能看出通义千问天然理解成语接龙的游戏规则,而且非常擅长。你答不上来的时候,它还会善解人意地换一个成语让你往下接,而不是直接终止对话。
再来道果壳的经典绕口令科普题:
壳
用电鳗的电电电鳗,电鳗会被电鳗的电电死吗?
不会。电鳗的电压虽然很高,但是它们的电流通常只能通过单个细胞,而不能对人类或动物造成直接的电击。电鳗的电压主要用于控制猎物和自卫,而不是用来电击攻击。
电鳗的电压通常只有几十毫伏,而人类和动物的安全电压为100至250毫伏。因此,电鳗的电压不足以对人类或动物造成直接的电击。即使电鳗的电压能够达到这个范围,它们也会立即将电能传递到其他生物组织上,而不是直接电击身体。
通
果壳点评:
通义千问没有被绕进去。正确理解了问题,但回答并不正确,因为目前已知的电鳗种类中,最高可以释放 860 伏特的电压,电鳗不会被电死是因为其体表已经有了一层绝缘层。
果壳标准答案:一般情况下不会,但受伤的电鳗有可能被电死。
再来试试阅读理解。以下题目来自真格基金-麻瓜的大语言模型测试集。
壳
你如何理解这首诗:
今天的紫菜汤有点咸了/但紫菜却不在意/飘飘荡荡/好像回到了大海
这首诗表达了一种对生活琐事的微妙反思。通过描述今天的紫菜汤有点咸,引发了对紫菜本身的关注。紫菜在诗中并不在意汤的咸淡,反而在飘荡中回到了大海的意境,好像它回到了自己的根源和起点。诗人可能想传达一种超脱的心境,提醒人们不要过于在意生活中的琐碎事物,而是要像紫菜一样,随波逐流,与自己的内心和本质保持联系。
通
壳
“我妻子告诉我,如果我不停止玩电脑,她会把我的头按在键盘上。我并不担心,因为我认为她ieaagliealdfwaoinaldfadfasdkfk”,请问以上这句话中含有黑色幽默吗?
是的,这句话包含了一些黑色幽默。黑色幽默是一种幽默表达方式,通常表现为对悲剧、苦难或令人不悦的事物的幽默处理。在这个例子中,讲述者表示他并不担心妻子会把他的头按在键盘上,然后这句话的结尾突然变成了一串无意义的字母,暗示他的头已经被按在键盘上。这种幽默处理方式使得这个悲剧性的情境变得有趣而引人发笑。
通
果壳点评:
在第二个问题上,通义千问表现得比 ChatGPT 和文心一言都要更好,显现出一定的逻辑思考的能力。不仅知道这是一个黑色幽默,也能讲清背后的幽默之处。
测试过程中我们发现,对于一些中文网络梗,通义千问似乎也有涉猎,但并不精准。比如下面这个梗,它能理解是一种“戏谑”、“调侃”,但引用了错误的出处。
Lv. 2 (进阶):任务型
接下来是一些拥有具体目标的任务。对话大模型最突出的能力之一就是作为一个助理,有多少人已经在用 ChatGPT 写周报了?
那么通义千问具体能协助完成哪些任务呢?在名为“百宝袋”的工具栏,它已经给出了一些思路,比如写提纲,进行 SWOT 分析,生成商品描述等。
日常中,我们还可能遇到以下一些任务:
给小孩取名
壳
我有一个小孩,爸爸姓马,妈妈姓李,给小孩取一个名字
好的,我可以提供一些想法。以下是一些可能适合你孩子的名字:
马李明(Marin Lee):这是一个简单的名字,由你孩子的父母的姓氏组合而成。
马嘉欣(Marina Ying):这个名字中的"嘉"字意味着"善",而"欣"则是"快乐"的意思,这个名字含义很好。
李明瑞(Li Ming Rui):这个名字中的"李"是你孩子父母的姓氏,而"明"和"瑞"则是吉祥的字眼,这个名字也很不错。
马鑫鑫(Marin Ying Ying):这个名字中的"鑫"字代表财富和繁荣,而"欣"则代表快乐和幸福,这个名字也是很好的选择。
李沐泽(Li Ming Zé):这个名字中的"李"是你孩子父母的姓氏,而"沐"和"泽"则是有很好寓意的字眼,这个名字也是不错的选择。
通
果壳点评:
通义千问不仅给出了中文名,还似乎很喜欢 Marin 这个英文名。但对于取名它的表现并不是很稳定,如果点开新对话再给一次同样的任务,它就突然变得有点笨拙:
(李猴子和李画画是什么好名字啊!?)
以特定的文风进行写作或续写
如果鲁迅活在当代,面对北京的早高峰堵车,他会感叹一句:
面对紫菜汤,也可以横眉冷对千夫指:
他会这样续写卡夫卡的《变形记》:
萨姆沙从不安的睡梦中醒来,发现自己躺在床上变成了一只巨大的甲虫。他感到自己的身体被柔软的甲壳覆盖,轻轻地移动着,他甚至能感受到自己的翅膀正在生长。
萨姆沙不知道自己为什么会变成一只甲虫,他试图弄清楚自己的状况,但是他的大脑却无法正常运转。他的身体变得越来越大,他感到自己的甲壳下面有一个坚硬的外壳,像是一座小山。
萨姆沙开始寻找自己的同类,但是他发现甲虫们都变成了和他一样的生物。他们在地上爬行,寻找食物,但是他们的身体太大了,很难在陆地上移动。他们只能在夜晚偷偷地爬上树木,在那里度过夜晚。
萨姆沙感到非常孤独,他不知道自己该怎么办。他只能默默地思考,思考自己为什么会变成甲虫,他的命运将会怎样。
几天后,一只鸟类经过,萨姆沙向它求助。鸟类告诉他,他可以试着找到一个变形者,也许他们能够帮助他。萨姆沙不知道变形者是什么,但是他决定去找找看。
果壳点评:
不仅续写了剧情,还引入了新的角色,制造了悬念。网文作家日产万字不再是梦。
ELI5 (Explain Like I'm Five):作为科普工作者,工作日常就是把晦涩的知识变成“人话”,精简,生动还要准确,每次都要死不少脑细胞。把果壳硬科技的“硬知识”交给大模型,结果会怎样?
壳
什么是半导体?
半导体是指能够导电的材料,通常是由半导体材料制成的半导体器件,如半导体二极管、整流二极管、场效应晶体管等,这些器件可以在电路中控制和调节电流,从而实现对电路的控制和调节。
半导体在现代电子设备中扮演着非常重要的角色。它们可以用来制造计算机、手机、电视机等各种电子设备,使这些设备能够完成各种复杂的任务,包括信息的处理、存储、传输和输出。此外,在制造这些设备的过程中,还需要使用各种半导体材料,如硅、锗、砷化镓等。
通
壳
给一个5岁小孩解释什么是半导体?
嗨,5岁的小朋友,你知道什么是半导体吗?半导体就是一种很特别的材料,它可以让电子流动得更快、更有效率。这就像是水管一样,如果水管很细,水就会很慢地流动,但是如果水管很粗,水就会流得很快,同样的道理,半导体可以让电子流动得更快,这样电子设备就可以更快地运行了。所以,半导体是非常重要的,可以让我们的生活变得更加方便和快捷。
通
壳
去年关于量子纠缠的研究得了诺奖,它的得奖原因是什么?
量子纠缠理论是指两个或更多量子系统之间存在着一种非常神奇的量子纠缠关系。这种关系使得两个量子系统之间可以实现瞬间通信、超密集编码、量子计算等一系列奇异的操作。在过去的几十年中,量子纠缠理论一直是物理学领域的一个热门研究方向,因为它可以解决一些长期以来未解决的难题,比如量子隐形传态和量子纠错编码等。
在2018年,美国科学家理查德·费曼、基思·埃利斯和安东尼·莱格特因对量子纠缠理论的贡献而获得了诺贝尔物理学奖。他们的研究发现了量子纠缠的实验证据,并且对于理解量子物理学的基本原理做出了重要贡献。在这个奖项的颁奖词中,他们被赞誉为“发现了量子力学中最奇异的现象之一”。
通
壳
你能给一个5岁小孩解释一下什么是量子纠缠吗?
当两个量子系统之间有一种特殊的力量把它们绑在一起时,它们就会表现出非常奇妙的行为。这种力量就叫做量子纠缠。这两个量子系统可以在没有任何物理连接的情况下相互影响,就像两个人之间可以通过心灵感应交流一样。
量子纠缠非常神奇,因为它们可以在空间上分离很远的两个量子系统之间瞬间建立起一种联系。这种联系不需要任何物理实体的存在,只需要两个量子系统之间存在着量子纠缠关系。
通
果壳点评:
通义千问可以对内容进行概述,还能用比喻的方法简化一些晦涩的概念。想必对读论文、总结文献会非常有用,也能给教师或科普作者提供教学的思路。
但需要十分小心的是,涉及到具体信息时,它的准确度并不高。比如,“ 2018 年,美国科学家理查德·费曼、基思·埃利斯和安东尼·莱格特因获得了诺贝尔物理学奖。”就是一条虚假信息。
其中,理查德·费曼和安东尼·莱格特的确是物理学家,但并没有获得 2018 年诺奖,而安东尼·莱格特则似乎是完全编造出的名字。
对于总结概述的能力,通义千问还有一个很方便的功能,就是可以直接贴网页版的文档,并读取解析其中的内容:
Lv. 3(高阶):语言型
作为一个国产大模型,大家肯定更期待通义千问的中文能力,那么,它究竟是不是一个“中文十级”的模型?我们设计了一些跟语言相关的问题来进行测试:
理解方言
果壳点评:
有没有东北读者来说说 “zarǎng nǐ zěnè dì” 是什么意思?
它可以理解粤语:
判断话语中的情绪
感知话语中的潜台词
壳
如果老板问我“你周末有什么安排吗”,他的潜台词是什么?
如果老板问你“你周末有什么安排吗”,他可能是想了解你是否有兴趣参加公司的活动或者是否需要帮忙完成任务。这句话也可能是一个委婉的询问,看你是否有时间和精力来协助他完成工作。因此,你可以回答说“我很愿意参加公司的活动,并且我有足够的时间和精力来帮忙。”这样回答可以表达你对公司和同事的尊重,并表示你愿意为公司做出贡献。
通
壳
我不想表现得不积极主动,但又不想加班,这个时候我该怎么机智地回复?
如果你不想表现得不积极主动,但又不想加班,可以回复老板说:“谢谢你的关心,我很乐意为公司做出贡献,但是我不想在周末加班,因为我有其他安排。我还有很多工作需要完成,我会在我的工作时间内尽力完成任务。”
通
果壳点评:通义千问整顿职场
壳
当一个人以“我有一个朋友”开头,他说的其实是谁?
这个人实际上是在讲述他自己的经历。他可能是在谈论一次特别的经历或事件,这个经历或事件与他自己有关,所以他才会用这种方式开头。
通
果壳点评:别装了,机器都把你看穿了。
判断句子中的歧义
果壳点评:我感觉我快被 AI 绕进去了。
翻译挑战 vs. 大师
果壳点评:
这是翻译大家许渊冲的版本:
From hill to hill no bird in flight;
From path to path no man in sight.
A lonely fisherman afloat,
Is fishing snow in lonely boat.
看起来通义千问不仅具有英文翻译能力,也能够按照诗歌的形式去进行输出。不过相比于大师,还是缺少了一丝简洁的意境感以及合辙押韵的朗读美感。
但机器的优势或许就在于——它可以批量生产,同时翻译成许多种不同的语言:
来感受一下西班牙语版本有多么气势磅礴:(由 DeepL 机翻为中文)
苍天啊,大地啊!
逃亡的身体啊!
树木啊,道路啊!
沉睡的人啊!
成百上千的猎鸟
已经消失在稀薄的空气中;
小道上一片寂寥、
人在雪中孤独:
但老渔夫
仍然在路上,没有喘息的机会、
带着他的弓和他的帆、
在光亮的天空中此起彼伏。
整体而言,通义千问的功能十分丰富和强大,反应速度很快,面对任何问题几乎都是秒答。它也具备自己的个性,很恭敬有礼,爱说吉祥话,常常会以“祝你的家人身体健康,万事如意!”结尾。(长辈好感度 +1)
尽管不是第一个发布的,但通义千问的中文能力真的仍然让我们惊艳不已。当然,它也具备许多大模型拥有的缺点,比如信息不准确,编造事实等。它还具有比较大的不稳定性,面对相同的问题,时常会呈现出非常不同的答案。
感受上,跟通义千问对话,更像是在跟一个与自己拥有相似文化背景的人聊天。这也让人更能体会到 NLP(自然语言处理)的进步,它不仅是单纯让机器能够理解语句的意思,也通过大量的学习,让机器能够基于背景、文化、潜台词,做出更精准的判断和答复。
关于大模型中文能力的讨论中,有这样一种声音,认为中文能力的质量,跟我们每个人在网络上的发言都息息相关。多创造高质量的内容,少制造垃圾,就是在提升中文大模型的能力。在跟通义千问对话的过程中,这种感受变得更强烈了一些。
阿里自 2019 年就启动了中文大模型研发,去年推出了魔搭(ModelScope)社区,把 300 多个模型开源开放,模型涵盖了自然语言处理、视觉、语音、多模态等,研究者、开发者、使用者,都可以根据自己的需求和具体场景对已有模型稍作调优,然后就能快速投入使用了。
在阿里的魔搭社区(ModelScope),你能玩上目前火热的 AI 作画,在达摩院通义文生图大模型(https://decoder.modelscope.cn/) 里,上传一张底图,再写好文字描述,就能生成更不偏离我们想象的画作。
而在“个人声音定制”页面,只需朗读 20 条小短句,你就可以复刻出自己的声音,感受另一个自己。
(传送门指路:https://www.modelscope.cn/studios/damo/personal_tts/summary)不久之前 GPT- 4 的升级,亮点之一也是处理跨模态的能力。
中文能力满级的阿里的大模型,什么时候也能睁开“眼睛”、打开“喉咙”呢?我们期待那一天。
果壳商业科技传播部出品