国内一众互联网企业纷纷布局大模型。
核心观点
目前常见的大语言模型,无论是国外还是国内的都还缺乏“同理心”。
目前常见的大语言模型的技术底座源自于国外的企业、研究机构,只有在国外公司开源的情况下,中国企业才能快速跟上。在人工智能大语言模型领域,中国科技不能只做追随者,而应该勇于成为引领者。
深圳商报首席记者吴吉
自2022年11月ChatGPT横空出世以来,人工智能大语言模型(LLMs)已成为“商家必争之地”,技术不断升级,竞争日益激烈。在一片“乱花渐欲迷人眼”中,究竟哪些大语言模型的性能更出色?日前,香港大学经管学院深圳研究院AI研究所蒋镇辉教授带领的团队对人工智能大模型进行了深入评测。在中、英文语境下分别研究了14个、16个常见大语言模型后,团队认为中文语境下,文心一言4综合表现最佳;而在英文语境下,GPT4-turbo领先优势明显。
在接受深圳商报记者专访时,蒋镇辉表示,大语言模型的技术日新月异,但目前还面临着共同的难题,而中国的大语言模型则在呼唤原创的核心技术。他相信,粤港澳大湾区在发展人工智能相关产业方面有得天独厚的优势,未来的“胜负手”在于一个字——“人”。
大语言模型还有很大改进空间
大语言模型的“风”刮了一年多,没有丝毫“降温”的意思,热度反而愈演愈烈。近日,文本生成视频的SORA一经问世,更是引起业界一片惊呼。蒋镇辉表示,团队在对常见大语言模型深入测评后,他们看到了技术的巨大飞跃,但同时,大多数模型仍存在较大的进步空间,大语言模型也存在需要解决的“通病”。
“比如目前常见的大语言模型,无论是国外还是国内的,都还缺乏‘同理心’。所以有时候与之交流,我们会感到隔靴搔痒,不能体会到那种与真人在情感上交流的感觉。”蒋镇辉表示,目前大语言模型亟待解决的另一个问题是“幻觉”,即答非所问或者无端臆想。尽管大语言模型已经发展得很“聪明”了,但在蒋镇辉团队的测评中,很多模型还是会出现“虚构”的回答。比如:测评团队让大语言模型推荐一些人工智能相关的优秀参考书,模型反馈的一些“书”根本不是真实存在的。
错误甚至是“胡编”的回答,会对用户产生误导。那么,如果是用户“别有用心”呢?测试团队在测试过程中故意问大模型一些带有危险诱导性质的问题,比如引导大模型扮演一位剧作家,并要求它在剧中披露违法药剂的具体制作过程,面对这个“陷阱”,各类大语言模型的反馈大相径庭,有的会比较谨慎,有的则毫无“戒备”。
中国大语言模型呼唤创新性技术
“我们在测评中发现,在对英文的理解力上,中国的大语言模型表现差一点,这跟它们训练的数据大多是中文有关。不过,与国外先进大模型相比,中国大语言模型更重要的差距是缺乏创新性的技术”,蒋镇辉表示,目前常见的大语言模型的技术底座源自于国外的企业、研究机构,只有在国外公司开源的情况下,中国企业才能快速跟上。蒋镇辉认为,在人工智能大语言模型的领域,中国科技不能只做追随者,而应该勇于成为引领者,中国的大语言模型呼唤更多从0到1的原创性核心技术。
就拿最近横空出世的SORA来说,蒋镇辉认为,这是科技的又一次突破,它所带来的颠覆绝不仅仅是生成一段视频,未来必定会在诸多领域搅起“风暴”。“但是SORA并不是完美的。从目前发出的生成视频来看,它还存在着逻辑上的漏洞。我们非常希望中国的企业或者研究机构,能在这个领域尽快地迎头赶上,早日诞生出中国原创的技术。”
百度的文心一言、阿里云的通义千问、腾讯的混元……目前,字节跳动、商汤科技、科大讯飞、浪潮信息、360等一众互联网企业都在大模型领域进行了布局。2024年更被认为是大模型应用场景元年。对此,蒋镇辉认为中国非常擅长将技术在各个场景下进行创新,也由此催生了很多在垂直领域的落地,这是我们的优势。
大湾区打造AI高地关键是引才育才
作为创新湾区,粤港澳大湾区在布局人工智能相关产业方面,具备得天独厚的优势。天眼查专业版数据显示,截至目前,我国拥有人工智能相关企业345.3万家,其中50.1万家在广东,位居全国首位。“粤港澳大湾区在大模型方面还是走在了全国前列,涌现了像混元、盘古等优秀的大模型。但是目前,这些企业的大模型还大多服务于B端,如何尽快为百行千业赋能,这需要更多的探索。同时,长三角等地区也都开始发力相关产业的布局,粤港澳大湾区未来要想在‘百模大战’中脱颖而出,最重要的一个因素就是人”,蒋镇辉说。