GPT-4充当评测老师，效果惊艳，港中文(深圳)开源凤凰、Chimera等大模型

16:00

在人工智能领域，自1980年代以来，最重大的技术突破之一无疑是ChatGPT和GPT-4的推出，这得到了比尔·盖茨的高度评价。随着技术的迅速迭代，每天都有新的类似ChatGPT的模型面世，如Alpaca、Vicuna、Dolly、Belle、Baize、Guanaco和LuoTuo等。

近期，由香港中文大学（深圳）及深圳市大数据研究院的王本友教授团队研发的两个开源大型语言模型——“凤凰”和“奇美拉”引发了广泛关注。这两个模型在中文表现上与百度文心一言相匹敌，GPT-4的评测结果显示其性能接近文心一言的97%，在人工评测中有约50%的案例与文心一言不相上下。

为了让大模型命名更具创新性与文化内涵，王本友教授团队将“凤凰”和“奇美拉”分别赋予了两个模型，前者代表东方智慧，后者则对应西方神话。这一命名不仅体现了东西方文化的融合，还寄寓了团队希望通过这些模型实现ChatGPT技术的全球普及，挑战Open AI的主导地位的美好愿景。

凤凰模型的独特之处在于其融合了指令式微调与对话式微调两种策略，既保证了模型对人类指令的精确执行，又提升了与用户互动的自然流畅性。在多语言支持方面，凤凰模型以其广泛的多语言训练数据集，展现出在拉丁语系和非拉丁语系语言上的强大适应力，尤其在中文环境下，其性能显著超越其他开源模型，达到顶尖水平。

在多语言评估中，凤凰模型在中文、西班牙语、法语、葡萄牙语、阿拉伯语、日语和韩语等多个语种上表现出色，特别是在中文环境下，其性能超越了诸多流行模型，甚至在人工评测中，凤凰模型的输出在近三成情况下优于文心一言。

尽管在英文评测中，凤凰-7B模型在性能上略低于专门针对拉丁语系训练的Vicuna-13B，但这主要是由于模型规模较小和多语言训练带来的“多语言税”。通过替换多语言基座模型为仅包含拉丁语的LLaMA模型，构建出的奇美拉模型在英文环境下的表现更为出色，达到了96.6%的ChatGPT水平。

凤凰与奇美拉等开源大型语言模型的诞生，标志着在多语言支持与全球普及方面的重要进展。这些模型不仅在中文和多种语言环境中展现了卓越的性能，也为推动ChatGPT技术的全球应用铺平了道路，旨在让这一划时代成果惠及全球每一个角落。