《数字经济洞察周报》2023年第21期 |科大讯飞和智源相继发布大模型新版本，AMD发布Instinct MI300X 原创

作者：孙硕、吕敬儒

星火大模型V1.5和悟道3.0重磅发布，AMD发布Instinct MI300X

成果发布

2023年全球生成式AI产业图谱和报告（英文版）发布

2023 Global Generative AI Industry Map and Report（English Version） Released

2023年5月19日，在天津举办的第七届世界智能大会“世界智能科技创新合作峰会”期间，在中国互联网协会、中国软件行业协会指导下，天津市人工智能学会、至顶科技、至顶智库联合发布《2023年全球生成式AI产业图谱》和《2023年全球生成式AI产业研究报告》，为政府部门、行业从业者、教育工作者以及社会公众更好了解全球生成式AI发展情况提供参考。

During the 7^th World Intelligence Congress “World Intelligent Technology Innovation Cooperation Summit” in Tianjin, China, on May 19, 2023, under the guidance of Internet Society of China, China Software Industry Association, Tianjin Association for Artificial Intelligence, ZHIDING Tech , and ZD Insights jointly released the 2023 Global Generative AI Industry Map and 2023 Global Generative AI Industry Report and providing a reference for government agencies, industry practitioners, educators, and the public to understand generative AI better.

2023年全球生成式AI产业图谱和报告（英文版）于2023年6月12日正式发布。

The English version of the 2023 global generative AI industry map and research report are officially released on June 12, 2023.

《2023年全球生成式AI产业图谱》分为基础设施层（AI芯片、AI计算集群、AI云服务）；算法模型层；场景应用层（文本生成、图像生成、音频生成、视频生成、数字人）。图谱中涉及各领域全球代表性企业和相关机构，同时将代表性产品或解决方案作相应展示。

2023 Global Generative AI Industry Map is subdivided into infrastructure layer (AI chip, AI computing cluster, and AI cloud service); model layer; scenario layer (text generation, image generation, audio generation, video generation, and digital human). Global representative companies and related institutions are included on the map, as well as their representative products and solutions. The following is the map:

《2023年全球生成式AI产业研究报告》对产业概况、基础设施、算法模型、场景应用、机遇挑战等方面进行梳理，全面展现全球生成式AI产业的发展情况。

2023 Global Generative AI Industry Report summarizes the industry overview, infrastructure, foundation model, scenarios, opportunities, and challenges of generative AI from a global perspective, and demonstrates the development of the generative AI industry.

报告显示，语言作为人类沟通交流的主要方式，其发展历程分为三大阶段。语言1.0时代：从人类语言诞生到公元前16世纪殷商时期甲骨文的出现，文字成为人类交流的重要方式；语言2.0时代：从公元105年蔡伦发明造纸术到1946年世界第一台电子计算机诞生，语言开始通过各类机器实现传播；语言3.0时代：伴随互联网出现，人工智能NLP及生成式AI等技术的快速发展与相关应用落地，使得机器生成和创造语言的方式成为了可能。

Furthermore, 2023 Global Generative AI Industry Report illustrates that language has evolved through three stages as humans’ primary means of communication. Language 1.0 era: Writing has become an essential method of human communication since the birth of human language to the appearance of oracle bone inscriptions in the Shang Dynasty in the 16th century BC. Language 2.0 era: From Ts’ai Lun’s invention of papermaking technology in 105 AD to the birth of the world’s first electronic computer in 1946, language spread through various machines. Language 3.0 era: Since the emergence of the Internet and the rapid development of AI technologies such as natural language processing (NLP) and generative AI, it has become possible for machines to generate and create natural language.

报告认为，生成式AI对就业的影响挑战与机遇并存。一方面，生成式AI将促进岗位智能化升级，部分工作岗位将被替代。另一方面，生成式AI也会创造新职业：在技术开发领域，机器学习工程师、自然语言处理工程师、机器人工程师将成为热门职业。在技术应用领域，“问客”（Prompt Engineer）让人们能够利用自然语言作为提示词，通过与AI进行交互，得到信息或创造作品，人工智能产品经理和人机交互师也不可或缺。在辅助领域，负责人工智能相关数据搜集、训练、管理及研究的人工智能训练师、数据安全专家、人工智能伦理学家等有望成为新职业。

The report argues that generative AI on employment presents challenges and opportunities. Generated AI will, on the one hand, intelligent jobs, but some jobs will be replaced. However, generative AI will also create new occupations: machine learning engineers, natural language processing engineers, and robotics engineers will become popular occupations as a result. In technology applications, “Prompt Engineer” allows users to interact with AI through natural language to obtain information or create works. In addition, artificial intelligence product managers and human-computer interaction engineers are indispensable. In the auxiliary field, artificial intelligence trainers, data security experts, and artificial intelligence ethicists who are responsible for the collection, training, management, and research of artificial intelligence-related data are expected to become new professions.

行业政策

上海市“元宇宙”关键技术攻关行动方案（2023—2025年）

日前，上海发布《上海市“元宇宙”关键技术攻关行动方案（2023—2025年）》的通知，此次文件有针对性地提出了多项关键技术，并首次明确了两大主攻方向，即沉浸式技术和Web3技术。此次方案提出，要针对“元宇宙”沉浸式、开放式、永续实时、以人为中心等跨界复合的技术特性，围绕“元宇宙”内容、存算、传输和终端等技术层面，结合国内外产业发展情况和上海市研发基础，聚焦沉浸式技术、Web3技术两大主攻方向，在沉浸影音、沉浸计算、新型显示、感知交互与区块链等关键技术领域打造新高地。具体内容如下：

信息来源：上海市科学技术委员会官方网站

企业动态

讯飞星火认知大模型V1.5重磅发布

图片来源：科大讯飞官方公众号

2023年6月9日，在科大讯飞24周年庆上，讯飞星火认知大模型V1.5正式发布。与上一个版本相比，星火大模型升级了开放式知识问答、逻辑推理和数学能力、多轮对话三大综合能力。同时，科大讯飞还公布了星火大模型在办公、教育、医疗、工业领域的应用新进展。在前述应用基础上，本次发布会进一步推出了讯飞星火APP和小程序，搭载纯语音对话、多模态输入、多终端支持、多功能小助手等功能。

值得一提的是，6月9日正是全国高考最后一天，讯飞研究院院长刘聪也现场演示了星火大模型答高考卷的能力，做数学函数题、语文阅读理解题，都能给出逻辑清晰的分析过程。

星火认知大模型V1.5三大升级

图片来源：科大讯飞官方公众号

这一次讯飞星火认知大模型V1.5正式发布，几项能力都有了显著提升：文本生成能力有7%的提升，语言理解能力提升了8%，知识问答提升了24%，在逻辑推理、数学能力和代码能力上分别有了10%、9%和8%的提升。针对用户在使用大模型期间最需要的几项综合能力，这一次V1.5的产品升级都有了显著的提升。开放式知识问答取得了明显的突破，逻辑推理和数学能力、多轮对话能力也有了进一步的提升。

一、开放式知识问答，文本内容能引经据典、补充分析见解

图片来源：科大讯飞官方公众号

因为大模型的内在机理，包含ChatGPT在内的各种国内外大模型都在知识的更新上面临困难，所以有时候提供的答案会存在知识的即时性不够、甚至“张冠李戴”的情况。而大模型可以基于其强大的语言理解能力，深度理解用户需求后，从实时的数据库、信息库中进行知识提取，再通过概括表达能力将答案提供给用户，从而保证结果的及时性和准确性。

二、逻辑推理和数学能力升级，综合应用数学方法解答

图片来源：科大讯飞官方公众号

在这一次的升级过程中，科大讯飞把长链条思维链推理和数理逻辑推理能力有效地结合起来。整个逻辑推理和数学能力得到了明显的提升。不仅可以把一些“很绕的”逻辑现象的关键点梳理出来，而且可以综合应用各种数学方法，像应用方程、排列组合、经典的算法等，综合运用来解决数学问题。

三、多轮对话能力升级，化身面试官、儿童作家

图片来源：科大讯飞官方公众号

科大讯飞这次针对大模型重要的认知能力、多轮对话的提升，可以完成特定复杂的任务，而且可以通过人机共创来完成，在多轮交互的过程中不断激发灵感、共同协作。通过多轮对话，我们可以完成一些复杂的场景任务。通过大模型带来的强大能力，可以让每个人都变成创作者。

同时，讯飞发布了星火APP和小程序，支持全语音对话、多模态输入等，同步上线了“星火助手创作中心”，用户可以基于自己的需求打造大大小小的智能助手。目前，星火助手创作中心已经发布200多个助手。用户想要从0到1构建助手需要在后台输入相应的助手指令。如果想丰富文本的内容，用户还可以在助手指令里添加关键词，如“欢快幽默”、“引经据典”等。并且新生成的助手也会同步到PC、移动设备上。

教育、办公场景设备再升级，工业、医疗服务次数大幅提升

在教育方面，科大讯飞将此前发布的AI口语助手升级为星火语伴APP，更好满足大学生、商务人士的口语陪练需求。在大模型加持下，星火语伴APP可以进行开放式对话、情景交流，像口语老师一样陪练，并进行实时口语纠错。此外，APP还支持9种语言文本、语音和图片翻译，是用户外语学习的好帮手。

图片来源：科大讯飞官方公众号

办公领域下，科大讯飞发布了业界首个搭载大模型的会议室智能终端——讯飞听见智慧屏。它可以实现动态会议记录、会议内容自动整理输出，一键生成多种类型的会议文案，助力用户高效办公。

图片来源：科大讯飞官方公众号

面向B端场景，星火大模型已经在工业、医疗行业实现应用。

在工业的场景中，“研产供销服管”各个环节，通过人工智能的应用都可以极大提升效率、降低成本。星火大模型可以和工业领域的知识结合企业，形成工业大脑，再和企业的知识库结合形成企业的知识大脑，企业的生产、研发、服务、营销各个环节，可以和企业大脑进行交互，更加精准的定位问题，找到针对性的解决方案。基于人工智能在工业中的应用，科大讯飞正式发布了羚羊工业互联网平台，目前其用户总量已超过了32.2万，为企业提供的各种服务达到72.1万次。

图片来源：科大讯飞官方公众号

基于科大讯飞星火认知大模型，可以极大提升诊后康复管理的能力。科大讯飞的智医助理可以应用到诊前导医、导诊，诊中帮助医生防止误诊、漏诊，诊后康复环节。智医助理系统已经应用到全国31个省，完成6.29亿次辅助诊断，修正了127份医生的首次诊断。并且智医助理和语音外呼相结合，已经完成了11亿次电话随访。

图片来源：科大讯飞官方公众号

AMD重磅发布人工智能GPU Instinct MI300

近日，AMD举行了重磅发布会，推出了一款全新的人工智能GPU Instinct MI300。早在今年初，AMD便已经宣布了新一代Instinct MI300，是全球首款同时集成CPU、GPU的数据中心APU。如今，这款芯片的名字变成了Instinct MI300A，而纯GPU产品则命名为Instinct MI300X。据AMD的CEO苏姿丰透露，MI300A是全球首个为AI和HPC（高性能计算）打造的APU加速卡，拥有13个小芯片，总共包含1460亿个晶体管，24个Zen 4 CPU核心，1个CDNA 3图形引擎和128GB HBM3内存。

图片来源：AMD新品发布会

MI300X更是本次发布会的重点，这款芯片是AMD针对大语言模型优化的版本，该产品的晶体管数量达到1530亿个，内存达到了192GB，内存带宽为5.2TB/s，Infinity Fabric带宽为896GB/s。对比英伟达的H100，MI300X提供的HBM（高带宽内存）密度约为H100的2.4倍，带宽是1.6倍。

图片来源：AMD新品发布会

这意味着AMD的这款产品可以运行比英伟达H100更大的模型，在现场AMD演示了MI300X运行400亿参数的Falcon模型，而OpenAI的GPT-3模型有1750亿个参数。苏姿丰还用Hugging Face基于MI300X的大模型写了一首关于活动举办地旧金山的诗。这也是全球首次在单个GPU上运行这么大的模型，据AMD介绍，单个MI300X可以运行一个参数多达800亿的模型。而在未来随着AI模型越来越大，意味着需要更多GPU来运行最新的大模型，而AMD芯片上内存的增加，意味着开发人员不需要那么多GPU，可以为用户节省大量成本。

同时AMD还发布了AMD Instinct Platform，集合了8个MI300X，可提供总计1.5TB的HBM3内存。对标英伟达的CUDA，AMD也介绍了自身的芯片软件ROCm，AMD总裁Victor Peng称，在构建强大的软件堆栈方面，AMD取得了真正的巨大进步，ROCm软件栈可与模型、库、框架和工具的开放生态系统配合使用。

行业会议

2023北京智源大会发布悟道3.0

图片来源：北京智源大会

2023年6月9日-10日，由北京智源人工智能研究院举办的2023智源大会正式召开。与会期间，智源发布了完整的悟道3.0大模型系列，并进入到了全面开源的新阶段。此次悟道 3.0 包含首个支持中英双语知识、开源商用许可的“悟道·天鹰（Aquila）”语言大模型系列，提供“能力-任务-指标”三维评测框架的“天秤（FlagEval）”开源大模型评测体系，力求打造大模型时代“新Linux”生态的FlagOpen大模型开源技术体系，以及6项“悟道·视界”视觉大模型研究成果。

作为大模型领域年度巅峰盛会，智源大会至今已经举办了五届，为加强产学研协同、促进国际交流与合作、打造世界人工智能学术高地做出了重要贡献。本届大会邀请到了图灵奖得主Geoffrey Hinton、Yann LeCun、Joseph Sifakis和姚期智，张钹、郑南宁、谢晓亮、张宏江、张亚勤等院士，加州大学伯克利分校人工智能系统中心创始人Stuart Russell，麻省理工学院未来生命研究所创始人Max Tegmark，OpenAI首席执行官Sam Altman等200余位人工智能顶尖专家参会，嘉宾以国际视角探讨通用人工智能发展面临的机遇与挑战。

悟道·天鹰（Aquila）+天秤（FlagEval）打造大模型能力与评测标准双标

图片来源：北京智源大会

为了推动大模型在产业落地和技术创新，智源研究院发布了“开源商用许可语言大模型系列+开放评测平台”两大重磅成果。“悟道·天鹰”Aquila语言大模型系列是首个具备中英双语知识、支持商用许可协议、支持国内数据合规需求的开源语言大模型。此外，其在中英文高质量语料基础上从0开始训练，通过数据质量控制、多种训练优化方法，实现在更小数据集、更短训练时间下，获得比其他开源模型更优秀的性能。

悟道·天鹰（Aquila）系列模型包括 Aquila基础模型（7B、33B），AquilaChat对话模型（7B、33B）以及 AquilaCode “文本-代码”生成模型。现场，智源重点展示了“悟道·天鹰”AquilaChat对话模型的4项技能：对话、写作、可拓展特殊指令规范，强大的指令分解能力。

整体来看，「悟道?天鹰」Aquila 语言大模型在技术上继承了 GPT-3、LLaMA 等的架构设计优点，替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer，升级了 BMTrain 并行训练方法，训练效率是 Magtron+DeepSpeed ZeRO-2 的近 8 倍。

图片来源：北京智源大会

AquilaChat 对话模型（7B、33B）是智源推出的类 ChatGPT 模型，它是一个单模态语言大模型，支持流畅的文本对话及多种语言类生成任务；通过定义可扩展的特殊指令规范，实现通过 AquilaChat 对其它模型和工具的调用，且易于扩展。例如，调用智源开源的 AltDiffusion 多语言文图生成模型，实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型，它还可以轻松实现对人脸图像的多步可控编辑。

图片来源：北京智源大会

AquilaCode-7B “文本-代码”生成模型基于Aquila-7B强大的基础模型能力，以小数据集、小参数量，实现高性能，是目前支持中英双语的、性能最好的开源代码模型，经过高质量过滤，使用有合规开源许可的训练代码数据进行训练。此外，AquilaCode-7B 分别在英伟达和国产芯片上完成了代码模型的训练，并通过对多种架构的代码+模型开源，推动芯片创新和百花齐放。

天秤（FlagEval）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具，并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象，包括自然语言处理（NLP）、计算机视觉（CV）、音频（Audio）及多模态（Multimodal）等四大评测场景和丰富的下游任务。

图片来源：北京智源大会

首期推出的天秤（FlagEval）大语言模型评测体系，创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果，总计 600+ 评测维度，包括 22个评测数据集，84,433道题目。

“悟道·视界”系统化解决了当前计算机视觉领域的一系列瓶颈问题，包括任务统一、模型规模化以及数据效率等，包括：在多模态序列中补全一切的多模态大模型 Emu；最强十亿级视觉基础模型EVA；一通百通、分割一切的视界通用分割模型；首创上下文图像学习技术路径的通用视觉模型Painter；性能最强开源CLIP模型 EVA-CLIP；简单prompt（提示）即可视频编辑的 vid2vid-zero 零样本视频编辑技术。

多模态大模型 Emu 接受多模态输入、产生多模态输出。通过学习图文、交错图文、交错视频文本等海量多模态序列，实现在图像、文本和视频等不同模态间的理解、推理和生成。训练完成后，Emu 能在多模态序列的上下文中补全一切，实现多轮图文对话、视频理解、精准图像认知、文图生成、多模态上下文学习、视频问答和图图生成等多模态能力。

图片来源：北京智源大会

EVA为当前最强十亿级视觉基础模型，通过将语义学习和几何结构学习这两大解决视觉问题的关键点进行结合，让视觉模型的通用性更强，目前EVA在ImageNet分类、COCO检测分割、Kinetics视频分类等广泛的视觉感知任务中取得当时最强性能。

图片来源：北京智源大会

多模态图文预训练大模型EVA-CLIP是当前性能最强的开源CLIP模型。EVA-CLIP基于视觉基础模型EVA研发，去年发布的EVA-CLIP 1B 版本，今年才被Meta在5月份刚发布的DINOv2模型追平。在今年年初发布的EVA-CLIP 5B版本创造了零样本学习性能新高度，超越此前最强的OpenCLIP模型，在ImageNet 1K数据集上零样本达到最高82%的准确率。

图片来源：北京智源大会

Painter通用视觉模型首创「上下文图像学习」技术路径，图像理解图像、图像解释图像，图像输出图像：将自然语言处理中的上下文学习概念引入视觉模型，首创“上下文图像学习”技术路径，将“以视觉为中心”作为建模核心思想。目前Painter模型可完成7种主流视觉任务，性能相比国际同类模型具有11%-25%的性能提升。