图片来源:GAIDC
2023年2月25日至26日,2023全球人工智能开发者先锋大会在上海临港举行。大会以“向光而行的AI开发者”为主题,围绕AI开发者所关注的前瞻探索、开源开放、人才引育、生态培育等方面展开,助力上海追踪前沿技术、开展国际交流、培育梯队人才、共建产业生态,推动上海打造具有国际影响力的人工智能产业高地,构建世界级产业集群。
本次大会成果斐然,“上海国际算法创新基地”、“上海市智能机器人制造业创新中心”在大会正式揭牌,落地上海。未来将推动最优秀算法技术在集成电路、生物医药和智能制造等产业领域的落地转化,并积极抢占机器人产业发展前沿焦点,聚焦关键技术,孕育新产业、新模式、新业态,为掌握未来发展主动权提供坚实基础。
“见于既萌,追光而行”—2023 AIGC前沿主题论坛、“数联新出行,开源新发展”—AI智能出行前沿主题论坛、智领未来:大模型技术与应用论坛、AI for SCIENCE—人工智能如何助力科学研究与发现等14场平行论坛在本次大会上成功举办。
至顶智库对本次大会高度关注,前往现场聆听专家、学者精彩报告,并对其中重要内容进行梳理,详情见下文:
2023全球人工智能开发者先锋大会(GAIDC)开幕式
上海市人民政府副市长李政致辞,总结上海人工智能发展成果,提出未来发展方向
图片来源:GAIDC
上海市人工智能产业成果:
核心技术取得突破。临港新一代人工智能计算与赋能平台投入试运行,全国首个人工智能公共算力平台揭牌启用;
产业载体加速拓展。上海人工智能实验室、上海数据交易所、白玉兰开源开放研究院等创新机构建成运营;
产业生态不断完善。制定出台国内首部省级人工智能地方性法规,编制实施国内首个人工智能算法创新行动计划,集聚全国1/3的产业人才。特别是临港新片区,已连续四年举办开发者先锋大会。
上海市人工智能产业发展方向:
将全力夯实产业基础。加快多模态、通用大模型研发攻关;
将全力推动开源开放。加大算法开源、数据开放、算力开放力度;
将全力营造最优的环境。加快人工智能关键领域技术、产品与服务、行业应用、安全能力等标准制定;构建面向技术开发的人才培育链;更好发挥本市人工智能产业基金的作用。
“见于既萌,追光而行”—2023 AIGC前沿主题论坛
AIGC在Meta通用语音翻译系统中的应用—陈鹏仁,Meta AI研究工程师
2022年10月,Meta推出全球首款由AI驱动的“英文对闽南语双向语音到语音翻译系统”。Meta采用三种方式收集闽南语到英文语音翻译资料:
人工产生。由人工录制,利用标准汉语作为桥接。先将英语语音翻译为汉语文字,再将汉语文字转译为闽南语语音;
伪标签。使用分段式系统,从无标注语音资料中产生语音到语音的翻译资料;
语音数据挖掘。无标注语音资料较易取得,从英语和闽南语无标注语音中,找到相对应的翻译语音来产生翻译资料。
图片来源:GAIDC,语音翻译资料收集过程
在模型设计上,Meta使用以语音为输入,离散单元为输出的Speech-to-unit translation架构,用单一模型将语音从起始语言翻译成目标语言的离散单元,再将离散单元转为语音输出,在此框架下提出两种架构:
Single-Pass Decoder模型。使用单一Encoder-Decoder架构,将语音转换为目标语言离散单元,不经过任何文字;
Two-Pass Decoder模型。由两对Encoder-Decoder连接而成,在将语音转换成离散单元过程中,加入目标语言的训练目标,帮助模型更好训练,提高模型翻译品质。
神奇大模型之AIGC:人人皆是天才创造者—希加加,百度AI数字人首席架构师
作为此次大会邀请的数字人嘉宾,AI数字人希加加以百度AI数字人首席架构师身份发表演讲,为人类讲解百度文心大模型在AIGC领域的运用。
由于百度文心大模型的加持,数字人希加加在内容创作方面具备3个能力:
文心ERNIE 3.0 Zeus。该模型能从丰富的无标注数据中学习,包括百科、小说、新闻、戏剧等,并在学习过程中融入知识图谱,指导模型学习世界知识和语言知识,可以生成摘要、诗歌、对联、剧本等多种体裁内容;
文心ERNIE-ViLG 2.0。可根据一句话或一段描述文本生成精美画作。使用知识增强扩散模型,在学习过程中引入语言、视觉等多源知识,指引模型更加关注文本和图像中核心语义元素。同时引入混合降噪专家网络,在不同阶段选择不同网络进行建模,提升图像生成质量,在工业设计、动漫设计、游戏制作、摄影艺术等场景激发创作者灵感。
视觉内容生成与编辑技术。在视觉内容生成方面,可以根据用户提供的文本描述或图像,生成高清流畅视频,并可根据需要调节生成视频时长;视觉编辑方面,研发出VIMER-TCIR多任务大模型,通过超分辨率、去噪、去模糊等多任务联合预训练,同时实现不同情况修复和编辑,每天单机可修复视频28.5万帧。
图片来源:GAIDC,ERNIE 3.0 Zeus框架
“从Diffusion到ChatGPT,从技术到应用” 主题圆桌论坛
论坛嘉宾
王宝元博士 小冰公司工程副总裁
徐迎庆博士 清华大学长聘教授,清华大学未来实验室主任
童 欣博士 微软亚洲研究院网络图形组首席研究员,研究主管
中国科学技术大学兼职教授,博士生导师
张家兴博士 粤港澳大湾区数字经济研究院讲席科学家,认知计算与自然语言研究中心负责人
主要技术突破
模态跃迁,摆脱用图形输入创造图形方法,第一次实现跨模态生成;
三维数据获取十分困难,DreamFusion根据图片训练出的模型,提供所有需要的三维数据,不再需要传统三维建模数据;
ChatGPT不光是语言模型,还是知识生成平台,在嗅觉计算等其他方面也有颠覆性影响。
亟待解决问题
NLP方面,现有的大模型容量是否足够?是否所有任务都适合用ChatGPT大模型解决?是否需要把所有能力都压缩到一个大模型中?
ChatGPT并不会意识到自己错误,可以让模型自己去学,也可以加入监督模型,判断模型比生成模型更加复杂,最佳方法是让模型学会使用工具,如利用搜索引擎佐证。
“数联新出行,开源新发展”—AI智能出行前沿主题论坛
面向“真无人〞的自动驾驶技术路径探索和实践—曹光植,云骥智行联合创始人兼执行副总裁
城市自动驾驶是自动驾驶技术高地,也是决赛赛场,这场自动驾驶决赛已经到来,原因是:
最新的政策立法已为自动驾驶开辟出法律基础条件,让自动驾驶技术公司和智慧出行公司从法律层面能够落地无人自动驾驶;
过去十几年来,人工智能技术(包括AI算法)、芯片技术得到极大发展,为无人驾驶的落地奠定技术基础;
自动驾驶的商业闭环已有雏形,以美国Waymo为例,其已开放对公众的收费运营,任何到美国访问的人都可以在手机APP上叫车,在特定时间内乘坐真正无人的出租车。
云骥智行认为,网络大模型端到端自动驾驶神经网络才是自动驾驶终极解决方案,构建此类大模型需要两个前提条件:
大数据。海量高价值数据,形成大数据闭环;
大算力。布局车端大算力,支持端到端输出。
AiTruck智卡远征构建网络化人工智能运输系统—王超,主线科技合伙人兼前瞻院院长
人工智能卡车的技术应用价值
缓解人员短缺,填补1,000万货车司机缺口;
提升道路安全,减少80%交通事故死亡数;
降油耗,减成本,减少10%-15%能源损耗;
提高运营效率,单车节约9-20万/年。
在卡车自动驾驶方面,主线科技成果包括:
AiTrucker自动驾驶系统。拥有智能感知、智能定位、智能规控、自主建图、自主标定等功能;
AIRoad车路协同系统。打造智慧高速公路,加速自动驾驶落地。实现超视距障碍物感知、货运车辆编队等功能;
Trunk FIT车队群体智能运输系统。由“T-FMS”和“T-BI”2大子系统和6大功能平台组成,具备业务流管理、地图服务、充电调度管理等功能,保障智能驾驶运输业务全流程持续安全、便捷、高效。
图片来源:GAIDC,王超,AiTruck智卡远征构建网络化人工智能运输系统
“无人驾驶征途背后的安全坚守与创新实践” 主题圆桌讨论
论坛嘉宾
刘建泉 上研智联副总经理
赵 勇 中国联通上海分公司智慧交通首席架构师
杨晓光 商汤绝影车路协同首席架构师
黄涵韬 新石器无人车政府事务部总监
王 立 车右智能总经理
高级别自动驾驶安全如何保障?
单车智能和远程驾驶相结合,出现问题时远程控制及时接管;
车路云相互协作的一体化整体解决方案,是目前保障无人驾驶车辆上路安全的有效途经。
无人配送如何保障安全?
从政策角度。2023年2月1日,《上海市浦东新区促进无驾驶人智能网联汽车创新应用规定》正式实施,从顶层设计方面为无人配送的安全提供支持;
从企业角度。安全、质量、管理并非被管理出来,而是被设计出来,企业要在设计规章制度、体系监管时便将安全问题考虑进去;
从技术角度。在技术迭代创新的同时,应注重设立安全冗余备份。
智路OS-开源的车路云一体化智能交通系统—王淼,百度车路协同首席科学家
2022年,在工信部指导下,智路OS进行全球首发。目前智路OS进入2.0阶段,已实现高级别自动驾驶规模化测试,建立网联云控对外服务能力,实现车路数据融合。到2023年2月,百度智能网联与车路协同已在全国60个以上城市落地,部署路口数量超过1,000个。
智路OS特点:开源开放、北向统一服务框架/南向统一硬件抽象、统一位置协议、车路云统一的通信服务;
智路OS典型应用:高级别自动驾驶、网联辅助驾驶、低速无人配送、数字孪生、智能信控、智能停车等。
图片来源:GAIDC,王淼,智路OS-开源的车路云一体化智能交通系统
智领未来:大模型技术与应用论坛
ChatGPT能力分析与应用—邱锡鹏,复旦大学计算机学院教授
ChatGPT涌现出来很多能力,大大缩短实现通用人工智能的时间预期。涌现能力是指当模型参数规模发展到一定阶段时,会涌现出一些原来小模型上观测不到的能力,一般以百亿参数为分水岭。
图片来源:GAIDC,邱锡鹏,ChatGPT能力分析与应用
ChatGPT涌现出三种能力:
情景学习。赋予大模型较强的交互能力,通过举例方式让大模型进行学习,即大模型可以根据上下文进行学习,这一能力大幅降低把语言模型应用到下游任务时的开发成本;
思维链。模型可以学会人类思考方式,输出答案时将按照思维链方式展开;
自然指令学习。模型参数达到一定规模后,仅需给出少数指令,模型便可输出期望答案;且对于此前未见过的指令,大模型也可以领悟,模型泛化能力很强。
百度文心·CV大模型VIMER:算法与应用—王井东,百度计算机视觉首席科学家
视觉大模型广泛应用于物体识别、目标检测、图像分割、文字识别、表达理解、道路巡检、工业质检、遥感图像、能源安全等领域。
共识:标注数据越多,效果越好;
挑战:难以获得足量标注数据;
方案:基于大数据预训练大模型。
视觉大模型六大要素:大算法、大数据、大任务、大参数、大平台、大算力。
大模型算法和相关应用
预训练(自、弱监督)。从无标注数据或图文数据中,学习图像或视频的语义表征,应用于工业、OCR、智慧城市、搜索、自动驾驶数据挖掘等;
半监督。利用大量无标注数据,帮助有标注数据训练识别模型,应用于物体检测、自动驾驶3D感知等;
多任务。不同任务的数据之间互相帮助,提升模型效果,应用于交通视觉感知,智慧城市等。
图片来源:GAIDC,王井东,百度文心·CV大模型VIMER:算法与应用
昆仑芯大模型推理优化与应用实践—王志鹏,昆仑芯科技互联网行业研发总监
从产业落地角度来看,市场上普遍应用的大模型分为两类:
稠密的。以Transformer为主,从事NLP判别类任务;
稀疏的。主要做稀疏计算,如随机查表任务,在互联网公司的广告推荐系统中占比极大。
昆仑芯XPU Faster Transformer加速库,使用XFT架构,输入文本、图像、声音、视频,应用于分类、生成、摘要等任务,其技术优势包括:
适用场景广泛。针对生成模型/AIGC/NLP/Speech/CV领域的Transformer类模型,提供统一的Fusion加速方案;
极致性能优化。低时延,高吞吐,在多stream下充分发挥昆仑芯硬件优势,对比优化前有1.5-5倍的性能提升;自研显存压精技术,可以实现30%+的显存优化,16亿参数业务模型显存使用约为4G;
框架兼容性好。全面适配主流AI框架Paddle;
开发者友好。模块化设计,良好的OP/Layer/Model分层,模型实现成本更低,周期更短;子图复刻技术,自动抽取权重和拓扑信息,便于开发者脱离推理框架快速进行fusion结构开发和验证。
图片来源:GAIDC,王志鹏,昆仑芯大模型推理优化与应用实践
AI for SCIENCE—人工智能如何助力科学研究与发现
AI for Science发展趋势—于璠,华为Mindspore技术总经理
AIGC在中国市场应用创新正在加速,预计到2030年市场规模达到万亿,属于计算密集型产业。
AI科学计算存在“物理驱动、数据驱动、物理+数据融合”三种计算模式。
物理驱动(PINNs)。将物理方程引入神经网络损失函数中,使其参与网络训练,令学习结果满足物理规律。应用于PDE方程的正向求解、基于数据融合的反问题以及数据同化;
数据驱动。如使用改进的DeepLabv3+神经网络对CAM5数据进行像素级分割,用于识别极端天气事件。训练样本量达3.5T,可扩展至27,360块GPU,数据吞吐量峰值为1.13 EF/S;
物理+数据融合。如用AI表达密度泛函,将传统泛函难以兼容的物理约束表达成训练数据,从而克服传统密度泛函弱点。
MindSpore以科学智能基础模型为锚点,连接业界力量,定义领域科学任务,构建各领域的AI4S大模型,打造全流程覆盖的科学智能套件。
图片来源:GAIDC,于璠,MindSpore Science科学计算整体架构
“芯无限,闯未来”—AI芯片开发者主题论坛
Chiplet & 人工智能芯片—张凌岚,璧仞科技COO,联合创始人
大模型应用背后的AI芯片设计挑战
单节点算力需求巨大。从GPT-1到GPT-3,再到ChatGPT,AI大模型参数规模飞速增长,带来单节点算力需求剧增;
来自制程工艺的限制。AI芯片厂商在AI芯片开发过程中,受到来自制程、性能、良率、成本等多方面限制。
Chiplet在十余年前尚无芯粒的概念。璧仞科技在基板上实现芯片与HBM2E高宽带内存的连接,两者距离由厘米级缩短至毫米级,使算力显著提升、功耗大幅降低。
璧仞科技对Chiplet设计概念的实践
突破光罩尺寸对单芯片面积的限制;有效提升产品良率;充分发挥旧工艺节点的性价比优势;不同工艺芯粒集成,更灵活的产品策略。
大算力芯片发挥Chiplet潜力面临的难题
投入和产出的复杂权衡和“爆炸”的设计空间;
设计方法学和工具:DTCO→STCO;工具、模型、Cost Model;
对编程模型的潜在影响是一个容易忽视的因素;
相关技术的可获得性面临难题:商业模式、标准、EDA/IP、供应链……
“芯无限·闯未来—创新生态之路”圆桌论坛
论坛嘉宾
廖运发 中国信通院华东分院副院长(主持工作)
李 彬 燧原科技软件战略官
刘剑巍 上海联通运往事业部总经理
郭培卿 上海超算中心人工智能与大数据部副部长
罗郁锋 浪潮信息人工智能与高性能产品线副总经理
刘远辉 商汤科技大装置事业群总监
国产化AI芯片如何发展?
任何一家芯片公司均需考量供应链如何更好对接框架,服务于开发者、客户;
要有合理的政策环境,能耗限制、监管过严均会阻碍发展;
企业应有耐心,各司其职,逐渐充实产业生态,实现所有成员共同发展的愿景;
芯片厂商要发动生态伙伴,一起做推广工作,帮助客户解决应用场景问题,只有真正落地,业务才能不断发展;
AI在各行业的普及化并不高,可瞄准增量市场,尚有很大市场空间。
由知道智:AI安全与伦理洞察主题论坛
AIGC伦理与治理初探:数字世界为人民服务—田丰,商汤智能产业研究院院长
AI伦理实践注重保护个人信息,商汤率先通过ISO 27701,以及欧盟标准和国标认证,在数据存储、数据脱敏、数据共享、数据传输过程中实现全面的个人信息保护。商汤采取的主要方法有:
推出数字水印技术,人眼无法看到,但当抄袭达到一定比例就可被检测出;
植入数据因子,通过深度学习技术学习授权创作者作品风格,构建风格检索器;
商汤在摄像头终端或云端直接使用算法对车牌、卡号等数据脱敏,有效保护个人信息;
数据沙箱是一套完整的数据托管训练方案,在保护数据隐私前提下,通过隐私传输,联合计算,让数据发挥最大价值,适用于医疗、能源等行业;
帮助算法提升鲁棒性,如识别伪造的交通标志,避免自动驾驶汽车做出误判;
推出自动化工具箱,监测商业化算法安全性、鲁棒性、可解释性、公平性等方面。
以上功能均整合至“商汤AI安全开放平台”,目标是打造广泛验证使用的可信任的全栈AI安全服务。
图片来源:GAIDC,田丰,AIGC伦理与治理初探:数字世界为人民服务
好文章,需要你的鼓励