《2023年度十大前沿科技趋势报告.docx》由会员分享,可在线阅读,更多相关《2023年度十大前沿科技趋势报告.docx(92页珍藏版)》请在三一办公上搜索。
1、I、曾簿楠:y人机交互新范式已被大模型打开Poi23D三JH三:新算;搦模型爆发,质量效率可控性日新月异P08分割模型k统:,计算机艘即将迎来GPTB寸刻P16*能斛三三:AG终极场景下的全新终端P225端三端自动驾驶触识:BEV+TransformerfflS术路线P29定ZB臃:肖费级产品问世,XR全栈链路打通P3571rRNA打开新象限:提供精准医疗新解法,开启生物医药新篇章P433月醐接口或佥新阶段:产品可靠性突破,A提升数据解码能力P49龌妙靡螂神翻邮迎来模式闭环P55C押臃涯制:U外诚功,打开商用想象空间P63其他提名前沿科技趋势P792024前沿科技投资观点结语智能体热潮:人机交
2、互新范式已被大模型打开AIPhaG。的胜利深刻启发了人们对智能体潜在影响的认识.7年后,大模型的崛起再次推动了AI智能体的发展,成为其强大的“动力引擎。2023年3月以来,产业界产生了多个杰出的AlAgent,如在游戏领域表现出色的英伟达VOyage喈能体、协助人们完成日常任务的幽理HyPerWrite,以及专注于提供个人情感陪伴的御手Pi等,AIAgem的研究取得了突破性的进展。ri11IIIIH推荐理由大模鲤研究与智能体研究宣窸互利目前,许多研究利用大模型作为AIAgent(AI智能体)的认知核心,模型的发展为智能体研究提供了质量保证。从智能体的角度来看待大模型,对大模型研究提出了更高的要
3、求,同时也扩大了大模型的应用范围。(1)大艇为智能体提供了突破性的技术方案过去基于深度学习框架的智能体能够学习技能,但无法真正理解问题和技能.而大模型智能体带来了深度学习新范式,从思维耀到思维算法的推理技术和强大的自然语言理解,这些大模型拥有的技术能力,有望让智能体具备强大的学习和迁移能力,从而让创建广泛应用且实用的智能体成为可能.(2)自主智能体实现复杂流覆自动化,流程效率大幡1升面对完善的自主智能体,当给定一个目标时,它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务,并不断重复这个过程,直到完成目标.准确度要求高,因而更需要调用外部工具辅助减少大模型不确
4、定性的负面影响.(3)模寺露能触加拟人可信辘魄副物感和獭价值模拟智能体主要分为强调情感情商的智能体以及强调交互的智能体,后者往往出现在多智能体环境中,可能涌现出超越设计者规划的场景和能力,大模型生成的不确定性反而成为优势,多样性使其有里成为AIGC函要组成部分.(4藤入自主智能体的软件更符合用户的使用习惯在未来,大模型驱动的智能体极有可能带来交互方式的变革,从过去用户适应软件应用,变成应用软件适应用户个人习惯,为用户的生活提供更加便利的服务.IIM-basedAgent是大语言模型推理能力的展现,是一种能力,而不是一个完整的产品形态,这个转力可以应用于t。B和toC领域,EB领域对传统软件是一
5、种补充,toC领域如游戏、内容,对于内容分发有生成+推荐的结合机会。口明势资本从底层驱动力上看,我们认为主要有两类驱动力在推动着AIAgent的发展:技术驱动力:围绕AlAgent开发的技术框架、关键组件以及基础设施一直在过去的几个月中不断地演化和发展,并且,这种推动力不仅来自于闭源公司(如OPenAI),也来自于开源生态的努力(如Aut。GPT).随着底层技术的不断完善与成熟,我们已经看到Agent的开发者生态和应用生态正在逐渐壮大.商业驱动力:由于AlAgent具备重构现有互联网应用生态的潜力,因此从商业角度考虑,有望构建围绕Agentfi9新应用生态的公司都有比较强的动力去推动AlAge
6、nt的发展.在这之中,我们认为主要有几类玩家.一是LLM底层技术提供商,典型的代表就是OPenAI,他们不仅开发LLM底层技术,也会做GPTS的应用生态;二是硬件厂商,他们希望能够延续原先移动应用生态的优势,抓住A应用生态的机会;三是做开发生态和应用生态的玩家和创业公司,他们也希望从应用开发者和用户的角度切入做新的应用生态.BVS度风投H我们看好与LLM相关的整体技术栈,包括Agent技术。看好该技术的原因在于其重要性.我们认为AGl很可筑是提升整体生产力的核心技术,应用广泛性和对生产要素的替代能力具备划时代性特点,甚至可带动其他诸多前沿科技一起往前发展(如带动算力中的ChiPlet技术,带动
7、机器人中的具身智能技术,等等).而Agent将是迈向AGl的重要路径,目前已看到诸多海外研发进展.虽然道阻且长,我们对其抱有很大期待.口泰合资本随着AlAgent的逐渐普及和成熟,我们相信未来也会形成一个Agent与Agent、人与Agen啮行交互、侨作与价值交互CC的群体智能网络.在这样的群体智能网络之中,信息、商品、资金、服务可以高效地以Agent作为载体进行流动.I技术原理1. AIAgem原理AlAgent是能够感知环境并做出反应,通过决策和行动改变环境,并通过学习和反思持续迭代的智能体。此前,智能体经历了符号智能体、交互式智能体、基于强化学习的智能体和具备迁移学习和元学习能力的智能体
8、。在*模型爆发后,AlAgent就采用大模型作为智能体的核心组成部分,通过多模态感知和工具调用来扩展其感知和行动的范围。1.LM-basedAgent(基于大模型的智能体)集中了符号智能体推理规划的能力,具备了交互式智能体在反馈中学习、与环境互动的能力,同时具备大模型的少量泛化能力,在彳壬务间实现无缝转移,而无需更新参数.1.LM-basedAgent正是基于大模型驱动的Agent,可以实现对通用问题的自动化处理。自主智能体(AIAgent/AutonomousAIAgent)长久以来一直是人工智能界研究的焦点.曾经也出现过一些如SoAR的类似系统,但限于当时的技术水平,应用领瑚E常狭窄.随着
9、大语言模型的智能涌现,基于大语言模型的自治智能体拥有高度的智能水平,能够自主理解、拆解复杂、抽象的任务,也有更强的工具调用和感知外界反馈的能力,能够自我反思从而对问题提出更优解,甚至能够构建群体智能.我们判断基于大语言模型的智能体将最终成为人类良好的助手、同事和伙伴.口百度研究院基于强化学习的智能体需要建立基于具体场景的世界模型的仿真器,而LLM-basedAgent中大模型的强语言理解锢力使得与人相关的仿真器建设变得简单.过去没有大模型的情况下,需要穷举人的问答的各种情况,而现在通过大模型的语言理解能力,智能体就可以在和人的互动中纠正错误并继续逐步推理.口浦码科技1.LM-basedAgen
10、t架构1.LM-basedAgent(基于大模型的智能体)的架构可以总结为以下四个模块:配置模块、记忆模块、规划模块和行模块。ri配置模块记忆模块规划模块行动模块在配置模块,需要给智镌体提供待解决问题的背景信息,比如模拟人类时的年龄、性别、职业等基本言息,让智能体明确自身角色,智能体一股通过IT人员,教师和领域专家等特定角色来执行任务.记忆模块主要是传递知识,让智能体拥有长期和短期的记忆能力.智能体记忆从环境中感知到的信息,并利用记录的记忆来促进未来的动作.记忆模块可以帮助智能体积累经验、实现自我进化.并以更DUL合理、有效的方式完成任务.规划模块是智能体能力的核心,一个好的规划决定了智能体能
11、否顺利执行以及解决问题,规划模块首先将复杂任务分解为简单的子任务,然后逐一解决每个子任务,以及不断根据反债去函新调整策略。规划模块赋予基于大模型的智能体解决爱杂任务时需要的思考和规划能力,使智能体更Q面、强大行动模块的目的在将智挖体的决策转化为具体的结果输出.它直接与环境交互,决定智能体完成任务的有效性.基于大模型的自主智能体的架构AIAgent是指能第独立思考、自主行动并可以与环境交互的软件程序或机器人等实体.Agent包含三步:PPA,即感知(PerCePtion)-规划(PIanning)行动(ACtiOn).Al智能之父、图灵奖得主马文明斯基(MarvinMinsky)在1986年出版
12、了一本里程碑式的著作思维的社会(TheS。CietyofMind),试图解读人类思维这个豆杂的过程.MinSkyi为社会中的某些个体经过协商之后可求得问题的解,这些个体就是Agent,而Agent应具有社会交互性和智能性.口腾讯研究院规划层面思维算法(AlgorithmofThoughts)过去常用思维链(Chain-Of-Thought)和思维树(Tree-Of-Thoughts)来引导模型任务分解,利用大模型的上下文学习能力模仿类似的任务分解和规划,但这两种技术依赖于大模型的大规模查询,有时单个问题的查询数量可以达到数百个,导致计算效率的下降。微软联合弗吉尼亚理工大学推出思维算法(Algo
13、rithmofThoughts)具有动态和可变的推理路径,通过维持一条不断发展的思维上下文链条,提高了推理效率并减少了计算成本。这种方法的优势在于它能够灵活地适应不同的问题和情境,并且能够根据需要进行调整和优化。思维链、思维树、思维算法路缴批思维算法技术包括四个主要步骤:(1)将复杂问题分解为可理解的子问题,同时考虑它们的相互关系和单独解决的容易程度;(2)以连续和不间断的方式为这些子问题提出连贯的解决方案;(3)直观地评估每个解决方案或子问题的可行性,而不依赖于明确的外部提示;(4)根据上下文示例和算法指南,确定最有希望探索或回溯的路径.3.基于大模型的多智能体协同技术多智能体协同是指多个智
14、能体在共享环境中通过相互通信和协作,实现协同行动以达成共同目标的过程。每个智能体都具备一定的自主性和智能性,能够根据环境信息进行感知、决策不瞅行行动。Hf.IUae*ct*f4umCkMHtamdptMMMM*a.WtfvieMfmtamcaa*Rf.2Wrlerwnb*rwtwwMNI*lrvcNdM*c*w无线生成式智能体网络和设备架构图智能体之间通过网络交换知识、系统规划任务、采取行动并优化策略。其中知识是数据的抽象表示,将其编码为执行特定任务的大模电来自或机器的隘通过不同雌端(手机、电脑、智能车)提幅生成式智能体,这些终端设备通过智育琳给大模型创建提示,以完成每个步骤。任务在多个生成智
15、能体之间协同规划,能够最大化地利用不同大模型的知识和不同设备的功能。当从其他智能体接收到计划任务时,设备上的大模型可以从云端或其他设备上的大模型获取特定领域的知识。无线生成智能体具有观察环境的感知器(传感器)和执行决策的参与者(控制器)。设备上的大模型从观察到的多模态(文本、图像、声音)原始数据中提取语义信息,并将其存储在内存流中,以便将来规划新的任务。相应地,为了执行特定的任务,将检索相关的语义信息以采取行动.在从接收到的高级任务中完成计划的动作后,智能体可以进一步创建低级任务并将其发送给其他智能体以完成目标。多智能体协同技术的主要特征多智能体协同通过相互之间的交互与合作,使整个系统能够从各
16、个智能体的优势和特长中受益,实现更高效、更智能的决策和行动.多智能体协同主要有以下特征:通信与信息共享决策与合作策略协同行动与集体效能智能体之间需要进行有效的通信和信息 共享,以便相互了解彼此的状态、意图和行动计划。通信可以通过直接传递消 息、共享知识库或传感器数据等方式来 实现.每个智能体在面临问题时需要进行自 主决策,并制定合适的合作策略,决策和合作策略可能涉及到资源分配、 任务分工、冲突解决等问题,需要综 合考虑整体目标和个体利益。多个智能体通过协调动作和行为,实 现集体行动的目标.协同行动可以包 括任务分工、资源共莫 互助、协同学 习等方式,以提高整个系统的效能和 性能.群体智能的研究
17、在不断推动人工智能的理论技术创新,是目前最通用、最主流的应用,没有之一,具商业价值的想象空间很大.随着大语言模型的成熟,让人看到其商业化的希望.口跃为资本AI小镇给智能体设定性格、职业以及初始任务关 系后,智能体会对一天的生活做一个初始 规划,在和环境以及其他智能体的交互过 程中,会不断修改自己的计划。右图展示 了智能体按照初始计划度过的一上午。1斯坦福大学利用ChatGPT创造了一个Al 小镇,将25个智能体作为简单沙盒世界 中的角色,让智能体磔中工作、闲聊、结识新朋友等,模仿人类生活。用 户可以通过自然语言改变这些智能体及其生活 环境的设定,并 交互。智能体会与其他智能体以及环境 q 形成
18、自修互,交换信鼠再联 Q系以及协同合作等社交行为是由 模型自发衍生出来的,而不是预 先编程好的。-StanfordUniversity(GenerativeAgents:InteractiveSimu!aaofHumanBehaVior阿里云魔搭社区ModeIScope-AgentModeISCoPe-Agem是T通用的、可定制的智能体框架,专为开发人员利用开源大模型的功能而设计。通过大模型调用工具魔搭GPT(ModeIScopeGPT),使用者们可以通过一键发送指令调用魔搭社区中的其他人工智能模型,从而实现大大小小的模型共同协作,进而完成复杂的任务。基于开源的大语言模型作为核心控制器,Mod
19、eISCOPe-Agent包忆、控制不1具使用模块。它提供了一个用户友好的系统库,具有可定制的引擎设计,翔在多个开源LLM上进行模型训练,同时还能够以统一的方式与模型APl和通用APl无缝集成。为了使大模型具备工具使用能力,提出了全面框架,涵盖工具使用数据收集、三皖三三.尊媵型训练和实际应用的评估。(ModelScope-AgentBuildingYourCustomizateAgentSystemWithOpen-SourceLargeLanguageModeIs)代表机构面壁智能流!王山面壁智能是一家人工智能大模型技术创新与应用企业,近期与清华NLP实验室共同开发了Xgent,是由大语言模
20、性驱动的实验性自主智能体,XAgem的设计中创新地引入了一种“双循环机制,使它能够从”宏观和微观两个视角进行镑规划和执行.XAgem还具备与人类协作和交互能力,可自主与用户进行交互,并向人类发出干预和指导的请求.实在智能t2刈便耀实在智能是一家人工智能科技公司,致力于用AI技术推动RPA行业向人工智能流程自动化发展,今年8月发布的TARS-RPA-Agent吐个基于MTARS+ISSUT(智能屏幕语义理解)”双模引擎、有大脑n,更有固群咛脚”的超自动化智能体,是能自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验的RPA全新模式产品。联汇科技LINERUIC联汇科技成立于2003年,以Al
21、多模态大数据处理和分析技术为揄出,聚焦在媒体、政务、军民融合和城市信息化四大领域。今年7月,联汇科技发布了基于大模型能力的自主智能体(Aut。AIAgent)OmBot欧姆智能体,并针对典型场景需求,推出了首批应用.澜码科技V澜码科技是一家基于大语言模型的Agem平台公司澜码科技构建了Agent平台AskXBot,平台分两层:第一层是专家赋能,专家通过拖、拉、拽以及对话交互的方式定义工作流程,教给机器,从而协助一线员工构建更高效工作的方法论;第二层是员工使用Agent,一线员工可以通过自然语言和Agent沟通并下达指令,让Agentt办助完成数据分析、资料调取等工作。3D生成进入涌现期:新算法
22、新模型爆发,质量效率可控性日新月异3姓成是一种利用AI+计算机图形学技术,从文字、图像、视蛔泼他数据中自动创建三维物体模型的方法。它可以用于增强现实、触觊实、游戏、电影、艺术等领域,为用户提供更DQM褥D富的视觉体验。它是计算机视觉和图形学的一个重要研究方向,具有广泛的应用价值和创新潜力。由于游戏、影视、XR等产业对3D数据的需求不断增长,目前在有关AIGc的前沿探索中,也出现了不少3D生成相关的研究。3DMSWriVlllllll推荐理由1 .3D生成技术可以代替传统3D建模管线中大部分流曜为行业降本增效传统3D建模流程复杂,多为人工手动操作,周期长,成本高。如果3性成技术成熟,现有的管线中
23、的大部分流程(如创意灵感瞬生成模型优储)将被替代,兼具效率和创新,对行业产生变革性影响。2 .突破性新表达和算法3DGaussianSplatting(高斯溅射)出现,在部分数据集上多项性能优于NeRF今年,在SIGGRAPH2023上被评为最彳君仑文的(3DGaussianSplattingforReal-TimeRadianceFieldRendering!介绍了一种新的可以实现快速高帧率实时渲染的方法3DGaussianSplatting,这一新表达和算法的出现是3D生成领域的一大突破性进展。在实际落地上,目前在3D重建中利用GaUSSianSPlatting可以解决NeRF与目前渲染引
24、擎难以兼容、单独的开销体系和需要专门的硬件支持几大问题,在速度、质量、硝生上均强于NeRR但在3D生成的不同场景中两者各有优势。我们看到了NeRF展现出来的充分潜力,并很早就进行了跟进.但NeRF这一表达在实际业务中落地仍然存在着一些难点,比5l三容性、开销,与硬件支持. 在兼容性上,NeRF部分完成了渲染的工作,意味着它需要兼容传统渲染引擎,或者直接替代.而NeRF生成的物件直接在Maya、BIender等常用CG软件中进行直接编辑是很困难的,没有办法很好与该类软件在工作流上融合.而GaussianSPIatting与现有的溶染引擎兼容性很好,海外也出现了大量艺术家基于这一表达迸行创作. 在
25、开销上,NeRF的特点是“一视同仁”.对于复杂的比如镜面液体,它能以相对传统光线追踪要低的算力去很好地展现出来,但是对一个我们现在已经能够消染得很好的物体,比如一个漫反射的球,也要用相当的算力去表现出来,这其实是一个优势,也是一个劣势.而GaUSSianSPIatting在过程中能够根据渲染复杂度,自适应的调整用于表达的高斯数目. 在硬件支持上,NeRF在使用时往往需要MLP三行推理,这与当今GPU架构所擅长的并不十分一致,渲染引擎也并没有进行一些匹配硬件底层的实现.而GaUSSianSPlatting跟现有的GPU与引擎擅长的内容基本上是兼容的.口影眸科技CTO张启母最近,华中科技大学&华为
26、研究团队又继绸是出了4DGaussianSplatting,它实现了实时的动态场景渲染,同时可保持高效的训练和存储效率。3 .新模型MVDream出现,3D视角下的一致性问题大耨改善今年10月,字节跳动的研究团队推出了一种全新的多视图扩散模型MVDream,能够根据给定的文本提示生成几何上一致的多视图图像。MVDream模型示意图通过利用在大规模网络数据集上预训练的图像扩散模型以及从3D资源渲染的多视图数据集,得到的多视图扩散模型既能够实现2D扩散的通用性,又能够实现3D数据的一致性。这样的模型可以应用为3D生成的多视图先验,通过分数蒸储抽样极大地提高了现有的2D提升方法的稳定性,大幅改善了3
27、D一致性问题.4 .多个3D生成优化模雌现,生成班和效率大大提升今年OPenAl发布的ShaP-E,加州大学圣地亚哥分校发布的One-2-3-45都大大提升了Al生成3D的速度和精确度,其中One-2-3-45能够在仅45秒的时间内从2D图像生成高质量和具备一致性的3D网格。11月刚发布的升级版One-2-345+,通过最初微调用于一致的多视图图像生成的2D扩散模型,随后借助于多视图调节的3D原生扩散模型将这些图像提升到3D,全面提升了三维模型的生成质量,但是速度没有太大损失(45秒到6(秒)。技术原理1.什么是3D生成3D生成的目标是根据输入数据,生成一个能够表示三维空间中物体形状、纹理、材
28、质等属性的输出表示,通常是指基于文本、图片等借助AI大模型生成3D模型。3D建模主要有三种方式:3D扫描建模、3D软件建模、AIGc建模,其中的AIGC建模通常指的就是我们所说的3D生成。2. 3D生成主流技术路径目前3D生成的主流技术路径大致可以分为两种:(1)2Cm先用DiffUSiOn模型完成text-to-2D,再通过NeRF等完成2D-to-3D,或者直接通过2D素材完成3D建模。这个路径更为常见,因为相比于3D糠,2D糠更多、更丰富,可生成的3D内容丰富度更高。C)PenAI的Point-E、GOOgIe的DreamFieId开口DreamFUSiOn、NVidia的MagiC3D
29、等模型均是此路径。但2D转3D生成速度很慢,生成质量也相对较低,即使单个场景的数据量足够大,目前也很难看到质量有显著提升,或许还需要算法层面的创新。原生3D指TeXt-to-3D,该路径直接使用3D数据进行训练。从训练到微调至雌理都基于3D数据,C)PenAI的Sh叩-E、NVidia的Get3D等模型是基于此路径。Text-to-3D的优势在于生成速度较快,理论上生成的内容质量也较高,但受限于3D辘的数量、质量和多样性,此路径下可以生成的3D场景有限,收集雌的难度更大,成本也更高,可控惕S对差些。3. 3D模型的表达方式3D模型的表达方式可分为显性表达与隐性表达两类。显性表达:主要包括体素V
30、oXeI,点云PointCloud,网格MeSh等;隐性表达:是以神经网络参数表达的3D场景,即神经场.主要包括符号距离函数SignedDistanceFunciton(SDF),占用场OCCUPanCyField,神经NeUralRadianceField(NeRF)等。4.新旧3D生成表达与算法对比(1)NeRF作为目前主流3D生成中的最重要的表达与算法之一,NeRF神经辐射场的概念首次初!出于202。年,由UCBerkeley、GooglexUCSD研在论文(NeRF:RepresentingScenesasNeuralRadianceFieldsforViewSynthesis中阐述。
31、他们提出了一种新颖的神经网络架构,通过学习一个连续的三维空间中的辐射场来从有限的二维图像中重建高质量的三维场景。2022年,NVidia发布InStantNeRF,即将逆向渲染(在几秒钟内将一组静止图像转换为3四字场景)与NeRF相结合,知丽渲染速提高了100嘴以上。NeRF整体框架第一步,通过神经网络学习场景的辐射场函数来实现对三维信息的编码,输入为三维空间中的坐标和方向,输出为对应点的颜色和透明度值。第二步,体渲染,首先将场景分成小的体素,然后对每个体素内的搬进行采样,通过对所有采样点的辐射场函数进行力哝平均,得到撮终的像素颜色值。直观来说,T点的透明度越高,这点在射线下的颜色反应在像素上
32、的权重越小.V.M三u*4n*5A*4NeRF算法整体训练框架图辐射场在NeRF中,辐射场被表示为一个神经网络模型,用于从相机位置和方向计算出每个像素点的颜色口透明度,从而实现高质量的三维重建和渲染。蝗射场示意图(x.ylxft) rgb.gm3辐射场包含三个空间维度(X,y,Z)和两个方向维度。),分别表示辐射在空间中的位置和光线的方向。辐射场可以用来描述麒在介质中的传播、反射、折射、散射等现象,以及介质中的吸收、发射等能量转换过程。神经辐射场可以看作是从空间位置和视方向至域色C=(r,g,b)和透明度也映射。体渲染在NeRF中,辐射场被表示为一个神经网络模型,用于从相机位置和方向计算出每个
33、像素点的颜色和透明度,从而实现高质量的三维重建和渲染。(2)3DGaussianSplattingSlGGRAPH2023最佳论文3DGaussianSplattingforReal-TimeRadianceFieldRendering)中介绍了一种新的方法GaUSSianSplatting,可以实现高质量的实时场景演染。作为3D生成领域具有突破性的一种新的表达和算法,3DGaussianSPIatting利用3D高斯模型来表示场景,通过优化和密度控制实现对场景的准确表达,并使用快速的可见性感知演染算法来加速训练和实时演染。实验证明该方法在多个数据集上能够达到最先进的视觉质量和实时渲染效果。3
34、DGaussianSPIatting步骤GaussianSPlatting的输入是一组经过SFM校准后的静态场景的图像以及SFM输出的稀疏点云。该方法整体如下图所示:首先从SFM得到的稀疏点云构建三维高斯函数,在训练过程中通过可微的快速渲染器对3D高斯函数的属性进行优化,并交替进行自适应密度控制。Gaussian SPlatting步骤示意图3DGaussian3DGaUSSian也叫三维高斯分布或三维正态分布,是统计学中一种特殊的多维正态分布,通常用来建模具有连续性随性的现象,如图像处理、统计建模、机器学习等.3DGaUSSian能够涵盖空间中任意形状的椭球,包括平移、龌专。3DGaUSSi
35、an在三维空间中定义了一个概率分布,表示如下:G(x)三e-,*因此只要确定了就可以确定一个椭球的形状。论文中使用的是各向异性,即在不同方向上具有不同方差值。各向异性协方差更有利于优化,因为它能够适应不同方向的变化,具有更精确的建模、更好的参数优化和更紧凑的表示。光栅化光栅化(Rasterization)是采用屏幕空间几何图形、片段着色器和该着色器的输入并将几何图形实际绘制到低级二维(2D)显示设备的操作,是实现计算机屏幕上图形显示和演染的关键步骤。SplattingSPIatting是一种用于光栅化3D对象的技术。这些3D对象被映射到投影平面后得到的2D图形称为splat,类似尹个点、圆、矩
36、形或其他形状,就像雪球打在墙上留下的印记,能量从中心向夕杼广散并减这个过程可以在GPU上并行处理,因为每个SPlat之间是独立的。SPIatting示意图SPIatting可以将三维空间中的点投影到二维图像平面上,这些投影的数据点以某种方式在图像上产生视觉效果,从而呈现在最终的渲染图像中。5. 3D生成商业化落地关键生成质量3D生成的内容质量包括3D模型的精 细度、模型的准确性、治染的分辨率、色彩与光膨的准确性、渲染对材 质的表达等多个方面。相比于传统3D建模,由于3D生成模 型研究还较为早期,目前利用AI行 3D生成的质量仍然存在一定差距,不 能完全满足大规模商业化需求.生成效率与生成2D图
37、像不同,3D生成由于维度的增加,生成过程中所需计算量呈指数级上升.由于庞大的计算景,目前3D生成的效率较低,多数模型的生成效率难以满足实际应用中的要求。目模型在训练与推理过程中需要占用大量存储空间,因此目前多数3D生成成本较高。可控性对3D内容的可控性主要包括是否可以生成符合要求的3D内容、是否可以根据要求对生成的模型与渲染效果进行修改.目前3D生成模型在修改方面表现不足.要满足修改要求的方法有两种,一种是继续加强模型对自然语言指令与图像指令的理解能力.但由于技术突破的不确定性,使模型可以与传统3D建模工作进行衔接的方法则更有可行性,这要求模型可以将3D建模工作与造染工作分离,且生成的3D模型
38、必须为网格数据mesh.SD生患入rimAl手机生成3D场景1.umaAI是一家3D内容解决方案公司。通过LUma,用户可以使用手机拍摄少量照片来生成和渲染出3D内容。1.uma产品的主要功能有:拍摄般3D图像和视频、图片转3D、视雌3D、文本转3D等,用户可以通过iPhone、网页以及API等载体或方式实现用NeRF、GaUSSianSPlatting等技术构建3D模型的功能。网页版LUma通过自行上传照片、视频来进行三维重建,网页版目前衩濒和图片(ZIP压缩包)体积最大限制5GB文字转3D模型功能目前依然未全量开放,只需输入文字描述,即可生成对应的3D模型。转换时间在30分钟也一种文本指导
39、的渐进式3D生成框架DreamFaCe框架i-afe影眸科1ChatAvatar几何停生就干鞫塔的初质动力集成由影眸科技开发的一项新技术,通过文本/照片/原画生成超逼真的3D面部资产和PBR文理,实现了文本到头像的技术。ChatAVata坏IJ用专有的扩散模型和Production-ReadyFacialAssets集,生成符合亍业标准并可以直接在Unity等流行软件中使用的CG友好资产。SD堂直入分钟生成精细3D模型es全球领先的3喊产创作工具,覆盖了文本生成3D模型、图片生成3D模型和Al生成3D贴图,能有效简化复杂的模型制作流程并提升Text to 3DText to Texture效率
40、,为创作者提供更快、更高效的3D创作体验,TexttO3硼版本的特性:1 .生成的物体品类更加丰富;2 .避免了多张脸的问题,可以生成角色和动物等;3 .生成的物体几何质量更高,更加完整。TexttoTexture新版本特性:1 .就觉、2.5d-ki.日漫、卡通线稿、写实手绘、东方水墨等7种风格);2 .加的贝鸿例率(印4K).代表机构影眸科技孵化于上海科技大学,通过与国内顶尖人工智能、计算机视觉实验室合作,积极推动尖端实验室科研成果的民用化、商业化,探索前沿人工智能、计算机视觉技术在大众娱乐市场的推广应用.推出了穹顶光场毛孔级扫描服务与3天打造超写实数字人流程,以及HYPERHUMAN-C
41、hatAvatar3D角平台.MeShyW幽全球领先的3D资产创作工具,覆盖了文本生成3D模型、图片生成3D模型和Al生成3D贴图,能有效简化复杂的模型制作流程并提升效率,为创作者提供更快、更高效的3D创作体验.凡拓数创公司以AI+3D”为技术发展方向,围绕3D可视化技术与数字多媒体集成技术等核心技术,加强对数字挛生技术及自研FT-E数字季生渲染引擎的建设,紧抓数字创意产品的研发,目前公司在工业制造、市政等领域均有相关应用。藤深数字由上海科技大学智能视觉中心的博士生团队联合创建的公司,旨在利用以NeRF为代表的3DAI技术实现通用3D大模型。生数科技V一家多模态生成式大模型与应用产品开发商.其
42、最新提出的文生3D新算法ProlificDreamer,在无需任何3D数据的前提下能够生成超高质量的3D内容.今年9月正式上线了3D资产创建工具VOXCraft.分割模型大一统:计算机视觉即将迎来GPT时刻分割一切模型(SAM)是Meta在今年推出的AI模型,10月份相关论文获得ICCV23的BeStP叩erHonorableMention.受SAM影响,CV领域和关研究在2023年再度M超.分割一切的技术在图形标注领域取得了突破性的进展,这一跨时代的趋势对未来的效用值得期待.合rimim推荐理由K突破性的分割能力在SAM出现之前,我们所能看到的其他图像分割模型,都是专有模型。如医学领域分割核
43、磁图像、CT影像的AI模型,但相关模型的良好性能在其他领域无法体现。SAM的最大贡献,即可以快速分割没见过的图像,将之前零散的图像分割模型统一。在深度学习领域,这类能力被称为零样本迁移,这也正是GPT4备受关注和CV从业者认为计算机视觉领域进入GPT3时代的原因。ReadingMetaAIsSegment-Anything,andIbelievetodayisoneoftheGPT-3momentsincomputervision.NVIDIAJimFan2 .迄今为止裁大的分割数簿集SA-IB的效应不仅仅局限于创造了分割一切模型,基于该数据的模型可以轻松在其他领域进行零样本泛化。我们构建了迄
44、今为止(到目前为止)最大的分割数据集,在Iioo万张授权且尊重隐私的图像上拥有超过10亿个任务.Meta.AI3 .其他分割模蟹的涌现4月SAM发布后,CV领域再次火热,很短时间内涌现出许多基于SAM的二创及实践口SAM发布后,来自IDEA研究院的刘世隆发布了零样本视觉应用GrOUnded-SAM,GroUnded-SAM把SAM和BUP、StableDiffUSion集成缶置,将图片分割、!检测和生成三种能合一;15日,基于SAM的多目标跟踪模型VISAM发布,通过结合SAM的强大分割能力和MoTend-to-end跟踪算法的能力,能够在视频中跟踪多个目标的位置和运动轨迹,并利用SAM还原出
45、每个目标的精组结构和轮廓;浙M学ReLER蟠步解锁了SAM的W5分害(I能力,开频目SAM-TraCk(Segment-and-trackanything,分割并跟踪一切);威斯康星大学麦迪逊分校、微软和香港科技大学发布了一篇名为一次性分割一切(SegmentEverythingEverywhereAllatOnce)的论文.SEEM能够根据用户给出的各种模态的输入(包括文本、图像、涂鸦等),一次性分割图像或视频中的所有内容,并识别出物体类别;新加坡国立大学Anything-3X音助SAM,能使分割后的任意物体转化为3暇型,达到动起来”的效果;5月初,香港科技大学、南洋理工等开源SAD(Seg
46、mentAnyRGBD,根据几何信息分割图像)的机器学习模型;6月,苏黎世理工同样联合港科大,发布HQ-SAM(SegmentAnythinginHighQuality)保留SAM预训练模型权重的前提下,引入最小的额外参数及计算,设计出负责预测高质量掩码的输出令牌;中科院开源了FaStSAM模型,能够以50倍速度达至监SAM相近的效果,并实现25FPS的实时推理;港中文贾佳亚团队提出的LlSA大模型,使得SAM可以顺畅地理解人类的复杂指令;同时SAM还在其他领域拥有广泛的实践,SAM-Med3D是专门针对3D医学图像改进的分割一切模型。技术原理I我们的目标是通过引入三个相互关联的组件来建立分割的基础模型:快速分割任务、为数据注释提供动力并通过提示工程将零样本转移到一系列任务的分割模型(SAM),以及用于收集SA-IB的数据引擎,我们的数据集超过10亿个掩码.Meta.AIResearchFAIRSAM植架幻 DMa 4Mb dtoMr vfMtSegmentAnything(SA)总的来说是一含图像分割新任、模型和辘集的项目,这三项内容也正是我们可以用来理解整个模型的维度。任务:诞生于NLP白麋示工程与零样奉泛化SAM的研究团队表示,他们