1、关键工具:“空间智能”正式上线,AI开始自己创造世界。 ^ “世界实验室推出 Marble 世界模型”。这种生成式 AI 世界模型允许用户基于文本、图像、视频和 3D 设计等多种输入生成交互式且可持续的 3D 环境。这些模型根据渲染场景的高斯色散特征生成 3D 世界,在用户探索时保持一致性。世界实验室开发了可以突破空间智能限制的世界模型。该概念基于公司创始人李飞飞提出的“空间智能是人工智能的下一个前沿”的理念。空间智能是人工智能理解物理世界的基础,支持交互式人工智能世界的创建和编辑。该技术有望成为AI建模技术的创始者。mental不仅可以提供图像和视频生成的AI模型,还支持AI mod与物理世界互动的电子设备,例如机器人和自动驾驶汽车。点评:这是为了打造《黑客帝国》的矩阵节奏。 2、人工智能技术及产品发布:从能说话到能“像人一样说话”,个性成为GPT-5.1的新亮点。 1. 新闻:OpenAI 本周发布了 GPT-5.1。作为 GPT-5 的更新版本,GPT-5.1 旨在实现更加“人性化”的交互体验。它提供两种主要模式。 GPT-5.1 根据命令进行即时、快速和热情的聊天。 GPT-5.1 思考更持续的多步骤推理。即时模式为您提供快速、友好的响应,而思考模式在处理复杂任务时会自动减慢您的速度。在“自动”模式下,ChatGPT 以最合适的方式自动分配您的任务。 GPT-5.1 包含更丰富的个性预设(还包括以下设置:默认、专业、友好、简单、古怪、高效、书呆子和讽刺。GPT-5.1发布公告并未提及新模型的推理或基准测试能力的任何具体改进,旧的 GPT-5 模型将保留几个月。评论指出,GPT-5.1 感觉“更温暖”且个性化,解决了之前 GPT-5 缺乏个性的问题,也提高了其在交互式聊天中的响应和遵循指令的能力。 TechRadar 的日常使用评测将 GPT-5.1 评价为“性能更好、更容易控制”。ChatGPT 的协作功能,允许多人与同一个 AI 对话。 GPT-5.1中的这一功能主要针对研究、规划和项目工作组的需求,允许用户邀请朋友加入正在进行的ChatGPT对话,并观看AI对每个人的消息做出相应的回应。点评:GPT情商完备,终于学会了“好好说话”。 2、新闻:百度推出全新多模态推理模型ERNIE-4.5-VL-28B-A3B-Thinking混合专家 (MoE) 架构。参数总数为 280 亿个,但每个 token 只允许 30 亿个参数。 ERNIE-4.5-VL-28B-A3B-Thinking 可以处理视觉推理任务,例如图表理解、视频理解、视觉定位和工具增强图像搜索。它与 Gemini 2.5 Pro 和 GPT-5.1 在 MathVista 和其他 VQA(视觉问答)套件等基准测试上同时工作,但模型尺寸要小得多。ERNIE-4.5-VL-28B-A3B-Thinking 遵循 Apache 2.0 开源许可协议,其文档、演示和权重同时发布在 Hugging Face 上。芮点评:百度的“以小见大”的浪潮证明了“凝结才是本质”,并顺手回归开源。 3. 新闻:Eleven Labs 宣布推出 Scribe v2 Realtime,这是该公司最新的用于实时转录的低延迟语音到文本模型。 Scribe v2 Realtime 可以以少于 150 毫秒的延迟转录音频赛。目标应用场景包括语音助手、会议助手、实时字幕、支持90多种语言。 Eleven Labs 使用其 API 向用户和开发人员提供产品页面和技术文档。芮点评:文字尚未完成,还在抄写阶段。 4.新闻:谷歌在Android和iOS平台上更新了Gemini Live,以提供更具适应性和表现力的语音功能。用户现在可以调整说话速度,听到语调和节奏的微妙变化,并要求人工智能用不同的角色口音讲述故事。该应用程序的新版本还包括改进的人工智能对语言学习和对话练习的支持。此外,新的 Gemini Live API 本地音频模型可减少延迟并提高语音应用程序的性能。路易斯·平:它们可以发出各种声音,但它们不能像人类一样呼吸。 5. 新闻:谷歌推出了一套人工智能购物工具AI 搜索模型和 Gemini 应用程序。对话式购买功能可以从大约 500 亿个产品列表中提取图表信息。当产品价格低于用户设置的阈值时,智能结账功能会跟踪价格并通过 Google Pay 运送商品。您将能够自动下订单。您还可以使用“允许 Google 致电”代理功能代表您致电当地商店,以检查库存和促销活动。芮平:现在网购花钱比较快。 6. 消息:Benchmark Terminal-Bench更新至2.0版本。 Terminal-Bench是一个开源基准测试,包含89个真实终端任务,用于评估AI代理在真实shell环境中运行的能力。 Terminal Bench Group 团队还发布了 Harbor,这是一个基于容器的标准框架,允许不同的代理对同一任务执行可重复的评估。公共 Terminal-Bench 排名跟踪每个代理的长期表现最终的人工智能自动化任务。瑞平:智能代理考试越来越难,必须在命令行上比拼。 7. 消息:总部位于巴黎的 H 公司推出了 Holo Two,这是一种下一代多模式模型,旨在促进跨平台计算代理的使用。 Holo Two型号有40亿、80亿和300亿的A3B MoE尺寸可供选择。这些都是为真实 GUI(图形用户界面)中的定位、导航和任务执行而设计的视觉语言模型。这些模型允许代理“看到”屏幕并通过点击和按键来控制它。它可以在网络、桌面和移动设备上运行。 Holo Two 模型具有开放式配重,位于 Hugging Face 平台上。 Rui 评论:能够查看屏幕、单击按钮和运行 GUI 应该涵盖您坐在办公室时执行的所有任务。 8. 新闻:新发布的 Robyn 具有由前医生 Jenny Shao 创建的同理心能力,她是一个人工智能伴侣。作为一款 iOS 应用,Robyn 并不定位本身作为心理学家的替代品,而是作为高情商的伴侣。它具有长期跟踪模式,可以记住用户详细信息并提供有关压力、依恋风格和习惯的信息,并具有内置的保障措施和危机应对流程以确保您的安全。芮平:很明显,你内心渴望一段真正的关系。 9. 消息:Gemini 3和Nano Banana 2即将推出。 Gemini 3 的预览版现已在 LMArena 上提供,代号为“riftrunner”。谷歌的下一代人工智能成像模型 Nano Banana 2 也以预览版形式登陆 Gemini 应用程序。 Nano Banana 2 具有改进的类似相机的角度和透视跟踪、改进的文本渲染以及多步骤“计划、构建、评估、修复”工作流程,可在渲染最终结果之前迭代地自动修改图像。瑞平:我们会继续用AI拍照,反复修正,直到用户满意为止。 3. AI研究趋势:小莫dels带来大智慧,支持多语言、多环境的AI陆续发布。 1.新闻:Meta宣布全语言ASR,这是一种语音识别系统,可以支持1600多种语言和方言。 Mehta 表示,全语言 ASR 被“设计为社区驱动的框架”,包括用于自动语音识别 (ASR) 的新开源 AI 模型和涵盖 350 种非流行语言的转录语音数据集。该AI模型的参数数量在3.5亿到70亿之间,全部基于Meta的wav2vec 2.0架构开发。 《Omnilingua Metal ASR:支持超过 1600 种语言的开源多语言语音识别》一文发表了该研究成果。瑞平:你听得懂我们温州话吗? 2. 新闻:Webo AI 推出 VibeThinker-1.5B,并在《小模型,大逻辑:多样性驱动的优化为 VibeThinker-1.5B 的大规模模型推理能力提供支持》一文中对其进行了专题介绍ilities。”是一个针对数学和逻辑任务进行优化的 15 亿参数推理模型,在数学推理基准测试中优于许多大型模型。该 AI 模型采用多样性驱动的优化策略,从小规模网络中激发大规模模型形状推理行为。 3. 新闻:Google DeepMind 宣布推出 SIMA 2,这是一款基于 Gemini 的智能代理,可以在 3D 虚拟世界和商业游戏中运行。新版本被描述为比SIMA 1,能够处理前所未见的环境和更复杂的任务,但 DeepMind 将其视为迈向通用智能体的重要一步,SIMA 2 可以通过简单地查看屏幕和敲击键盘来进行学习。 4. AI 业务和政策:淘金热持续不减,杨立坤不能保持沉默? 1. 新闻:Anthropic 宣布将投资 500 亿美元用于美国的 AI 基础设施。未来 10 年,将在德克萨斯州和纽约建立 AI 数据中心,以满足 Claude 超过 30 万商业客户不断增长的需求。它将创造800个永久性工作岗位和2400个在建工作岗位,符合美国保持先进计算领域领先地位的人工智能战略。点评:他们显然没有用这些钱来训练克劳德,而是用来建造人工智能巢穴。 ^ “Meta 首席人工智能科学家 Yann LeCun 反思 Meta AI 团队的个人动荡,但这也是一个机会”。瑞平:小扎的钱术很难用吗? 3. 新闻:原生人工智能代码编辑器开发商 Cursor 宣布完成 D 轮融资,估值达 293 亿美元,为其广受欢迎的 Cursor 产品命名。据说其收入增长了100倍。该公司表示,到 2025 年,其年收入将超过 10 亿美元,客户包括数百万开发者和全球领先的工程组织离子。考虑到 Cursor 令人印象深刻的收入增长,Cursor 的估值达到 290 亿美元也就不足为奇了。第一时代最赚钱的事情不是构建AI,而是为创造AI的“程序员”创造工具。 4.新闻:欧洲数据保护监管局(EDPS)发布了人工智能风险管理指导文件,为欧盟机构如何根据数据保护法管理人工智能系统风险提供了实用指导。这份《人工智能系统风险管理指南》概述了在公共部门实施人工智能时的风险评估、记录和人工监督的步骤,使该指南与《通用数据保护条例》和最新欧盟人工智能立法规定的义务保持一致。芮平:模型还没有开始运行,但是大量的文件已经被丢弃了。 5. 观点和文章AI ulos:飓风过后谁来支付“能源账单”?新闻:彭博社专栏作家警告人工智能“权力战争””与能源可承受性相矛盾,因为超大规模云服务提供商需要确保数据中心所需的大量电力供应。如果人工智能对电力的需求增加影响能源价格,可能会引发公众的强烈反对和监管干预。这种担忧并不新鲜,但政策制定者和公司必须解决谁将为人工智能能源需求背后的基础设施买单的问题。否则,公众对人工智能数据中心建设的反对声音将会更大。芮点评:我们必须小心,除非解决“谁付电费”的问题,否则人们就会断电。 (辰辰)