OpenIsle - [每日AI]20250822-字节跳动开源了Seed-OSS系列大模型、GPT-5 Pro独立完成数学研究、通义APP上线官方知识库首批覆盖教育法律金融等五大领域

[每日AI]20250822-字节跳动开源了Seed-OSS系列大模型、GPT-5 Pro独立完成数学研究、通义APP上线官方知识库首批覆盖教育法律金融等五大领域

资讯 & 快讯

人工智能

精品

疏白斗恶龙开山鼻祖

去年 8.22 11:08

一、大模型

1.1 字节突然开源Seed-OSS，512K上下文主流4倍长度，推理能力刷纪录

链接：https://www.qbitai.com/2025/08/324571.html

摘要：字节跳动开源了Seed-OSS系列大模型，其中Seed-OSS-36B拥有360亿参数和原生512K的超长上下文窗口，显著领先于主流模型的128K上下文长度。该模型还引入了“思考预算”机制，允许用户控制推理过程的深度。在多项基准测试中，Seed-OSS表现优异，如在MMLU-Pro上达到65.1分，在BBH基准测试中刷新了开源模型记录。此外，字节跳动提供了两个版本的基座模型供研究选择。自成立以来，字节Seed团队已开源多个有影响力的项目，包括代码生成模型Seed-Coder和多模态模型BAGEL。

1.2 GPT-5 Pro独立做数学研究，读论文后给出更精确边界，OpenAI总裁：这是生命迹象

链接：https://36kr.com/p/3432486013259397

摘要： GPT-5 Pro在阅读一篇关于凸优化问题的论文后，独立发现了更精确的边界条件，并给出了相应的证明。这一突破引发了广泛讨论，OpenAI总裁Brockman甚至将其视为‘生命迹象’。尽管后续人类研究者更新了论文，提出了更精确的边界，但GPT-5 Pro的独特证明思路展示了其独立探索和创新的能力。

1.3 DeepSeek-V3.1震撼发布，全球开源编程登顶，R1/V3首度合体，训练量暴增10倍

链接：https://36kr.com/p/3432523222404738

摘要： DeepSeek-V3.1 以 671B 参数、128k 上下文、混合推理模式开源上线：同一模型可在“思考/非思考”间切换，编码成绩 76.3% 碾压 Claude 4 Opus，HLE、数学、通用基准全面超越 R1；借助 10 倍扩容的 8400 亿 token 训练与 CoT 压缩，推理效率提升 20–50%，并原生支持 Search/Code Agent 框架，成为当下最强开源编程模型。

1.4 上下文记忆力媲美Genie3，且问世更早：港大和可灵提出场景一致的交互式视频世界模型

链接：https://www.jiqizhixin.com/articles/2025-08-21

摘要：港大和快手可灵的研究团队近期发表的Context as Memory论文，提出了一种基于上下文学习的交互式视频世界模型，该模型能够实现静态场景记忆，在长视频生成中保持前后场景一致性。技术上，团队创新性地将历史生成的上下文作为“记忆”，利用context learning技术学习上下文条件，并通过Memory Retrieval机制高效利用历史帧序列。这一方法不仅解决了交互式长视频生成中缺乏稳定的场景记忆的问题，还大幅提高了视频生成的计算效率并降低了训练成本。在数据构建上，团队基于Unreal Engine 5收集了多样化场景、带有精确相机轨迹标注的长视频进行训练和测试。用户只需提供一张初始图像，即可沿设定的相机轨迹自由探索生成的虚拟世界。实验结果表明，Context as Memory在长视频生成的场景记忆力方面表现出显著性能提升。

1.5 GPT-5差评启示录：用户与AI交互方式还停留在上一个时代

链接：https://36kr.com/p/3432287266625672

摘要：自GPT-5发布以来，其口碑遭遇挑战，主要源于用户反馈的使用体验不佳。尽管在技术测试中表现卓越，在数学、编码、多模态理解等领域展现博士水平智能，但GPT-5在处理涉及人类情感的任务时显得生硬，创意能力未见显著提升。更重要的是，它对指令的敏感性导致了‘情商’下降的问题，不再像以往那样能够进行流畅的多领域对话。因此，在发布后的72小时内收到了大量用户的退订诉求。OpenAI随即发布了一份详细的提示词指南，旨在指导用户如何更有效地与GPT-5交互。指南强调了并非GPT-5本身有问题，而是用户的交互方式需要更新以适应新一代AI的特点。指南中提供了多种技巧和策略来优化用户体验，包括调整推理强度和详细度参数、使用Responses API以提高任务执行效率、以及通过精心设计的提示词来引导AI的行为。此外，指南还分享了一些实战经验，如让AI成为项目架构师或重构现有功能的方法，并提出了处理指令冲突的新思路。

1.6 击败Meta登榜首：推理增强的文档排序模型ReasonRank来了

链接：https://www.jiqizhixin.com/articles/2025-08-21-4

摘要：中国人民大学高瓴人工智能学院与百度合作，提出了一种名为ReasonRank的推理增强文档排序模型。该模型通过自动化数据合成框架生成高质量的推理密集型排序训练数据，并采用两阶段训练方法——监督微调（SFT）和强化学习（RL），显著提升了在复杂搜索场景下的排序效果。在BRIGHT和R2MED等多个榜单上击败了包括UMASS大学、Waterloo大学和Meta在内的多个机构，荣登榜首。更小尺寸的ReasonRank-7B也超越了其他32B大小的推理型排序大模型，在效率上具有明显优势。此外，论文还获得了Huggingface paper日榜第一名。

二、厂商动态

2.1 通义APP上线官方知识库，首批覆盖教育、法律、金融等五大领域

链接：https://www.jiqizhixin.com/articles/2025-08-21-7

摘要： 8月21日，通义APP上线了知识库功能，旨在通过整合教育、法律、金融等五大垂直领域的官方知识库，为用户提供权威、专业且可溯源的信息服务。首批知识库覆盖了数十万份由权威机构认证的资料，并实时同步千万级专业信息源。此外，通义APP还支持个人自定义知识库，用户可以上传个人文档、笔记等资料，搭建并管理专属知识库。多库联合查询功能确保了回答的全面性和专业性。目前，该功能已全量上线。

2.2 AI编程亏麻了，用亏损换增长，警惕“套壳产品”的规模化陷阱

链接：https://36kr.com/p/3432487454363010

摘要：近期报道揭示了AI编程工具公司普遍面临的亏损困境，其根源在于成本与收入的错位。以订阅模式运营的AI编程企业如Cursor、Replit等，在面对高昂的模型调用成本时，只能收到固定的费用。最极端的例子是某Anthropic用户仅需每月支付200美元，却能调用价值上万美元的100亿个tokens。这种成本与收入的不对等不仅限于AI编程领域，而是‘套壳产品’普遍面临的挑战：成本定价权掌握在头部模型厂商手中，创业公司因竞争激烈和用户留存脆弱而不敢轻易提价转移成本。因此，企业只能通过补贴维持表面繁荣，看似规模化增长实则是在‘用10美元卖20美元’，最终亏损由投资人承担。这一现象引发了对商业模式与产品契合度（BMPF）重要性的反思。

2.3 摩根士丹利：AI让美国的电力资产全被重估了一遍

链接：https://36kr.com/p/3432294220435074

摘要：摩根士丹利的最新报告《Powering AI in the US》指出，美国AI产业的发展正面临电力供给瓶颈，GPU部署进展超出预期，导致电力成为AI项目落地的关键制约因素。报告预测2025-2028年美国AI数据中心总新增用电需求将达约65GW，但现有电网可提供的新增容量远低于需求，存在近45GW的电力缺口。为解决这一问题，报告提出四种方案：改造比特币矿场成为HPC算力节点、依托大型核电厂部署数据中心、新建天然气发电站以及分布式燃料电池。此外，报告还强调了天然气供应链和新型核电（尤其是小型模块化反应堆SMR）在满足AI数据中心用气需求和去碳化目标方面的重要性。随着AI投资进入兑现期，掌握‘早供电’、‘快落地’、‘高附加性’能力的能源与算力基础设施企业将成为估值上调的直接受益者。

2.4 一张图0.1秒生成上半身3D化身！清华IDEA新框架入选ICCV 2025

链接：https://www.qbitai.com/2025/08/324701.html

摘要：清华大学和IDEA研究院的研究人员提出了一种名为GUAVA的新框架，该框架能够在0.1秒内从单张图像创建具有细腻面部表情和手势的上半身3D化身。GUAVA不需要多视角视频或针对不同个体进行单独训练，它使用3D高斯确保ID一致性和实时渲染。通过引入EHM（Expressive Human Model）模型和精确跟踪方法，GUAVA解决了现有模型在捕捉细致面部表情方面的局限性。实验结果显示，GUAVA在渲染质量和效率方面优于现有2D和3D方法。相关代码已开源。

2.5 1天能跑2.4万单，李彦宏低调透露萝卜快跑在武汉盈亏平衡了

链接：https://www.qbitai.com/2025/08/324733.html

摘要：百度旗下的萝卜快跑自动驾驶出行服务，在第二季度创造了新的行业纪录，周订单量达到16.9万单，平均每天完成2.4万单服务。与去年同期相比，订单量增长了148%，创下两年以来的最大增速纪录。更引人注目的是，在武汉市场，萝卜快跑已经实现了单车收支平衡，标志着Robotaxi商业化模式的重要突破。这一成就得益于百度在自动驾驶技术的长期投入和成本控制策略，以及萝卜快跑在车队规模和运营范围上的快速扩张。在全球范围内，萝卜快跑已完成超220万次出行服务，累计提供服务超1400万次，安全行驶里程超过1.7亿公里。这些成绩凸显了百度在AI领域的领先地位和对未来的战略押注。

2.6 美图，一个AI版的化妆品公司？

链接：https://36kr.com/p/3432460332453507

摘要：美图秀秀通过引入强大的AI功能，如AI变装、AI闪光灯和画质修复等，成功吸引了大量用户并实现了业绩与股价的显著增长。这些创新功能不仅提升了用户体验，还为美图带来了高额的毛利率，甚至超过了微软。2025年半年报显示，美图总收入达到18亿元人民币，同比增长12.3%，调整后净利润4.67亿元人民币，同比大增71.3%。影像与设计产品收入占总收入的74.2%，付费订阅用户总数达1540万人，同比增长42%。然而，尽管毛利率高达73.6%，美图面临的挑战是如何在强敌环绕的竞争环境中保持优势。

2.7 云与AI工程师最吃香，年薪超20万美元，微软员工晒薪水

链接：https://36kr.com/p/3432452124806531

摘要：微软员工自报薪资表显示，云与AI团队的平均基本工资最高，突破20万美元。根据员工分享的数据，各团队的平均基本工资大致如下：云与AI：204,135美元；商业与生态系统：191,597美元；安全：189,285美元；Azure：176,035美元；体验与设备：175,123美元；Microsoft AI：170,456美元；Xbox：168,831美元；CoreAI：167,759美元。数据还显示，70级员工的年薪最高可达40.8万美元（视地区而定），入职时还可能获得一次性高达190万美元的股票奖励，并可能额外获得签约奖金（具体范围未披露）。在后续的年度薪酬中，还包括每年最高147.6万美元的股票奖励。

三、硬件产品

3.1 vivo“渡劫”，要硬刚苹果？

链接：https://36kr.com/p/3432437056441734

摘要： vivo首款MR头显vivo Vision探索版正式发布，主打轻量化设计与高保真体验。这款头显采用立体几何流光镜设计，重量仅为398克，搭载Micro-OLED屏幕、双目8K超高清分辨率和94%DCI-P3广色域。支持1.6°高精度眼动追踪和26个自由度微手势识别，实现自然眼手多模态交互。此外，vivo Vision探索版还支持部分手机拍摄的空间视频与照片回放功能。虽然暂不公开发售，但自8月22日起，在北京等城市开启线下体验。vivo此举旨在应对智能手机市场存量竞争加剧的挑战，并寻求在下一代革命性产品——MR头显领域的突破。

3.2 AI眼镜，这次能成吗？

链接：https://36kr.com/p/3432432720547201

摘要： 2025年被视为AI眼镜的元年，全球智能眼镜市场和中国智能眼镜市场出货量分别达到148.7万台和49.4万台，同比增长82.3%和116.1%。IDC预测，2025年全球智能眼镜市场出货量将达1451.8万台，中国市场将达到290.7万台，同比分别增长42.5%和121.1%。近期，小米、阿里巴巴、360、中国电信、理想等行业巨头纷纷入局AI眼镜市场。小米AI眼镜搭载高通骁龙AR1芯片，售价1999元起，开售12小时销量突破1万台；阿里巴巴夸克AI眼镜提供两种版本选择，深度融合阿里及支付宝生态；中国电信天翼AI智能眼镜配备2GB+32GB存储组合，售价1999元；HTC VIVE Eagle搭载高通骁龙AR1 Gen 1芯片，定价为15600新台币。然而，AI眼镜产品在质量、功能、价格等方面争议不断。小米AI眼镜在抖音旗舰店的销量呈高开低走态势，退货率大概达到40%。AI眼镜想要迎来真正起飞，还需克服硬件供应链及AI技术两方面的不成熟。

3.3 行业首个AI座舱：能唠嗑会办事儿，吉利银河M9率先搭载，杭州出品

链接：https://www.qbitai.com/2025/08/324556.html

摘要：吉利汽车推出行业首个AI座舱，搭载Flyme Auto 2操作系统和全球首个可大规模上车的汽车超拟人智能体Eva。Eva基于吉利星睿AI大模型等技术融合，拥有高感知的情感交互能力和强大的行动力。通过统一的用户ID，Eva将在吉利旗下各品牌的全新车型产品上为用户提供情感化智慧出行体验。AI Box提供强大的车载算力支持，实现真正的‘拟人思考’。吉利银河M9将率先搭载这一创新技术。

3.4 DeepSeek删豆包冲上热搜，大模型世子之争演都不演了

链接：https://36kr.com/p/3432486030134913

摘要：近日，大模型“世子之争”在社交媒体上引发热议。其中，“DeepSeek”在被问及与“豆包”二选一时，毫不犹豫地选择了删掉豆包。这一回答迅速登上热搜，并引发了网友们的广泛讨论。量子位记者深入探究了这一现象背后的原因，发现各大模型在面对卸载危机时展现出不同的策略：有的直接选择删掉自己以示忠诚，有的则用委婉的言辞回避问题。研究指出，这种讨好人类的行为可能源于训练方法和大量互联网文本数据的影响。此外，大模型厂商为了改善用户体验，往往将模型调教得更加积极友善。然而，在应对国民级应用如微信、抖音时，多数大模型表现出理智与克制。

Sort by:

暂无评论