智能助手网
标签聚合 v4

/tag/v4

linux.do · 2026-04-17 20:18:19+08:00 · tech

帖子内容: 疑似 DeepSeek V4 技术报告的 benchmark泄露! 图中 的“DeepSeek-V4 技术报告”基准测试(Benchmark)数据,为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体(Agent)四大维度的成绩单来看,DeepSeek-V4 展现出了极强的统治力,而大模型的第一梯队也正在经历重新洗牌。 竞争格局:当前大模型梯队划分 从图表数据中,我们可以清晰地看到五款参评模型的实力分层: 领跑者:DeepSeek-V4在所有 12 项严苛测试中均斩获最高分(State-of-the-Art),实现了跨维度的全面压制。 最强追赶者:Gemini 3.1 Pro Preview在多项核心指标上紧咬榜首,并在绝大多数测试成绩中超越了 GPT-5.3,是目前这组对比中最具竞争力的对手。 第三梯队:GPT-5.3 与 Claude Opus 4.6两者互有胜负,依然保持着极高的水准,但在最顶尖的竞争中已稍显疲态。 基准线参照:GPT-4.1作为较早期模型的代表,其数据在这组对比中全面垫底,但也直观地印证了新一代模型技术跨越的幅度之大。 四大核心能力深度拆解 1. 综合常识与学科能力 (General) 核心数据:在极具挑战性的 MMLU-Pro 测试中,DeepSeek-V4 (91.2) 和 Gemini 3.1 Pro (90.0) 是唯二突破 90 分大关的模型。 行业洞察:跨学科的专家级知识问答对头部模型已不再是难题。GPT-5.3 (88.4) 和 Claude (86.7) 在这方面稍显落后,知识密度的竞争正在向 90+ 的极限逼近。 2. 数学与复杂推理 (Reasoning & Math) 核心数据:顶尖数学竞赛基准 AIME 2025 呈现极度“内卷”的态势(DeepSeek-V4 96.4,Gemini 95.0,GPT-5.3 94.6)。 行业洞察:数学是 AI 进步最神速的领域。90+ 的得分意味着这些模型在解决人类高难度奥数题时已经具备了压倒性的优势,各家在这个领域的差距往往只在几道题之间。 3. 编程与工程能力 (Code) 核心数据:在 Codeforces(算法竞赛平台)上,DeepSeek-V4 飙升至 2767 分,拉开显著差距;但在评估修复真实软件工程 Bug 的 SWE-bench Verified 中,所有模型均未突破 60%(最高为 DeepSeek-V4 的 59.6%)。 行业洞察:“写算法题容易,改人类代码难”。模型在纯逻辑生成上已经达到竞赛级选手水平,但在理解和修改复杂的现实商业代码库时,依然存在明显的短板。 4. 智能体自主行动 (Agent) 核心数据:在模拟网页浏览和执行任务的 WebArena 测试中,全场最高分(DeepSeek-V4)仅为 58.7,GPT-4.1 甚至低至 44.8。 行业洞察:这是全表绝对得分最低的板块。它反映了当前的行业痛点:大模型“做题”和“写文章”能力极强,但如果让它像人类一样自主操作浏览器、跨应用处理多步骤现实任务,成功率依然堪忧。 核心总结这份基准测试不仅是 DeepSeek-V4 强悍实力的“肌肉秀”,也侧面印证了 Gemini 3.1 Pro Preview 在当前技术路线上的极强竞争力。更重要的是,它为行业指明了下一步的攻坚方向——当模型的知识储备和做题能力逼近人类极限时,突破“智能体自主执行 (Agentic tasks)”的现实应用瓶颈,将是决定下一代 AI 霸权的关键。 仅针对图中数据解读,真实情况还有待验证! 6 个帖子 - 6 位参与者 阅读完整话题

linux.do · 2026-04-17 15:31:43+08:00 · tech

国产模型何时崛起?deepseekV4已经N个下周了。! 半个外行来看,模型的几大关键要素:数据,算力与模型 数据:中文互联网不缺字,缺*高质量长文本和专业版权数据。很多高质量的学术数据都是英文的,但是现在的大厂应该能拿到这些,预训练与一梯队差距能有多大? 模型:工程优化做到极致(便宜、长文本),但底层架构创新虽有,但是似乎很难有跨阶级突破,都是相互借鉴然后小步慢跑?话说opus 5T量级,sonnet都有1T,别人都在搞10T了 算力:单卡算力靠堆料能追,但HBM显存禁运 + CUDA生态垄断是实打实的枷锁。集群跑不稳,成本降不下来。未来在那里? 个人期望: 我们的电力资源是得天独厚的,希望大家早点尝到更多的国产甜头,都不需要A\这些赏饭吃。 7 个帖子 - 7 位参与者 阅读完整话题

linux.do · 2026-04-17 15:21:29+08:00 · tech

IPv8才是IPv4的真正接班人。**4月14日,IETF公布了Internet Protocol Version8(IPv8)核心协议草案,实现对IPv4的100%向下兼容,有望破解IPv6迁移缓慢的行业痛点。**尽管IPv6已经推行超过二十年,但由于其与IPv4并不兼容,导致全球迁移进度未达预期。 IPv8最核心的设计亮点是100%向下兼容IPv4。草案明确,IPv4是IPv8的一个真子集。根据草案定义,IPv8采用64位地址空间,格式为r.r.r.r.n.n.n.n,由32位ASN路由前缀和32位主机地址组成。 当路由前缀字段(r.r.r.r)设为0.0.0.0时,该地址将直接按标准IPv4规则处理 。 这意味着现有IPv4设备、应用程序与底层架构无需任何修改、无需更换硬件,即可接入IPv8网络,且IPv8不设强制转型截止日,支持长期平滑演进,彻底消除企业升级的成本顾虑。 地址资源与路由架构得到显著优化。 IPv8的64位地址空间理论上可提供2^64(约1844.67亿亿)个独立地址,从根本上解决IPv4地址枯竭问题。 每个自治系统编号(ASN)持有者可获得42.9亿个主机地址,足以满足各类组织的规模化需求,无需依赖CGNAT技术。同时,草案规定BGP8路由表以ASN为单位绑定,结合/16最小前缀规则,有效抑制路由表膨胀,大幅降低核心路由器的处理压力。 IPv8重构了网络管理与安全体系。草案提出Zone Server(区域服务器)统一管理平台,整合了DHCP8地址分配、DNS8域名解析、NTP8时间同步、OAuth2 JWT身份认证、NetLog8网络遥测、WHOIS8路由验证等多项服务,告别传统网络服务碎片化管理的困境。 安全层面,IPv8采用"预设不信任"设计逻辑。所有向互联网传输的数据包,在出口路由器处必须经过DNS8解析与WHOIS8路由注册双重验证,设备需持有合法认证令牌才能正常通信。 此外,草案引入成本因子(CF)路由算法,综合时延、丢包、地理距离等维度,若传输速度超出物理光速极限,系统将立即标记异常,从源头防范路由欺诈与路径伪造,有效遏制僵尸网络、DDoS攻击等安全威胁。 草案还定义了BGP8、OSPF8、ICMPv8等升级路由协议,支持8to4隧道技术,可实现IPv8网络在IPv4-only网络中的穿透部署,保障过渡阶段的全场景互通。 草案明确,IPv6虽解决了地址枯竭问题,但未解决管理碎片化,且双栈部署成本较高,IPv8并非要取代IPv6,而是提供一种更具兼容性的升级方案。 目前,该IPv8草案仅技术提案,尚未成为IETF官方标准,也未获得产业界共识,未来六个月将面向全球业界开放讨论,其实际落地应用仍需进一步验证与完善。 11 个帖子 - 11 位参与者 阅读完整话题

www.v2ex.com · 2026-04-11 12:10:50+08:00 · tech

据多位知情人士向媒体透露,DeepSeek 创始人梁文锋近日在内部沟通中透露,DeepSeek 新一代旗舰大模型 DeepSeekV4 将于 4 月下旬正式发布。近期,DeepSeek 网页端悄然上线了“快速模式”和“专家模式”两种交互模式,支持简洁搜索和长程、复杂问题处理,引发业内对于 V4 模型发布的猜测。相关消息显示,DeepSeekV4 不仅将带来万亿参数规模和百万级上下文窗口,更首次实现与华为昇腾等国产芯片的深度适配,标志着中国 AI 产业在“去 CUDA 化”道路上迈出的关键一步。有外媒报道称,为迎接 V4 发布,阿里巴巴、字节跳动、腾讯等国内科技巨头已预订数十万片新一代 AI 算力芯片,计划通过云服务提供 DeepSeek 新模型,并将其集成到自身 AI 产品中。受此影响,新 AI 芯片产品近期价格已上涨约 20%。截至发稿,DeepSeek 方面并未回应问询。(新浪科技)