凯时尊龙人生✿✿◈,凯时尊龙官网凯时尊龙人生就是博✿✿◈,尊龙凯时 - 人生就是搏!平台✿✿◈,尊龙凯时人生就是博✿✿◈,凯时尊龙✿✿◈,航空研究✿✿◈!凯时尊龙官网app✿✿◈,AI圈子波澜又起✿✿◈,焦点集中在了大名鼎鼎的Chatbot Arena排行榜上✿✿◈。一篇名为《The Leaderboard Illusion》(排行榜幻觉)的预印本论文横空出世尊龙人生就是博✿✿◈,直接对这个被广泛视为LLM“试金石”的平台提出了系统性质疑✿✿◈,论文更是直接点名Meta Llama 4 刷榜“造假”✿✿◈,连大佬Andrej Karpathy都下场发表了看法
先简单科普下✿✿◈,Chatbot Arena由LMSYS(一个研究组织✿✿◈,原名现称lmarena.ai)创建✿✿◈,通过让用户匿名与两个模型对话并投票选出更好的那个✿✿◈,来对大模型进行排名shaonianabin✿✿◈。因其动态✿✿◈、用户驱动的评估方式✿✿◈,能捕捉到传统基准测试之外的真实用户偏好✿✿◈,迅速成为衡量顶级AI系统能力的事实标准✿✿◈,影响力巨大
这篇由Cohere✿✿◈、普林斯顿shaonianabin✿✿◈、斯坦福等机构研究人员(其中部分作者也曾向Arena提交过模型)撰写的论文✿✿◈,通过分析大量数据(涉及200多万次对战✿✿◈、243个模型✿✿◈、42家提供商)✿✿◈,指出了Chatbot Arena存在的几大核心问题尊龙人生就是博✿✿◈,认为其公平性和可靠性受到了损害✿✿◈:
论文声称✿✿◈,少数(主要是大型✿✿◈、专有模型)提供商被允许在Arena上进行大量“私下测试”✿✿◈,可以提交多个模型变体进行评估✿✿◈,但最终只选择性地公开表现最好的那个版本的分数✿✿◈,甚至可以撤回不满意的结果✿✿◈。
这种做法被指扭曲了排名尊龙人生就是博✿✿◈,让这些提供商获得了不公平的优势✿✿◈,大白话就是说Meta Llama 4 “造假”
由于私下测试✿✿◈、更高的采样率(模型被选中参与对战的频率)以及模型下线(deprecation)策略✿✿◈,专有模型提供商获得了远超开源/开放权重模型的用户反馈数据✿✿◈。论文估计✿✿◈,仅Google和OpenAI就分别获得了Arena总数据的19.2%和20.4%✿✿◈,而83个开放权重模型合计仅获得29.7%✿✿◈。这种数据不对称✿✿◈,让优势方更容易针对Arena进行优化
基于这些发现✿✿◈,论文提出了五项紧急建议✿✿◈:禁止撤回分数✿✿◈、限制私有测试数量✿✿◈、公平执行模型移除✿✿◈、实施公平采样算法✿✿◈、公开所有测试模型及移除信息✿✿◈。
面对质疑✿✿◈,Chatbot Arena的组织者lmarena.ai迅速做出了回应✿✿◈,主要观点如下✿✿◈:
他们承认并欢迎预发布测试✿✿◈,认为这能帮助模型提供商了解社区用户的真实偏好✿✿◈,优化模型✿✿◈,对整个社区有利✿✿◈。用户也喜欢第一时间体验最新模型
Arena的排名反映的是数百万真实用户的偏好总和✿✿◈。偏好本身是主观的✿✿◈,但这正是其价值所在✿✿◈,因为模型最终是为人服务的✿✿◈。他们正在研究统计方法分解偏好✿✿◈,并努力扩大用户群多样性
lmarena.ai认为论文中的模拟存在缺陷✿✿◈,并指出论文中的一些数据与他们最近发布的实际统计数据不符
特斯拉前AI总监✿✿◈、OpenAI创始成员Andrej Karpathy也分享了他的看法✿✿◈,他更倾向于怀疑Arena的排名✿✿◈:
他提到自己曾遇到过排名第一的Gemini模型实际体验不如排名较低的模型(如Claude 3.5)的情况✿✿◈。也注意到一些“不知名”的小模型排名异常高
他推测✿✿◈,不同团队可能投入了不同程度的精力专门针对Arena评分进行优化✿✿◈,导致模型更擅长Arena偏好的风格(比如嵌套列表shaonianabin✿✿◈、表情符号)✿✿◈,而非整体能力提升
新的潜在顶级评估方式——OpenRouter的LLM排名✿✿◈。OpenRouter作为API路由平台✿✿◈,用户(包括企业)基于实际应用需求和成本在不同模型间切换✿✿◈,这种“用脚投票”直接反映了模型在真实场景中的综合价值(能力+成本)✿✿◈,可能更难被“游戏化”✿✿◈。
感谢karpathy的反馈✿✿◈!表示会持续构建像WebDev Arena这样的新评估平台✿✿◈,以捕捉更高级✿✿◈、更真实的编码用例
我最早开始有点儿怀疑这事✿✿◈,是有一次✿✿◈,(大概前段时间吧)✿✿◈,某个 Gemini 模型冲到了第一名✿✿◈,而且分数远超第二✿✿◈,但我自己切换过去试用了几天✿✿◈,感觉还不如我之前用习惯了的那个✿✿◈。反过来呢✿✿◈,差不多同一时间✿✿◈,Claude 3.5 在我个人用起来明明是顶级水平✿✿◈,但在 Arena 上的排名却非常低✿✿◈。无论是在网上还是私下聊天✿✿◈,我都听到过类似的反馈✿✿◈。而且✿✿◈,还有不少看着挺随机的模型✿✿◈,有些小的都让人起疑✿✿◈,据我所知也没啥实际应用背景✿✿◈,但它们排名却也相当高✿✿◈。
“当数据和(用户的)直觉或经验对不上的时候✿✿◈,往往后者更靠谱✿✿◈。”(这是杰夫·贝索斯最近在一个播客里说的✿✿◈,不过我个人深有同感)✿✿◈。我觉得吧✿✿◈,这些(大模型)团队内部可能把不同的精力都放在了专门针对 LM Arena 分数上✿✿◈,并且基于这个分数来做决策✿✿◈。不幸的是✿✿◈,这样搞出来的可能不是整体上更好的模型尊龙人生就是博✿✿◈,而是更擅长在 LM Arena 上拿高分的模型——不管那到底意味着什么✿✿◈。也许就是那种特别会用嵌套列表✿✿◈、项目符号和表情符号的模型吧✿✿◈。
LM Arena(以及那些 LLM 提供商)很可能会继续在这种模式下迭代和改进✿✿◈,但除此之外✿✿◈,我心里还有个新的候选者✿✿◈,有潜力成为新的“顶级评测”方式之一✿✿◈。那就是OpenRouterAI 的 LLM 排名:
简单来说尊龙人生就是博✿✿◈,OpenRouter 能让个人或公司在不同 LLM 提供商的 API 之间快速切换✿✿◈。这些用户都有真实的应用场景(不是搞些小测试题或者解谜)✿✿◈,他们自己内部也有评估方式✿✿◈,而且都有实实在在的动力去选对模型✿✿◈。所以✿✿◈,当他们选择某个 LLM 而不是另一个时✿✿◈,实际上就是在用脚投票✿✿◈,综合考虑了(模型的)能力和成本✿✿◈。我觉得 OpenRouter 在用户数量和使用场景的多样性上可能还没完全到位✿✿◈,但这种基于实际应用的评估方式✿✿◈,我认为非常有潜力发展成一种非常好的✿✿◈、并且很难被“刷榜”或操纵(game)的评测体系
最后给大家贴一下openrouter的大模型综合排行(还有各个领域的排名✿✿◈,涉及编程✿✿◈,市场✿✿◈,角色扮演✿✿◈,技术✿✿◈,科学✿✿◈,翻译✿✿◈,法律✿✿◈,金融✿✿◈,健康✿✿◈,学术等大家可以自行探索)
IMD✿✿◈:2024 年全球数字竞争力排名报告✿✿◈:跨越数字鸿沟人才培养与数字法治是关键(214 页)
联合国人居署✿✿◈:2024 全球城市负责任人工智能评估报告✿✿◈:利用 AI 构建以人为本的智慧城市(86 页)
TechUK✿✿◈:2025 全球复杂多变背景下的英国科技产业✿✿◈:战略韧性与增长路径研究报告(52 页)
Evaluate Pharma✿✿◈:2024 年全球生物制药行业展望报告✿✿◈:增长驱动力分析(29 页)
谷歌✿✿◈:2024 人工智能短跑选手(AI Sprinters)✿✿◈:捕捉新兴市场 AI 经济机遇报告(39 页)
兰德公司✿✿◈:2025 从研究到现实✿✿◈:NHS 的研究和创新是实现十年计划的关键报告(209 页)
康桥汇世(Cambridge Associates)✿✿◈:2025 年全球经济展望报告(44 页)
牛津经济研究院✿✿◈:2025 TikTok 对美国就业的量化影响研究报告✿✿◈:470 万岗位(14 页)
波士顿咨询✿✿◈:2025 亚太地区生成式 AI 的崛起研究报告✿✿◈:从技术追赶者到全球领导者的跨越(15 页)
安联(Allianz)✿✿◈:2025 新势力崛起✿✿◈:全球芯片战争与半导体产业格局重构研究报告(33 页)
IMT✿✿◈:2025 具身智能(Embodied AI)概念✿✿◈、核心要素及未来进展✿✿◈:趋势与挑战研究报告(25 页)
IEEE✿✿◈:2025 具身智能(Embodied AI)综述✿✿◈:从模拟器到研究任务的调查分析报告(15 页)
CCAV✿✿◈:2025 当 AI 接管方向盘✿✿◈:自动驾驶场景下的人机交互认知重构✿✿◈、变革及对策研究报告(124 页)
艾昆纬(IQVIA)✿✿◈:2025 骨科手术机器人技术的崛起白皮书✿✿◈:创新及未来方向(17 页)
NPL&Beauhurst✿✿◈:2025 英国量子产业洞察报告✿✿◈:私人和公共投资的作用(25 页)
IEA PVPS✿✿◈:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)
AGI 智能时代✿✿◈:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)
2025 军事领域人工智能应用场景✿✿◈、国内外军事人工智能发展现状及未来趋势分析报告(37 页)
美国能源部✿✿◈:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)
罗马大学✿✿◈:2025 超级高铁(Hyperloop)✿✿◈:第五种新型交通方式 - 技术研发进展✿✿◈、优势及局限性研究报告(72 页)
德安华✿✿◈:全球航空航天✿✿◈、国防及政府服务研究报告✿✿◈:2024 年回顾及 2025 年展望(27 页)
奥雅纳✿✿◈:2024 塑造超级高铁(Hyperloop)的未来✿✿◈:监管如何推动发展与创新研究报告(28 页)
军事人工智能行业研究报告✿✿◈:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)
Check Point✿✿◈:2025 年网络安全报告 - 主要威胁shaonianabin✿✿◈、新兴趋势和 CISO 建议(57 页)
沃尔特基金会(Volta Foundation)✿✿◈:2024 年全球电池行业年度报告(518 页)
国际科学理事会✿✿◈:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)
奥纬论坛✿✿◈:2025 塑造未来的城市研究报告✿✿◈:全球 1500 个城市的商业吸引力指数排名(124 页)
Future Matters✿✿◈:2024 新兴技术与经济韧性✿✿◈:日本未来发展路径前瞻报告(17 页)
皮尤研究中心✿✿◈:2024 美国民众对气候变化及应对政策的态度调研报告✿✿◈:气候政策对美国经济影响的多元观点审视(28 页)
空间计算行业深度✿✿◈:发展趋势✿✿◈、关键技术✿✿◈、行业应用及相关公司深度梳理 - 250224(33 页)
北京大学✿✿◈:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)
CIC 工信安全✿✿◈:2024 全球人工智能立法的主要模式✿✿◈、各国实践及发展趋势研究报告(42 页)
AGI 智能时代✿✿◈:2025 年 Grok - 3 大模型✿✿◈:技术突破与未来展望报告(28 页)
剽不剽窃不太懂✿✿◈,但是我不明白的是为啥每次不管啥新科技新技术都是国外做出来以后✿✿◈,然后我们国内才遥遥领先shaonianabin✿✿◈,咱们就不能先遥遥领先以后让人家外国再麻吗?
家长称班级六一汇演外包被收1200✿✿◈:普通家庭压力大✿✿◈,牵头组织家长的孩子能分到重要角色✿✿◈,其他孩子“打酱油”
六一临近✿✿◈,组织一场儿童节目汇演成为许多学校的重要任务尊龙人生就是博✿✿◈,但这也给不少班级带来困扰✿✿◈。记者采访发现✿✿◈,有不少班级将节目排练“外包”给校外机构✿✿◈。“班里排练一个歌舞剧✿✿◈,全班几十名同学参与shaonianabin✿✿◈,每个学生需缴纳1200元✿✿◈,用于聘请专业培训机构的老师进行编排✿✿◈。
物理灭蚊天花板✿✿◈!男子自制捕蚊神器✿✿◈,流水线日✿✿◈,福建厦门✿✿◈。男子DIY捕蚊流水线✿✿◈,风扇+紫灯组合拳✿✿◈,一夜间狂吸蚊子✿✿◈,一网打尽shaonianabin✿✿◈。
2025年全国高考倒计时9天 教育部✿✿◈:全国报考人数为1335万人 8年来高考报名人数首次减少
来源✿✿◈:【闪电新闻】2025年全国高考倒计时9天✿✿◈!教育部✿✿◈:全国报考人数为1335万人✿✿◈,8年来高考报名人数首次减少✿✿◈。 本文来自【闪电新闻】尊龙人生就是博✿✿◈,仅代表作者观点✿✿◈。全国党媒信息公共平台提供信息发布传播服务✿✿◈。
5月29日✿✿◈,云南保山✿✿◈。王女士称✿✿◈,最近下雨有很多飞蚂蚁✿✿◈,因富含高蛋白✿✿◈,这种虫子在当地是特色美食✿✿◈,随后抓了一些烹饪后✿✿◈,自己吃了30只左右开始腹痛✿✿◈。医院诊断是摄入超标导致高蛋白过敏✿✿◈。王女士表示✿✿◈,输液后已经好转✿✿◈,大家不要轻易尝试✿✿◈。
四川新闻联播丨省扫黑除恶斗争领导小组第六次会议召开 坚决以法治化推进扫黑除恶常态化 于立军出席并讲线日✿✿◈,省扫黑除恶斗争领导小组第六次会议召开✿✿◈。省委副书记✿✿◈、政法委书记于立军出席会议并讲话✿✿◈。
下载一个App✿✿◈,在网上“云认养”黑猪✿✿◈、牛羊✿✿◈、梅花鹿等✿✿◈,就能每月获得高额返利✿✿◈,稳赚不赔✿✿◈。这样的买卖听起来是不是很让人心动?
国防部✿✿◈:美国“金穹”导弹系统将打开潘多拉魔盒✿✿◈,敦促美方停止在外空扩军备战✿✿◈。(剪辑✿✿◈:辛乐)#国防部回应美建金穹导弹防御系统
目睹全红婵失误瞬间的教练陈若琳✿✿◈,表情也十分微妙✿✿◈,她似乎“哎呦”了 一声✿✿◈,之后便露出了一丝苦笑#陈若琳 #记录精彩瞬间 #名场面 #不负热爱
本来夺冠是好事✿✿◈,可是不知道从什么时候开始✿✿◈,“饭圈文化”已经渗透进了“体育圈”✿✿◈!陈芋汐夺冠了✿✿◈,陈芋汐被网暴了尊龙人生就是博✿✿◈!这是今年听到过最悲哀的事情✿✿◈!5月26日✿✿◈,全红婵突然伤退✿✿◈,眼看选拔赛比赛马上开始✿✿◈,箭在弦上✿✿◈,不得不发✿✿◈,教练组不得不为陈芋汐另选队友✿✿◈。