概念

Artificial Analysis

Q: Artificial Analysis 最近有什么新动态？

traeai 已收录 13 篇与 Artificial Analysis 相关的内容。最新一篇是「I remember when people were saying "It's useless to open-source big models because nobody will be ab...」，由 clem 🤗(@ClementDelangue) 发布。

别名：人工分析

用于评估AI模型性能的图像领域基准测试。

已跟踪 13 条高相关材料

TraeAI 观察

如果只读 3 篇

I remember when people were saying "It's useless to open-source big models because nobody will be ab...

clem 🤗(@ClementDelangue) · 9.2 分

Cerebras 在企业环境中以每秒约1000个token的速度运行千亿参数模型Kimi K2.6，彻底颠覆了‘大模型开源无用’的旧认知，证明硬件创新可使开源大模型实现实用化部署。

Gemini 3.5 Flash: more expensive, but Google plan to use it for everything

Simon Willison's Weblog · 8.7 分

Google发布Gemini 3.5 Flash，定价提升至3.1 Flash-Lite的6倍，却广泛部署于搜索、AI助手和企业平台，反映大模型厂商正通过高价模型试探API客户支付意愿，同时性能与成本显著高于前代产品。

GLM-5.2 is probably the most powerful text-only open weights LLM

Simon Willison's Weblog · 8.5 分

GLM-5.2 是目前参数量最大的开源文本模型，拥有 753B 参数和 100 万 token 上下文窗口，性能在多个基准测试中领先。

I remember when people were saying "It's useless to open-source big models because nobody will be ab...

clem 🤗(@ClementDelangue)5月20日102 字 (约 1 分钟)

入选理由：Cerebras 在企业测试中以约1000 tokens/s的速度运行Kimi K2.6（千亿参数模型），创当前最快推理记录。

精选推文#Cerebras#Kimi K2.6#大模型开源#推理性能#AI硬件英文

Gemini 3.5 Flash: more expensive, but Google plan to use it for everything

Gemini 3.5 Flash：更贵了，但谷歌计划用它做所有事

Simon Willison's Weblog5月20日615 字 (约 3 分钟)

Google发布Gemini 3.5 Flash，定价是前代Flash-Lite的6倍，却广泛部署于搜索、AI助手和企业平台，反映大模型厂商正通过高价模型试探API客户支付意愿。

入选理由：Gemini 3.5 Flash输入价格为$1.50/百万token，输出为$9/百万token，是3.1 Flash-Lite的6倍。

精选文章#Gemini#Google#AI模型#API定价#大模型部署英文

GLM-5.2 is probably the most powerful text-only open weights LLM

Simon Willison's Weblog6月19日730 字 (约 3 分钟)

GLM-5.2 是目前参数量最大的开源文本模型，拥有 753B 参数和 100 万 token 上下文窗口，性能在多个基准测试中领先。

入选理由：GLM-5.2 拥有 753B 参数和 100 万 token 上下文窗口，是目前最大的开源文本模型。

精选文章#GLM-5.2#开源模型#AI#自然语言处理英文

Introducing North Mini Code: Cohere’s First Model For Developers

Hugging Face Blog6月11日2871 字 (约 12 分钟)

Cohere 发布 North Mini Code，一个 30B 参数的 Mixture-of-Experts 模型，专为开发者设计，在多个代码生成基准测试中表现优异。

入选理由：North Mini Code 是 Cohere 首个专为开发者设计的模型，参数量为 30B，其中 3B 为活跃参数。

精选文章#Cohere#模型#代码生成#Mixture-of-Experts#AI英文

Artificial Analysis放榜：千问3.7问鼎国产模型冠军，全球前五

量子位5月21日1050 字 (约 5 分钟)

阿里云Qwen3.7-Max以56.6分位列Artificial Analysis全球大模型榜单第五、国产第一，即将上线阿里云百炼API服务。

入选理由：Qwen3.7-Max得分56.6分，超越国产所有模型，逼近GPT-5.4、Gemini3.1 Pro等国际顶尖模型

精选文章#Qwen3.7-Max#Artificial Analysis#大模型评测#阿里云中文

StepAudio 2.5 TTS 在语音竞技场盲测中跻身全球前三

AI HOT 精选5月9日121 字 (约 1 分钟)

StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测中位列全球前三，仅次于 Inworld 和 Google 的模型。

入选理由：StepAudio 2.5 TTS 在盲测中排名全球第3，仅落后于 Inworld 和 Google 的模型。

精选文章#TTS#语音合成#AI模型#StepFun中文

AI Engineer Melbourne 2026 Keynote Livestream | Day 1

墨尔本AI工程师2026年主旨演讲直播 | 第一天

AI Engineer6月3日20378 字 (约 82 分钟)

AI正从单纯模型转向服务、数据和产品的结合，代码编写量激增，同时成本问题开始影响产品策略。

入选理由：AI不仅限于模型，还包括服务、数据和品牌，这对AI工程师有利。

精选视频#AI#技术趋势#代码生成英文

📢Qwen3.7-Max just hit #3 on ITbench-AA — a fresh benchmark testing how well models handle real-worl...

Qwen(@Alibaba_Qwen)5月29日125 字 (约 1 分钟)

Qwen3.7-Max 在 ITbench-AA 基准测试中排名第三，该测试评估模型处理企业级 IT 任务的能力。

入选理由：Qwen3.7-Max 在 ITbench-AA 测试中表现优异，排名第三。

精选推文#Qwen#ITbench-AA#AI模型#企业IT中英混合

The model performance rankings come from our new Benchmarks API, allowing your agent to query live b...

OpenRouter(@OpenRouterAI)6月25日115 字 (约 1 分钟)

OpenRouter 推出新的 Benchmarks API，可实时查询模型性能排名，GLM-5.2 在编码和设计方面表现最佳。

入选理由：OpenRouter 推出了 Benchmarks API，支持实时查询模型性能。

精选推文#OpenRouter#模型评估#API#GLM-5.2英文

Interesting pattern.

elvis(@omarsar0)6月18日59 字 (约 1 分钟)

文章展示了一个关于开源模型与闭源模型性能差距的时间线分析，但信息密度较低。

入选理由：开源模型在性能上存在滞后现象。

精选推文#AI#模型#开源英文

GLM5.2 在 Artificial Analysis 开源模型中登顶了，各种 benchmark 中评分都很高，不过光看 benchmark 也没啥用，不知道大家真实的实际体验感觉怎么样？看有人评...

Viking(@vikingmute)6月18日194 字 (约 1 分钟)

GLM5.2 在 benchmark 中表现优异，但实际体验仍需验证。

入选理由：GLM5.2 在 Artificial Analysis 开源模型中登顶。

精选推文#GLM5.2#Deepseek V4 Pro#benchmark#开源模型中文

Great result for the team!

Mustafa Suleyman(@mustafasuleyman)6月26日96 字 (约 1 分钟)

微软的MAI-Image-2.5在图像生成和编辑领域排名第二和第三，但未超越OpenAI的模型。

入选理由：MAI-Image-2.5在文本到图像生成中排名第二，在图像编辑中排名第三。

精选推文#微软#OpenAI#图像生成#AI模型英文

And read more about it from @ArtificialAnlys:

OpenRouter(@OpenRouterAI)5月2日252 字 (约 2 分钟)

xAI发布Grok 4.3，AI指数达53，代理能力提升，输入/输出价格分别下降约40%和60%，但原文仅为推特转发，无技术细节或验证依据。

入选理由：Grok 4.3在Artificial Analysis Intelligence Index中得分为53

精选推文#xAI#Grok#LLM#AI Benchmark中文

跨材料问答 · Artificial Analysis

回答基于：Artificial Analysis 相关 13 条材料