olmo-eval: An evaluation workbench for the model development loop
olmo-eval 是一个用于大模型开发循环的评估工具,支持灵活配置和多步骤评估。
入选理由:olmo-eval 支持多步骤和代理评估,提升模型开发效率。
产品
别名:harborframework
用于运行更长时间、更状态化的代理评估的框架。
已跟踪 3 条高相关材料
最近变化
2026-06-17 · Harbor 框架支持长时间运行和状态化的代理评估。
为什么值得关注
Harbor 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
olmo-eval: An evaluation workbench for the model development loop
Hugging Face Blog · 8.5 分
olmo-eval 是一个用于大模型开发循环的评估工具,支持灵活配置和多步骤评估。
harbor is a great framework for running longer running, more stateful agent evals it underpins term...
Harrison Chase(@hwchase17) · 7 分
Harbor 是一个用于运行更长时间、更状态化的代理评估的框架,已成为行业标准。
A few things that went into this: → Full Dockerfile snapshot support: point Harbor at your task's e...
LangChain(@LangChainAI) · 6 分
LangChain 推出 Harbor 的新功能,包括 Dockerfile 快照支持和 SDK 配置优化。
已收录 3 条与 Harbor 相关的内容,按评分排序。
olmo-eval 是一个用于大模型开发循环的评估工具,支持灵活配置和多步骤评估。
入选理由:olmo-eval 支持多步骤和代理评估,提升模型开发效率。
Harbor 是一个用于运行更长时间、更状态化的代理评估的框架,已成为行业标准。
入选理由:Harbor 框架支持长时间运行和状态化的代理评估。
LangChain 推出 Harbor 的新功能,包括 Dockerfile 快照支持和 SDK 配置优化。
入选理由:Harbor 支持 Dockerfile 快照自动构建和缓存。