将评估任务分解为易于处理的小块
LangChain(@LangChainAI)128 字 (约 1 分钟)
70
将评估任务分解为易于处理的小块不仅便于人类理解,也使大语言模型更容易进行评估。
入选理由:使用截断技术可以将持续30分钟以上的长周期评估分解为更小的子集来测试预期行为。
精选推文#Agent#评估#大语言模型#LangChain英文
人物
别名:@palashshah
分享评估方法的工程师
已收录 2 条与 Palash Shah 相关的内容,按评分排序。
将评估任务分解为易于处理的小块不仅便于人类理解,也使大语言模型更容易进行评估。
入选理由:使用截断技术可以将持续30分钟以上的长周期评估分解为更小的子集来测试预期行为。
这是一篇推广推文,宣布了 LangSmith Engine 的发布,它是一个用于分析和改进其他 AI 代理的元代理,但未提供任何技术细节。
入选理由:LangSmith 发布了名为 Engine 的新产品,用于改进 AI 代理。