AI HOT 精选
开源古代汉字视觉感知评估基准Chronicles-OCR
7.5Score

TL;DR · AI 摘要
腾讯混元开源Chronicles-OCR基准,评估VLLMs对古代汉字的视觉感知能力,涵盖3000年汉字演变、7种历史字体和2800张图像,包含字符定位、细粒度识别、古文解析和字体分类四项任务。
核心要点
- 数据集覆盖3000年汉字演变,包含7种历史字体和2800张平衡图像
- 四项评估任务:字符定位、细粒度识别、古文解析、字体分类
- 研究揭示了视觉分布变化对VLLMs感知古代汉字的影响机制
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Chronicles-OCR基准测试
- 数据集特征
- 3000年演变
- 7种历史字体
- 2800张图像
- 四项核心任务
- 字符定位
- 细粒度识别
- 古文解析
- 字体分类
- 研究价值
- 视觉分布变化影响
- VLLMs感知评估
金句 / Highlights
值得收藏与分享的关键句。
数据集跨越3000年演变,涵盖从甲骨文到草书的7种历史字体,包含2800张跨多种物理介质的平衡图像。
模型在四项核心任务上接受评估:字符定位、细粒度识别、古文解析、字体分类。
评估揭示了视觉分布变化如何随时间影响模型感知。
#OCR#视觉语言模型#古代汉字#基准测试#腾讯混元
打开原文
我们正式开源 Chronicles-OCR——一个用于评估大视觉语言模型(VLLMs)对古汉字识别能力的视觉感知基准。该数据集涵盖汉字3000年演变史,收录甲骨文到草书等7种历史字体,包含2800张高度多样化的实体媒介平衡图像。
我们通过4项核心任务评估模型性能:
- 字符定位
- 细粒度识别
- 古文解析
- 字体分类
评估揭示了随时间推移的视觉分布变化如何影响模型感知能力。探索数据集及论文请见下方:
论文:arxiv.org/abs/2605.11960
GitHub:github.com/VirtualLUOUCAS