哈希游戏- 哈希游戏平台- 哈希游戏官方网站
在 ARC-AGI-1 上获得 32% 的得分,对于如此小的模型来说是令人印象深刻的。从 HRM 声称的公开评估集得分(41%)下降到半私有集得分,这种轻微的下降是预料之中的。ARC-AGI-1 的公开集和半私有集并未进行难度校准。观察到的 9 个百分点的下降幅度处于正常波动的偏高范围。如果模型对公开集过拟合,其在半私有集上的性能可能会崩溃(例如,降至 10% 或更低)。但我们并未观察到这种情况。这个结果表明,HRM 确实有一些值得关注的亮点。