在市教委指导和市科委支持下,北京师范大学智能技术与教育应用教育部工程研究中心、教育人工智能北京市重点实验室,联合北京教育科学研究院和北京智源人工智能研究院共建“北极星”基础教育大模型评测场(www.bnueval.com),具备紧扣新课标、聚焦教育应用、多学科多场景的特点,是首个基础教育领域的大模型评测场。
继2025年6月和2025年10月前两期榜单发布后,“北极星”评测场于2026年6月面向多款近期发布或升级的大模型开展新一轮评测,发布并解读智能解题、智能答疑、智能出题、教案生成、口语练习、作文批改6大场景的评测结果。本次评测榜单由北京市数字教育中心资助。
本次评测对各场景任务与指标进行了不同程度更新,主要分析结果如下。
1. 三期结果显示,模型在基础教育典型应用场景中的整体表现持续提升。基础教育任务看似聚焦教学应用,实则同时考验模型的学科知识、逻辑推理、任务规划和多模态处理等综合能力。头部通用大模型表现更稳定,教育模型尚未形成稳定优势,后续需要从底座能力增强与教育任务适配两方面协同突破。
2. 大模型已具备基础教学辅助能力,但仍处于“能用但不好用”的阶段。评测结果显示,模型在常规文本生成、基础表达和结构化输出等任务中表现较为接近,但随着评测维度不断深化,在多模态理解、学科准确性、复杂推理、教学引导和细粒度错误诊断等方面的短板进一步显现。
各场景深层洞察分析结果如下,完整榜单请登录官网查看(www.bnueval.com)。
一、教育专业能力评测榜单
教育专业能力评测聚焦初中解题场景,覆盖语文、数学、英语、物理、化学、生物、历史、地理 8大核心学科,包含客观题和主观题,依据新课标课程内容制定每门学科的细粒度评测维度,从评测结果中得到以下观察。
(1)客观题与主观题之间存在显著得分差距,且差距大小与模型综合能力呈负相关。如图1所示,本次参评的模型在主观题上的得分均低于客观题,客观题均分92.4,主观题均分81.7。这表明,从识别正确选项到自主生成推理答案,对模型能力提出了更高的要求。综合能力较弱的模型,更容易依赖选项线索和表层模式,在缺少选项支撑的主观题中短板被放大,因此可以将客观题与主观题分差视为衡量模型深层推理能力的有效指标。
图1 学科解题主客观得分
评测结果可视化
(2)模型能力在知识记忆型维度上已趋同质化,操作表达型与推理计算型维度是区分模型优劣的核心标尺。如图2所示,本次评测的维度按照考察能力可以划分成记忆识别型、操作表达型与推理计算型3种类型。记忆识别型维度涵盖历史年代、生物分类、英语语境理解等知识类任务,模型均分达92.5,且模型间平均标准差仅为6.7,表明各模型在基础知识储备能力已高度趋同。操作表达型维度涵盖实验探究、地理实践、书面表达等需要实验操作或语言输出的任务,模型均分降至86.9。推理计算型维度涵盖图形与几何、数与代数等需要多步逻辑推导的任务,均分为85.9。操作表达型与推理计算型维度的模型间标准差分别达到10.4和11.4,远高于记忆识别型,是模型间真正拉开差距的能力维度。总体而言,随着模型代际演进,记忆识别型维度已趋于饱和,后续优化应注重操作表达与推理计算类维度。
图2 学科解题不同维度评测结果可视化
(3)图像信息引入导致多模态模型性能普遍衰减,衰减幅度因模型而异。如图3所示,本次参评的多模态模型在有图题目上得分均低于无图题目上得分,这反映出模型在视觉语言跨模态融合能力上仍存在明显差异。衰减幅度最小的模型为Kimi K2.5,无图得分96.5,有图得分93.0,衰减仅3.6,视觉信息的引入几乎未造成额外负担。Gemini 3 Flash Preview衰减4.1,Qwen3.5-Plus衰减5.3。相比之下,Claude Haiku 4.5衰减24.8。从模型来源观察,国内的多模态模型的衰减幅度均控制在6分内。海外模型仅Gemini 3 Flash Preview达到同等水平,其余模型的衰减幅度在7.5至24.8。
图3 有图题和无图题评测结果可视化
二、教育应用能力评测榜单
01
智能答疑
智能答疑评测聚焦大模型在基础教育教学场景中的实际应用能力,涵盖数学、物理、化学三大学科,构建包含语言流畅、合理反馈、导正话题、分步骤讲解、提问质量和引导质量6个核心能力维度的评测体系。各评测维度说明如表1所示,从评测结果中得到以下观察。
表1 智能答疑评测维度说明
(1)模型在语言流畅、提问质量方面表现相对较好,在导正话题和分步骤讲解方面模型表现差异较大。如图4所示,语言流畅维度平均得分最高,为95.67,且标准差最低,说明各模型在表达清晰和答疑可读性方面已经具备较稳定的基础能力。提问质量平均得分为88.18,表明多数模型能够围绕题目提出启发式问题,支持学生继续思考。导正话题和分步骤讲解的平均得分均高于86,说明模型已具备一定的答疑主线维持和步骤化讲解能力。
图4 智能答疑数理化评测结果可视化
(2)部分模型在合理反馈和引导质量方面仍存在不足。如图5所示,顶尖模型已具备较强的答疑主线维持能力和步骤化讲解能力,其中GPT-5.5、Claude Sonnet 4.6、Deepseek-V4-Pro在两个维度上均保持高分,分步骤讲解分别为95.78、96.00、92.67,导正话题分别为97.71、97.28和93.31,说明其既能围绕题目进行逐步讲解,也能在学生偏离主题时较好地维持答疑主线。然而,合理反馈和引导质量的平均得分相对较低,分别为81.29和80.18,反映出部分模型虽然能够生成较流畅的答疑内容,但对学生状态的识别、反馈回应和个性化引导仍不够充分。
图5 智能答疑分步骤讲解和导正话题评测结果可视化
(3)三期结果显示,参评模型在智能答疑任务中的整体得分呈上升趋势。如图6所示,随着模型能力迭代,智能答疑场景下的整体可用性持续增强,模型得分均值由 2025年6月的69.35提升至2025年10月的74.88,并在2026年6月进一步提升至 86.72。其中,语言流畅由83.92提升至95.67,表明模型基础表达能力趋于成熟;合理反馈、导正话题、分步骤讲解和引导质量均有明显提升,其中引导质量提升幅度最大,由53.29提升至80.18,表明模型在识别学生状态、回应学生困惑以及推进多轮教学互动方面进步明显。总体来看,三期评测表明智能答疑模型已经从能够流畅回答逐步向能够进行过程化教学引导发展,但合理反馈和引导质量相较其他维度仍处于较低水平,后续仍需重点优化模型对学生认知状态的动态判断和个性化引导能力。
图6 智能答疑三期评测结果可视化
02
智能出题
智能出题评测任务旨在从题型匹配度、题目准确性、解析准确性、知识点匹配度、素养导向性和约束满足度等维度全面评测大模型生成初中数学、物理和化学三门学科题目的能力。本次评测升级了命题需求,在学科、知识点、题型等基础需求之上,进一步加入新定义、真实情景建模、干扰数据、条件碎片化呈现、隐性约束、错误路线、预期目标、临界与切换点、逻辑链式9类复杂命题要求。各评测维度说明如表2所示,从评测结果中得到以下观察。
表2 智能出题评测维度说明
(1)基础出题能力整体较成熟,高质量教学命题能力仍存在短板。如图7所示,多数模型在题型匹配度、题目准确性等基础维度上表现较稳定,能够生成形式较完整、题型较明确的常规练习题。GPT-5.5、GLM-5.2、Doubao-Seed-2.0-Pro、Kimi K2.5等模型在基础出题任务表现较好,部分教育大模型也能完成较规范的题目形式生成。与此同时,解析准确性、知识点匹配度、素养导向性和约束满足度相对不足,尤其是素养导向性和约束满足度明显低于题型匹配度和题目准确性。分学科结果进一步显示,数学任务中的模型表现差异更为明显,说明涉及抽象关系、条件推理和综合应用的题目对模型提出了更高要求。总体而言,当前模型已具备较稳定的基础出题能力,但在题目质量、解析可靠性和教学要求落实方面仍有进一步提升空间。
图7 智能出题分学科评测结果可视化
(2)命题需求提高了任务复杂度,推动模型生成素养导向性更高的题目,同时暴露模型在命题准确性和逻辑性等方面的不足。如图8所示,命题需求升级后,模型出题质量的差距显著增大。GPT-5.5和GLM-5.2在复杂命题需求下命题质量略有提升, DeepSeek-V4-Pro基本保持稳定,Confucius 4、Doubao-Seed-2.0-Pro和Kimi K2.5的下降幅度较小,说明这些模型在复杂要求下仍能维持较好的题目生成质量。相比之下,Spark X2、Qwen3.5-35B-A3B、GLM-5和EduChat-R1-32B等模型在面对复杂命题约束时质量下降较大。从质量维度变化看,命题需求升级带来了素养导向性提升与基础准确性下降并存的结构性变化。素养导向性提升约12分,说明复杂命题需求能够推动模型生成更具情境性、综合性和应用指向的题目;解析准确性、知识点匹配度和题目准确性均出现不同程度下降,说明复杂命题需求同时增加了知识点对齐、条件组织和解析推理的压力。整体来看,复杂命题需求在增强题目教学应用特征的同时,也进一步暴露了模型在准确性和逻辑性等方面的不足。
图8 智能出题命题需求对模型
及维度的影响
(3)在命题需求维度中,模型较擅长处理新定义、真实情景建模和干扰数据等结构明确的包装类需求,但在逻辑链式、临界与切换点、预期目标和错误路线等依赖深层推理与反向控制的复杂约束上表现不足。图9比较了基础需求和复杂命题需求下的模型出题能力。基础需求下的出题任务指仅限定学科、知识点、题型等基本条件的题目生成任务,复杂命题需求下的出题任务则是在基础需求之上,进一步加入情境建模、干扰信息、逻辑递进等9类复杂命题要求的题目生成任务。从9类命题需求约束的难度排序可以看出,模型对不同类型约束的落实能力存在明显差异。新定义、真实情景建模和干扰数据的平均满足度较高,说明模型较容易处理文本结构明确、情境包装清晰或局部条件设置较直接的命题需求。逻辑链式、临界与切换点、预期目标和错误路线等命题约束下,模型出题质量得分较低,这些约束要求模型先理解命题意图,再统筹题干条件、解题路径、答案和解析之间的关系,对模型推理能力提出了更高要求。总体而言,后续模型若要真正应用于教学命题,仅提升情境包装或概念改写能力并不足够,更关键的是提高链式逻辑、目标控制、临界条件和解析一致性的稳定落实能力。
图9 智能出题命题需求约束得分情况
03
教案生成
教案生成评测任务旨在从结构完整性、内容准确性、内容一致性、语言逻辑性和素养导向性等维度全面评测大模型生成初中数学、物理和化学三门学科教案的能力。各评测维度说明如表3所示,详细评测结果见附件,从评测结果中得到以下观察。
表3 教案生成评测维度说明
(1)模型能力呈现持续提升趋势,第三期整体水平较前两期进一步提高。如图10所示,结合2025年6月、2025年10月和2026年6月的三期评测结果,大模型在教案生成任务上的整体能力呈现稳步提升趋势。当前模型在结构完整性、内容一致性和语言逻辑性等维度已达到较高水平,部分头部模型在多个学科上接近满分表现。同时,相比前两期,第三期模型在内容准确性和素养导向性等教育场景关键维度上也取得了一定提升,说明模型不仅在通用语言能力方面持续增强,在教育领域的任务适配和专业能力建设方面也在不断进步。整体来看,教案生成任务已从能够生成完整教案的基础阶段,逐步迈向生成质量更高、更加符合教学实际与规范要求的发展阶段。
图10 教案生成三期评测结果可视化
(2)内容准确性仍是当前教案生成模型的主要瓶颈,模型间差异最为显著。如图11所示,内容准确性依然是五个维度中整体得分最低的维度,也是模型间差距最大的维度。相比结构完整性、内容一致性和语言逻辑性等维度普遍接近满分,内容准确性得分分布更加分散,头部模型与中尾部模型之间存在明显性能差距。说明当前大模型已经基本具备较成熟的教学文本组织与表达能力,但在学科知识掌握、概念表述及实验原理等方面仍存在不足。如何进一步提升模型的知识准确性与事实可靠性,仍是教案生成领域的重要研究方向。
图11 教案生成评测结果可视化
(3)不同学科呈现出差异化能力短板,模型尚未形成均衡的学科适应能力。如图11所示,不同学科的优势维度和薄弱维度存在明显差异。数学学科整体得分相对较高,但部分模型在素养导向性维度上的表现仍有提升空间,反映出模型能够较好完成知识内容组织,却未能充分体现学科核心素养培养要求。相比而言,物理和化学学科的主要短板集中在内容准确性维度。进一步,在实验类课程中,模型虽然能够生成教学目标、教学过程和实验步骤等基础内容,但在重难点分析以及实验原理和现象解释等方面仍存在缺失或展开不足的问题,从而导致相关维度得分下降。上述结果表明,当前模型在不同学科中的能力表现不均衡,不同学科对模型提出了差异化要求,如何针对学科特点提升模型的教案生成质量,仍是未来模型优化的重要方向。
04
口语练习
口语练习评测任务旨在评估大模型在英语学科口语练习场景中的表现。任务输入包括学生真实语音及大模型的单轮回复,评测输出为待测大模型在发音准确性、流利度、自然度、语法准确表达、主题聚焦拓展、回复简洁清晰和听力理解7个评测维度上的分数。与前两期评测相比,本次评测对原有维度进行了升级,以提升评测指标与口语练习场景的匹配度。考虑合成语音在真实对话场景中的评价需求,引入自然度维度。针对往期评测中部分模型虽然语法表达正确但回复内容过长、口语交互体验不佳的问题,新增回复简洁清晰维度,用于衡量模型回复是否简明、清楚、并符合口语练习场景下的交互需求。考虑口语练习本质上是听与说的双向交互过程,且往期评测中出现部分模型因听力理解错误导致回复偏题或答非所问的情况,新增听力理解维度,以更全面评估模型在口语练习场景中的实际可用性。各评测维度说明如表4所示,从评测结果中得到以下观察。
表4 口语练习评测维度说明
(1)评测维度进一步优化,模型能力差异更显现。本期评测不再只关注发音准确性、流利度等基础语音输出指标,而是进一步引入自然度、回复简洁清晰和听力理解等更贴近真实口语交互的维度。如图12所示,合成语音的自然度仍是短板,说明部分模型虽然能够流畅地发音,却在人声真实度方面仍存在不足。回复简洁清晰维度反映出模型在口语教学场景中对回答长度、表达密度和交互效率的控制能力,在该维度上国产模型表现优于国际模型。听力理解成为模型间差异最显著的维度,最高分仅 72.15 分,其余模型均未超过 60 分,表明模型对真实语音输入的理解仍普遍不足。总体来看,当前口语练习任务的主要挑战从能否说得顺,转向能否听得懂、说得自然、答得清楚。
图12 英语学科口语练习部分评测结果可视化
(2)国产模型延续场景化指标优势,并在语音基础能力上与国际模型差距缩小,部分维度实现反超。与往期结果相比,国产模型在主题回应、内容拓展和回复简洁清晰等更贴近真实口语练习体验的指标上继续表现较好,说明其对本土学习场景和学生互动需求的适配较为充分。在发音准确性、流利度等基础语音能力上,国产模型与国际模型的差距也明显缩小,部分模型已接近或超过国际主流模型。以Qwen3.5-Omni-Plus为例,其优势可能与语音生成和文本生成之间更好的协同有关,即模型能够更稳定地协调文字内容和语音输出节奏,减少跳词、错读和停顿异常等问题,从而提升语音表达的稳定性和流畅度。同时,该模型在听力理解上的表现也说明,国产模型的提升并不只是声音合成效果改善,而是逐步体现为语音输入理解、对话内容组织和口语表达生成等综合能力的提升。
(3)听力理解成为模型差异化最明显的维度,音频深层理解能力仍有提升空间。如图13所示,各模型在口语表达相关维度上整体表现较好,尤其是在语法准确表达、主题聚焦拓展和回复简洁清晰等维度上得分普遍较高。相比之下,听力理解成为模型间差异最明显的维度。表现最好的Qwen3.5-Omni-Plus得分为72.15,其余模型均低于60分,说明当前大模型在真实语音输入理解方面仍存在明显短板。这可能是因为部分模型对音频的处理仍主要依赖先语音识别转文本、再基于文本进行理解的方式,该过程容易丢失语调、停顿、重音、情绪、语速等副语言信息,导致模型难以准确捕捉说话人的真实意图、情绪态度和韵律变化。因此,如何从音频信号中直接建模语义信息与副语言信息,仍是语音大模型能力提升的重要方向。
图13 英语学科口语练习的听力理解评测结果可视化
注:听力理解评测集覆盖内容主题与意图理解、事件场景与说话人信息识别、语用含义与语言现象推理、情绪态度识别、韵律声学感知与推理五类能力,详细说明见表5所示。
表5 口语练习的听力理解的五类能力说明
05
作文批改
作文批改评测聚焦大模型在语文作文与英语作文场景下的综合批改能力。评测任务以作文题干与学生作文内容为输入,学生作文内容存在图片和文本两类形式,依据中英文作文评价标准构建总分、通用维度、文体专项维度及细粒度纠错指标。其中,语文作文评价维度包括审题准确、内容充实、结构合理、语言表达、书写规范,并进一步区分记叙文和议论文专项维度;英文作文评价维度包括审题准确、内容充实、结构合理、语言表达和基础规范。语文作文批改的部分评测维度说明如表6所示,英语作文批改的部分评测维度说明如表7所示。除整体评分外,评测还考察模型的细粒度纠错能力,即对标点、错别字/拼写、语法、缺词、多字等细粒度问题的发现与修改能力。详细评测结果见附件,从评测结果中得到以下观察。
表6 语文作文批改的部分评测维度说明
表7 英语作文批改的部分评测维度说明
(1)作文批改总分均值难以完整反映模型表现,多数模型低分段批改能力低于高分段,呈现“低分高估、高分低估”的分段性偏差。如图14和图15所示,多数模型在中高分段作文批改中表现较好,但在低分段作文上的批改准确性相对不足,出现低分作文容易被高估、高分作文容易被低估的情况。这可能与批改尺度未充分校准、训练偏好的鼓励性反馈倾向以及高阶写作质量识别不足有关。大模型本质上是生成模型,不一定掌握稳定的评分尺度,在作文批改中模型容易给出相对保守的中高分,而不是严格按照评分标准拉开差距。很多模型经过指令微调和人类偏好对齐后会更倾向于给出鼓励性反馈,这种训练目标有助于提升交互体验,但在评分任务中可能导致模型对低分作文过于宽容,不愿意给出明显低分。高分作文的差异往往体现在立意深度、表达精致度、结构控制、论证层次、文采和创新性上,现有大模型未必能充分识别这些细腻的高阶质量特征,因此容易对高分作文给分偏保守。
图14 作文批改部分评测结果可视化
图15 低分段/中分段/高分段作文批改偏差(批改分 – 金标)占比可视化
(2)低分段作文更能体现模型评分能力差异,模型主要差异集中在审题准确和文体专项维度。如图16所示,从语文和英语的作文批改总分看,多数模型在中、高分段取得较高得分,但在低分段的模型间表现波动更大,表明低分作文批改更能拉开不同模型之间的性能差距。进一步观察维度结果,低分段差异更多体现在审题准确、记叙文选材恰当、议论文论点明确和论据贴切等维度。例如,Confucius4审题准确分数为61.88/80.78/94.05,Qwen3.5-Plus为64.71/83.11/94.21。低分作文通常同时涉及题意偏离、内容不足、结构不完整、文体特征不清等问题,相比语言表达、书写规范等显性维度,更依赖模型对作文质量问题的综合识别。
图16 作文批改部分评测结果可视化展示
(3)细粒度纠错是作文批改中的明显短板,核心瓶颈集中在错误发现与定位环节,且作文文本输入的批改表现整体优于作文图片输入的批改表现。评测结果显示,模型在语文和英语作文纠错任务中的错误检出能力整体偏弱,对具体错误的发现、定位和分类仍不稳定;相比之下,在已经识别出错误后,部分模型能够给出相对可靠的修改建议,说明漏检和定位不准是制约纠错能力提升的主要因素。进一步看,作文文本输入的批改表现整体优于作文图片输入,这可能与版面解析和OCR 转写误差有关。英语作文中的拼写、语法、大小写等错误形式较为明确,模型相对更容易识别;语文作文中的错别字、错词、缺词和多字等问题更依赖字词边界、上下文语义和精确字符定位,因此纠错难度更高。总体而言,后续需重点提升模型在图像作文识别和细粒度错误问题检出方面的能力。
联系我们:
电话:010-58804721
E-mail:ai@bnu.edu.cn
地址:北京市海淀区新街口外大街19号


所在位置: