存储评论网

Metrum AI 和俄勒冈州立大学如何构建学术评估新标准

AI  ◇  企业版

当我们发表我们的故事时 俄勒冈州立大学的浮游生物成像研究 去年11月,新闻头条聚焦于科学:研究船上的人工智能加速基础设施,在船只抵达港口之前,就能近乎实时地处理数TB的海洋数据。但在接下来的几周里,一些事情悄然发生。消息迅速传遍了校园,人们开始谈论一台配备八块Solidigm D5-P5336 E3.S固态硬盘和NVIDIA RTX PRO 6000显卡的戴尔PowerEdge XE7745服务器究竟能做到什么。其他院系开始询问,并纷纷打电话咨询。俄亥俄州立大学地球、海洋与大气科学学院的研究与学术计算主任克里斯托弗·沙利文现在希望购置一整机架这样的服务器,以满足全校日益增长的人工智能需求。而推动他这一雄心壮志的故事,远不止浮游生物那么简单。

俄勒冈州立大学在人工智能技术在科研和学术应用方面的应用,已成为全美最具前瞻性的大学之一。如今,该校在校园内做出的基础设施建设决策,以及与Metrum AI、戴尔、英伟达和Solidigm等公司建立的合作关系,并非仅仅是学术实验。它们为大学提供一种全新的教育模式、学习评估方式以及学生安全保障方式奠定了基础。本文将讲述这一模式的构建历程。

生成式人工智能加剧的问题

几十年来,书面作业一直是学术评价的核心。提交论文,展现理解,即可获得分数。生成式人工智能从根本上改变了这一体系。如今,学生只需对材料稍加钻研,就能撰写出一篇结构严谨、文笔流畅的文章,即使是经验丰富的教师也难以准确判断其真伪。大学赖以生存数代的真正理解的证据,如今已不再可靠。

显而易见的替代方案是口头评估。要求学生大声解释他们的推理过程,逐步展开分析,并为他们的结论辩护。这很难弄虚作假。问题在于规模。一位教授要教200名学生,不可能与每位学生面对面进行实质性的口头考试。在现代大学中,这种限制实际上已经使口头评估作为主要评价工具被搁置。Metrum AI 的诞生正是为了改变这种现状。

Metrum AI 构建了什么

Metrum AIMetrum由首席执行官Steen Graham和首席技术官Chetan Gadgil联合创立,其核心理念很简单:人工智能应该真正发挥作用,而不仅仅是展现潜力。该公司为保险、制造业等各行各业的客户部署多模态人工智能代理,这些代理能够处理视频、音频、文档和结构化数据。Metrum与戴尔科技集团建立了紧密的合作伙伴关系,利用戴尔的企业级服务器基础设施,在各种GPU配置下验证其平台。俄勒冈州立大学的学术评估系统并非Metrum的转型之作;它只是将相同的底层技术应用于新的问题领域,并秉持着贯穿公司所有产品的“本地部署、人机协同”设计理念。

俄勒冈州 Metrom AI 工作流程

该平台应用于学术评估领域,利用多模态人工智能处理学生录制的视频演示,并生成符合评分标准的评估草稿供教师审核。其核心理念很明确:为教师提供一个人工智能伙伴,帮助他们处理重复且耗时的数据提取工作,从而使教师能够专注于真正需要人工评判的关键环节。

在功能层面,该平台执行三项操作。首先,它从提交的视频中提取多模态信息,利用 OpenAI Whisper 生成带时间戳的音频转录文本,并通过 Qwen3-VL-30B 的视觉分析功能捕获幻灯片内容。然后,它使用运行在 vLLM 上的 Qwen3-30B-A3B 推理模型,将教师设计的评分标准应用于提取的内容。最后,它生成带有证据提示的评估草稿,并将每个分数链接到特定的转录文本时间戳或幻灯片标识符,供教师审核和批准,之后才会发送给学生。

俄勒冈州屏幕

最后一步至关重要。所有分数、评语或反馈,在教师审核、做出必要修改并明确批准之前,学生都无法看到。该系统以教师权限为核心构建。此外,该平台完全部署在企业内部。这一决定影响着系统的运行方式、信任范围以及所需的硬件配置。

Metrum AI 俄勒冈州屏幕 2

从教授的业余项目到教务长的指令

乔纳森·卡洛迪莫斯是俄勒冈州立大学商学院的金融学副教授,同时也是哈雷和布里吉特·史密斯研究员。他的背景与人工智能基础设施领域的核心人物可能并不相符。在加入俄勒冈州立大学之前,他曾担任美国证券交易委员会的金融经济学家,并担任《多德-弗兰克法案》第954条(该条款制定了有关高管薪酬追回的规则)的主要经济学家。他在公司治理和金融监管方面的研究成果曾被《华尔街日报》、《纽约时报》、彭博社和《哈佛商业评论》等媒体引用。此外,他还拥有物理学家般的精确测量能力。

俄勒冈州梅特鲁姆人工智能乔恩

大约一年前,卡洛迪莫斯为他的MBA课程编写了一个简单的工具:一个用于评估案例研究报告口头部分的AI代理。学生们对反馈的质量印象深刻。他在俄勒冈州立大学的人工智能周上展示了这个项目。戴尔公司注意到了这一点,并将他介绍给了Metrum AI,一个课堂实验由此发展成了一个规模更大的项目。

“一旦拥有了这个工具,你就可以改进你的教学风格和教学方法,利用这个工具的优势,提供更好的教育体验。”

——乔纳森·卡洛迪莫斯,俄勒冈州立大学金融学副教授兼哈雷和布里吉特·史密斯研究员

卡洛迪莫斯正在构建的是他所谓的基于证据的提取方法,其基础是他所说的评分标准工程。这包括确定可以从学生演示中提取哪些特征,将这些特征汇总成学习成果,并为教师提供一个结构化的视图,展示每个学生在哪些方面展现了理解,以及在哪些方面存在不足。“我是这样向持怀疑态度的学生解释的,”他说,“如果我有一份非常详细的清单,然后我逐项检查你的演示,这就是这个系统正在做的事情。当然,它比这复杂得多,但它让我能够看到学生展示他们掌握这些知识的所有机会。”

他举了两个例子来说明这套系统在实践中带来的改变。第一个例子中,一位学生将十分钟的演讲压缩到五分钟,语调单调,语速也慢得像英语是第二语言一样。他的表达方式完全掩盖了他理解内容的能力。“尽管我听得很认真,”卡洛迪莫斯说,“但我就是无法,或者说不愿,将内容细化到那种程度,从而克服表达方式的问题,让我能够专注于实际的证据。” 后来,当他逐条分析人工智能生成的证据时(每次分析十五秒),他才清楚地意识到,这位学生其实理解了内容。评分标准是表达方式,而不是知识本身。

第二个案例是一位学生制作演示文稿的过程很慢,幻灯片看起来杂乱无章,直到最后一张幻灯片才把论点串联起来。卡洛迪莫斯在现场观看时,已经对这个演示文稿的评价很低。但系统却将整个作品视为一个完整的弧线进行评估,并给出了很高的分数。“我甚至没想到这种评估方式还有这样的优势,”他说,“它摆脱了对时间的过度关注。”

研究与学术计算主管克里斯托弗·沙利文是此次部署的基础设施负责人。当最初的Metrum和戴尔设计中出现关键的合规性漏洞时,他的参与度显著提高。

FERPA、数据主权以及为什么云计算并非答案

当 Sullivan 着手构建俄亥俄州立大学 (OSU) 的 Metrum 平台本地部署时,他首先发现的问题是一个尚未得到彻底解决的问题:《家庭教育权利和隐私法案》(FERPA)。

《家庭教育权利和隐私法案》(FERPA) 是管理学生教育记录的联邦法律。它对谁可以在什么条件下访问学生数据以及如何保护数据都制定了严格的规定。对于像 Metrum 这样的系统而言,该系统需要接收学生提交的视频、生成成绩单、进行评估并存储所有评分决定的完整历史记录,因此,FERPA 合规性并非一个简单的勾选选项,而是一项架构约束。

“我们需要一套能够满足所有《家庭教育权利和隐私法案》(FERPA)要求的本地系统,”苏利文说,“同时还需要大量的存储空间。”云处理无法满足这一要求。通过外部人工智能应用程序接口(API)路由学生视频文件、音频转录和评估记录,意味着将学生的个人身份信息传输到大学无法直接控制的第三方系统。在这种环境下,要确保所有供应商都符合FERPA的要求,其合同和技术上的复杂性使得这种方案根本行不通。

此外,学生的实际体验也至关重要。提交录制演示文稿的学生是在分享一些个人经历​​:他们的声音、他们的面容、他们在压力下的思考过程,有时甚至是用非母语进行的。当他们了解到自己的视频存储在俄亥俄州立大学的服务器上,由运行在俄亥俄州立大学硬件上的模型进行处理,并受俄亥俄州立大学自身数据政策的约束时,这种动态变化就发生了改变。卡洛迪莫斯在试点项目中亲眼见证了这一点。“这种本地化模式,本地存储,而且俄亥俄州立大学会为学生保驾护航,”他说,“这种理念非常明显。我们确实需要利用俄亥俄州立大学已经建立起来的机构信任,保护我们的学生,并充分利用这些本地解决方案。”

云端人工智能平台部署简便快捷,但机构需要信任的是合同而非平台架构本身。对于本就对数据管理方式心存疑虑的学生而言,这种区别会显著影响他们采用平台的意愿。本地部署不仅仅关乎合规性,更重要的是建立信任的基础。

飞行员、教务长以及俄亥俄州立大学的未来发展

试点项目正在进行中。大约500名来自不同班级的学生正在期末考试周结束时提交最终项目。评分报告必须在最后一份提交后的4天内返回。人工智能生成的报告必须在教师开始评分之前准备就绪。“虽然也有人工审核环节在并行运行,”卡洛迪莫斯指出,“但他们需要先拿到报告。如果处理所有这些项目需要两天时间,那么人工审核环节的时间就更加紧张了。”压力确实存在,截止日期已定,而基础设施正在按部就班地运行。

试点项目还揭示了一些值得注意的现象。最近,一位教授在学期中途被提拔到行政岗位,一位讲师不得不临时顶替,完成剩余的课程。由于之前已经部署了一套完善的AI评估框架,包括明确的评分标准和既定的审核流程,这为这位讲师提供了教学的连续性,否则这种连续性将难以实现。“拥有一个稳定的AI评估助手,”卡洛迪莫斯说道,“在无法保证人工教学连续性的情况下,无疑会提升学生的学习体验。”

最终,此事传到了俄亥俄州立大学教务长那里。卡洛迪莫斯在一个原本计划十分钟的会议上,全面介绍了戴尔系统、Solidigm存储性能、开发人员能力以及基础设施基准测试。结果会议持续了四十分钟。教务长随后分别向首席信息官、首席技术官和沙利文发送了邮件。俄亥俄州立大学目前正计划在全校范围内部署该资源,以便从春季学期开始向教职员工开放。该资源将由新成立的研究计算办公室负责管理,该办公室隶属于教务长办公室和研究办公室。

苏利文正在考虑以机架级基础设施为框架进行部署。他希望扩展的基础架构正是之前用于浮游生物成像工作、现在又为Metrum AI评估流程提供支持的XE7745平台。目标是构建一个机架,上面部署着这些服务器,可以根据需求变化在学术计算和科研计算工作负载之间灵活切换。理想情况下,在期中和期末考试高峰期,这些服务器将专门用于Metrum评估流程;而在学期中期的淡季,则可以重新部署到科研工作负载中。“我们可以从这组服务器中抽取一些机器,暂时用于学术计算,然后再将它们调回来用于科研计算,”苏利文说,“我们希望能够灵活地重新部署它们。”

该平台已开始自然推广。健康学院和工程学院的教职工在通过非正式渠道了解到该项目后,分别与卡洛迪莫斯先生取得了联系。该平台在试点阶段之后并未正式发布,但即便如此,它还是找到了自己的受众。

分级问题背后的容量问题

这个故事还有一种说法,只关注加快评分速度。这种说法并不全面。

更具体的例子是关于班级容量的。苏利文举例说,这是一门100级的地质学课程,俄亥俄州立大学将其视为核心教育使命的一部分,要求所有学生都必须修读。目前这门课有两个班级,每个班级300名学生,每学期共计600名学生。教师们已经不堪重负。鉴于目前的教学任务量,增加班级是不现实的。“我不能让老师们承担更多的工作,”苏利文说,“我需要找到办法,要么通过减轻教师的工作量来增加班级数量,要么在现有班级中增加学生人数。”

卡洛迪莫斯也以类似的方式阐述了商学院的情况。出于消防法规的考虑,部分课程的授课人数上限为45人。一旦个性化评估能够大规模实施,这些教授可以选择采用大型讲座形式,并辅以分组讨论室。“这不仅仅是提高上课人数的问题,”他说道,“而是要在探索不同教学模式的同时,保持教学质量。”人工智能评估层使得在大型讲座教室进行个性化评估成为可能。

“人工智能帮助我们在不改变影响、信息或学习内容的前提下,增加数据量。”

——克里斯托弗·沙利文,俄勒冈州立大学研究与学术计算主任

存储是缺失的一环。

当苏利文评估在俄亥俄州立大学部署Metrum系统并完全符合FERPA法规所需的条件时,GPU方面的问题已经解决。Metrum和戴尔的参考架构已经证明,配备NVIDIA RTX PRO 6000 GPU的XE7745能够大规模处理推理工作负载。剩下的问题在于存储。

XE7745 是一款 4U 风冷平台,针对 GPU 高密度进行了优化。这种设计是它的优势所在,但也带来了一个真正的限制:硬盘位数量有限。“我需要在不牺牲速度的前提下,将尽可能多的空间集成到单个设备中,”Sullivan 说,“因为我不想浪费 GPU 的全部价值,也不想让 XE7745 失去其应有的潜力。而且,市面上并没有太多大容量 SSD 解决方案能够满足这种需求。”

此类系统中的存储层承载的不仅仅是主要的AI工作负载。视频文件从学生门户网站上传后需要立即进行缓冲。提取的音轨和带有时间戳的文本记录作为独立的文件存储,供教师审阅。幻灯片图像和OCR输出文件则占用单独的存储层。用于跟踪提交元数据、草稿评估、教师编辑和审批记录的Supabase数据库持续运行。Whisper、Qwen3-VL和推理模型的模型权重需要快速加载,以避免推理瓶颈。此外,每个AI生成的草稿、每个教师的每次修改以及每个审批操作的完整审计跟踪都必须作为可查询的记录保留,用于认证审查、学术诚信调查和行政报告。

所有这些工作负载都运行在存储设备上。GPU负责生成AI输出结果。存储设备则负责为GPU提供数据,确保其持续运行。

苏利文的团队选择了E3.S规格的Solidigm D5-P5336闪存盘。XE7745机箱可容纳八块这样的闪存盘。每块闪存盘容量为30.72TB,这意味着在一个4U机箱内即可实现超过245TB的闪存存储。D5-P5336采用QLC NAND闪存,并配备企业级固件,针对持续写入性能和数据完整性进行了优化。这一点至关重要,因为该系统无需处理偶尔的突发写入。在期末考试期间的提交高峰期,系统需要同时进行视频导入、文字记录写入、评估输出日志记录以及数据库更新等操作。

正如我们在之前关于该硬件配置的海洋研究报告中所述,采用 RAID 10 的 Solidigm 硬盘在保证读写性能的同时,并未影响到后续的处理流程。存储并非瓶颈所在。该架构清晰地展现了实际的工作负载限制,使团队能够针对关键环节进行优化调整。这一经过验证的结论直接应用于学术评估部署中。

俄亥俄州立大学:人工智能就绪型高等教育的蓝图

俄勒冈州立大学的人工智能基础设施建设方法经过深思熟虑,值得其他教育机构借鉴借鉴。该大学并没有像其他机构那样通过云API随意部署人工智能工具,而是做出了一系列架构决策,将人工智能视为一项持久的机构能力,而非供应商提供的服务。硬件采用标准化平台,涵盖科研和学术计算工作负载。存储采用本地部署的高密度设计,并符合相关规范。教师对系统生成的每一项评估都拥有最终决定权。

卡洛迪莫斯明确表示,他希望这个平台能够推广到俄亥俄州立大学以外的地区。“并非每所大学都像我们一样拥有充足的资源,”他说,“我希望确保所有大学都能使用这项技术。”正是基于此,他提出的关于教育公平的更广泛论点才更具说服力。对于那些教学任务繁重、资源匮乏的小型院校教师来说,他们无疑最需要这个工具。

“我需要存储空间,而且我需要快速的存储空间。没有存储空间,人工智能就毫无意义。它是一个数据驱动的系统。我们在上世纪六七十年代就有了算法。但我们当时没有数据来运行算法,因为我们没有存储空间来实际保存这些数据。”

——克里斯托弗·沙利文,俄勒冈州立大学研究与学术计算主任

苏利文对硬件规划问题的阐述方式,与他对俄亥俄州立大学所有基础设施决策的阐述方式如出一辙。模型会改变,学生提交的输入类型会演变,教师希望采用的评估技术也会变得更加复杂。“我可能会用到更大的叉子、更大的刀子或更大的勺子,”他说,“但硬件方面仍然是叉子、刀子和勺子。未来几年,我将对模型和输入进行大幅调整,而现在对我来说,更重要的是确保硬件始终领先于未来的变化。”

每一份处理过的成绩单、每一张提取的幻灯片、每一份评估草稿、每一份已批准的成绩以及每一份审计记录,都必须存储在某个地方。在这个系统中,俄亥俄州立大学的基础设施内配备了245TB的Solidigm QLC闪存,默默地进行着工作,使可见的AI成为可能。苏利文计划的机架不会是最后一个。大学正在密切关注这个试点项目的成果,其他机构也会关注俄亥俄州立大学的动向。这才是引领AI发展的意义所在。

参与 StorageReview

资讯订阅 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter(现为X) | TikTok | RSS订阅

布赖恩·比勒

Brian 位于俄亥俄州辛辛那提市,是 StorageReview.com 的首席分析师兼总裁。