米兰体育 港汉文团队发布7模态东谈主体动作数据集, 揭开大模子交融智商短板


近日,香港汉文大学信息工程系邢国良确认团队的博士生蒋念念阳行为第一作家,完成了一项名为 CUHK-X 的大型多模态东谈主体动作数据集,这个数据集能让 AI 委果看懂东谈主在作念什么、为什么这样作念以及接下来要作念什么。这项商酌后果已被转移盘算范围顶级国外会议 ACM MobiSys 2026 剿袭。
有了它,处事机器东谈主不错更奢睿地交融你的需求,养老院能提前预警老东谈主跌倒风险,康复系统能分析病东谈主的动作是否尺度。他们用这个数据集测了市面上好几款主流的大模子,发现即即是最奢睿的 AI,在交融东谈主类果真动作这件事情上,平均正确率也只须四成傍边,还有很长的路要走。
这项商酌其实是被推行需求逼出来的,该团队之前在作念边际部署的 AI 系统时发现,现存的数据集都只停留在识别层面,比如拍一个东谈主跌倒,AI 知谈这是跌倒。不外大模子期间需要的不仅仅认出来,还要交融这个东谈主是怎么跌倒的,是绊到了椅子照旧被东西砸到,以及跌倒之后应该怎么办。
交融和推理这两个智商,恰正是 AI 要走进家庭、病院、养老院这些果真场景时最需要的。市面上的主流大模子主要针对彩色相片优化,濒临深度图、热成像、毫米波雷达这些相配规传感器时发达很差,根底原因就是短缺这类传感器的配对数据。
CUHK X 的数据鸠合走了一条反旧例的旅途,传统作念法是先决然拍一堆视频,然后找东谈主一帧一帧打标签,效劳极低还容易出错。该团队先遐想好动作场景,再用大模子把动作串成一段有逻辑的剧情,终末让参与者照着剧情演。比如刷牙洗脸梳头穿一稔这几个动作,大模子会生成一段从起床到洗漱斥逐的好意思满态状,参与者照着演就行了。数据鸠合前标签就照旧定好了,准确性大大提高。
通盘数据集包含 40 个动作,分红了七个大类。这套动作清单是从 12 个公开数据集的 349 个动作中筛选出来的高频动作。
数据鸠合使用的传感器声势相配豪华,主录像头是一台 Goermicro Vzense NYX 650,同期输出彩色、深度和红外三种信号。热成像用的是海康威视 TB4117,毫米波雷达是德州仪器 IWR6843ISK。惯性传感用具的是五台 WitMotion WT9011DCL BT50,分袂绑在双手手腕、双脚脚踝和腰部。
所有传感器通过主机的全局时钟同步,用场记板记号肇端点,确保七路信号精准对皆。通盘数据鸠合在两个室内环境中完成,掩饰了客厅、厨房、卧室和卫生间四个典型居室场景。

CUHK-X 数据勾通,光是视觉类模态就包括 4,029 段视频,总时长达 19 小时 29 分钟。该团队欺诈这套数据开展了一系列基准测试。在传统的动作识别任务上,热成像发达最佳,准确率 92.57%,彩色录像头 90.89%,深度录像头 90.46%,红外 90.22%,骨架数据 79.08%。毫米波雷达和惯性传感器因为信号噪声大,准确率只须 46% 和 45% 傍边,米兰体育MILAN中国官网确认非视觉传感器在动作识别上还有很大升迁空间。
最查考 AI 水平的是交融和推理,因此该团队遐想了四个交融层面和一个推理层面的的任务。
2026美加墨世界杯中国官方网页版第一个是态状生成,让 AI 看一段视频,然后写出一段话态状画面里的东谈主在干什么。测试浪漫显现,发达最佳的模子在热成像和深度数据上也只可拿到三四十分的匹配度,和果真态状差得很远。
第二个是情境分析,让 AI 判断视频里的东谈主是悠闲照旧仓猝中。当今主流模子平均正确率与立地估计无异。
第三个是动作排序,把一段打乱轨则的视频片断再行排好,比如先拿杯子后倒水终末喝水。这个任务的挑战在于 AI 必须交融动作之间的因果链条。
第四个是动作遴荐,从 40 个动作里选出视频中出现的动作。这项测试平均正确率不到 25%,确认现时大模子在多动作复杂场景下简直窝囊为力。

推理任务的难度则更进一步,通过让 AI 不雅察一段动作序列,展望下一秒会发生什么,来判断现存大模子的推明智商。该团队发现,平时的态状型大模子在这个任务上发达很差,它们只会照搬名义特征,比如看到有东谈主在餐桌前就猜吃饭,裕如不论餐具拿没拿。
不外有推明智商的模子发达好许多,它会分析险峻文,看到桌子上有一稔、东谈主在擦手、足下放着包,就会推断出接下来很可能是要穿一稔外出。这种模子还会给出推理流程,让东谈主知谈它是怎么得出论断的。

不外,这些看似档次明晰的实验浪漫,并不是一蹴而就的。从开发选型到形态搭建,从志愿者招募到数据清洗,团队碰到的贫穷远比设想中多,而其中最惨痛的一次教训,来自毫米波雷达。
据先容,毫米波雷达那次失利让通盘团队耿耿于怀。在实验室里调得好好的,搬到新形态信号全乱套了,十几个小时的采集一谈作废,二十多个参与者得再行叫回想。蒋念念阳说这个教训很腾贵,那就是长期不要认为在一个环境跑通了,换个场所就理所虽然能跑通。

图 | 第一作家相片(起头:受访者)
另据悉,蒋念念阳本科主修数学专科,硕士毕业于中国台湾大学,商酌标的为硬件系统,博士就读于香港汉文大学信息工程系,从事盘算机系统标的的商酌。
他行将博士毕业,并经营链接从事学术商酌,进一步深入和完善这一数据集。下一步经营把参与东谈主数从 30 东谈主扩张到 100 东谈主,加入 WiFi 信号和音频等新模态米兰体育,还要去委果的养老机构作念实地考据。在他看来,AI 要委果交融东谈主,光靠识别远远不够,必须在场景里栽种起好意思满的因果链条。CUHK-X 数据集的搭建为算法商酌者提供了考据模子的平台。