贵州制造丨贵州民族医药引入词元技术,助力标准化智能化发展
大数据国家工程研究中心近日发布最新成果,将“词元技术”应用于贵州民族医药领域,探索民族医药数字化、标准化、智能化创新路径。
贵州是民族医药资源大省,苗侗医药文化积淀深厚,但长期面临知识传承碎片化、标准体系不统一等瓶颈。为此,大数据国家工程研究中心、贵州中医药大学等单位联合开展了“贵州中医药(民族医药)高质量数据集建设与应用项目”攻关,利用词元技术,把零散的民族医药典籍、验方、诊疗经验转化为可计算、可互通、可共享的标准化数字资产。
词元(Token)是自然语言处理中的基本语义单元,能够精准拆分、界定医药术语独有语义。团队通过对古籍文献、验方、诊疗记录等进行词元化标注,计算机可以更精确地“理解”并“调用”相关的医药名词、诊疗逻辑,促进知识的系统化归集和智能检索与推理。

贵州省人工智能应用推广中心执行主任余楷向记者介绍,项目构建贵州民族医药专属词元知识库,完成数据验方、配伍、工艺改良方面,构建了结构化的标准体系,整个中医药数据覆盖全省88个县,在整个数据训练集中,视频、语音、图像、文本大概是11万条。
项目不仅规范了古籍文献、临床诊疗、田间种植等数据的语义表达方式,未来还将依托词元的语义关联能力,实现辨证分型辅助、经典方剂智能推荐等功能。

中电科大数据院数据治理事业部总经理丁洪鑫告诉记者,依托中医药高质量数据集形成的词元,为医药健康垂类大模型提供专业的数据语料词元,后续这个数据集将服务不低于19家行业用户,支撑20个以上的细分任务场景,推动产业从经验驱动到数据驱动转型。

大数据国家工程研究中心副主任、中电科大数据院总经理高山表示,用大模型重构产业链、用数据要素提升价值链、用词元流通激活创新链,把算力和数据变成贵州特色产业的新质生产力。


