自国务院将“数据”列为第五大生产要素已有三年时间。尔后《“十四五”大数据产业发展规划》的发布,“数据二十条”的出台,国家数据局的建立,都在推动数据走向市场化,甚至成为一种资产。然而,数据在价值创造和财富生产中的作用至今仍处于低位,医疗方面发展尤为缓慢。数年的互联互通工作中,上层建立了全民健康平台,下层打破了科室间的孤岛效应,但医院与医院之间仍然独立,科学研究、百姓看病还是跳不出单个医院范畴。在实现商业化之前,首先需要越过“共享”。几日前的两会上,全国政协委员,中国医学科学院肿瘤医院肝胆外科副主任赵宏将医疗数据中健康数据面临的种种问题进行了归结,浓缩起来也就八个字:“不敢共享、不愿共享”。要破除“不敢”与“不愿”并不简单,横在机构(包括药企、商保等非医疗机构)与机构之间的,是顶层设计、基建建设、价值计算、分配机制等等难关。过程之中牵扯的每一个环节,都是医疗数据共享难以迈过的坎。
健康数据、临床数据共享,难在哪里?
院内的医疗数据大致可分为运营、临床、健康、生物、其他四个方面,DRG的推行与国家级基因库的建立已经有效推动了运行、生物数据的应用、共享乃至商业化,部分实现了一定程度的“资产化”。但是健康数据、临床数据仍处于“共享”模式的探索间阶段。追其根本,临床数据与健康数据涉及患者个体,且数据本身结构复杂,难以标准化。因而,目前家健康医疗大数据中心(北方中心)已经建设完毕,全国100%的省份、85%的市、69%的县已经建立了区域全民健康信息平台,各家医院也拥有海量且持续更新的临床数据,但囿于信息化建设标准不健全,数据规范标准不统一等因素,两类数据的应用及共享程度仍然有待提升。大家熟知的“健康码”“传染病监督”是当下健康数据较为成熟的应用,但这类应用的逻辑仍停留在“统计”层面,没有对健康数据进行深度挖掘。临床数据局相较健康数据更为聚焦,共享也更为困难。跨医院的临床数据共享可以有效推动药械企业研发进程;为患者建立覆盖全生命周期的档案;减少患者重复检查带来的医疗资源、医疗保险浪费。但要实现价值所在,第一步要做到院内共享,第二步才是院与院的共享。先谈院内共享。临床医疗数据从产生到抵达可共享的初始态,通常需要经历一个复杂的转化过程:首先,医院需将终端生成(如CT、MR、病理)、手动录入(如既往病史、患者主诉)等渠道产生的数据整理归入各个数据管理系统(如PACS、HIS、PIMS),统一存储至机房或云端,再经由人力或大数据中心进行加工治理,形成具备一定标准程度的数据。在这一过程之中,由于各终端生产的数据结构不尽相同、各医生手动录入的数据描述各式各样、各数据管理系统提供的数据维度有粗有细,最终沉淀于机房的数据往往五花八门。表面上可在各系统之间正常交互,但在使用时,不是部分数据缺少几个维度,就是同一病症表述存在差异,难以精准归类。目前,集成平台、大数据中心平台的介入一定程度解决了数据的交互问题,但要统一HIS、PACS等管理系统接口,大量信息化厂商及科室的利益将被牵扯其中。同样的问题放在医院与医院层面将被进一步放大,要共享,还要突破一些额外的限制。首先是缺乏顶层设计。一方面,过去的信息化系统建设没有统一的指引,各家医院标准不一样,支撑业务数字化的数据库结构不一样,数据采集能力也存在差异。因此,即便是在同一个区域,三级医院、二级医院和基层医院所提交的数据质量差异非常大。以至于当实施方想要采集特定数据时,常会发现生成这些数据的系统建设标准与库表结构各自不同,即便按统一标准采集起来,解读和清洗也非常困难。另一方面,各医院采集模式也存在不一致。比如三级医院和大部分二级医院是通过直接连通数据库的方式获取数据,数据质量相对有保障。但很多基层医疗机构受限于信息化能力不足,常采用手工填报的方式。基层医疗机构的医生本就不足,数据上报工作只能委托护士或者非医疗行业的人完成。这些群体填写的数据就会参差不齐,这就会导致同一个主体采集的数据质量差异极大,根据‘木桶效应’——质量差的数据入库就会将整体的数据质量拉低,变得难以利用。因此,尽管向公众开放居民健康档案数据的呼声很高,但现阶段推进节奏较慢的一个重要原因就是医疗数据的质量不高,假如不投入高昂成本做治理与加工,居民获取回流的健康档案数据很容易出现偏差。其次是产权与分配问题。目前的法律体系尚不能很好解释和界定健康医疗数据的权属问题,特别是医疗数据的所有权。国家健康医疗大数据(东部)中心总经理王冰告诉动脉网:医疗数据难以得到较好利用的首要原因是数据零散分布在各个主体机构。政府、医疗机构、科研院校及部分健康医疗企业等机构组织在长期的业务中都有相应的健康医疗数据资源的积累,使其成为各类健康医疗数据的实际拥有者和控制者。这直接导致了数据权属很难定义。随着对原始数据的不断处理,医疗数据的权属变得进一步模糊,比如,我们去医院做CT检查,原始的影像数据是一个数据集,在影像数据集一旦添加了医生诊断的内容,就生成了新的数据集。目前有观点认为,医疗大数据反映的是个人的健康状况,理应属于患者个人;亦有观点认为,医疗大数据是由医院采集、录入才能产生的,存储和保存也在医疗机构,理应属于医疗机构;还有观点认为,医疗数据的所有权在于患者个人、控制权在于医院、管理权在于政府,第三方机构需借助政府支持和医院配合方能对其进行商业化开发和利用。虽然各方争论不休,但在实际中,医疗大数据的权属基本在医院方。医疗数据权属的模糊性,一方面掣肘着健康医疗数据的授权使用,另一方面也给患者的个人信息权保护提出难题并埋下了隐患。在分配方面,数据与传统生产要素的差异在于其经济性的计算方式。王冰认为:数据价值确认很难按经济性的路径设计。结合前面的采集难和质量差异大的现状,管理者在计算医疗数据经济性时无法精准测量与精细化控制前端(采、存、治)成本,市场主体去做数据半成品的加工工作的投入很大程度无法形成可以销售、获取足够用户市场的产品。“就好像在沙漠里淘金粉,所有人都知道金粉值钱,但当淘金粉、加工金制品的投入、产品质量与市场预期都难以测算的时候,企业就没有投入意愿了,金粉就沉睡在沙漠中了。”最后需要注意的是数据的隐私与安全。数据的安全问题因其涉及所有行业,因而相关解决方案比较成熟,加之《等级保护2.0》对于医院数据安全建设的推动作用,大量医院已经拥有了一定水平的安保措施。但要谈及数据共享,则需要医院寻求新的安全共享策略。再谈数据隐私。在具体的患者诊疗档案中,常常都会以该患者的姓名、证件号码等基本信息作为唯一标识,然而,这些信息同样也归属于应被保护的内容。所以,准确的做法应该是在不影响信息正确性的前提下,对信息进行匿名保护。需要注意的是,不同的信息,在隐私保护中的价值并不一样。所以,如果对所有医疗信息一概而论,都选取高级别的保护手段,则会对实际应用的效率产生影响,还会造成资源的浪费。所以,医院应构建对照完善的数据分级制度,对于不同类别的个人信息和数据选取不同的保护措施。
健康临床数据共享,
至少需要4个跨步尽管临床数据、健康数据的共享存在很多壁垒,但要设计解决方案,已有充足经验可供借鉴参考。对比运营、生物两类数据,之所以两者能够在敏感的医疗数据中迅速实现共享,是因为政策在数据的标准化中起了主导作用,给予了确定的数据结构,下放了数据上交的时间期限,并给予完成任务的机构足值奖励。因此,要让临床、健康数据在更大的维度实现统一,一定需要上层进行精妙的数据结构设计、传导机制设计、激励方案设计。正如赵宏主任在两会期间所言:应尽快出台相关实施细则、制定健康医疗数据共享利益分配原则、从政策上鼓励多元主体参与健康医疗数据共享应用。一、基于“数据二十条”,建议国家卫健委在数据质量上明确地方数据治理的投资模式和考核标准,统一数据的格式和术语等,对患者的诊疗记录进行串联,便于分析,确保数据质量能够满足研究者的需求。二、在数据共享上制定数据共享应用的全流程管理办法,为地方实施提供依据;在数据审核上制定健康医疗数据分类分级标准,综合数据等级、使用用途等要素,制定公开、客观的评价标准。三、在使用方式上要及时评估合理利用数据的安全技术,探索“数据可用不可见”的远程数据共享,提升研究者的工作效率;在数据跨境等法律法规持续完善的同时,也需及时发布指导意见,支撑科研成果跨境交流等活动开展。四、建议国家卫健委会同国家发改委,明确健康医疗领域数据研究成果转化收益分配的原则,指引数据平台监管方、运营方、使用方等多方参与者在规定范围内探索建立数据共享的收费标准、应用成果转化的收益分配方式等。临床数据的规范与共享同样可依照上述思路执行。不同的是,临床数据可能还需要将药械公司两个主体——临床数据的重要应用方——纳入体系。一方面,真实世界研究需要引导更多患者共享数据,另一方面,面对缺乏透明性的临床试验,患者也可借助共享体系为药械企业带来非官方渠道的监督。
从共享到资产化,
医疗数据还有多远?总的来说。完善机制下的医疗数据共享可以有效提升医疗体系运转效率,加速医药医械研发创新,但距离理想的基础措施,我们仍有相当长、相当艰辛的路要走。纵观国内各个大数据交易所,其中不少已为“医疗卫生”数据纳入交易品类,但仅贵州大数据交易所上架了一款“儿童构音障碍早筛语音数据”的产品,售价25万元,已交易两笔。
贵州大数据交易所上架的“儿童构音障碍早筛语音数据”产品