DIA中国药物定量科学论坛(QSF) l 分析和报告中自动化和智能化实施
新技术在统计编程中起着至关重要的作用。人工智能(AI)、机器学习(ML)、无服务器计算被认为是2021年统计编程领域的顶级新兴技术。自动化和人工智能的实施可以提高临床试验从数据收集、清理、以及分析和报告的效率。本分会场邀请到了赛诺菲生物统计与编程部资深经理冶剑锋、诺华制药(中国)临床数据标准与自动化部门副总监魏志军、迪哲医药临床药物开发部主任统计程序员闫智萍三位在自动化和智能化实施方面很有经验的嘉宾分享了自己在这方面的经验和成果,由北京信立达医药科技有限公司总经理邓亚中组织,迪哲医药统计编程总监李华丹担任现场主持。
冶剑锋:基于OCR和多语言库技术在注释CRF中的最佳实践和成功案例
创新并不是脱离实际单纯的创新,而是跟我们工作息息相关,要让我们工作当中能够切实的感受到创新带来的优势。OCR光学字符识别是现在非常成熟的一种文字识别技术,广泛运用于我们生活中的各个方面。在临床试验递交过程中,有的工作具有很高的重复性,运用OCR技术的特点,结合多语言库技术可以帮助我们重复性工作的自动化,从数据收集,数据递交,数据翻译等方面提高工作效率。
在临床试验数据递交的工作中,注释CRF的产生是重复性较高的一项工作之一。首先,通过OCR文字识别技术,找到注释内容在PDF文件中的坐标,然后查询不同TA的数据库,找到注释的内容,建立关系网络,产生一个符合国际标准ISO32000的数据映射文件,通过PDF的开放接口,将注释内容存放到CRF的PDF文件中,完成注释CRF的生成。
2020年10月,中国食品药品监督管理局发布《临床试验数据递交指导原则》,指出在中国递交的临床试验CRF必须使用中文。在多国多语言递交中,CRF的翻译也是一个需要耗费大量时间和人力的工作内容。通过多语言库技术,在数据库中提供多种语言的映射关系,可以将写入PDF之前的数据映射文件中的注释内容翻译成中文,再通过刚才提到的开放接口将注释写入PDF 文件中,实现注释CRF的翻译工作。
机器和运算规则帮我们完成了大部分的工作,但是我们不能把全部工作交给机器。仍然需要对注释CRF进行核查。核查的过程中 产生的关联性数据库,会被反向输入到结果中,运用了统计学上的拟合原理,再次对数据库验收规则进行调整和完善。随着项目的不断增多,数据库的映射规则越来越完善,将在后续项目中对编程、Mock Shell的设计、SAP的设计以及之后的一系列工作起到辅助作用,这都是我们需要进一步探讨的。
魏志军:元数据仓库建设与API开发在分析与报表自动化中的应用与思考
在如今大数据时代,各行各业都面临着数字化转型。数字化转型,可以分为三个层级。第一个层级是信息的数字化,目前已相对比较成熟,例如临床试验中纸质CRF到EDC的转变;第二个层级是流程的数字化和智能化,例如现在很多企业运用到的ERP系统、OA系统等;第三个层级是具体业务场景的数字化,例如,引入机器学习与人工智能等技术来实现临床研究方案、数据库设计、数据标准化转换与统计分析报表生成自动化等, 本质上更是一种对现有业务或商业模式的转变。
元数据(Metadata),是描述数据的数据(data about data),或者说是用于提供某种资源相关信息的结构化数据(structured data),主要用于描述并存储其数据属性。元数据仓库与元数据是相辅相成的,通过元数据及其仓库的建设,通过数据的单一真实来源性,可确保数据的完整性与一致性,将极大的方便了基础数据的管理,并能显著的提高相关工作效率与质量。
API(Application Programming Interface, 应用程序接口)通过提供预先定义的接口,能够把后端的元数据和前端用户的需求连接起来,应用程序与开发人员基于某软件或硬件得以访问所需数据,而又无需访问源码,或理解内部工作机制的细节。API技术广泛应用于各行各业,帮助企业级用户快速在业务场景中应用大数据,助力流程和业务的数字化、智能化与自动化。
这里举了两个应用场景的例子。论文检索是我们工作中经常遇到的一个应用场景。使用Python代码收集历年来在PharmaSUG、CDISC、PhUSE等各型会议上发表的数万篇论文,提取有用的信息(例如会议名称、年份、文章作者、标题、摘要等)并整理在元数据库中,方便用户进行查阅和学习。也可以使用一些机器学习的方式,对这些文章进行分析,归纳和筛选。另外一个例子是元数据仓库与API技术在临床研究数据库及CRF中英文翻译中的运用。通过建立数据集标签、变量标签等中英文对照关系的元数据库,结合API技术可以更加清晰、更加直观的实现相关信息的翻译自动化。
闫智萍:环环相扣,相辅相成 - 从模板到图表的自动化生成系统
临床试验中TLG的生成是一个复杂的过程,需要根据SAP和Mock Shell去开发SAS程序,将收集到的原始数据整理、分析得到结果,用于支持CSR的撰写。
运用多种编程语言,根据机器学习、NLP、正则法则、Fuzzy Match的规则,将模板到图表生成的全过程实现自动化智能化。首先建立模板库,每个模板都有一个唯一的识别码,基于每个模板会产生对应的元数据(metadata),另外有一个excel文件用于存放每个模板的识别码、标题、编码、输出文件名等信息,通过模板识别码可以将模板库中的模板与excel文件中对应的项目信息关联起来,产生项目的模板文件。运用机器学习技术,提取项目模板文件中的图表的标题的内容,通过Fuzzy Match产生SAS程序中宏参数的值,进一步根据SAS程序模板,产生项目层面的SAS程序,进而产生项目的TLG结果。与此同时,系统还会生成一个关联数据集,这个数据集包含了图表的编码、标题、SAS程序使用到的数据集名称,变量,以及数据筛选的条件,这些信息将被插入到数据审阅说明文件中,方便编程人员进行数据结果的溯源。系统也会自动产生一个数据流程的溯源图,用以检查图表的生成逻辑是否正确。
模板以及图表的生成都已经实现了自动化,以上产生的所有元数据和信息都将被保留下来进一步完善模板库和SAS程序模板,进一步优化整个工作流程。
智能化科技的创新和发展对我们工作和生活的影响是巨大的,这些解决方案的技术难度并不大,主要是思维方式的转变。我们的工作方式不能一直停留在过去的固定模式,需要运行新的技术去改变工作思路,提高工作效率,获得更为长久的生命力。希望通过今天的分享能提供给大家一些创新的启发。
-
2025-08-15
-
2025-07-11
-
2025-07-04
-
2025-06-27
-
2025-06-20
-
2025-06-13
-
2025-05-20
-
2025-04-18
-
2025-04-17
-
2025-04-11