
作为深耕药物研发一线的猎药人,我们深知新药研发的艰辛:一款药物,从发现到上市,平均耗时10-15年,成本高达26亿美元,且临床试验阶段失败率超90%[1]。但今天,数智化技术正在重构这一格局——AlphaFold3.0能分钟级预测蛋白质与小分子结合构象,AI虚拟筛选可高效对接百万级化合物分子,其背后,电子实验记录本(ELN),让每一份实验数据都成为可复用的“数字资产”。
还有哪些软件工具和数据库可以加速药物研发?提高成功率?——本文系统解析小分子新药研发全流程的数智化方案,为研发负责人/首席学术官(CSO)、首席信息官(CIO)和核心科研人员提供从工具到战略的全景指南。
注:参考资料下方有81个常用医药研发数智化数据库/软件的介绍。
一、数智化:新药研发的必选项
医药研发数智化通过大数据、人工智能、云计算等技术,对研发全链条进行数据驱动的重构。其核心目标明确:让药物研发更高效(缩短周期)、更经济(降低成本)、更精准(提高成功率)。

2018年以前,解析一个药物靶点蛋白的四级结构需要几十人团队耗时数年;而2025年的AlphaFold3.0,能在几分钟内预测各类靶点和药物结合体(DNA/RNA/蛋白质/小分子)的结构,准确率超90%,直接取代了80%的传统结构生物学实验室工作。这种效率跃迁意味着:药物研发“速度快”比“规模大”更关键,未转型企业将面临“技术代差级淘汰”。
在小分子领域,这一变革更具颠覆性。传统高通量筛选需投入无数人力、物力、财力筛选数万到数百万化合物,而AI虚拟筛选可以在数日内完成同样的工作,而且AI生成模型可“从头设计”符合成药性的分子——未来,候选药物可能主要来自计算而非实验筛选,数智化程度将直接决定企业生存权。
2. 数据一直是核心竞争力,威力将被AI放大
研发数据的价值正在获得更多的重视:实验记录、散落在各软件系统和实验设备的数据、临床报告……这些“沉睡的数据”若能通过数智化工具激活,将成为创新的第二源泉。
其中,电子实验记录本(ELN)是实验室科研数据的核心,是AI for Science的基石——替代纸质记录本,避免书写潦草不易辨识、不好查找、不易重现、不易及时了解实验进展,人员流动易导致经验流失;ELN促进了实验记录的电子化,让实验记录易搜索、易查看、易重复利用、易审核、易合规,提升数据质量,经验更易被继承,提升管理下属人员数量,人走经验带不走,对AI友好(AI Friendly),可用于AI训练,其中失败的数据对AI的训练尤其有价值,有望打造超级AI科学家。国内外知名品牌有鹰谷电子实验记录本(InELN)、Benchling、eNotebook等[2, 3]

国际巨头已构建完整数智化体系:辉瑞通过“AI药物发现平台”将早期研发周期缩短40%;罗氏利用真实世界数据(RWD)平台加速临床试验入组;礼来推出基于联邦隐私计算(Federated Privacy Computing)及10亿美元价值数据的TuneLab AI共享型药物研发数智合作平台[4-7]。我国不少创新型企业已经拥抱数智化,如和记黄埔、和誉医药、益方生物;他们明白,若不加速转型,不仅难以抢占国际市场,甚至可能丢失国内份额——拒绝数智化的企业,就像过去几百年中拒绝使用电气的企业,99.9%会被淘汰[8-11]。
小分子新药研发是一场接力赛,还是一场长跑,从靶点识别到上市后监测,每个环节都需要数智化工具精准赋能。以下结合实际研发场景,解析各阶段的核心数智化技术与落地路径。

传统选择靶点依赖人工查文献和湿实验,耗时12-36个月。数智化技术通过“多维度数据融合”实现突破:
•技术核心:利用自然语言处理(NLP)解析数百万篇文献构建知识图谱,结合多组学数据(基因组、蛋白组)和AI预测模型,锁定与疾病强关联的潜在靶点。例如,通过AlphaFold预测靶点蛋白的“活性口袋”,提前判断小分子结合可能性。
•数据支撑:内部数据以ELN(电子实验记录本)为核心,记录基因敲除实验、动物模型药效数据;外部整合UniProt(蛋白序列)、OMIM(疾病基因)、KEGG(代谢通路)等数据库,形成“靶点-疾病-通路”关联网络。
•效率提升:将靶点验证周期压缩至6-12个月。英矽智能利用该方案研究特发性肺纤维化靶点,仅用3个月就确认TNIK为关键靶点,较传统方法缩短数年[12]。

获取具有潜在活性的Hit化合物是研发的起点,数智化让三种传统路径效率倍增:
通过AI专利分析相关工具(如鹰谷InPaper、晶泰PatSight)解析现有专利化合物的核心结构,自动生成SAR(构效关系),可用于规避化合物的专利保护范围(如改变取代基位置、调整环结构),并通过虚拟筛选验证活性。
基于分子对接、药效团模型等技术,对ZINC、PubChem等数据库的数百万化合物进行“预筛选”。例如,利用AutoDock Vina结合GPU加速,1天内可完成10万化合物对接;通过商用的碳硅智慧Inno-ADMET或免费的SwissADME、admetSAR等计算工具预测成药性,排除90%不符合理化性质的分子[13, 14]。
传统HTS需手动操作微孔板,数据记录易出错。数智化方案通过“黑灯实验室”实现全自动化:机器人完成移液、孵育、检测,数据直接传入ELN(电子实验记录本)并关联仪器原始文件(如HPLC图谱),贝叶斯优化算法(知名科研软件公司鹰谷信息已经发布贝叶斯优化智能体,结合DeepSeek,用户直接对话即可获得贝叶斯优化结果,不用学习贝叶斯优化如何使用)实时分析结果,动态调整后续筛选条件[15]。在Collaborations Pharmaceutical公司的案例中,数智化方案与2010年非数智化方案相比,筛选效率提升5倍,耗材成本降低40%[16, 17]。

Hit化合物需通过结构优化(SAR研究),从而发现Lead先导化合物,传统依赖“试错法”,耗时12-24个月。数智化通过“数据驱动优化”实现精准迭代,节省50%-80%研发时间:
•核心工具:深度生成模型(如ChemBERTa)基于现有Hit结构“生成”衍生分子,强化学习算法自动评估分子的活性、选择性、代谢稳定性;PyMOL、Discovery Studio可视化分子与靶点结合模式,指导结构修饰。
•数据整合:ELN(电子实验记录本)和CMS(化合物注册管理系统)成为SAR研究的“数据枢纽”——记录每轮化合物的合成路线、IC50值、毒性数据,同时通过API接口调取ChEMBL(已知活性数据)、BindingDB(结合亲和力)等外部数据,构建“结构-活性”预测模型。以色列理工学院Radinsky团队利用该方案,将Lead优化周期压缩至6-12个月,成药性预测准确率高达75%[18]。
Lead化合物需通过二次验证、体内外活性测试,一般在合成几百到几千个分子后,最终确定1-2个临床前候选化合物(PCC)。数智化技术在此阶段降低“实验室-临床产品”转化风险:
通过类器官芯片(替代部分动物实验)测试Lead化合物的组织特异性,结合AI模型预测脱靶效应(如激酶选择性)。ELN(电子实验记录本)记录每次验证的实验条件和结果(如细胞浓度、孵育时间、增殖速度),与CMS(化合物注册管理系统)继续联动构效关系,确保先导化合物优化基于科学数据,有数据可依。
利用数字动物模型(如Simulations Plus的GastroPlus和ADMET Predictor)预测药物在体内的吸收、分布、代谢、排泄(ADME),减少30-80%的动物实验量;自动化药代分析系统(如Sciex LC-MS)生成的数据直接传入ELN,与体外活性数据关联,快速锁定“药效-药代”平衡的PCC[19]。

CMC(化学、制造和控制)是药物从实验室走向临床的关键,数智化在此阶段聚焦“工艺稳定性”与“成本可控”:
通过机器学习优化合成路线:输入ELN记录的小试数据(如反应温度、催化剂用量、收率),算法自动推荐最优工艺参数(如连续流反应条件),将API合成收率从30%提升至70%,杂质控制精度达0.01%以下。诺华的连续制造技术正是通过该模式,将API生产周期缩短50%。
AI晶型预测工具(如晶泰科技Xtalgazer和BIOVIA Materials Studio)筛选稳定性最优的晶型,减少60%的实验量;制剂开发中,利用贝叶斯优化(Bayesian Optimization)、DOE(实验设计)软件结合ELN的处方筛选数据,快速确定片剂、胶囊的最佳辅料比例。
通过加速稳定性预测模型(基于质量源于设计,即Quality by Design,QbD框架),结合实时监测传感器数据(如湿度、温度),记录不同条件下的药物降解速率,提前6-12个月预测有效期,避免传统“长期等待”的时间浪费[20]。

传统毒理研究依赖大量动物实验,耗时6-12个月。经过数十年的摸索和总结,2022年美国通过了《FDA现代化2号法案(FDA Modernization Act 2.0)》,FDA在当年再次重申“减少、替代、优化”临床前动物试验,2023年FDA提出鼓励各种新方法学(new approach methodologies,NAMs),2025年提出逐步取消对单克隆抗体和其他药物研发中动物试验的要求,还发布了减少临床前安全性研究中动物试验的路线图[21-25]。数智化方案通过“替代模型+AI预测”,符合FDA趋势,实现新方法突破:
•3D器官芯片(如肝芯片、肾芯片)模拟药物对人体器官的毒性,数据实时传入ELN(电子实验记录本)并关联病理切片图像;
•利用Derek Nexus、ToxPrint、ToxGPS等工具,基于化合物结构预测遗传毒性、心脏毒性、皮肤-光学毒性等,准确率达70%以上[26];
•ELN整合毒理数据与前期PD/PK结果,生成“安全性-有效性”综合评估报告,为IND申报提供支撑。

临床试验是研发周期最长(3-8年)、成本最高、最怕失败的环节,数智化技术从“患者招募”到“数据管理”全流程优化:
•患者招募:利用AI工具分析电子病历(EMR)和真实世界数据,快速匹配符合入组标准的患者,将筛选时间缩短20-90%[27-29]或增加24-50%的可入组患者[30];
•数据采集:电子数据采集系统(EDC)替代纸质CRF,与CTMS(临床项目管理系统)、检测实验室的ELN(电子实验记录本)、eTMF(文档管理)联动,实现“临床数据- 实验数据”实时比对;
•风险控制:中央随机系统(IWRS)动态分配受试者,临床药物警戒系统(CT-PV)实时监测不良事件,AI算法提前预警高风险人群(如肝肾功能异常患者)。
国内外多项临床试验通过数智化方案,显著缩短了入组时间,并提高了数据核查效率[31-34]。

药物上市后需通过Ⅳ期研究监测长期安全性与有效性,数智化在此阶段构建“全生命周期管理”闭环:
•整合医院HIS系统、医保数据库等真实世界数据(RWD),利用TriNetX等平台分析药物在大人群中的疗效差异;
•EDC系统临床数据,为说明书修订提供依据;
•新型信号检测工具(如ARISg + 社交媒体 + NLP),从广泛覆盖的多种信息来源,提前识别不良反应,及时发出风险预警[35, 36]。
经过多团队实践验证,数智化技术对小分子新药研发的改进已实现量化:
•周期缩短:从靶点到上市的全流程周期从10-15年可以压缩至5-10年,其中靶点识别、化合物筛选等早期阶段效率提升50%-80%;
•成本降低:AI虚拟筛选减少70%的实体化合物合成量,临床试验患者招募成本降低30%,全流程研发成本降至5-10亿美元;
•成功率提升:临床前候选化合物进入Ⅱ期临床的成功率从传统的30%提升至50%以上,核心得益于数智化对“成药性”的精准预测。
数智化的终极目标,是让新药研发从“经验驱动”变为“数据驱动”,甚至“智能创造”:
•超级科学家数字员工:融合多学科知识的AI大模型,基于大量外部文献数据和内部ELN\EDC数据进行训练,可自主设计实验方案、分析数据并提出创新假设[37,38];
•全链条数据联邦:通过联邦隐私计算技术(Federated Privacy Computing),实现跨机构数据共享(如医院、企业、高校),打破“数据孤岛”,让研发不再受限于单一团队的资源[39, 40];
•动态优化的研发网络:从靶点到生产的每个环节都可通过实时数据反馈动态调整,例如临床试验中发现的不良反应可即时反馈给Lead优化团队,用于发现第二代新药分子[41-43]。
回望药物研发史,从青霉素的偶然发现到mRNA疫苗的快速上市,每一次突破都源于技术革新。今天,数智化的浪潮已至——电子实验记录本(ELN)和临床电子数据采集(EDC),作为药物研发实验室阶段和临床阶段的数据之“根”,承载着研发的每一份积累;AI、大数据作为“翼”,让创新突破时空限制。
对于医药科研人员而言,数智化不是遥不可及的概念,而是触手可及的工具:从明天的实验开始,用ELN、EDC规范记录每一个数据,用AI工具优化每一次筛选,我们终将让新药研发不再“九死一生”,让更多患者早日用上安全有效的好药。

注:参考资料下方有81个医药研发数智化代表性数据库/软件的介绍。
[1] Wong CH, Siah KW, Lo AW. Estimation of clinical trial success rates and related parameters. Biostatistics. (2019) 20:273–86.
https://pmc.ncbi.nlm.nih.gov/articles/PMC6409418/
[2] 2025年最好用的15款电子实验记录本ELN.
https://blog.csdn.net/2401_85099221/article/details/139111655
[3] CIAPH报告:谁是国内电子实验记录本老大?
https://zhuanlan.zhihu.com/p/1906784041052661448
[4] Roche Digitalization Day, Virtual IR Event,
https://assets.roche.com/f/176343/x/e60b81765d/20231129_digi-day.pdf
[5] 阿斯利康联手AI,全周期重塑癌症攻防格局. 健康凯歌微信公众号. 2025.7.14.
https://mp.weixin.qq.com/s/I8olc_Ti8d78whxcsJA5Dg
[6] Lilly TuneLab: Our AI/ML models at your fingertips.
https://tunelab.lilly.com/
[7] 礼来重磅出手!公开10亿美金数据库,解决AI制药最大难题.
https://www.sohu.com/a/934166685_121421892
[8] Jia H, Dai G, Su W, et al. Discovery, optimization and evaluation of potent and highly selective PI3Kγ−PI3Kδ dual inhibitors. J Med Chem. 2019;62:4936‐4948.
https://pubmed.ncbi.nlm.nih.gov/31033293/
[9]“AI”制药兴起,药企能否实现“弯道超车”?凯莱英药闻, 2022年, https://www.phirda.com/artilce_29153.html
[10] 益方生物的核心竞争力--人工智能筛选加快药品研发. https://caifuhao.eastmoney.com/news/1517059262
[11] Medidata与益方生物达成企业级合作,携手临床试验数字化前瞻性探索.
https://m.ofweek.com/medical/2022-09/ART-8200-1111-30575138.html
[12] 首款AI药物得到概念验证,英矽智能ISM001-055研发历程详解.
https://www.pharnexcloud.com/zixun/qy_21683
[13] Dhankhar P, Dalal V, Singh V, Tomar S, Kumar P. Computational guided identification of novel potent inhibitors of N-terminal domain of nucleocapsid protein of severe acute respiratory syndrome coronavirus 2. J Biomol Struct Dyn. 2022 Jun;40(9):4084-4099.
https://pubmed.ncbi.nlm.nih.gov/33251943/
[14] Oliveira LPS, Lima LR, Silva LB, Cruz JN, Ramos RS, Lima LS, Cardoso FMN, Silva AV, Rodrigues DP, Rodrigues GS, Proietti-Junior AA, Dos Santos GB, Campos JM, Santos CBR. Hierarchical Virtual Screening of Potential New Antibiotics from Polyoxygenated Dibenzofurans against Staphylococcus aureus Strains. Pharmaceuticals (Basel). 2023 Oct 9;16(10):1430.
https://pmc.ncbi.nlm.nih.gov/articles/PMC10610096/
[15] 减少实验次数!鹰谷贝叶斯优化智能体:小白都能用,告别学了就忘.
https://mp.weixin.qq.com/s/v3qrM5GFxJF_zr298bYEVA
[16] Ekins S, Freundlich JS, Hobrath JV, Lucile White E, Reynolds RC. Combining computational methods for hit to lead optimization in Mycobacterium tuberculosis drug discovery. Pharm Res. 2014 Feb;31(2):414-35. doi: 10.1007/s11095-013-1172-7.
https://pmc.ncbi.nlm.nih.gov/articles/PMC3946937/
[17] Ekins S, Kaneko T, Lipinski CA, Bradford J, Dole K, Spektor A, Gregory K, Blondeau D, Ernst S, Yang J, Goncharoff N, Hohman M, Bunin B. Analysis and hit filtering of a very large library of compounds screened against Mycobacterium tuberculosis. Molecular bioSystems. 2010;6:2316–2324. doi: 10.1039/c0mb00104j.
https://pubmed.ncbi.nlm.nih.gov/20835433/
[18] CFOM: Lead Optimization For Drug Discovery With Limited Data.
https://dl.acm.org/doi/abs/10.1145/3583780.3614807
[19] Deb S, Reeves AA. Simulation of Remdesivir Pharmacokinetics and Its Drug Interactions. J Pharm Pharm Sci. 2021;24:277-291.
https://pubmed.ncbi.nlm.nih.gov/34107241/
[20] 变革性创新 - 利用计算机建模推进药物开发. Patheon白皮书. 赛默飞.
https://www.patheon.cn/content/dam/patheon/zh/global/library/resources/whitepapers/wp-transformative-innovation-advancing-drug-development-using-in-silico-modeling.pdf
[21] FDA Modernization Act 2.0. September 29, 2022.
https://www.congress.gov/117/bills/hr2617/BILLS-117hr2617enr.pdf
[22] Focus Area: Novel Technologies to Improve Predictivity of Non-clinical Studies and Replace, Reduce, and Refine Reliance on Animal Testing. FDA. 09/06/2022.
https://www.fda.gov/science-research/focus-areas-regulatory-science-report/focus-area-novel-technologies-improve-predictivity-non-clinical-studies-and-replace-reduce-and
[23] Advancing Alternative Methods at FDA. 11/14/2023.
https://www.fda.gov/science-research/about-science-research-fda/advancing-alternative-methods-fda
[24] FDA Announces Plan to Phase Out Animal Testing Requirement for Monoclonal Antibodies and Other Drugs. April 10, 2025.
https://www.fda.gov/news-events/press-announcements/fda-announces-plan-phase-out-animal-testing-requirement-monoclonal-antibodies-and-other-drugs
[25] Roadmap to Reducing Animal Testing in Preclinical Safety Studies. FDA April 10, 2025.
https://www.fda.gov/media/186092/download?attachment
[26] Ahuja V, Adiga Perdur G, Aj Z, Krishnappa M, Kandarova H. In Silico Phototoxicity Prediction of Drugs and Chemicals by using Derek Nexus and QSAR Toolbox. Altern Lab Anim. 2024 Jul;52(4):195-204.
https://pubmed.ncbi.nlm.nih.gov/38910363/
[27] Ismail A, Al-Zoubi T, El Naqa I, Saeed H. The role of artificial intelligence in hastening time to recruitment in clinical trials. BJR Open. 2023 May 16;5(1):20220023. doi: 10.1259/bjro.20220023.
https://pmc.ncbi.nlm.nih.gov/articles/PMC10636341
[28] Cascini F, Beccia F, Causio FA, Melnyk A, Zaino A, Ricciardi W. Scoping review of the current landscape of AI-based applications in clinical trials. Front Public Health. 2022 Aug 12;10:949377.
https://pmc.ncbi.nlm.nih.gov/articles/PMC9414344
[29] Ni Y, Wright J, Perentesis J, Lingren T, Deleger L, Kaiser M, et al. Increasing the efficiency of trial-patient matching: automated clinical trial eligibility pre-screening for pediatric oncology patients. BMC Med Inform Decis Mak 2015; 15(1): 28.
https://pubmed.ncbi.nlm.nih.gov/25881112/
[30] Calaprice-Whitty D, Galil K, Salloum W, Zariv A, Jimenez B. Improving clinical trial participant prescreening with artificial intelligence (AI): a comparison of the results of AI-assisted vs standard methods in 3 oncology trials. Ther Innov Regul Sci. (2020) 54:69–74.
https://pubmed.ncbi.nlm.nih.gov/32008227/
[31] 降低50%研发成本,缩短30%试验时长,璞睿如何通过E2E引领临研创新?
https://bydrug.pharmcube.com/news/detail/efc49867d67b9c7b4847ef98d2a3d700
[32] 服务近20万名医学专家,惟同一辙数智化临床试验平台为什么受欢迎?
https://www.toutiao.com/article/7407384788291666472
[33] 安进、拜耳、诺华等巨头纷纷押注AI,临床试验3.0时代来了?
https://hub.baai.ac.cn/view/31057
[34] BMC:南方医院应用AI临床试验受试者筛选时间降低97.8%.
https://www.huimei.com/news/1709274134044.html (Wang, K., Cui, H., Zhu, Y. et al. Evaluation of an artificial intelligence-based clinical trial matching system in Chinese patients with hepatocellular carcinoma: a retrospective study. BMC Cancer 24, 246 (2024). https://doi.org/10.1186/s12885-024-11959-7)
[35] 复星医药:2023年度ESG暨可持续发展报告.
https://money.finance.sina.com.cn/corp/view/vCB_AllBulletinDetail.php?stockid=600196&id=9901342
[36] Nikfarjam A, Ransohoff JD, Callahan A, Jones E, Loew B, Kwong BY, Sarin KY, Shah NH. Early Detection of Adverse Drug Reactions in Social Health Networks: A Natural Language Processing Pipeline for Signal Detection. JMIR Public Health Surveill. 2019 Jun 3;5(2):e11264.
https://pubmed.ncbi.nlm.nih.gov/31162134/
[37] 2021,医药数字化将往何方?--CIAPH-2021中国医药健康行业数字化调研报告_选型指南_CIO发展中心官网
http://www.ileader.com.cn/html/2021/1/26/72066.htm
[38]《CIAPH第九届医药健康行业信息化高峰论坛》在成都成功召开 - 墨天轮
https://www.modb.pro/db/47678
[39] 国家数据局综合司关于组织开展2025年可信数据空间创新发展试点工作的通知. 国家数据局. 2025年.
https://www.gov.cn/zhengce/zhengceku/202504/content_7017511.htm
[40] 人工智能赋能医疗可信数据空间,共绘智慧医疗新蓝图. 北京卫健委. 2025年.
https://wjw.beijing.gov.cn/xwzx_20031/jcdt/202504/t20250416_4066298.html
[41] EFMC H2L最佳实践指南.
https://www.efmc.info/hit-to-lead
[42] 《人工智能与药物设计》化学工业出版社. 李洪林、郑明月主编
[43] 《药物设计学》化学工业出版社. 唐赟主编
代表性软件及数据库简介
上传PDF(专利、期刊)后,AI自动批量识别化学结构式、反应式、中英文化学名称,并导出 Excel/SMILES/MOL 等格式 。 支持全文关键字、结构式、反应式三种高级搜索,跨多篇文献秒级定位目标信息 。 可为个人或团队建立可全文/结构检索的自建数据库,目前免费试用。 官网:https://inpaper.integle.com | ||
《医药研发企业CSO、CIO最想知道的数智化路径(/医药研发会用到哪些软件和数据库?/医药研发数智化整体方案)》,2025年发布。
声明:化学加刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 电话:18676881059,邮箱:gongjian@huaxuejia.cn