做创新药立项、BD或竞争情报分析,最怕的是“盲人摸象”。要摸清一个赛道(如某个靶点或技术领域)的真实竞争格局,往往需要借助专业的商业数据库,如 Cortellis CCI、GlobalData、医药魔方 NextPharma、智慧芽新药库、丁香园 Insight 等。
但你是否想过,即便买了大牌数据库,你看到的可能仍不是全貌?我们近期对“小细胞肺癌”领域的管线进行了一次全面调研。在对各家数据进行人工清洗和去重后,我们发现该领域共有 1341条 管线。 然而,令人惊讶的是:没有任何一家数据库能独立覆盖所有管线,单一数据库的收录比例最低仅36%,最高也不过57%。

这意味着,如果你只依赖单一信源,可能会遗漏近一半的竞争情报。
-
对于 BD,这可能意味着错失一个几十亿的潜力标的;
-
对于 IP,这可能意味着忽视了致命的专利侵权风险;
-
对于 立项决策,这带来的机会成本和沉没成本是巨大的。
为什么各家数据库差异如此之大?
基于多年的调研经验,我们总结了造成数据库收录不全的两个核心原因:
-
每家数据库的资源不同,更新数据的方式不同,如:
1)Cortellis 一直采用“专家标引”的流程,强于欧美线下资源(学术会议、BD会议),但在中国缺乏本土标引团队;
2)Pharmaprojects 侧重临床,早期学术管线易遗漏;
3)魔方/智慧芽新药库则对中国本土管线收录更全,且能从早期专利中挖掘药物。
-
收录与索引原则不同:
1)部分数据库的新药情报会收录 Biosimilar:CCI、Globaldata、智慧芽新药库收录;魔方收录较少;
2)有的数据库还会收录仿制药:如Globaldata;
3)索引问题:有可能数据库收录了药物,但没有相对应的标签从而无法召回结果。
-
如 AdisInsight、Globaldata数据库没有“T细胞衔接器(TCE)”标签;
-
上述小细胞肺癌的竞争管线数据中,医药魔方收录了“altretamine、DXC-1002、GI-101”等药物,但并没有索引“小细胞肺癌”适应症。从而造成管线的缺失。
如何高效获得完整新药竞争情报
为了获得上帝视角的完整情报,行业内的最佳实践是:同时购买2-3家互补的数据库,然后进行管线数据的合并。

方法有了,但这带来了新的噩梦 —— 繁琐的数据清洗。 传统的合并工作需要耗费大量人力:以一家数据库为基准,手动对齐字段、翻译中英文、逐条Check去重。为了得到一张完美的Excel表,往往需要几天到一周的辛苦工作。
最近我们做了一个AI工具专门用于管线合并,药番茄 Integras:让管线合并工作从几天时间,压缩到只需几分钟。

用户只需将从各新药数据库(如上图 Cortellis,医药魔方、丁香园等)中下载完整excel,然后上传到药番茄Integras上,系统会帮助用户自动完成字段的匹配、药物去重工作,并支持数据导出,从而获得一整套完整的竞争管线。