初心 —— 为什么要重新发明医学本体?

生物医学知识正以前所未有的速度积累,但我们组织知识的方式,却仍停留在几个世纪前的语言习惯里。基因本体(GO)、KEGG 通路等经典体系,以静态、定性、人为共识的术语,为我们提供了共同语言——但它们无法回答三个根本问题:
- •
这个概念到底有多重要? 在疾病中,它解释了多少变异?
- •
这个概念在不同的语境下,是否意味着相同的东西? 在缺氧的肿瘤里,“线粒体功能障碍”与在神经退行性疾病中,是同一个基因程序吗?
- •
这个概念能自我更新吗? 还是必须等待下一次专家开会修订?
EvoSika 正是在这种“知识的瓶颈”中诞生的。它不是又一个本体数据库,而是一套让生物医学概念活起来的计算框架。我们相信,真正为 AI 驱动的科学与医学构建的“知识”,必须自身就是可计算、可进化、能在提问中重新定义自身的智能单元。
我们的初心,是完成一次从定性的词典到可度量的、语境敏感的、能进化的一等科学公民的范式转换,并由此重新连接中西医文明、加速药物发现、解开衰老的复杂密码。
哲学 —— 海森堡的幽灵在基因组里

“我们所观察到的,不是自然本身,而是暴露在我们提问方式下的自然。” —— 维尔纳·海森堡
这一物理学洞见,在生物学中同样深刻。
“线粒体功能障碍”这个概念,并不对应一个凝固不变的基因列表。当我们以“为什么肿瘤细胞能在缺氧下存活”去拷问它,它呈现为一组偏爱糖酵解代谢重编程的基因;当我们转而追问“为什么多巴胺神经元在帕金森病中早衰”,它又化身为侧重氧化损伤与线粒体自噬的基因网络。
EvoSika 将这种语境依赖性的精确呈现,称为“化身”(Avatar)。一个概念不是一个定义,而是一个适应不同提问方式的基因程序家族。我们的知识库,因此不再是回字的典,而是众生万象的化身谱系。
对焦 —— 海森堡没有告诉你的另一半
海森堡说的是:你看到的取决于你怎么问。但他没说的是——即使你问对了问题,如果你的棱镜是模糊的,你看到的还是糊的。
每个生物医学概念都是一面棱镜。基因集是焦距。焦距太短(基因太少),遗漏核心信号;焦距太长(基因太多),噪声淹没信号。只有恰好时,概念与疾病的真实关系才清晰呈现。
实证案例:CRP 的两种焦距
Conole 等人 2021 年在 Neurology 上发表的研究发现:同一个“慢性炎症”概念,用血清 CRP 蛋白浓度来表征(快照),与脑体积的相关性很弱(β ≈ -0.03);但用 CRP 指导下的 DNA 甲基化模型来表征(长曝光),相关性提升了 6.4 倍(β ≈ -0.20)。概念没变,变的只是“焦距”——甲基化的时间积分特性恰好匹配了“慢性”概念的时间尺度。
这暗示了一个更深刻的规律:不同组学(代谢物、蛋白质、转录组、甲基化)对应不同的“曝光时间”。慢性概念需要长曝光(甲基化),急性概念需要短曝光(蛋白质)。EvoSika 的工作,就是系统性地为每个概念找到它的最佳焦距和最佳曝光时间。
更重要的是,有些概念在所有焦距下都模糊——这不是调焦能解决的,而是概念本身需要被修正或重新定义。EvoSika 是第一台系统性的“概念对焦仪”:它不只告诉你看到了什么,还告诉你看到的是否清晰。
在对焦的基础上,我们进一步视每一个概念为活的、会学习的 Agent。每个 Agent 拥有自己的:
- →
记忆(Memory):核心基因集与过去的成功化身历史
- →
技能(Skills):因果涌现、简约性、泛疾病解释力、干预效力等可量化的内在能力,以及可根据任务自行微调的自适应权值
- →
生命力:在一个开放的评测竞技场中,根据真实世界数据的表现,竞争、存活、融合或被淘汰
这是一种知识即生命的哲学。知识的精确性不再来自权威的固定,而是来自在数据中持续被选择、被追问的生命过程。
技术路线 —— 概念生命体的建构与进化
EvoSika 的技术体系,围绕三个核心支柱构建:自适应 Agent、协同 Panel、开放进化生态。

1. 自适应的 Hallmark Agent
EvoSika 的基本单元是 Agent。每个 Agent 封装了一个生物医学概念(例如“衰老的干细胞耗竭”、“中医的脾气虚”),其内部结构为:
- →
基因集记忆(Gene Set Memory):通过基因集表征法标准化的核心基因集合,可追加进化历史与元数据。
- →
内在技能分数(Skill Scores):因果涌现指数、简约性(如 LASSO 精简度)、泛疾病解释力、干预效力四维定量得分。
- →
化身生成技能(Avatar Generation Skills):可插拔的计算模块,使 Agent 能针对具体任务自动生成加权化身。目前已标准化的技能包括:
- • tscore 方向性加权:借鉴熊江辉等的正/负效应加权思想,为每个基因赋予任务特异的方向与强度。
- • Semo 子网络提取:在蛋白质相互作用网络中,用化学靶标基因截取概念相关的可干预子网络。
- • 语境条件化:根据组织、疾病、分期等条件,自适应微调基因权重。
最终,每个 Agent 都成为一个通过问题激活的微型模型,输出的不是静态基因列表,而是该语境下最具解释力与干预价值的化身。
2. 协同 Panel 与 Agent 间关系
单独的概念只是砖石,概念之间的结构才是建筑。EvoSika 建立了一整套 Agent 间关系的量化语言:
- →
Panel 完备性与无冗余:将一组 Agent 定义为极小充分统计量,要求它们活性相互独立(低冗余)并联合逼近表型的全部信息。中医“五脏”便是这种优雅 Panel 的天然借喻。
- →
协同作用(Synergy):通过交互效应模型与信息分解,量化不同 Agent 化身之间 1+1>2 的预测能力。这为协同干预、药物组合策略提供直接的机制计算。
- →
依赖与级联:用条件互信息与结构学习,绘制 Agent 之间的有向支持/抑制网络。中医五行生克可以自然地作为这种依赖图的特例被表征与验证。
这使得 EvoSika 能够回答:一组概念是否能无冗余且完整地描述一种疾病?哪些概念必须联手才能触发某个关键病理过程?
3. 开放进化生态
本体的更新,不应依赖开会,而应依赖竞争。EvoSika 构建了一个开放的本体竞技场:
- →
任何人都可以提交新的概念 Agent 或现有 Agent 的新化身。
- →
所有这些计算候选者,将在公共数据集(TCGA、GEO、UK Biobank 等)上的统一评测任务下竞技。
- →
根据存活规则(如解释力提升、泛化能力、简约性),Agent 及其化身被自动排名、融合、剪枝。
最终,一个自我进化、可验证、能适应数据漂移的医学活本体,将由此生长出来。
展望 —— 当概念成为基础设施

EvoSika 的终极愿景,是成为 AI4Science 的概念操作系统,让生物医学研究者、AI 工程师与临床实践者,共享同一套可计算的“意义基本粒子”。
- •
AI 药物发现:靶点不再是基因列表,而是带干预效力得分和协同关系的语境化 Agent,它将重写从靶点识别到联合用药的设计逻辑。
- •
AI 长寿科技:衰老的 12 大标志将被解构成一个个动态的、可追踪的 Agent 面板。个体衰老图谱不再是单个时钟,而是一张可干预的概念活性地形图。
- •
文明互译:中医证候与西医标志物将首次在同一数学框架下被量化比较,古老的“心肝脾肺肾”将在基因表达与蛋白质网络上找到它们的现代化身,为循证中西医结合奠定计算基础。
EvoSika 正在证明:知识的生命力,不在它被写下的那一刻,而在它不断被追问、被重塑、被不同文明与疾病语境激活的过程之中。
我们邀请你,一起进入这个活本体时代。