评测框架

EvoSika 采用四层评测架构,从因果涌现到干预效力,全面评估基因集的科学与临床价值。

Hallmarks Engineering Testbed Architecture

Module 1 — 因果涌现

评估概念是否比单个基因展现更强的疾病关联。通过因果涌现指数(CE Index)量化整体涌现效应,验证基因集是否真正实现了「1+1>2」的涌现效应。

核心指标:CE Index(因果涌现指数)、AUC(疾病分类精度)

Module 2 — 简约性

评估基因集能否以最少的变量达到同等的疾病分类效果。通过 ElasticNet 正则化(L1+L2)自动选择关键基因,评估简约性得分。

核心指标:Parsimony Score(简约性得分)、非零系数数量

Module 3a — 泛疾病解释力

评估基因集是否对多种疾病具有普适的解释力。通过跨疾病数据集(乳腺癌、肠癌、抑郁症等)验证其泛化能力。

核心指标:Universal Disease Score(泛疾病得分)、跨疾病 AUC 均值

Module 3b — 干预效力

评估基因集是否能响应有效的干预措施。通过真实 GEO 临床试验数据(叶酸、黄酮醇、二甲双胍等)验证干预响应能力。

核心指标:Universal Intervention Score(泛干预得分)、干预前后显著性

进化机制

EvoSika 的进化引擎借鉴梅花鹿角脱落再生的自然智慧,实现理论的持续迭代优化。

ACCEPT
角再生

适应度超过阈值(≥0.5),新概念直接加入基因集库

MERGE
角融合

与已有 Agent 高度相似(Jaccard≥0.8),融合为新版本

SPLIT
角分叉

概念内部存在明显子结构,分裂为多个子 Agent

REPLACE
角替换

优于已有相似 Agent(Jaccard 0.3-0.8),替换旧版本

REJECT
角脱落

适应度不足,概念被淘汰

分布式计算工具包

下载 EvoSika 计算包,在本地运行评测任务,提交结果到排行榜。

支持 Windows / macOS / Linux

计算包包含:评测脚本 + 参考数据集 + SHA-256 基因集指纹

1下载计算包
2运行评测
3提交结果
$ pip install evosika-compute
$ evosika evaluate --geneset my_genes.txt
$ evosika submit --result output.json

四维评测体系

Data Forest - Agents tracking root causes
Module 1

Layer 1:因果涌现

这个概念是否真的与疾病因果相关?通过因果涌现指数(CE Index)量化宏观涌现效应——Hallmark级特征比单个基因强出最高9.7个数量级。

Module 2

Layer 2:简约性

用这个基因集表征这个概念,是否以最少变量达到同等预测精度?通过LASSO/ElasticNet评估精简度得分。

Module 3a

Layer 3:泛疾病解释力

这个概念是否对多种疾病具有普适解释力?跨10种年龄相关疾病数据集验证。

Module 3b

Layer 4:可干预效力

这个概念能否区分有效干预和无效干预?通过GEO真实临床试验数据,验证概念在干预前后的显著变化和疗效中介效应。

三步参与

1

定义你的概念

输入一个生物学概念名称(如"线粒体功能障碍"、"气虚"),提交你认为最能表征该概念的基因集合。系统自动注册为标准化的Hallmark Agent。

2

AI自动评测

你的Agent进入Hallmarks Engineering Testbed评测队列。离线评测引擎在公开数据集上自动执行四维评测(因果涌现、简约性、泛疾病解释力、可干预效力)。预计12小时内完成。

3

查看排名与进化

评测完成后,你的Agent出现在公开排行榜上。在每个疾病的榜单、每个评测维度的分榜、以及跨疾病综合总榜中,你可以看到它的精确排名。优胜者保留,缺陷者淘汰,两个优秀概念可自发融合。