下面这份清单用于快速判断你的数据是否适合做 AI/机器学习建模分析,并把“建模能不能做”落到可执行的信息准备上。
如果你愿意,也可以直接把这些信息(脱敏概况即可)发给我们:我们会基于同一份清单提供免费可行性评估与建模路线建议(见
/contact)。
1. 先把结局说清楚(比算法更重要)
建模工作的第一步不是选模型,而是明确“你要预测什么”:
- 结局定义:阳性/事件是什么?由什么标准判定?(诊断标准、阈值、时间窗)
- 时间窗:用哪个时间点作为“起点”?预测窗口多长?(尤其是生存/时间结局)
- 删失与随访:随访是否不完整?删失是否与结局相关?(常需要敏感性分析)
2. 样本量与事件数:决定可达到的稳健程度
很多临床课题会遇到单中心、小样本、随访缺失等现实约束。评估时至少要掌握:
- 总样本量、事件数/阳性数、类别分布(多分类尤其重要)
- 是否多中心(中心数、各中心样本占比)
- 是否存在明显的类别不平衡(例如阳性极少)
我们在小样本项目上会特别关注变量稳定性与不确定性刻画(交叉验证、置信区间等),避免“看起来很高但不可信”的结果。
3. 变量口径与缺失:很多失败不是模型,而是数据
请准备一份变量清单(字段级别),并尽量给出:
- 字段类型(连续/分类/文本/时间序列)
- 缺失比例概况(大致区间即可)
- 是否存在“事后信息”(可能导致信息泄露,例如出院后才产生的变量用于入院时预测)
- 关键变量是否可解释(如果要写论文讨论机制,这点很重要)
4. 偏倚与混杂:审稿会问的,不要等到最后才补
评估时建议主动回答:
- 纳排标准是否会造成选择偏倚?
- 数据采集是否一致(同一指标不同机器/不同批次/不同时间段)?
- 是否存在治疗路径变化、指南变化等时间漂移?
5. 评估口径:区分度只是起点
很多项目只看 AUC,但论文往往还需要:
- 校准:预测概率是否可信(校准曲线、Brier 等)
- 不确定性:置信区间/波动范围(交叉验证/自助法)
- 可解释性:SHAP、PDP/ICE 等用于解释关键变量影响
- (可选)临床可用性:阈值策略与净获益等决策支持口径
6. “可复现 + 投稿材料”要提前规划
如果目标是发表,建议在一开始就确认交付标准:
- 图表能否导出 PNG/SVG/PDF,是否提供二次绘图原始数据
- 是否记录关键步骤、参数与中间结果,便于补分析与复核
- 方法描述与结果口径是否能直接用于写作
Scienith 的交付强调“可复跑、可补分析、可编辑图表”(详见 XeleFlow 交付标准)。
7. 一句话自测:你现在缺的是什么?
如果你能提供下面四项的脱敏概况,通常就足够进入可行性评估:
- 研究目标 + 结局定义(含时间窗)
- 样本量概况(总数、事件/阳性数、中心数)
- 变量清单 + 缺失概况
- 数据来源(病历/检验/影像/病理/组学/随访等)
下一步:免费可行性评估
把以上信息发到 /contact 对应的公众号/企微渠道(或邮件 contact@scienith.com),我们会给出:
- 可行性判断与关键风险点
- 建模路线建议(任务类型、评估口径)
- 交付范围与时间线建议