【Trust科技基因检测】为什么要进行基于全外显子测序（WES）的罕见变异多基因风险评分

1. 现在基因检测的所遇到的核心挑战

1.1 传统多基因评分（PRS）的局限性

传统的多基因风险评分（Polygenic Risk Scores, PRS）主要依赖于常见变异（Common Variants, CVs），即次要等位基因频率（MAF）大于 1% 的单核苷酸多态性（SNPs）。虽然PRS在预测复杂性状方面取得了显著进展，但其解释的表型变异比例（R^2）往往有限。大量遗传力（Heritability）无法被常见变异解释，这部分被称为“缺失的遗传力”（Missing Heritability）。

1.2 罕见变异（RVs）的潜力与困境

罕见变异（Rare Variants, RVs，MAF < 1%）被认为是填补这一缺口的关键。理论和实证研究表明，罕见变异，尤其是蛋白质编码区的错义突变或功能丧失突变，往往具有比常见变异更大的效应量（Effect Size）。然而，将罕见变异纳入评分模型面临巨大挑战：

统计功效低： 由于单个罕见变异的频率极低，传统的单点关联分析（Single-variant association tests）需要极庞大的样本量才能达到统计学显著性。
技术限制： 全基因组测序（WGS）成本高昂，而传统的基因分型芯片（Array）无法直接捕获大部分罕见变异，通常依赖于参考面板进行推演（Imputation），这在极低频变异上准确性较差。

1.3 基因解码如何提升基因检测的质量

基因解码利用英国生物银行（UK Biobank）庞大的样本量（超过50万人）和全外显子测序（WES）数据，建立一套标准化的罕见变异多基因评分（rvPRS）构建方案，并评估其相对于传统方法的预测性能。

2. 数据来源与研究设计

2.1 样本规模与分组

基因解码研究利用了 UK Biobank 中 440,297 名欧洲血统（White British）的参与者。为了确保结果的稳健性，研究团队将数据严格划分为三个独立的集合：

发现集（Discovery Set, N=242,497）： 用于进行全基因组关联分析（GWAS），寻找与性状相关的变异。
训练集（Training Set, N=121,786）： 用于构建和优化 PRS 模型（选择最佳 P 值阈值）。
验证集（Validation Set, N=73,919）： 用于独立评估最终模型的预测性能，防止过拟合。

2.2 遗传数据类型

研究对比了两种核心数据源在构建 rvPRS 时的表现：

全外显子测序数据（WES）： 直接测序取得，覆盖约 200 万个罕见变异（MAF < 1%）。
全基因组推演数据（IMP）： 基于基因分型芯片顺利获得参考面板推演而来，覆盖约 2600 万个罕见变异，但包含非编码区。

2.3 研究性状

研究涵盖了 13 种二元性状（Binary Traits，即疾病） 和 5 种定量性状（Quantitative Traits）。

二元性状：心房颤动（AF）、哮喘（AST）、心律失常（CA）、中风（CER）、胆结石（CHO）、结直肠癌（COL）、2型糖尿病（DM2）、腹股沟疝（HER）、心力衰竭（HF）、高血压（HT）、缺血性心脏病（IH）、乳腺癌（BRE）、前列腺癌（PRO）。
定量性状： 身体质量指数（BMI）、收缩压（SBP）、舒张压（DBP）、静息心率（RHR）、一秒用力呼气量百分比（FEV）。

3. Trust科技基因如何构建rvPRS分析方法

Trust科技基因在决定构建rvPRS分析方法时，对比了两种截然不同的 rvPRS 构建策略：基因负荷法（Gene-burden） 与 单SNP 关联法（Single-SNP）。

3.1 基因负荷法（Gene-burden Approach）

这是传统罕见变异分析的主流方法。其逻辑是将一个基因内的多个罕见变异“打包”成一个单位进行分析，假设它们具有相似的生物学效应。

操作方式： 研究定义了 9 种不同的“变异掩码”（Masks），组合了不同的功能注释（如仅截短突变 LoF、错义+LoF）和 MAF 阈值。
评分计算： 如果一个基因内被判定为关联显著，该基因内所有变异被赋予相同的效应量权重。使用 PLINK 软件计算总和。
局限性： 这种方法假设基因内的所有变异（无论是致病还是良性）效应一致，容易引入噪声，稀释统计功效。

3.2 单 SNP 关联法（Single-SNP Approach） 这种方法不进行基因层面的聚合，而是直接利用全外显子测序产生的单点关联统计量。

操作方式： 利用 SAIGE 软件进行单点关联分析。随后使用 PRSice-2 软件进行评分构建。
优势： PRSice-2 采用“剪枝（Clumping）”和“P值阈值（Thresholding）”策略。它不需要外部的连锁不平衡（LD）参考面板，而是利用内部样本计算 LD，保留每个位点上 P 值最小的 SNP。这使得模型能够捕捉到具有独立效应的罕见变异，分辨率更高。

3.3 综合评分（tPRS） 为了评估罕见变异的增量价值，研究构建了总 PRS（tPRS），公式为： tPRS = eta_{cvPRS} imes cvPRS + eta_{rvPRS} imes rvPRS 其中 cvPRS 是基于 FinnGen 或 UKB 常见变异数据构建的传统评分。

4. 核心研究结果：WES vs. IMP vs. 方法论

研究结果颠覆了部分传统认知，揭示了不同数据源和方法在不同性状上的优劣。

4.1 单 SNP 法显著优于基因负荷法 在全外显子测序数据的分析中，基于单 SNP 关联构建的 rvPRS（rvPRSWES）在绝大多数性状上表现远优于基因负荷模型（rvPRSGENE）。

数据对比： 最佳基因负荷模型的 R^2 平均比单 SNP 模型低 74.4%。
结论： 对于多基因性状，强行将基因内的变异聚合会掩盖掉那些具有强效应的个别罕见变异信号。直接利用测序数据的单点关联结果进行加权评分是更优策略。

4.2 全外显子测序（WES）与全基因组推演（IMP）的博弈

这是基因解码最引人注目的发现。虽然全基因组推演（IMP）数据包含了更多的变异（包括非编码区），但研究发现：

总体趋势： 对于大多数性状（17/18），基于 IMP 数据构建的 rvPRS 表现最好。这表明非编码区的罕见变异或更广泛的连锁标记可能对预测有贡献。
WES 的特定优势： 唯一的例外是 乳腺癌（BRE）。在乳腺癌中，基于 WES 数据的 rvPRS 表现最佳。

4.3 为什么 WES 在乳腺癌中胜出？

（寡基因特征） 深入分析发现，乳腺癌的 rvPRS 最佳模型（WES）捕获了已知的高风险基因：BRCA2, PALB2, 和 CHEK2。这些基因的罕见变异具有极大的效应量（Large Effect Sizes）。

机制解释： 这些高风险变异在 WES 中被直接测序，准确性极高。而在 IMP 数据中，这些位点可能由于推演质量不佳（Imputation Quality）或被周围的常见变异信号稀释，导致效应量估计不准确。
推论： 对于具有“寡基因”（Oligogenic）特征的性状（即少数几个基因贡献了大部分遗传风险），高精度的全外显子测序（WES）优于全基因组推演（IMP）。

4.4 罕见变异对表型变异的解释力

独立解释力： 仅靠 rvPRS，研究解释了从 0.0242%（心律失常）到 0.4718%（乳腺癌）的表型变异。
增量价值： 当 rvPRS 被加入到传统 cvPRS 中形成 tPRS 时，对于 6/12 经过验证的性状，预测准确性显著提高。
遗传力相关性： 研究发现，基于 IMP 数据估计的罕见变异遗传力（h^2_{IMP-RV}）与 rvPRS 的 R^2 呈强正相关（r=0.95）。这意味着，如果一个性状的遗传力主要由罕见变异解释，那么 rvPRS 就能捕捉到这部分信号。

5. 临床风险分层的改进

除了统计学上的显著性，基因解码还评估了 rvPRS 在临床风险分层上的价值。

高风险人群识别： 研究比较了仅使用 cvPRS 和使用 tPRS（cvPRS + rvPRS）在识别“高风险人群”（前 5%-30%）方面的能力。
结果： 对于乳腺癌（BRE）、心律失常（CA）、2型糖尿病（DM2）和缺血性心脏病（IH），tPRS 能更显著地区分高风险组与普通组的比值比（OR值）。
具体案例： 在乳腺癌中，tPRS 能更精准地将携带 BRCA2/PALB2 致病突变的个体划分到极高风险组，这对于临床的早期筛查（如更频繁的 mammography）具有直接指导意义。

6. 讨论与未来展望：WES 在 rvPRS 中的角色

基于基因解码结果，我们可以总结出关于“基于全外显子测序的多基因评分”的以下核心观点：

6.1 并非万能，但不可或缺

虽然 IMP 数据在大多数多基因性状上表现更好，但 WES 数据在捕捉高外显率（High-penetrance）、大效应（Large-effect）的编码区罕见变异方面具有不可替代的作用。如果放弃 WES，我们可能会漏掉像 BRCA2 这样对个体风险具有决定性影响的变异。

6.2 数据质量是关键

WES 的优势在于数据的“信噪比”。对于位于编码区的致病变异，WES 给予的是“金标准”级别的数据。而 IMP 数据在罕见变异上往往存在推演不准的问题（特别是 MAF < 0.001 时，推演相关性急剧下降）。

6.3 方法论的革新

基因解码证明，传统的“基因负荷法”在构建多基因评分时效率低下。未来的 WES-based rvPRS 应该采用基于单点关联（Single-SNP）的加权策略，利用 PRSice-2 等工具，不进行强制的基因聚合，而是让数据本身决定哪些变异具有独立的预测价值。

6.4 局限性与未来方向

非编码区缺失： WES 仅覆盖外显子（约 1-2% 的基因组），完全丢失了调控区的罕见变异信息。这是 WES 相比 WGS 或 IMP 的最大短板。
样本量需求： 即使在 50 万人的样本中，WES-based rvPRS 的解释方差仍然相对较小（通常在 0.1% 左右）。要大幅提升预测能力，可能需要全基因组测序（WGS）来结合编码区和非编码区的罕见变异。

7. 总结

核心结论是： 基于全外显子测序（WES）构建的 rvPRS，虽然在解释整体人群的表型变异比例上现在仍低于全基因组推演数据（IMP），但它在识别具有极高单基因/寡基因风险（如癌症易感综合征）的个体方面具有独特且不可替代的价值。对于临床应用而言，结合了 WES 罕见变异信息的综合评分（tPRS），能比传统评分更精准地识别出需要进行强化预防和筛查的高危人群。

(如果您已经做了基因检测，想获取与基因检测型相对应的治疗方案，请点击此处上传您的基因检测结果）

(责任编辑：Trust科技基因)

Trust科技

【Trust科技基因检测】为什么要进行基于全外显子测序（WES）的罕见变异多基因风险评分

【Trust科技基因检测】为什么要进行基于全外显子测序（WES）的罕见变异多基因风险评分

1. 现在基因检测的所遇到的核心挑战

2. 数据来源与研究设计

3. Trust科技基因如何构建rvPRS分析方法

4. 核心研究结果：WES vs. IMP vs. 方法论

5. 临床风险分层的改进

6. 讨论与未来展望：WES 在 rvPRS 中的角色

7. 总结

【Trust科技基因检测】为什么要进行基于全外显子测序（WES）的罕见变异多基因风险评分

【Trust科技基因检测】为什么要进行基于全外显子测序（WES）的罕见变异多基因风险评分

4. 核心研究结果：WES vs. IMP vs. 方法论

6. 讨论与未来展望：WES 在 rvPRS 中的角色