引言

效果展示

过程

选用指引

机器学习数据标准化的六种方法[1]

六种方法

1
2
3
4
5
6
7
8
9
if data == 'Non-Normal Distribution':
try power_transform
elif data contains outliers:
try robust_scale
else:
try minmax_scale

if data == 'Normal Distribution':
try scale, normalize

判断是否满足正态分布的方法[2,3,4,5]

是否归一化

在机器学习中,基因表达量通常使用测序数据的读取计数或归一化读取计数作为值。这些值可以通过 RNA 测序(RNA-seq)获得,这是一种使用高通量测序技术来识别和定量转录 RNA 的方法。然后,这些读取计数可以进一步归一化以消除实验偏差和技术偏差。

例如,常见的归一化方法包括 TPM(每百万转录本)和 FPKM(每千基因每百万映射)或 RPKM(每千基因每百万映射)。这些方法考虑了基因长度和测序深度的影响,使得不同样本之间的基因表达量可以进行比较。

然后,这些值可以用作机器学习模型的输入特征,例如用于预测疾病状态或疾病亚型。然而,由于基因表达数据通常具有高维度、噪声多和样本少的特点,因此在使用机器学习模型处理基因表达数据时,需要采取适当的特征选择和模型选择策略。此外,还需要进行适当的交叉验证来评估模型的性能。

在机器学习中,基因表达量通常使用测序数据的读取计数或归一化读取计数作为值。这些值可以通过 RNA 测序(RNA-seq)获得,这是一种使用高通量测序技术来识别和定量转录 RNA 的方法。然后,这些读取计数可以进一步归一化以消除实验偏差和技术偏差。

例如,常见的归一化方法包括 TPM(每百万转录本)和 FPKM(每千基因每百万映射)或 RPKM(每千基因每百万映射)。这些方法考虑了基因长度和测序深度的影响,使得不同样本之间的基因表达量可以进行比较。

然后,这些值可以用作机器学习模型的输入特征,例如用于预测疾病状态或疾病亚型。然而,由于基因表达数据通常具有高维度、噪声多和样本少的特点,因此在使用机器学习模型处理基因表达数据时,需要采取适当的特征选择和模型选择策略。此外,还需要进行适当的交叉验证来评估模型的性能。

结论

引用

  1. 机器学习数据标准化的六种方法 - 知乎
  2. Python 篇 | 正态性检验方法详解 - 知乎
  3. 用 Python 检验数据正态分布的几种方法 - 知乎
  4. scipy.stats.normaltest — SciPy v0.14.0 Reference Guide
  5. 二元对数正态分布 (bivariate lognormal distribution) 的几个性质_bivariate normal-CSDN 博客
  6. Python Scipy stats.normaltest() 用法及代码示例 - 纯净天空
  7. 【答疑解惑-II】——不满足正态分布的数据到底能不能用 Gaussian process 的方法呢? - 知乎