机器学习输入数据应该如何标准化

Created2023-10-30|Updated2023-10-30|Tech机器学习

|Post View:

引言

效果展示

过程

选用指引

机器学习数据标准化的六种方法[1]

六种方法

if data == 'Non-Normal Distribution':
    try power_transform
elif data contains outliers:
    try robust_scale
else:
    try minmax_scale

if data == 'Normal Distribution':
    try scale, normalize

判断是否满足正态分布的方法[2,3,4,5]

是否归一化

在机器学习中，基因表达量通常使用测序数据的读取计数或归一化读取计数作为值。这些值可以通过 RNA 测序（RNA-seq）获得，这是一种使用高通量测序技术来识别和定量转录 RNA 的方法。然后，这些读取计数可以进一步归一化以消除实验偏差和技术偏差。

例如，常见的归一化方法包括 TPM（每百万转录本）和 FPKM（每千基因每百万映射）或 RPKM（每千基因每百万映射）。这些方法考虑了基因长度和测序深度的影响，使得不同样本之间的基因表达量可以进行比较。

然后，这些值可以用作机器学习模型的输入特征，例如用于预测疾病状态或疾病亚型。然而，由于基因表达数据通常具有高维度、噪声多和样本少的特点，因此在使用机器学习模型处理基因表达数据时，需要采取适当的特征选择和模型选择策略。此外，还需要进行适当的交叉验证来评估模型的性能。

在机器学习中，基因表达量通常使用测序数据的读取计数或归一化读取计数作为值。这些值可以通过 RNA 测序（RNA-seq）获得，这是一种使用高通量测序技术来识别和定量转录 RNA 的方法。然后，这些读取计数可以进一步归一化以消除实验偏差和技术偏差。

例如，常见的归一化方法包括 TPM（每百万转录本）和 FPKM（每千基因每百万映射）或 RPKM（每千基因每百万映射）。这些方法考虑了基因长度和测序深度的影响，使得不同样本之间的基因表达量可以进行比较。

然后，这些值可以用作机器学习模型的输入特征，例如用于预测疾病状态或疾病亚型。然而，由于基因表达数据通常具有高维度、噪声多和样本少的特点，因此在使用机器学习模型处理基因表达数据时，需要采取适当的特征选择和模型选择策略。此外，还需要进行适当的交叉验证来评估模型的性能。

结论

引用

Author: Yezi

Link: https://blog.yeyeziblog.eu.org/2023/10/30/Tech/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E8%BE%93%E5%85%A5%E6%95%B0%E6%8D%AE%E5%BA%94%E8%AF%A5%E5%A6%82%E4%BD%95%E6%A0%87%E5%87%86%E5%8C%96/

Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

python 机器学习

Related Articles

基于Zotero+python的参考文献格式生成方案

单细胞分析过程中的稀疏矩阵删减

机器学习中的数据归一化

Comment

Loading the Database