数据预处理步骤：

1. 导入必要的库

NumPy：用于数学计算
Pandas：用于数据导入和管理

2. 导入数据集

通常处理.csv格式文件
使用Pandas的read_csv()方法读取数据
将数据分为自变量矩阵和因变量向量

3. 处理缺失数据

使用sklearn.preprocessing.Impute类
用平均值或中位数填充缺失值
确保不降低模型性能

SimpleImputer 是 scikit-learn 中用于处理数据集中缺失值的工具，它提供了多种填充缺失值的策略

基本语法

from sklearn.impute import SimpleImputer
import numpy as np

imputer = SimpleImputer(
    missing_values=np.nan,  # 指定缺失值的表示形式
    strategy="mean",       # 填充策略
    fill_value=None,       # 当strategy="constant"时使用的填充值
    copy=True             # 是否创建数据副本
)

参数详解

missing_values:

指定数据中表示缺失值的形式，默认是 np.nan
也可以设置为其他值，如 0 或 -1 等

strategy (填充策略):

"mean": 使用每列的均值填充（仅适用于数值数据）
"median": 使用每列的中位数填充
"most_frequent": 使用每列的众数（出现频率最高的值）填充，适用于分类数据
"constant": 使用 fill_value 参数指定的固定值填充

fill_value:

当 strategy="constant" 时使用的填充值
可以是标量值或字典（为每列指定不同的填充值）

copy:

如果为 True（默认），会创建数据的副本
如果为 False，会直接在原始数据上进行填充

4. 解析分类数据

使用sklearn.preprocessing.LabelEncoder
将文本标签("Yes"/"No")转换为数值
使数据适合数学计算

5. 拆分数据集

使用sklearn.crossvalidation.train_test_split()
常见比例：80%训练集，20%测试集
分别用于模型训练和验证

6. 特征缩放

使用sklearn.preprocessing.StandardScalar
解决不同特征的幅度和单位差异问题
通过标准化或Z值归一化处理

#第1步：导入库
import numpy as np
import pandas as pd

#第2步：导入数据集
dataset = pd.read_csv('../doc/Data.csv')
# 从数据集中提取特征值
# iloc用于通过位置索引获取数据
# [ : , :-1]表示获取所有行，除了最后一列的所有列
# .values将数据转换为NumPy数组
X = dataset.iloc[ : , :-1].values

# 从数据集中提取目标变量
# iloc用于通过位置索引获取数据
# [ : , 3]表示获取所有行，第4列（索引从0开始）
# .values将数据转换为NumPy数组
Y = dataset.iloc[ : , 3].values

print("第2步：导入数据集")
print("X")
print(X)
print("Y")
print(Y)

#第3步：处理丢失数据
# 如果您使用的是最新版本的 sklearn，请使用注释掉的代码行
# 导入SimpleImputer类，用于处理缺失值
from sklearn.impute import SimpleImputer

# 创建SimpleImputer对象，指定缺失值为np.nan，策略为"mean"表示用列均值填充缺失值
imputer = SimpleImputer(missing_values=np.nan, strategy="mean")

# 使用imputer对象对X数组的第1到第2列（不包括第3列）进行拟合
# 这一步计算出需要变换的列的均值，为后续填充做准备
imputer = imputer.fit(X[ : , 1:3])

# 对X数组的第1到第2列应用变换，即用均值填充这些列中的缺失值
# 这里实际上完成了对缺失值的替换，使得数据集可以用于后续的机器学习模型训练
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

print("---------------------")
print("第3步：处理丢失数据")
print("X")
print(X)

# 第4步：解析分类数据
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# 初始化LabelEncoder对象，用于编码分类变量
labelencoder_X = LabelEncoder()

# 对数据集X中的第一列（通常代表分类变量）进行编码转换
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])
print(X)

# 初始化ColumnTransformer对象，用于对指定列进行OneHot编码
# 这里对第一列进行操作，同时保留其他列不变
ct = ColumnTransformer([("", OneHotEncoder(), [0])], remainder='passthrough')
# 使用ColumnTransformer对象对数据集X进行转换，即将第一列的标签编码进一步转换为OneHot编码
X = ct.fit_transform(X)
# 初始化另一个LabelEncoder对象，用于编码目标变量Y
labelencoder_Y = LabelEncoder()
# 对目标变量Y进行编码转换
Y = labelencoder_Y.fit_transform(Y)

print("---------------------")
print("第4步：解析分类数据")
print("X")
print(X)
print("Y")
print(Y)

#第5步：拆分数据集为训练集合和测试集合
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)
print("---------------------")
print("第5步：拆分数据集为训练集合和测试集合")
print("X_train")
print(X_train)
print("X_test")
print(X_test)
print("Y_train")
print(Y_train)
print("Y_test")
print(Y_test)

#第6步：特征量化
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
print("---------------------")
print("第6步：特征量化")
print("X_train")
print(X_train)
print("X_test")
print(X_test)

醋醋百科网

Good Luck To You!

数据预处理_数据预处理英文

数据预处理步骤：

1. 导入必要的库

2. 导入数据集

3. 处理缺失数据

基本语法

参数详解

4. 解析分类数据

5. 拆分数据集

6. 特征缩放