深度学习-一篇入门

【代码】一个实例之-实现一个CNN识别手写数字

作者 : 老饼 发表日期 : 2022-11-05 16:49:29 更新日期 : 2024-11-28 09:12:23
本站原创文章,转载请说明来自《老饼讲解-深度学习》www.bbbdata.com



手写数字识别是一个简单的图像类别识别问题,也是图像类别识别的入门问题

本文展示如何使用CNN卷积神经网络来解决手写数字识别问题,以及具体的代码实现

通过本文,可以了解CNN具体是如何实现的,以及初步感受CNN在解决图像问题上的有效性





    01. CNN实现手写数字识别     





本节介绍手写数字样本数据,并针对手写数字预测问题设计CNN模型





      CNN实例-数据与问题说明    


手写数字数据集MNIST是pytorch的自带数据之一,利用torchvision.datasets.MNIST就可以下载
手写数字数据集MNIST包含了10个手写数字(0-9)的7W个样本(训练样本6W个,测试样本1W个)
MNIST样本示例如下:
 手写数字数据 
 每个样本是28*28的单通道灰度图片
下面我们构建一个CNN模型来实现对手写数字样本的预测







      CNN实现手写数字识别-模型设计   


由于手写数字的输入为28*28,是一个相对较小的输入
因此,我们如果使用CNN,只需简单地对其进行压缩就可以
 整体设计思路如下:
 CNN模型设计
如图所示,先用两个带池化的卷积层先将FeatureMap压缩到7×7,此时FeatureMap相对较小,
再用一个卷积将FeatureMap一次性压缩为1×1即可,同时,在整个过程中,将通道逐步提升为80,
最后通过两个全连接层来拟合输出,最终输出时经过softmax,就可以得到各个类别的概率
具体配置如下:
 CNN配置表
也就是不断使用卷积层和池化层来压缩特征,压缩到一定程度时,再使用全连接层来拟合输出
✍️笔者语:笔者设计的过程仅仅是简单地紧靠以下两点要求而已:                   
1.卷积部分的输出要压缩到"全连接层能接受的输入个数"             
2.卷积部分压缩特征的过程则遵循“FeatureMap在减小,通道在增大” 
事实上,在整个设计过程中,笔者并没有作过多的考虑,只是跟随感觉简单地设计一下而已








    02. CNN实现手写数字识别-代码实现     





本节使用pytorch实现CNN模型解决手写数字识别问题





     CNN实现手写数字识别-代码实现     


下面使用pytorch实现一个卷积神经网络,用于数字识别,
具体代码如下:
import torch
from   torch import nn
from   torch.utils.data   import DataLoader
import torchvision
import numpy as np

#--------------------模型结构--------------------------------------------
# 卷积神经网络的结构
class ConvNet(nn.Module):
    def __init__(self,in_channel,num_classes):
        super(ConvNet, self).__init__()
        self.nn_stack=nn.Sequential(
            #--------------C1层-------------------
            nn.Conv2d(in_channel,6, kernel_size=5,stride=1,padding=2),
            nn.ReLU(inplace=True),  
            nn.AvgPool2d(kernel_size=2,stride=2),
            # 输出14*14
            #--------------C2层-------------------
            nn.Conv2d(6,16, kernel_size=5,stride=1,padding=2),
            nn.ReLU(inplace=True),
            nn.AvgPool2d(kernel_size=2,stride=2),
            # 输出7*7
            #--------------C3层-------------------
            nn.Conv2d(16,80,kernel_size=7,stride=1,padding=0),
            # 输出1*1*80
            #--------------全连接层F4----------
            nn.Flatten(),          # 对C3的结果进行展平
            nn.Linear(80, 120),  
            nn.ReLU(inplace=True),                                   
            #--------------全连接层F5----------                      
            nn.Linear(120, num_classes)                       
            )
    def forward(self, x):
        p = self.nn_stack(x)
        return p

#-----------------------模型训练---------------------------------------
# 参数初始化函数
def init_param(model):
    # 初始化权重阈值                                                                         
    param_list = list(model.named_parameters())                                                # 将模型的参数提取为列表                      
    for i in range(len(param_list)):                                                           # 逐个初始化权重、阈值
        is_weight = i%2==0                                                                     # 如果i是偶数,就是权重参数,i是奇数就是阈值参数
        if is_weight:                                                                          
            torch.nn.init.normal_(param_list[i][1],mean=0,std=0.01)                            # 对于权重,以N(0,0.01)进行随机初始化
        else:                                                                                  
           torch.nn.init.constant_(param_list[i][1],val=0)                                     # 阈值初始化为0
  
# 训练函数                                                                                     
def train(dataloader,valLoader,model,epochs,goal,device):                                      
    for epoch in range(epochs):                                                                
        err_num  = 0                                                                           # 本次epoch评估错误的样本
        eval_num = 0                                                                           # 本次epoch已评估的样本
        print('-----------当前epoch:',str(epoch),'----------------')                           
        for batch, (imgs, labels) in enumerate(dataloader):                                    
		    # -----训练模型-----                                                               
            x, y = imgs.to(device), labels.to(device)                                          # 将数据发送到设备
            optimizer.zero_grad()                                                              # 将优化器里的参数梯度清空
            py   = model(x)                                                                    # 计算模型的预测值   
            loss = lossFun(py, y)                                                              # 计算损失函数值
            loss.backward()                                                                    # 更新参数的梯度
            optimizer.step()                                                                   # 更新参数
			# ----计算错误率----                                                               
            idx      = torch.argmax(py,axis=1)                                                 # 模型的预测类别
            eval_num = eval_num + len(idx)                                                     # 更新本次epoch已评估的样本
            err_num  = err_num +sum(y != idx)                                                  # 更新本次epoch评估错误的样本
            if(batch%10==0):                                                                   # 每10批打印一次结果
                print('err_rate:',err_num/eval_num)                                            # 打印错误率
        # -----------验证数据误差---------------------------                                   
        model.eval()                                                                           # 将模型调整为评估状态
        val_acc_rate = calAcc(model,valLoader,device)                                          # 计算验证数据集的准确率
        model.train()                                                                          # 将模型调整回训练状态
        print("验证数据的准确率:",val_acc_rate)                                                # 打印准确率    
        if((err_num/eval_num)<=goal):                                                          # 检查退出条件
            break                                                                              
    print('训练步数',str(epoch),',最终训练误差',str(err_num/eval_num))                         

# 计算数据集的准确率                                                                           
def calAcc(model,dataLoader,device):                                                           
    py = np.empty(0)                                                                           # 初始化预测结果
    y  = np.empty(0)                                                                           # 初始化真实结果
    for batch, (imgs, labels) in enumerate(dataLoader):                                        # 逐批预测
        cur_py =  model(imgs.to(device))                                                       # 计算网络的输出
        cur_py = torch.argmax(cur_py,axis=1)                                                   # 将最大者作为预测结果
        py     = np.hstack((py,cur_py.detach().cpu().numpy()))                                 # 记录本批预测的y
        y      = np.hstack((y,labels))                                                         # 记录本批真实的y
    acc_rate = sum(y==py)/len(y)                                                               # 计算测试样本的准确率
    return acc_rate                                                                               

#--------------------------主流程脚本----------------------------------------------       
#-------------------加载数据--------------------------------
train_data = torchvision.datasets.MNIST(
    root       = 'D:\pytorch\data'                                                             # 路径,如果路径有,就直接从路径中加载,如果没有,就联网获取
    ,train     = True                                                                          # 获取训练数据
    ,transform = torchvision.transforms.ToTensor()                                             # 转换为tensor数据
    ,download  = True                                                                          # 是否下载,选为True,就下载到root下面
    ,target_transform= None)                                                                   
val_data = torchvision.datasets.MNIST(
    root       = 'D:\pytorch\data'                                                             # 路径,如果路径有,就直接从路径中加载,如果没有,就联网获取
    ,train     = False                                                                         # 获取测试数据
    ,transform = torchvision.transforms.ToTensor()                                             # 转换为tensor数据
    ,download  = True                                                                          # 是否下载,选为True,就下载到root下面
    ,target_transform= None)                                                                   
                                                                                               
#-------------------模型训练--------------------------------                                   
trainLoader = DataLoader(train_data, batch_size=1000, shuffle=True)                            # 将数据装载到DataLoader
valLoader   = DataLoader(val_data  , batch_size=100)                                           # 将验证数据装载到DataLoader 
device      = torch.device('cuda' if torch.cuda.is_available() else 'cpu')                     # 设置训练设备  
model       = ConvNet(in_channel =1,num_classes=10).to(device)                                 # 初始化模型,并发送到设备  
lossFun     = torch.nn.CrossEntropyLoss()                                                      # 定义损失函数为交叉熵损失函数
optimizer   = torch.optim.SGD(model.parameters(), lr=0.01,momentum =0.9,dampening=0.0005)      # 初始化优化器
train(trainLoader,valLoader,model,1000,0.01,device)                                            # 训练模型,训练100步,错误低于1%时停止训练

# -----------模型效果评估--------------------------- 
model.eval()                                                                                   # 将模型切换到评估状态(屏蔽Dropout)
train_acc_rate = calAcc(model,trainLoader,device)                                              # 计算训练数据集的准确率
print("训练数据的准确率:",train_acc_rate)                                                      # 打印准确率
val_acc_rate = calAcc(model,valLoader,device)                                                  # 计算验证数据集的准确率
print("验证数据的准确率:",val_acc_rate)                                                        # 打印准确率







     运行结果    


运行结果如下:
-----------当前epoch: 0 ---------------- 
err_rate: tensor(0.7000)                 
验证数据的准确率: 0.3350877192982456     
-----------当前epoch: 1 ---------------- 
err_rate: tensor(0.6400)                 
验证数据的准确率: 0.3350877192982456     
-----------当前epoch: 2 ---------------- 
.......
.......
-----------当前epoch: 77 ----------------
err_rate: tensor(0.0100)                 
验证数据的准确率: 1.0                    
-----------当前epoch: 78 ----------------
err_rate: tensor(0.)                     
验证数据的准确率: 1.0                    
-----------当前epoch: 79 ----------------
err_rate: tensor(0.0200)                 
验证数据的准确率: 1.0                    
-----------当前epoch: 80 ----------------
err_rate: tensor(0.0100)                 
验证数据的准确率: 0.9982456140350877     
-----------------------------------------
训练步数 80 ,最终训练误差 tensor(0.0088) 
训练数据的准确率: 0.9982456140350877     
验证数据的准确率: 0.9982456140350877     
可以看到,模型的训练准确率与验证数据的准确率都达到了极高的水平,说明模型是有效的




    笔者语    


事实上,使用手写数字数据集MNIST作为CNN的实例,是没有什么说服力的
因为MNIST的输入只有28*28,它输入较小,直接使用三层MLP神经网络就可以达到不错的效果
而在这里我们使用MNIST作为CNN的实例,仅仅是因为入门初步学习,用于熟悉pytorch实现CNN的方式





好了,CNN实现手写数字识别的例子讲解就到这里了~







 End 






联系老饼