Quiet
  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我

bajiu

  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我
Quiet主题
  • python
  • 深度学习

用PyTorch实现的手写数字识别(一)

bajiu
青年大学习

2024-02-29 17:30:00

PyTorch是一个开源的机器学习库,广泛用于计算机视觉和自然语言处理等领域,因其易于学习和使用而受到许多研究者和开发者的青睐。

在开始之前,有几个基本的概念,先了解一下:

深度学习

深度学习是机器学习的一个分支,它通过模拟人脑的工作原理来处理数据和识别模式。深度学习的核心是深度神经网络,这种网络含有多个处理层,可以自动学习数据的高级特征。与传统机器学习相比,深度学习不需要人工设计特征,它能够直接从原始数据中自动学习和提取特征。

神经网络

神经网络由一系列的层构成,每层包含多个神经元。每个神经元接收输入,对输入进行加权求和,然后通过一个激活函数来决定是否将信号传递给下一层。神经网络的基本类型包括:

  • 前馈神经网络(Feedforward Neural Networks):数据在这种网络中只向前传递。它们通常用于简单的分类和回归任务。
  • 卷积神经网络(Convolutional Neural Networks, CNNs):特别适用于处理图像数据。通过卷积层,CNN能够捕捉到图像中的空间层次结构。
  • 循环神经网络(Recurrent Neural Networks, RNNs):适用于处理序列数据,如文本或时间序列数据。RNN能够保持状态(记忆之前的输入),这使得它们在处理连续数据时非常有效。

张量(Tensor)

张量是一个多维数组,是深度学习中处理和存储数据的主要形式。在PyTorch中,张量用于表示输入数据、模型的参数等。张量可以是一个数(0D张量)、一维数组(1D张量)、二维数组(2D张量),或者更高维度的数组。

自动微分(Autograd)

自动微分是深度学习中的一个关键概念,它允许框架自动计算神经网络中参数的梯度。这是通过跟踪计算图和使用链式法则来实现的。在PyTorch中,torch.autograd提供了自动求导的功能,这使得模型训练过程(特别是梯度下降法)变得简单高效。

手写数字识别

这是一个经典的入门级项目,涉及到了数据加载、模型构建、训练和评估的基本流程。

下面是使用PyTorch构建一个简单的神经网络进行手写数字识别的基本步骤:

1.下载并加载数据集:使用torchvision来下载MNIST数据集,并进行基本的预处理(如归一化)。

import torch
import torchvision
import torchvision.transforms as transforms

transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])

trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)

testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False)

2.定义模型结构:使用torch.nn模块定义一个简单的前馈神经网络。

import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(28*28, 128)  # 28*28是图片大小,128是隐层神经元数量
        self.fc2 = nn.Linear(128, 64)
        self.fc3 = nn.Linear(64, 10)  # 10个输出对应10个类别

    def forward(self, x):
        x = x.view(-1, 28*28)  # 展平图片
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return F.log_softmax(x, dim=1)

net = Net()

3.定义损失函数和优化器:

选择损失函数和优化器:对于分类任务,常用的损失函数是交叉熵损失。优化器用于更新模型的权重,常用的有SGD和Adam。

import torch.optim as optim

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9)

4.训练模型:

训练循环:在每个epoch中,模型会遍历训练数据集,计算损失并更新权重。

for epoch in range(10):  # 循环遍历数据集多次

    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data

        optimizer.zero_grad()

        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
    print(f"Epoch {epoch+1}, Loss: {running_loss/len(trainloader)}")
print('Finished Training')

5.评估、生成模型:

  • 测试模型:使用测试数据集评估模型性能,计算准确率。
  • 生成模型:要将训练好的模型保存为.pth文件,可以使用PyTorch的torch.save方法。这个方法允许你将模型的状态字典(包含模型参数)保存到一个文件中。未来,你可以通过加载这个状态字典来重建或使用这个模型,而不需要重新训练。
correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print(f'Accuracy of the network on the 10000 test images: {100 * correct / total}%')


# 保存模型状态
torch.save(net.state_dict(), 'model.pth')
print('Saved model to model.pth')

6.使用模型

# 加载模型状态
model = Net()
model.load_state_dict(torch.load('model.pth'))
model.eval()
# 预测函数
def predict_image(image_path, model):
    image = Image.open(image_path)
    transform = transforms.Compose([
        transforms.Resize((28, 28)),
        transforms.Grayscale(num_output_channels=1),
        transforms.ToTensor(),
        transforms.Normalize((0.5,), (0.5,))
    ])
    image = transform(image).unsqueeze(0)  # 添加一个批次维度
    with torch.no_grad():
        outputs = model(image)
    _, predicted = torch.max(outputs, 1)
    return predicted.item()

代码

# 定义神经网络模型
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 128)  # 28*28是图片大小,128是隐层神经元数量
        self.fc2 = nn.Linear(128, 64)
        self.fc3 = nn.Linear(64, 10)  # 10个输出对应10个类别

    def forward(self, x):
        x = x.view(-1, 28 * 28)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return F.log_softmax(x, dim=1)


# 实例化模型
net = Net()


def main():
    # 第一步:加载和预处理数据

    # 数据转换:将图片转换为Tensor,并标准化
    transform = transforms.Compose([
        # 将图像转换为 PyTorch 张量
        transforms.ToTensor(),
        # 标准化处理
        transforms.Normalize((0.5,), (0.5,))
    ])

    # 加载训练数据集
    trainset = MNIST(root='../Data', train=True,
                     download=True, transform=transform)
    trainloader = DataLoader(trainset, batch_size=4,
                             shuffle=True, num_workers=2)

    # 加载测试数据集
    testset = MNIST(root='../Data', train=False,
                    download=True, transform=transform)
    testloader = DataLoader(testset, batch_size=4,
                            shuffle=False, num_workers=2)

    # 第二步:定义神经网络结构
    # 实例化模型
    # net = Net()

    # 第三步:定义损失函数和优化器
    # 定义损失函数
    criterion = nn.CrossEntropyLoss()
    # 定义优化器, 使用随机梯度下降法
    optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

    # 第四步:训练模型
    epochs = 15
    for epoch in range(epochs):
        running_loss = 0
        for images, labels in trainloader:
            optimizer.zero_grad()  # 清零梯度
            output = net(images)  # 前向传播
            loss = criterion(output, labels)  # 计算损失
            loss.backward()  # 反向传播
            optimizer.step()  # 更新权重

            running_loss += loss.item()
        else:
            print(f"Epoch {epoch + 1}/{epochs} - Training loss: {running_loss / len(trainloader)}")

    # 第五步:测试模型
    correct = 0
    total = 0
    with torch.no_grad():  # 在评估模式下,不计算梯度
        for images, labels in testloader:
            outputs = net(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    print(f'Accuracy of the network on the 10000 test images: {100 * correct / total}%')

然后再用生成后的模型进行预测

# 使用训练好的模型进行预测
def predict_image(image_path):
    image = Image.open(image_path)
    # 定义转换操作,包括缩放、转为灰度、转为Tensor、归一化
    transform = transforms.Compose([
        transforms.Resize((28, 28)),  # 将图片缩放到28x28
        transforms.Grayscale(num_output_channels=1),  # 转换为单通道灰度图
        transforms.ToTensor(),  # 转换为Tensor
        transforms.Normalize((0.5,), (0.5,))  # 归一化
    ])
    # 添加一个批次维度,因为PyTorch模型期望的输入是批次形式
    image = transform(image).unsqueeze(0)
    # 加载模型状态
    model = Net()
    model.load_state_dict(torch.load('./model.pth'))
    model.eval()
    with torch.no_grad():
        outputs = model(image)
    _, predicted = torch.max(outputs, 1)

    print(f"Predicted digit: {predicted.item()}")
    return predicted.item()
上一篇

Linux下查看和挂在USB硬盘

下一篇

Anaconda 常用命令

©2024 By bajiu.