新闻主题分类

接下来我们利用浅层神经网络构建新闻主题分类器的实现过程。

数据集使用 torchtext.datasets.AG_NEWS

数据集中包含了

  • World
  • Sports
  • Business
  • Sci/Tech

这四种类别,我们需要做的就是训练模型对数据进行分类。

神经网络的训练和构建大致分为以下步骤:

  1. 构建带有Embedding层的文本分类模型
  2. 对数据进行batch处理
  3. 构建训练与验证函数
  4. 进行模型训练和验证
  5. 查看Embedding层嵌入的词向量

1.构建带有Embedding层的文本分类模型

下面是对基本网络的构建。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import torch
import torch.nn as nn
import torch.nn.functional as F

BATCH_SIZE = 16
device = torch.device("cuda" if torch.cuda.is_available() else "CPU")

class TextSentiment(nn.Module):
def __init__(self, text):
'''
:param vocab_size:整个语料包含的不同词汇总数
:param embed_dim:指定词嵌入的维度
:param num_class:文本分类的维度
'''
super().__init__()
self.embedding = nn.Embedding(vocab_size, embed_dim, sparse=True)
self.fc = nn.Linear(embed_dim, num_class)
self.init_weights()

def init_weights(self):
initrange = 0.5
self.embedding.weight.data.uniform_(-initrange, initrange)
self.fc.weight.data.uniform_(-initrange,initrange)
self.fc.bias.data.zero_()

def forward(self, text):
embedded = self.embedding(text)
c = embedded.size(0)
embedded = embedded[:BATCH_SIZE*c]
embedded = embedded.transpose(1, 0).unsqueeze(0)
embedded = F.avg_pool1d(embedded, kernel_size=c)
return self.fc


新闻主题分类
https://fabulous1496.github.io/2024/02/25/06-新闻主题分类/
作者
Fabulous
发布于
2024年2月25日
许可协议