接下来我们利用浅层神经网络构建新闻主题分类器的实现过程。
数据集使用 torchtext.datasets.AG_NEWS
数据集中包含了
- World
- Sports
- Business
- Sci/Tech
这四种类别,我们需要做的就是训练模型对数据进行分类。
神经网络的训练和构建大致分为以下步骤:
- 构建带有Embedding层的文本分类模型
- 对数据进行batch处理
- 构建训练与验证函数
- 进行模型训练和验证
- 查看Embedding层嵌入的词向量
1.构建带有Embedding层的文本分类模型
下面是对基本网络的构建。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
| import torch import torch.nn as nn import torch.nn.functional as F
BATCH_SIZE = 16 device = torch.device("cuda" if torch.cuda.is_available() else "CPU")
class TextSentiment(nn.Module): def __init__(self, text): ''' :param vocab_size:整个语料包含的不同词汇总数 :param embed_dim:指定词嵌入的维度 :param num_class:文本分类的维度 ''' super().__init__() self.embedding = nn.Embedding(vocab_size, embed_dim, sparse=True) self.fc = nn.Linear(embed_dim, num_class) self.init_weights()
def init_weights(self): initrange = 0.5 self.embedding.weight.data.uniform_(-initrange, initrange) self.fc.weight.data.uniform_(-initrange,initrange) self.fc.bias.data.zero_()
def forward(self, text): embedded = self.embedding(text) c = embedded.size(0) embedded = embedded[:BATCH_SIZE*c] embedded = embedded.transpose(1, 0).unsqueeze(0) embedded = F.avg_pool1d(embedded, kernel_size=c) return self.fc
|