我正在寻找 pybrain 来获取服务器监视器警报并确定问题的根本原因。我很高兴使用监督学习和管理训练数据集来训练它。数据的结构是这样的:
* Server Type **A** #1
* Alarm type 1
* Alarm type 2
* Server Type **A** #2
* Alarm type 1
* Alarm type 2
* Server Type **B** #1
* Alarm type **99**
* Alarm type 2
所以有n 个服务器,x 个警报可以是UP或DOWN。这两个n和x是可变的。
如果服务器 A1 的警报 1 和 2为DOWN,那么我们可以说该服务器上的服务 a已关闭并且是问题的原因。
如果所有服务器上的警报 1都关闭,那么我们可以说服务 a是原因。
原因可能有多种选择,因此直接分类似乎不合适。
我还想将后来的数据来源与网络联系起来。例如只是 ping 一些外部服务的脚本。
由于串行服务检查,可能不会立即触发所有适当的警报,因此它可以从一台服务器关闭开始,然后在 5 分钟后另一台服务器关闭。
我首先尝试做一些基本的事情:
from pybrain.tools.shortcuts import buildNetwork
from pybrain.datasets import SupervisedDataSet
from pybrain.supervised.trainers import BackpropTrainer
INPUTS = 2
OUTPUTS = 1
# Build network
# 2 inputs, 3 hidden, 1 output neurons
net = buildNetwork(INPUTS, 3, OUTPUTS)
# Build dataset
# Dataset with 2 inputs and 1 output
ds = SupervisedDataSet(INPUTS, OUTPUTS)
# Add one sample, iterable of inputs and iterable of outputs
ds.addSample((0, 0), (0,))
# Train the network with the dataset
trainer = BackpropTrainer(net, ds)
# Train 1000 epochs
for x in xrange(10):
trainer.train()
# Train infinite epochs until the error rate is low
trainer.trainUntilConvergence()
# Run an input over the network
result = net.activate([2, 1])
但是我很难将可变数量的警报映射到静态数量的输入。例如,如果我们在服务器上添加警报,或者添加服务器,则需要重新构建整个网络。如果这是需要做的事情,我可以做,但想知道是否有更好的方法。
我正在考虑的另一个选择是为每种类型的服务器使用不同的网络,但我不知道如何得出全环境的结论,因为它只会在单个主机上进行评估,而不是一次所有主机。
我应该使用哪种类型的算法以及如何映射数据集以通过可变输入得出整个环境范围的结论?
我对任何可行的算法都持开放态度。Go 甚至比 Python 还要好。
POPMUISE
函数式编程
相关分类