Guia de Estudo
Parte 1 - Perceptron
Explique a diferença entre treinamento supervisionado e não-supervisionado.
Qual a função de ativação dos neurônios em um perceptron?
Qual a principal limitação do perceptron?
Um perceptron é treinado para atuar como um classificador em um problema com 10 classes. Dado que os vetores de entrada têm 20 atributos (variáveis), qual a dimensão da matriz de pesos sinápticos do perceptron? Qual o número de parâmetros deste perceptron?
Qual a estratégia recomendada para a inicialização dos pesos sinápticos de um perceptron?
Qual o objetivo do embaralhamento (shuffling) aleatório dos vetores no conjunto de treinamento no início de cada época? Quando é recomendável empregá-lo?
Qual a diferença entre min-max scaling e padronização? Em que situações é adequado utilizar a padronização?
Qual a diferença entre parâmetros e hiper-parâmetros de um modelo de aprendizado de máquina?
Parte 2 - MLP
Qual o objetivo da normalização das variáveis de entrada no treinamento de uma rede neural?
Descreva uma situação na qual pode ser necessário normalizar os alvos (targets) no treinamento supervisionado de um MLP.
Num dado problema de regressão, a função de ativação na camada de saída de um MLP é a logsig, Sabendo-se que os alvos variam de -0.5 a 0.9, pergunta-se: será necessário normalizar os alvos? Para qual intervalo? E se fosse usada a função tansig?
Quais os possíveis benefícios decorrentes do uso de taxas de aprendizado decrescentes no treinamento de MLPs?
Quais as desvantagens de empregar uma taxa de aprendizado fixa muito elevada? E muito pequena?
Qual a diferença entre funções de ativação (de neurônios) e funções de performance (no treinamento supervisionado)? Cite 3 funções de cada tipo.
Descreva 5 hiper-parâmetros de um MLP.
Descreva 5 critérios de parada para o treinamento de um MLP.
Em que camada de um MLP a função de ativação softmax é empregada?
Descreva 2 formas de acelerar a convergência no treinamento de um MLP.
O que é a saturação dos neurônios em um MLP? Como prevenir sua ocorrência?
Cite uma função de ativação tipicamente empregada em redes neurais profundas por reduzir a saturação dos neurônios no treinamento supervisionado. Esboce seu gráfico.
O que é o problema do gradiente evanescente? Como afeta o treinamento de MLPs? Como mitigar esse problema?
Um MLP é treinado como um classificador de um dataset com 10 classes. O MLP tem 2 camadas escondidas, com 5 e 8 neurônios respectivamente. Se os vetores de entrada têm 6 atributos, e usa-se codificação one-hot dos alvos, pergunta-se: quantos parâmetros livres há nesse MLP?
Um classificador neural binário é avaliado por meio de um conjunto de teste com 100 vetores. Sabendo que a sensibilidade da 1a classe é 80%, e que a precisão da 2a classe é 70%, monte a matriz de confusão deste classificador, indicando os valores de precisão e sensibilidade por classe, bem como a acurácia.
O que é overfitting? Descreva 2 maneiras para preveni-lo.
Cite 2 tipos de regularização.
Como é construído o conjunto de treinamento de um MLP em um problema de previsão de séries temporais? Como é feita a separação entre o conjunto de treinamento e teste? Pode-se usar shuffling nessa situação?
Posso utilizar uma função de ativação softmax na camada de saída de um MLP empregado em um problema de previsão de séries temporais? Justifique sua resposta.
Cite 3 alternativas para a redução de dimensionalidade no treinamento de um MLP.
O que é a redução de dimensionalidade por meio de seleção de atributos? Liste 3 formas de implementá-la.
Sobre a Figura 1, que descreve o treinamento de um MLP, pergunta-se: (a) Qual a função de performance do MLP?, (b) Quantas épocas durou o treinamento? (c) Em que época o erro de treinamento foi mínimo? (d) Em que época o erro de validação foi mínimo? (e) Se fosse usado early stopping, com número máximo de falhas de validação igual a 4, em que época o treinamento seria interrompido? Nesse caso, o estado final da RNA seria dado pelos pesos sinápticos de qual época? Justifique sua resposta.
Parte 3 - Classificador Naive Bayes
Qual a premissa que torna os classificadores naive bayes ingênuos (naive)?
O que é PCA? Quais as possíveis vantagens de empregar PCA: (a) no treinamento de MLPs? (b) no treinamento de classificadores bayesianos?
Sejam A e B dois eventos independentes. Se P(A)=0.75, e P(B|A)=0.5, qual o valor de P(B)?
Dados P(A)=0.8, P(B|A)=0.9 e P(A|B)=0.95, calcule P(B).
Sejam A, B e C eventos independentes. Seja D o evento conjunto, i.e., A intersecção B interseção C. Sejam P(A)=0.9, P(B)=0.8 e P(C)=0.5 as probabilidades marginais dos eventos A, B e C. Calcule P(D).
Parte 4 - Árvores de Decisão
Sobre a Figura 2, que ilustra a divisão do espaço de atributos (x1 e x2, nos eixos horizontal e vertical, respectivamente) em hiper-retângulos mapeando classes distintas, pede-se: (a) Esboce uma árvore de decisão binária correspondente ao mapeamento da Figura 2; (b) Quantos nós de decisão tem essa árvore? (c) Quantos nós folha há nessa árvore? (d) Qual a profundidade dessa árvore? (e) Escreva uma base de regras correspondente à essa árvore de decisão. (f) Quantas regras há nessa base de regras?
Cite 3 diferenças entre os algoritmos ID3 e CART.
Descreva 3 parâmetros que podem ser utilizados para prevenir o overfitting no treinamento em árvores de decisão.
Quais as 2 razões pelas quais ao induzir árvores de decisão diversas vezes, com o mesmo conjunto de treinamento e sem modificar nenhum parâmetro, pode-se obter árvores diferentes?
A Figura 3 representa uma etapa da indução de uma árvore de decisão. Deve-se escolher entre os parâmetros A1 e A2 para o teste no nó de decisão atual. A distribuição das amostras (entre as 2 classes) nos nós-filhos são exibidas para ambos os casos (i.e., escolhendo A1 ou A2). Decida qual o melhor atributo a ser selecionado utilizando: (a) o índice de Gini; (b) a entropia.
Figura 1
Figura 2
Figura 3