1. Problema de Negócio

O conjunto de dados foi coletado por um período de 10 minutos por cerca de 5 meses. As condições de temperatura e umidade da casa foram monitoradas com uma rede de sensores sem fio ZigBee. Cada nó sem fio transmitia as condições de temperatura e umidade em torno de 3 min. Em seguida, a média dos dados foi calculada para períodos de 10 minutos.

Os dados de energia foram registrados a cada 10 minutos com medidores de energia de barramento m. O tempo da estação meteorológica mais próxima do aeroporto (Aeroporto de Chievres, Bélgica) foi baixado de um conjunto de dados públicos do Reliable Prognosis (rp5.ru) e mesclado com os conjuntos de dados experimentais usando a coluna de data e hora. Duas variáveis aleatórias foram incluídas no conjunto de dados para testar os modelos de regressão e filtrar os atributos não preditivos (parâmetros).

O nosso objetivo é prever o uso de energia armazenado na variavel 'Appliances', dessa forma iremos construir um modelo de Regressão.

-- Objetivos

Feature Descrição Unidade
date Data no formato ano-mês-dia hora:minutos:segundos.
Appliances Consumo de energia. Variavel Target. Wh (Watt-Hora)
lights Consumo de energia de luminárias. Wh (Watt-Hora)
T1 Temperatura na Cozinha. Celsius
RH1 Umidade Relativa na Cozinha. %
T2 Temperatura na Sala de Estar. Celsius
RH2 Umidade Relativa na Sala de Estar. %
T3 Temperatura na Lavanderia. Celsius
RH3 Umidade Relativa na Lavanderia. %
T4 Temperatura no Escritório. Celsius
RH4 Umidade Relativa no Escritório. %
T5 Temperatura no Banheiro. Celsius
RH5 Umidade Relativa no Banheiro. %
T6 Temperatura Externa Lado Norte. Celsius
RH6 Umidade Relativa Externa Lado Norte. %
T7 Temperatura na Sala de Passar Roupa. Celsius
RH7 Umidade Relativa na Sala de Passar Roupa. %
T8 Temperatura no Quarto do Adolescente. Celsius
RH8 Umidade Relativa no Quarto do Adolescente. %
T9 Temperatura no Quarto dos Pais. Celsius
RH9 Umidade Relativa no Quarto dos Pais. %
T_out Temperatura Externa. Celsius
Press_mm_hg Pressão. mm/hg
RH_out Umidade Relativa Externa. %
Windspeed Velocidade do Vento. m/s
Visibility Visibilidade. km
Tdewpoint Ponto de Saturação. Celsius
rv1 Variável Randômica.
rv2 Variável Randômica.
NSM Segundos até a meioa noite
WeekStatus Indicativo de Dia da Semana ou Final de Semana.
Day_of_week Indicativo de Segunda à Domingo.

2. Imports

2.1 Ambiente

3. Carregamento dos Dados

4. Analise Exploratoria

Possuimos ao todo 19375 observações, unindo o conjunto de treino e teste.

A unica feature que aparenta estar no formato errado é a coluna 'Date', essa que é 'datetime' foi carregada como 'object'.

Agora os dados estão no formato correto, e não tivemos perda de informação.

Colunas como 'date', 'rv1' e 'rv2' possuem valores unicos para cada observação, sendo 1:1. Iremos verificar depois se essas informações são relevantes para o modelo, pois isso pode causar problemas.

Para melhor interpretação dos dados, iremos separa eles em variaveis qualitativas e quantitativas.

4.2 Geração de plots e insights

Analisando o grafico abaixo é perceptivel que o consumo de energia nos 'Weekend' são proporcionais aos 'Weekday'. Já que a 'Weekday' representa exatatemente 28.5% de uma semana. Por acaso esse também é o valor do consumo de energia em %.

É perceptivel que ao longo do periodo da coleta dos dados mantemos oscilações comuns no consumo de energia, provavel que se de por eventos climaticos ao longo do periodo.

É perceptivel que as variaveis 'T' como 'T1', 'T2'... possuem baixa correlação com a variavel target. Onde possuimos concentrações maiores para valores médios, porém ao aumentarem ou diminuirem muito passam a diminuir a 'Appliances'. Já variaveis 'RH_' possuem uma correlação um pouco maior.