O tópico de administração do cluster Cloudera é amplo o suficiente e não é possível abordá-lo em um artigo. Nesta postagem, focaremos nas instruções para solucionar os problemas mais comuns associados ao cluster e aos serviços instalados nele, e para um mergulho mais profundo, recomendo consultar a documentação oficial e o fórum. Lá você pode encontrar informações sobre praticamente qualquer problema.

Lançamento de cluster
Na página inicial do Cloudera Manager, clique no botão com uma seta à direita do nome do cluster e selecione Iniciar:

Reinicialização de cluster
Fazemos o mesmo que o parágrafo anterior e selecionamos Reiniciar.
Parada de cluster
Fazemos o mesmo que o parágrafo anterior e selecionamos Parar.
Iniciando funções de serviço
Na página inicial do Cloudera Manager, clique no botão Clusters e selecione o serviço no cluster desejado cuja função você deseja executar:

Vá para a guia Instâncias deste serviço:

As funções de serviço têm um status à direita do nome. As funções interrompidas correspondem a Interrompido. Na tabela, observamos o papel do serviço que precisa ser lançado:

Clique no botão Ações para o selecionado e selecione Iniciar:

Pressione o botão Iniciar para confirmar o início:

Reiniciando funções de serviço
Repita as etapas do parágrafo anterior e selecione Reiniciar após clicar no botão Ações para o selecionado.
Interromper funções de serviço
Fazemos o mesmo que o parágrafo anterior e selecionamos Parar depois de clicar no botão Ações para o selecionado.
Adicionando uma função
Na página inicial do Cloudera Manager, clique no botão Clusters e selecione o serviço no cluster desejado ao qual você precisa adicionar uma função:

Vá para a guia Instâncias deste serviço e clique em Adicionar instâncias de função:

Para as funções que você deseja adicionar, selecione os hosts nos quais eles precisam ser instalados:

Confirmamos a instalação das funções selecionadas nos hosts especificados:

Remoção de função
Na página inicial do Cloudera Manager, clique no botão Clusters e selecione o serviço no cluster desejado para o qual deseja remover a função:

Vá para a guia Instâncias deste serviço:

Observamos as funções que precisam ser removidas (tendo-as interrompido anteriormente):

Clique no botão Ações para o selecionado e selecione Excluir:

Confirme a exclusão clicando no botão Excluir:

Adicionando um serviço
A adição de um serviço já foi descrita no parágrafo “Instalando Parselas Adicionais”, portanto, não iremos nos aprofundar neste processo em detalhes.
Remoção de Serviço
Na página inicial do Cloudera Manager, clique no botão Clusters e selecione o serviço no cluster que você deseja excluir:

Vá para a guia Instâncias deste serviço:

Observamos as funções ativas:

Clique no botão Ações para o selecionado e selecione Parar:

Confirme a parada pressionando o botão Parar:

Vá para a página inicial do Cloudera Manager, clique no botão com a seta à direita do nome do serviço que você deseja excluir e selecione Excluir:

Confirme a exclusão clicando no botão Excluir:

Reimplementando serviços após alterar os arquivos de configuração
Depois de alterar os arquivos de configuração do serviço, você precisará reimplementar esses serviços. Nesse caso, um símbolo de arquivo com uma seta aparecerá à direita do serviço correspondente. Clique nele:

No canto inferior direito, clique em Reiniciar serviços antigos:

Confirmamos a reinicialização clicando em Reiniciar agora no canto inferior direito. Se você não precisar expandir a configuração do cliente, remova a caixa de seleção nesta página:

A página de reinicialização exibe o status dos serviços reiniciáveis. No caso de configurações incorretas, clicando na seta à direita da tarefa, o detalhamento do erro estará disponível. Após a conclusão da reinicialização, clique em Concluir:

Configurar ferramentas de monitoramento
Ao adicionar hosts ao cluster, o Cloudera Manager instala seus agentes neles, o que permite monitorar as métricas do sistema dessas máquinas. Os gráficos de todas as métricas coletadas estão disponíveis na guia Biblioteca de gráficos na seção Todos os hosts \ Nome do host. O Cloudera Manager também possui um mecanismo flexível para visualizar métricas com base em consultas e filtros SQL, o que permite criar de maneira fácil e rápida uma seleção de monitores na tela inicial que fornecem uma imagem bastante completa do sistema. Considere esses mecanismos pelo exemplo de adição de um gráfico de uma das métricas do sistema à página inicial.
Na página inicial do Cloudera Manager, clique no botão Hosts e selecione Todos os Hosts:

Selecione o servidor cujo monitor métrico queremos adicionar:

Selecione um dos gráficos, clique no botão com a engrenagem no canto superior direito e selecione Adicionar ao painel (da mesma maneira, você pode ir para a guia Biblioteca de gráficos e selecionar o gráfico necessário no catálogo completo):

Especifique o nome do gráfico (você pode deixá-lo por padrão), selecione o painel no qual queremos colocá-lo (para colocá-lo na página inicial do Cloudera Manager, selecione a Página inicial) e clique em Salvar gráfico:

Depois disso, o gráfico selecionado aparece no painel correspondente:

Se necessário, o gráfico adicionado pode ser alterado clicando no botão de engrenagem no canto superior direito e selecionando Abrir no Criador de gráficos.
Conclusão
Após configurar o monitoramento, o cluster Cloudera está pronto para operação: você pode executar as tarefas de carregamento de dados, transformá-los e conectar as ferramentas de Mineração de Dados. E, embora ainda haja um longo caminho para alcançar as metas finais, esse ponto pode ser considerado um ponto de partida.
Como resultado desse projeto, foi possível atingir todos os objetivos: as tarefas rotineiras dos funcionários do departamento para calcular os fatores de risco de crédito foram automatizadas e os cientistas de dados adquiriram ferramentas de "alta qualidade" para colaboração. No caminho para esses objetivos, também houve muitas nuances e momentos difíceis que terei prazer em compartilhar com você nas partes a seguir. Eles serão dedicados à construção de integração contínua para acelerar os processos de desenvolvimento, bem como à instalação e configuração de ferramentas de mineração de dados.
Concluindo, quero dizer que trabalhar com a pilha de aplicativos formada em torno do Apache Hadoop nem sempre é simples, mas muito interessante. Suas tecnologias abrem muitas oportunidades e já formaram uma comunidade bastante grande ao seu redor, sempre pronta para ajudar em tempos difíceis. Um pouco de prática e você terá sucesso.
PS No próximo artigo, mostrarei como organizar efetivamente a integração contínua de projetos com desenvolvimento no CDH. Até breve!
Links para artigos anteriores:
Data warehouse distribuído no conceito Data Lake: por onde começar
Data Warehouse Distribuído no Data Lake Concept: Instalando o CDH