Como instalar e configurar o Apache Hadoop no CentOS & Fedora

Como instalar e configurar o Apache Hadoop no CentOS & Fedora

Tendo passado há algum tempo, o Hadoop se tornou uma das soluções de big data de código aberto mais populares. Ele processa dados em lotes e é famoso por seus recursos de computação escalável, econômica e distribuída. É uma das estruturas de código aberto mais populares no espaço de análise e armazenamento de dados. Como usuário, você pode usá -los para gerenciar seus dados, analisar esses dados e armazená -los novamente - tudo de maneira automatizada. Com o Hadoop instalado no seu sistema Fedora, você pode acessar serviços analíticos importantes com facilidade.

Este artigo abrange como instalar o Apache Hadoop em sistemas Centos e Fedora. Neste artigo, mostraremos como instalar o Apache Hadoop no Fedora para uso local, bem como um servidor de produção.

1. Pré -requisidades

Java é o principal requisito para executar o Hadoop em qualquer sistema, portanto, verifique se Java instalou em seu sistema usando o seguinte comando. Se você não tiver Java instalado no seu sistema, use um dos seguintes links para instalá -lo primeiro.

  • Como instalar o Java 8 no CentOS/RHEL 7/6/5

2. Crie usuário Hadoop

Recomendamos criar uma conta normal (nem raiz) para o Hadoop Working. Para criar uma conta usando o seguinte comando.

adduser hadoop passwd hadoop 

Depois de criar a conta, também é necessário configurar o SSH baseado em chaves para sua própria conta. Para fazer isso, use execute os seguintes comandos.

su -hadoop ssh -keygen -t rsa -p "-f ~//.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~///.ssh/autorizado_keys chmod 0600 ~//.ssh/autorizado_keys 

Vamos verificar o login baseado em chave. O comando abaixo não deve pedir a senha, mas a primeira vez que solicitará a adição de RSA à lista de hosts conhecidos.

Saída de localhost ssh 

3. Baixe o Hadoop 3.1 arquivo

Nesta etapa, faça o download do Hadoop 3.1 arquivo de arquivo de origem usando o comando abaixo. Você também pode selecionar o espelho de download alternativo para aumentar a velocidade de download.

cd ~ wget http: // www-eu.apache.org/dist/hadoop/Common/hadoop-3.1.0/Hadoop-3.1.0.alcatrão.gz tar xzf hadoop-3.1.0.alcatrão.GZ MV Hadoop-3.1.0 Hadoop 

4. Configurar o modo pseudo-distribuído Hadoop

4.1. Configurar variáveis ​​de ambiente Hadoop

Primeiro, precisamos definir usos variáveis ​​do ambiente por Hadoop. Editar ~/.Bashrc arquivo e anexar os seguintes valores no final do arquivo.

export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$ Hadoop_home/sbin: $ hadoop_home/bin 

Agora aplique as alterações no ambiente de corrida atual

fonte ~///.Bashrc 

Agora edite $ Hadoop_home/etc/hadoop/hadoop-env.sh arquivo e definir Java_home variável de ambiente. Altere o caminho Java conforme a instalação em seu sistema. Este caminho pode variar de acordo com a versão do sistema operacional e a fonte de instalação. Portanto, verifique se você está usando o caminho correto.

exportar java_home =/usr/lib/jvm/java-8-oracle 

4.2. Configure arquivos de configuração do Hadoop

O Hadoop possui muitos arquivos de configuração, que precisam configurar conforme os requisitos da sua infraestrutura Hadoop. Vamos começar com a configuração com a configuração básica do cluster de nós únicos hadoop. Primeiro, navegue para o local abaixo

CD $ hadoop_home/etc/hadoop 

Edite o local do núcleo.xml

  fs.padrão.nome hdfs: // localhost: 9000   

Edite HDFS-Site.xml

  dfs.Replicação 1 DFS.nome.Arquivo Dir: /// home/hadoop/hadoopdata/hdfs/namenode dfs.dados.Arquivo Dir: /// Home/Hadoop/Hadoopdata/HDFS/DataNode   

Editar o MapRed-Site.xml

  MapReduce.estrutura.Nome Yarn   

Edite o local do fio.xml

  fio.NodeManager.Aux-Services mapReduce_shuffle   

4.3. Formato namenode

Agora formate o namenode usando o seguinte comando, verifique se o diretório de armazenamento está

HDFS Namenode -Format 

Saída de amostra:

Aviso:/home/hadoop/hadoop/logs não existe. Criando. 2018-05-02 17: 52: 09.678 Informações Namenode.Namenode: startup_msg: /*********************************************** ***************.0.1.1 startup_msg: args = [-format] startup_msg: versão = 3.1.0… 2018-05-02 17: 52: 13.717 Info Common.Armazenamento: Diretório de Armazenamento/Home/Hadoop/Hadoopdata/HDFS/Namenode foi formatado com sucesso. 2018-05-02 17: 52: 13.806 Informações Namenode.FSImageFormatProtoBuf: Salvando o arquivo de imagem/home/hadoop/hadoopdata/hdfs/namenode/current/fsImage.CKPT_0000000000000000000 Usando sem compactação 2018-05-02 17: 52: 14.161 Informações Namenode.FSImageFormatProtoBuf: File/Home/Hadoop/Hadoopdata/HDFS/Namenode/Current/FSImage.ckpt_0000000000000000000 do tamanho 391 bytes salvos em 0 segundos . 2018-05-02 17: 52: 14.224 Informações Namenode.NnstorageretentionManager: vai reter 1 imagens com txid> = 0 2018-05-02 17: 52: 14.282 Informações Namenode.Namenode: Shutdown_msg: /*********************************************** *************** Shutdown_msg: Desligando o Namenode em Tecadmin/127.0.1.1 *************************************************** ***********/ 

5. Inicie o cluster Hadoop

Vamos começar seu cluster Hadoop usando os scripts fornecem pelo Hadoop. Basta navegar para o seu diretório $ hadoop_home/sbin e executar scripts um por um.

CD $ hadoop_home/sbin/ 

Agora execute start-dfs.sh roteiro.

./start-dfs.sh 

Saída de amostra:

Iniciando os namenodos em [localhost] iniciando os datanodes iniciando os namenodos secundários [Tecadmin] 2018-05-02 18: 00: 32.565 WARN Util.NativeCodeLoader: Incapaz de carregar a biblioteca nativa-hadoop para sua plataforma ... usando aulas de java embutido, quando aplicável 

Agora execute Start-yarn.sh roteiro.

./Start-yarn.sh 

Saída de amostra:

Iniciando RecursoManager iniciando NodeManagers 

6. Acesse serviços Hadoop em navegador

Hadoop Namenode começou na porta 9870. Acesse seu servidor na porta 9870 em seu navegador favorito.

http: // svr1.Tecadmin.rede: 9870/ 

Agora acesse a porta 8042 para obter as informações sobre o cluster e todos os aplicativos

http: // svr1.Tecadmin.rede: 8042/ 

Porta de acesso 9864 para obter detalhes sobre o seu nó Hadoop.

http: // svr1.Tecadmin.rede: 9864/ 

7. Teste o Hadoop Single Node Setup

7.1. Faça os diretórios HDFS necessários usando os seguintes comandos.

bin/hdfs dfs -mkdir/usuário bin/hdfs dfs -mkdir/user/hadoop 

7.2. Copie todos os arquivos do sistema de arquivos locais/var/log/httpd para o sistema de arquivos distribuído Hadoop usando o comando abaixo

BIN/HDFS DFS -PUT/VAR/LOG/APACHE2 LOGS 

7.3. Procure o sistema de arquivos distribuído Hadoop, abrindo abaixo do URL no navegador. Você verá uma pasta Apache2 na lista. Clique no nome da pasta para abrir e você encontrará todos os arquivos de log lá.

 http: // svr1.Tecadmin.NET: 9870/Explorer.html#/user/hadoop/logs/ 

7.4 - Agora copie o diretório de logs para o sistema de arquivos distribuído Hadoop para o sistema de arquivos local.

bin/hdfs dfs -get logs/tmp/logs ls -l/tmp/logs/ 

Você também pode verificar este tutorial para executar o WordCount MapReduce Job Exemplo usando a linha de comando.