Como configurar o Hadoop 2.6.5 (Cluster de nós únicos) no Ubuntu, Centos e Fedora

Como configurar o Hadoop 2.6.5 (Cluster de nós únicos) no Ubuntu, Centos e Fedora

Apache Hadoop 2.6.5 melhorias perceptíveis em relação ao estável 2 anterior.X.Y libera. Esta versão tem muitas melhorias no HDFS e MapReduce. Este guia de instruções ajudará você a instalar o Hadoop 2.6 no CentOS/Rhel 7/6/5, Ubuntu e outro sistema operacional baseado em Debian. Este artigo não inclui a configuração geral para configurar o Hadoop, temos apenas configuração básica necessária para começar a trabalhar com o Hadoop.

Etapa 1: Instalando Java

Java é o principal requisito para configurar o Hadoop em qualquer sistema, portanto, verifique se Java instalou em seu sistema usando o seguinte comando.

# java -version java versão "1.8.0_101 "Java (TM) SE Runtime Ambients (Build 1.8.0_131-B11) Java Hotspot (TM) de 64 bits VM (Build 25.131-B11, modo misto) 

Se você não tiver Java instalado no seu sistema, use um dos seguintes links para instalá -lo primeiro.

Instale o Java 8 no CentOS/Rhel 7/6/5
Instale o Java 8 no Ubuntu

Etapa 2: Criando usuário do Hadoop

Recomendamos criar uma conta normal (nem raiz) para o Hadoop Working. Portanto, crie uma conta do sistema usando o seguinte comando.

# adduser hadoop # passwd hadoop 

Depois de criar uma conta, também é necessário configurar o SSH baseado em chaves para sua própria conta. Para fazer isso, use execute os seguintes comandos.

# su -hadoop $ ssh -keygen -t rsa $ cat ~//.ssh/id_rsa.pub >> ~///.ssh/autorizado_keys $ chmod 0600 ~/.ssh/autorizado_keys 

Vamos verificar o login baseado em chave. O comando abaixo não deve pedir a senha, mas a primeira vez que solicitará a adição de RSA à lista de hosts conhecidos.

$ ssh localhost $ saída 

etapa 3. Baixando o Hadoop 2.6.5

Agora faça o download do Hadoop 2.6.0 Arquivo de arquivo de origem usando o comando abaixo. Você também pode selecionar o espelho de download alternativo para aumentar a velocidade de download.

$ CD ~ $ wget http: // www-eu.apache.org/dist/hadoop/comum/hadoop-2.6.5/Hadoop-2.6.5.alcatrão.gz $ tar xzf hadoop-2.6.5.alcatrão.gz $ mv hadoop-2.6.5 Hadoop 

Passo 4. Configure o modo pseudo-distribuído Hadoop

4.1. Configurar variáveis ​​de ambiente Hadoop

Primeiro, precisamos definir usos variáveis ​​do ambiente por Hadoop. Editar ~/.Bashrc arquivo e anexar os seguintes valores no final do arquivo.

export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$ Hadoop_home/sbin: $ hadoop_home/bin 

Agora aplique as mudanças no ambiente de corrida atual

$ fonte ~//.Bashrc 

Agora edite $ Hadoop_home/etc/hadoop/hadoop-env.sh arquivo e definir Java_home variável de ambiente. Altere o caminho Java conforme a instalação em seu sistema.

exportar java_home =/opt/jdk1.8.0_131/ 

4.2. Editar arquivos de configuração

O Hadoop possui muitos arquivos de configuração, que precisam configurar conforme os requisitos para configurar a infraestrutura do Hadoop. Vamos começar com a configuração com a configuração básica do cluster de nós únicos hadoop. Primeiro, navegue para o local abaixo

$ CD $ hadoop_home/etc/hadoop 

Edite o local do núcleo.xml

  fs.padrão.nome hdfs: // localhost: 9000   

Edite HDFS-Site.xml

  dfs.Replicação 1 DFS.nome.Arquivo Dir: /// home/hadoop/hadoopdata/hdfs/namenode dfs.dados.Arquivo Dir: /// Home/Hadoop/Hadoopdata/HDFS/DataNode   

Editar o MapRed-Site.xml

  MapReduce.estrutura.Nome Yarn   

Edite o local do fio.xml

  fio.NodeManager.Aux-Services mapReduce_shuffle   

4.3. Formato namenode

Agora formate o namenode usando o seguinte comando, verifique se o diretório de armazenamento está

$ hdfs namenode -format 

Saída de amostra:

15/02/04 09:58:43 Info NameNode.Namenode: startup_msg: /*********************************************** ***************.Tecadmin.net/192.168.1.133 startup_msg: args = [-format] startup_msg: versão = 2.6.5… 15/02/04 09:58:57 Info Common.Armazenamento: Diretório de Armazenamento/Home/Hadoop/Hadoopdata/HDFS/Namenode foi formatado com sucesso. 15/02/04 09:58:57 Info NameNode.NnstorageretentionManager: vai reter 1 imagens com txid> = 0 15/02/04 09:58:57 Informações Util.Exitutil: Sair com o status 0 15/02/04 09:58:57 Info Namenode.Namenode: Shutdown_msg: /*********************************************** *************** Shutdown_msg: Desligando o NameNode em SVR1.Tecadmin.net/192.168.1.133 ***************************************************** ***********/ 

Etapa 5. Inicie o cluster Hadoop

Agora comece o seu cluster Hadoop usando os scripts fornecem pelo Hadoop. Basta navegar até o seu diretório SBIN Hadoop e executar scripts um por um.

$ CD $ HADOOP_HOME/SBIN/ 

Agora execute start-dfs.sh roteiro.

$ start-dfs.sh 

Saída de amostra:

15/02/04 10:00:34 Avisar Util.NativeCodeloader: Incapaz de carregar a biblioteca nativa-hadoop para sua plataforma ... usando aulas de Java Buerghin, onde os namenodos iniciais aplicáveis ​​no local do local: iniciando o nome, registrando-se para/home/hadoop/hadoop/logs/hadoop-hadoop-namenode-svr1.Tecadmin.líquido.LocalHost Out: Iniciando DataNode, logando para/home/hadoop/hadoop/logs/hadoop-hadoop-datanode-svr1.Tecadmin.líquido.fora iniciando namenodos secundários [0.0.0.0] A autenticidade do host '0.0.0.0 (0.0.0.0) 'Não pode ser estabelecido. A impressão digital da RSA é 3C: C4: F6: F1: 72: D9: 84: F9: 71: 73: 4a: 0d: 55: 2c: f9: 43. Tem certeza que deseja continuar se conectando (sim/não)? sim 0.0.0.0: Aviso: Adicionado permanentemente '0.0.0.0 '(RSA) para a lista de hosts conhecidos. 0.0.0.0: Iniciando secundárioNameNode, registrando para/home/hadoop/hadoop/logs/hadoop-hadoop-secundarynamenode-svr1.Tecadmin.líquido.fora 15/02/04 10:01:15 Avisar Util.NativeCodeLoader: Incapaz de carregar a biblioteca nativa-hadoop para sua plataforma ... usando aulas de java embutido, quando aplicável 

Agora execute Start-yarn.sh roteiro.

$ start-yarn.sh 

Saída de amostra:

Iniciando os daemons de partida do Recurso-Manager, registrando para/home/hadoop/hadoop/logs/yarn-hadoop-resourceManager-svr1.Tecadmin.líquido.LocalHost Out: Iniciando Nodemanager, login para/home/hadoop/hadoop/logs/yarn-hadoop-nodemanager-svr1.Tecadmin.líquido.fora 

Etapa 6. Acesse serviços Hadoop em navegador

Hadoop Namenode começou na porta 50070. Acesse seu servidor na porta 50070 em seu navegador favorito.

http: // svr1.Tecadmin.rede: 50070/ 

Agora acesse a porta 8088 para obter as informações sobre cluster e todos os aplicativos

http: // svr1.Tecadmin.rede: 8088/ 

Porta de acesso 50090 para obter detalhes sobre o Namenode secundário.

http: // svr1.Tecadmin.rede: 50090/ 

Porta de acesso 50075 para obter detalhes sobre Datanode

http: // svr1.Tecadmin.rede: 50075/ 

Etapa 7. Teste o Hadoop Single Node Setup

7.1 - Faça os diretórios HDFS necessários usando os seguintes comandos.

$ bin/hdfs dfs -mkdir/usuário $ bin/hdfs dfs -mkdir/user/hadoop 

7.2 - Agora copie todos os arquivos do sistema de arquivos locais/var/log/httpd para o sistema de arquivos distribuído Hadoop usando o comando abaixo

$ bin/hdfs dfs -put/var/log/httpd logs 

7.3 - Agora navegue pelo sistema de arquivos distribuído Hadoop, abrindo abaixo do URL no navegador.

 http: // svr1.Tecadmin.NET: 50070/Explorer.html#/user/hadoop/logs 

7.4 - Agora copie o diretório de logs para o sistema de arquivos distribuído Hadoop para o sistema de arquivos local.

$ bin/hdfs dfs -get logs/tmp/logs $ ls -l/tmp/logs/ 

Você também pode verificar este tutorial para executar o WordCount MapReduce Job Exemplo usando a linha de comando.