Como instalar e configurar o Apache Hadoop no CentOS & Fedora
- 4988
- 1048
- Mr. Mitchell Hansen
Tendo passado há algum tempo, o Hadoop se tornou uma das soluções de big data de código aberto mais populares. Ele processa dados em lotes e é famoso por seus recursos de computação escalável, econômica e distribuída. É uma das estruturas de código aberto mais populares no espaço de análise e armazenamento de dados. Como usuário, você pode usá -los para gerenciar seus dados, analisar esses dados e armazená -los novamente - tudo de maneira automatizada. Com o Hadoop instalado no seu sistema Fedora, você pode acessar serviços analíticos importantes com facilidade.
Este artigo abrange como instalar o Apache Hadoop em sistemas Centos e Fedora. Neste artigo, mostraremos como instalar o Apache Hadoop no Fedora para uso local, bem como um servidor de produção.
1. Pré -requisidades
Java é o principal requisito para executar o Hadoop em qualquer sistema, portanto, verifique se Java instalou em seu sistema usando o seguinte comando. Se você não tiver Java instalado no seu sistema, use um dos seguintes links para instalá -lo primeiro.
- Como instalar o Java 8 no CentOS/RHEL 7/6/5
2. Crie usuário Hadoop
Recomendamos criar uma conta normal (nem raiz) para o Hadoop Working. Para criar uma conta usando o seguinte comando.
adduser hadoop passwd hadoop
Depois de criar a conta, também é necessário configurar o SSH baseado em chaves para sua própria conta. Para fazer isso, use execute os seguintes comandos.
su -hadoop ssh -keygen -t rsa -p "-f ~//.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~///.ssh/autorizado_keys chmod 0600 ~//.ssh/autorizado_keys
Vamos verificar o login baseado em chave. O comando abaixo não deve pedir a senha, mas a primeira vez que solicitará a adição de RSA à lista de hosts conhecidos.
Saída de localhost ssh
3. Baixe o Hadoop 3.1 arquivo
Nesta etapa, faça o download do Hadoop 3.1 arquivo de arquivo de origem usando o comando abaixo. Você também pode selecionar o espelho de download alternativo para aumentar a velocidade de download.
cd ~ wget http: // www-eu.apache.org/dist/hadoop/Common/hadoop-3.1.0/Hadoop-3.1.0.alcatrão.gz tar xzf hadoop-3.1.0.alcatrão.GZ MV Hadoop-3.1.0 Hadoop
4. Configurar o modo pseudo-distribuído Hadoop
4.1. Configurar variáveis de ambiente Hadoop
Primeiro, precisamos definir usos variáveis do ambiente por Hadoop. Editar ~/.Bashrc arquivo e anexar os seguintes valores no final do arquivo.
export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$ Hadoop_home/sbin: $ hadoop_home/bin
Agora aplique as alterações no ambiente de corrida atual
fonte ~///.Bashrc
Agora edite $ Hadoop_home/etc/hadoop/hadoop-env.sh arquivo e definir Java_home variável de ambiente. Altere o caminho Java conforme a instalação em seu sistema. Este caminho pode variar de acordo com a versão do sistema operacional e a fonte de instalação. Portanto, verifique se você está usando o caminho correto.
exportar java_home =/usr/lib/jvm/java-8-oracle
4.2. Configure arquivos de configuração do Hadoop
O Hadoop possui muitos arquivos de configuração, que precisam configurar conforme os requisitos da sua infraestrutura Hadoop. Vamos começar com a configuração com a configuração básica do cluster de nós únicos hadoop. Primeiro, navegue para o local abaixo
CD $ hadoop_home/etc/hadoop
Edite o local do núcleo.xml
fs.padrão.nome hdfs: // localhost: 9000
Edite HDFS-Site.xml
dfs.Replicação 1 DFS.nome.Arquivo Dir: /// home/hadoop/hadoopdata/hdfs/namenode dfs.dados.Arquivo Dir: /// Home/Hadoop/Hadoopdata/HDFS/DataNode
Editar o MapRed-Site.xml
MapReduce.estrutura.Nome Yarn
Edite o local do fio.xml
fio.NodeManager.Aux-Services mapReduce_shuffle
4.3. Formato namenode
Agora formate o namenode usando o seguinte comando, verifique se o diretório de armazenamento está
HDFS Namenode -Format
Saída de amostra:
Aviso:/home/hadoop/hadoop/logs não existe. Criando. 2018-05-02 17: 52: 09.678 Informações Namenode.Namenode: startup_msg: /*********************************************** ***************.0.1.1 startup_msg: args = [-format] startup_msg: versão = 3.1.0… 2018-05-02 17: 52: 13.717 Info Common.Armazenamento: Diretório de Armazenamento/Home/Hadoop/Hadoopdata/HDFS/Namenode foi formatado com sucesso. 2018-05-02 17: 52: 13.806 Informações Namenode.FSImageFormatProtoBuf: Salvando o arquivo de imagem/home/hadoop/hadoopdata/hdfs/namenode/current/fsImage.CKPT_0000000000000000000 Usando sem compactação 2018-05-02 17: 52: 14.161 Informações Namenode.FSImageFormatProtoBuf: File/Home/Hadoop/Hadoopdata/HDFS/Namenode/Current/FSImage.ckpt_0000000000000000000 do tamanho 391 bytes salvos em 0 segundos . 2018-05-02 17: 52: 14.224 Informações Namenode.NnstorageretentionManager: vai reter 1 imagens com txid> = 0 2018-05-02 17: 52: 14.282 Informações Namenode.Namenode: Shutdown_msg: /*********************************************** *************** Shutdown_msg: Desligando o Namenode em Tecadmin/127.0.1.1 *************************************************** ***********/
5. Inicie o cluster Hadoop
Vamos começar seu cluster Hadoop usando os scripts fornecem pelo Hadoop. Basta navegar para o seu diretório $ hadoop_home/sbin e executar scripts um por um.
CD $ hadoop_home/sbin/
Agora execute start-dfs.sh roteiro.
./start-dfs.sh
Saída de amostra:
Iniciando os namenodos em [localhost] iniciando os datanodes iniciando os namenodos secundários [Tecadmin] 2018-05-02 18: 00: 32.565 WARN Util.NativeCodeLoader: Incapaz de carregar a biblioteca nativa-hadoop para sua plataforma ... usando aulas de java embutido, quando aplicável
Agora execute Start-yarn.sh roteiro.
./Start-yarn.sh
Saída de amostra:
Iniciando RecursoManager iniciando NodeManagers
6. Acesse serviços Hadoop em navegador
Hadoop Namenode começou na porta 9870. Acesse seu servidor na porta 9870 em seu navegador favorito.
http: // svr1.Tecadmin.rede: 9870/
Agora acesse a porta 8042 para obter as informações sobre o cluster e todos os aplicativos
http: // svr1.Tecadmin.rede: 8042/
Porta de acesso 9864 para obter detalhes sobre o seu nó Hadoop.
http: // svr1.Tecadmin.rede: 9864/
7. Teste o Hadoop Single Node Setup
7.1. Faça os diretórios HDFS necessários usando os seguintes comandos.
bin/hdfs dfs -mkdir/usuário bin/hdfs dfs -mkdir/user/hadoop
7.2. Copie todos os arquivos do sistema de arquivos locais/var/log/httpd para o sistema de arquivos distribuído Hadoop usando o comando abaixo
BIN/HDFS DFS -PUT/VAR/LOG/APACHE2 LOGS
7.3. Procure o sistema de arquivos distribuído Hadoop, abrindo abaixo do URL no navegador. Você verá uma pasta Apache2 na lista. Clique no nome da pasta para abrir e você encontrará todos os arquivos de log lá.
http: // svr1.Tecadmin.NET: 9870/Explorer.html#/user/hadoop/logs/
7.4 - Agora copie o diretório de logs para o sistema de arquivos distribuído Hadoop para o sistema de arquivos local.
bin/hdfs dfs -get logs/tmp/logs ls -l/tmp/logs/
Você também pode verificar este tutorial para executar o WordCount MapReduce Job Exemplo usando a linha de comando.
- « 10 coisas para fazer depois de instalar o Ubuntu & Linux Mint
- Como remover o elemento JavaScript Array por valor »