Pagina inicial
Ubuntu 18.04
Como instalar o Hadoop no Ubuntu 18.04 Bionic Beaver Linux

Ubuntu 18.04

Como instalar o Hadoop no Ubuntu 18.04 Bionic Beaver Linux

Apache Hadoop é uma estrutura de código aberto usado para armazenamento distribuído, bem como processamento distribuído de big data em grupos de computadores que são executados em commodity hardwares. O Hadoop armazena dados no Hadoop Distributed File System (HDFS) e o processamento desses dados é feito usando o MapReduce. O YARN fornece API para solicitar e alocar recursos no cluster Hadoop.

A estrutura do Apache Hadoop é composta pelos seguintes módulos:

Hadoop comum
Sistema de arquivos distribuído Hadoop (HDFS)
FIO
MapReduce

Este artigo explica como instalar o Hadoop versão 2 no Ubuntu 18.04. Instalaremos o HDFS (Namenode e DataNode), Yarn, MapReduce no cluster de um nó único no modo pseudo distribuído, que é distribuído simulação em uma única máquina. Cada daemon Hadoop, como HDFs, fios, MapReduce etc. será executado como um processo Java separado/individual.

Neste tutorial, você aprenderá:

Como adicionar usuários para o ambiente Hadoop
Como instalar e configurar o Oracle JDK
Como configurar ssh sem senha
Como instalar o Hadoop e configurar os arquivos XML relacionados necessários
Como começar o cluster Hadoop
Como acessar o Namenode e o ResourceManager Web UI

Interface do usuário da Web Namenode.

Requisitos de software e convenções usadas

Requisitos de software e convenções de linha de comando Linux

Categoria	Requisitos, convenções ou versão de software usada
Sistema	Ubuntu 18.04
Programas	Hadoop 2.8.5, Oracle JDK 1.8
Outro	Acesso privilegiado ao seu sistema Linux como raiz ou através do `sudo` comando.
Convenções	# - requer que os comandos Linux sejam executados com privilégios root diretamente como usuário root ou por uso de `sudo` comando $ - Requer que os comandos do Linux sejam executados como um usuário não privilegiado regular

Outras versões deste tutorial

Ubuntu 20.04 (fossa focal)

Adicione usuários para o Hadoop Environment

Crie o novo usuário e grupo usando o comando:

# adicionar usuário

Adicione novo usuário para Hadoop.

Instale e configure o Oracle JDK

Baixar e extrair o arquivo java sob o /optar diretório.

# cd /opt # tar -xzvf jdk-8u192-linux-x64.alcatrão.gz

$ tar -xzvf jdk-8u192-linux-x64.alcatrão.gz -c /opt

Para definir o JDK 1.8 Atualização 192 Como JVM padrão, usaremos os seguintes comandos:

# Update-Alternatives--Install/usr/bin/java java/opt/jdk1.8.0_192/bin/java 100 # atualização-alternativas--install/usr/bin/javac javac/opt/jdk1.8.0_192/bin/javac 100

Após a instalação para verificar se o Java foi configurado com sucesso, execute os seguintes comandos:

# Update-Alternatives-Display Java # Update-Alternatives-Display Javac

Oraclejdk Instalação e configuração.

Configure ssh sem senha

Instale o servidor SSH aberto e abra o cliente SSH com o comando:

# sudo apt-get install OpenSsh-Server OpenSsh-Client

Gerar pares de chave pública e privada com o seguinte comando. O terminal solicitará a entrada do nome do arquivo. Imprensa DIGITAR e prossiga. Depois disso, copie o formulário das chaves públicas id_rsa.bar para Autorizado_keys.

$ ssh -keygen -t rsa $ cat ~/.ssh/id_rsa.pub >> ~///.ssh/autorizado_keys

Configuração SSH sem senha.

Verifique a configuração SSH sem senha com o comando:

$ ssh host

Verificação sshless ssh.

Instale o Hadoop e configure arquivos XML relacionados

Baixar e extrair o Hadoop 2.8.5 Do site oficial do Apache.

# tar -xzvf hadoop -2.8.5.alcatrão.gz

Configurando as variáveis de ambiente

Editar o Bashrc Para o usuário do Hadoop através da configuração das seguintes variáveis de ambiente Hadoop:

exportar hadoop_home =/home/hadoop/hadoop-2.8.5 exportar hadoop_install = $ hadoop_home export hadoop_mapred_home = $ hadoop_home export hadoop_common_home = $ hadoop_home export hadoop_hdfs_home = $ hadoop_home exportar yarn_home = $ hadoop_home hadaop_common_lib_native_nativo exportar Hadoop_Opts = "-Djava.biblioteca.caminho = $ hadoop_home/lib/nativo "

cópia de

Fonte do .Bashrc Na sessão de login atual.

$ fonte ~//.Bashrc

Editar o Hadoop-env.sh arquivo que está em /etc/hadoop Dentro do diretório de instalação do Hadoop, faça as seguintes alterações e verifique se você deseja alterar outras configurações.

exportar java_home =/opt/jdk1.8.0_192 Exportar hadoop_conf_dir = $ hadoop_conf_dir:-"/home/hadoop/hadoop-2.8.5/etc/hadoop "

cópia de

Mudanças no Hadoop-ENV.Arquivo SH.

Alterações de configuração no local do núcleo.Arquivo XML

Editar o Site do núcleo.xml com vim ou você pode usar qualquer um dos editores. O arquivo está sob /etc/hadoop dentro Hadoop diretório doméstico e adicione as seguintes entradas.

  fs.Defaultfs hdfs: // localhost: 9000   Hadoop.TMP.dir /home/hadoop/hadooptmpdata

cópia de

Além disso, crie o diretório em Hadoop Pasta em casa.

$ mkdir hadooptmpdata

Configuração para o local do núcleo.Arquivo XML.

Alterações de configuração no site HDFS.Arquivo XML

Editar o Site HDFS.xml que está presente no mesmo local I.e /etc/hadoop dentro Hadoop diretório de instalação e criar o Namenode/datanode diretórios abaixo Hadoop diretório inicial do usuário.

$ mkdir -p hdfs/namenode $ mkdir -p hdfs/datanode

  dfs.replicação 1 dfs.nome.dir Arquivo: /// home/hadoop/hdfs/namenode dfs.dados.dir Arquivo: /// home/hadoop/hdfs/dataNode

cópia de

Configuração para o site HDFS.Arquivo XML.

Alterações de configuração no MapRed-Site.Arquivo XML

Copie o MapRed-site.xml de MapRed-site.xml.modelo usando cp comando e depois edite o MapRed-site.xml colocado em /etc/hadoop sob Hadoop Diretório de instilação com as seguintes mudanças.

$ CP MapRed-Site.xml.Modelo MAPRED-SITE.xml

Criando o novo MAPRED-SITE.Arquivo XML.

  MapReduce.estrutura.nome fio

cópia de

Configuração para o MAPRED-SITE.Arquivo XML.

Alterações de configuração no local do fio.Arquivo XML

Editar Site de fio.xml com as seguintes entradas.

  MapReduceyarn.NodeManager.Aux-Services mapReduce_shuffle

cópia de

Configuração para o local do fio.Arquivo XML.

Iniciando o cluster Hadoop

Formate o Namenode antes de usá -lo pela primeira vez. Como o usuário do HDFS executa o comando abaixo para formatar o Namenode.

$ hdfs namenode -format

Formate o namenode.

Depois que o namenode for formatado, inicie os HDFs usando o start-dfs.sh roteiro.

Iniciando o script de inicialização do DFS para iniciar o HDFS.

Para iniciar os serviços de fio, você precisa executar o script de início do fio i.e. Start-yarn.sh

Iniciando o script de inicialização de fios para iniciar o fio.

Para verificar todos os serviços/daemons do Hadoop são iniciados com sucesso, você pode usar o JPS comando.

/opt/jdk1.8.0_192/bin/jps 20035 secundário

cópia de

Saída do Hadoop Daemons do comando jps.

Agora podemos verificar a versão atual do Hadoop que você pode usar abaixo do comando:

$ hadoop versão

Versão $ hdfs

Verifique a versão Hadoop.

Interface da linha de comando HDFS

Para acessar o HDFS e criar alguns diretórios em cima do DFS, você pode usar o HDFS CLI.

$ hdfs dfs -mkdir /teste $ hdfs dfs -mkdir /hadoopoNubuntu $ hdfs dfs -ls /

Criação do diretório HDFS usando HDFS CLI.

Acesse o namenode e o fio do navegador

Você pode acessar a interface do usuário da web para o Namenode e o Yarn Resource Manager por meio de qualquer um dos navegadores como Google Chrome/Mozilla Firefox.

Namenode Web UI - http: //: 50070

Interface do usuário da Web Namenode.

Detalhes do HDFS da interface do usuário da Web Namenode.

Navegação do diretório HDFS via Interface do usuário da Web Namenode.

A interface da web do Yarn Resource Manager (RM) exibirá todos os trabalhos em execução no cluster Hadoop atual.

UI da web do gerenciador de recursos - http: //: 8088

Interface do usuário da web do gerenciador de recursos.

Conclusão

O mundo está mudando a maneira como está operando atualmente e os dados grandes estão desempenhando um papel importante nesta fase. Hadoop é uma estrutura que facilita nossa vida enquanto trabalha em grandes conjuntos de dados. Existem melhorias em todas as frentes. O futuro é emocionante.

Tutoriais do Linux relacionados:

Ubuntu 20.04 Hadoop
Coisas para instalar no Ubuntu 20.04
Como criar um cluster Kubernetes
Como instalar Kubernetes no Ubuntu 20.04 fossa focal linux
Coisas para fazer depois de instalar o Ubuntu 20.04 fossa focal linux
Como instalar Kubernetes no Ubuntu 22.04 Jellyfish…
Coisas para instalar no Ubuntu 22.04
Como trabalhar com a API de Rest WooCommerce com Python
Como gerenciar clusters de Kubernetes com Kubectl
Uma introdução à automação, ferramentas e técnicas do Linux

Como instalar o Hadoop no Ubuntu 18.04 Bionic Beaver Linux

Requisitos de software e convenções usadas

Outras versões deste tutorial

Adicione usuários para o Hadoop Environment

Instale e configure o Oracle JDK

Configure ssh sem senha

Instale o Hadoop e configure arquivos XML relacionados

Configurando as variáveis de ambiente

Alterações de configuração no local do núcleo.Arquivo XML

Alterações de configuração no site HDFS.Arquivo XML

Alterações de configuração no MapRed-Site.Arquivo XML

Alterações de configuração no local do fio.Arquivo XML

Iniciando o cluster Hadoop

Interface da linha de comando HDFS

Acesse o namenode e o fio do navegador

Conclusão

Tutoriais do Linux relacionados:

Melhores artigos

Como executar aplicativos angulares usando CLI angular e PM2

Mostraremos como executar aplicações angulares usando o nó Angular CLI e PM2.JS Process Manager, que...

Melhor player de rádio de Internet de código aberto para Linux

Se você é uma cabeça de rádio que usa Linux, as opções são os melhores candidatos que satisfazem fac...

Como instalar o Hadoop no Ubuntu 18.04 Bionic Beaver Linux

Requisitos de software e convenções usadas

Outras versões deste tutorial

Adicione usuários para o Hadoop Environment

Instale e configure o Oracle JDK

Configure ssh sem senha

Instale o Hadoop e configure arquivos XML relacionados

Configurando as variáveis ​​de ambiente

Alterações de configuração no local do núcleo.Arquivo XML

Alterações de configuração no site HDFS.Arquivo XML

Alterações de configuração no MapRed-Site.Arquivo XML

Alterações de configuração no local do fio.Arquivo XML

Iniciando o cluster Hadoop

Interface da linha de comando HDFS

Acesse o namenode e o fio do navegador

Conclusão

Tutoriais do Linux relacionados:

Melhores artigos

Como executar aplicativos angulares usando CLI angular e PM2

Mostraremos como executar aplicações angulares usando o nó Angular CLI e PM2.JS Process Manager, que...

Melhor player de rádio de Internet de código aberto para Linux

Se você é uma cabeça de rádio que usa Linux, as opções são os melhores candidatos que satisfazem fac...

Configurando as variáveis de ambiente