Criando diretório em HDFs e Arquivos de Copiar (Hadoop)

Criando diretório em HDFs e Arquivos de Copiar (Hadoop)

HDFS é o Sistema de arquivos distribuído Hadoop. É um sistema de armazenamento distribuído para grandes conjuntos de dados que suporta tolerância a falhas, alta taxa de transferência e escalabilidade. Funciona dividindo os dados em blocos que são replicados em várias máquinas em um cluster. Os blocos podem ser gravados ou lidos em paralelo, facilitando a alta taxa de transferência e a tolerância a falhas. O HDFS fornece redundância semelhante a RAID com failover automático. HDFS também suporta compressão, replicação e criptografia.

O caso de uso mais comum para HDFS está armazenando grandes coleções de dados como arquivos de imagem e vídeo, logs, dados do sensor e assim por diante.

Criando estrutura de diretório com HDFs

O utilitário de linha de comando “HDFS” está disponível em $ Hadoop_home/bin diretório. Supondo que o diretório de bin Hadoop já esteja incluído em CAMINHO variável de ambiente. Agora faça login como usuário do Hadoop e siga as instruções.

  1. Criar uma /dados diretório no sistema de arquivos HDFS. Estou disposto a usar este diretório para conter todos os dados dos aplicativos.
    hdfs dfs -mkdir /dados  
  2. Criando outro diretório /var/log, que contém todos os arquivos de log. Como o diretório /var também não existe, use -p Para criar um diretório pai também.
    hdfs dfs -mkdir -p /var /log  
  3. Você também pode usar variáveis ​​durante a criação de diretórios. Por exemplo, criando um diretório com o mesmo nome que o usuário atualmente registrado. Este diretório pode ser usado para conter os dados do usuário.
    hdfs dfs -mkdir -p /users /$ user  

Alteração das permissões de arquivo com HDFS

Você também pode alterar as propriedades de arquivos e a permissão no sistema de arquivos HDFS.

  • Para alterar o proprietário do arquivo e o proprietário do grupo, use o -chown Opção de linha de comando:
    HDFS DFS -CHOWN -R $ HADOOP_USER: $ HADOOP_USER /USUERS /HADOOP  
  • Para alterar a permissão do arquivo, use o -chmod Opções da linha de comando.
    hdfs dfs -chmod -r 775 /usuários /hadoop 

Copiando arquivos para HDFs

O HDFS O comando fornece -pegar e -colocar Parâmetros para copiar arquivos de/para o sistema de arquivos HDFS.

  • Por exemplo, para copiar um único arquivo do sistema de arquivos local para HDFS:
    hdfs dfs -put ~/testfile.txt/var/log/  
  • Copie vários arquivos, assim como a árvore do diretório usando os caracteres curinga.
    hdfs dfs -put ~/log/*/var/log/  

Listando arquivos no HDFS

Enquanto trabalha com o cluster Hadoop, você pode visualizar arquivos no sistema de arquivos HDFS através da linha de comando e da GUI.

  • Use o -ls opção com hdfs para listar arquivos no sistema de arquivos HDFS. Por exemplo, para listar todos os arquivos no uso do diretório raiz:
    hdfs dfs -ls /  
  • O mesmo comando pode ser usado para listar arquivos de subdiretos também.
    hdfs dfs -ls /usuários /hadoop  

    Você deve obter a seguinte saída:

    Listar arquivos em hdfs

  • Em vez da linha de comando, o Hadoop também fornece um explorador gráfico para visualizar, baixar e fazer upload de arquivos facilmente. Navegue pelo sistema de arquivos HDFS na porta Namenode no seguinte URL:

    http: // localhost: 9870/explorer.html

    Procure arquivos em HDFs

Conclusão

O HDFS também suporta uma série de outros aplicativos, como o MapReduce Jobs Processing, grandes volumes de dados, bem como autenticação de usuário e mecanismos de controle de acesso. Os HDFs também podem ser combinados com outros sistemas de arquivos distribuídos como S3 e Swift para criar soluções em nuvem híbridas que combinam alta disponibilidade e baixa latência com armazenamento de baixo custo.

Neste artigo, você aprendeu sobre a criação de uma estrutura de diretório no sistema de arquivos HDFS, alterando permissões e copiando e listando arquivos com HDFS.