Diversão no Terminal Linux - Brincar com contagens de palavras e personagens
- 3953
- 714
- Mrs. Christopher Okuneva
A linha de comando Linux se diverte muito e muitas tarefas tediosas podem ser executadas com muita facilidade, mas com perfeição. Brincando com palavras e personagens, sua frequência em um arquivo de texto, etc, é o que vamos ver neste artigo.
O único comando que vem à nossa mente, para ajustar a linha de comando Linux para manipular palavras e caracteres de um arquivo de texto é o comando wc.
Diversão com a contagem de palavras e cartas na conchaA 'BanheiroO comando que significa contagem de palavras é capaz de imprimir a nova linha, a contagem de palavras e bytes de um arquivo de texto.
Para trabalhar com os pequenos scripts para analisar o arquivo de texto, devemos ter um arquivo de texto. Para manter a uniformidade, estamos criando um arquivo de texto com a saída do comando man, conforme descrito abaixo.
$ homem homem> homem.TXT
O comando acima cria um arquivo de texto 'homem.TXT'com o conteúdo de'página manual' para 'homemComando.
Queremos verificar as palavras mais comuns, no acima criado 'Arquivo de texto'Executando o script abaixo.
$ gat homem.txt | tr "2 '| tr' [: superior:]" [: inferior:] '| tr -d '[: pontu:]' | grep -v '[^a -z]' | classificar | uniq -c | classificar -rn | cabeça
Saída de amostra
7557 262 O 163 a 112 é 112 a 78 de 78 manual 76 e 64 se 63 ser
O script simples de um revestimento acima mostra, dez palavras mais frequentemente aparecendo e sua frequência de aparência, no arquivo de texto.
Que tal dividir uma palavra no indivíduo usando o seguinte comando.
$ ECHO 'TECMINT Equipe' | dobra -w1
Saída de amostra
t e c m i n t e m
Observação: Aqui, '-w1' é para largura.
Agora estaremos quebrando cada palavra em um arquivo de texto, classifique o resultado e obteremos a saída desejada com a frequência dos dez caracteres mais frequentes.
$ dobra -w1 < man.txt | sort | uniq -c | sort -rn | head
Saída de amostra
8579 2413 E 1987 A 1875 T 1644 I 1553 N 1522 O 1514 S 1224 R 1021 L
Que tal obter caracteres mais frequentes no arquivo de texto com maiúsculas e minúsculas de maneira diferente, juntamente com sua frequência de ocorrência.
$ dobra -w1 < man.txt | sort | tr '[:lower:]"[:upper:]' | uniq -c | sort -rn | head -20
Saída de amostra
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O 1269 R 1055 L 836 H 791 P 766 D 753 C 725 M 690 U 605 F 504 G 352 Y 344 .
Verifique a saída acima, onde a marca de pontuação está incluída. Vamos tirar a pontuação, com 'trComando. Aqui vamos nós:
$ dobra -w1 < man.txt | tr '[:lower:]"[:upper:]' | sort | tr -d '[:punct:]' | uniq -c | sort -rn | head -20
Saída de amostra
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O 1550 1269 R 1055 L 836 H 791 p 766 D 753 C 725 M 690 U 605 F 504 G 352 Y
Agora eu tenho três arquivos de texto, vamos executar o script de um revestimento acima para ver a saída.
$ CAT *.txt | dobra -w1 | Tr '[: Lower:] "[: Upper:]' | Sort | tr -d '[: pontu:]' | Uniq -c | Sort -rn | Head -8
Saída de amostra
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O
Em seguida, estaremos gerando aquelas letras pouco frequentes que têm pelo menos dez letras. Aqui está o script simples.
$ gat homem.txt | tr "2 '| tr' [: superior:]" [: inferior:] '| tr -d '[: pontu:]' | tr -d '[0-9]' | classificar | uniq -c | classificar -n | grep -e '…' | cabeça
Saída de amostra
1 sto Todos os argumentos dentro são opcionais 1 capaz, consulte Setlocale para obter detalhes precisos 1 opções AB delimitadas por não podem ser usadas em conjunto. Um nome de arquivo 1 Ative o formato do modo local e exibe arquivos manuais locais 1 sotaque agudo
Observação: Quanto mais e mais pontos no script acima até que todos os resultados sejam gerados. Podemos usar .10 para obter dez correspondências de caracteres.
Esses scripts simples, também nos fazem conhecer as palavras e personagens mais frequentes em inglês.
É tudo por agora. Estarei aqui novamente com outro tópico interessante e fora do batimento que vale a pena saber, que vocês vão adorar ler. Não se esqueça de nos fornecer seu valioso feedback na seção de comentários, abaixo.
Leia também: 20 comandos engraçados do Linux
- « DTRX - Uma Ferramenta Inteligente Arquivo (TAR, ZIP, CPIO, RPM, DEB, RAR) para Linux
- Como parar e desativar serviços indesejados do sistema Linux »