Extraia todos os URLs usando sopa linda e python3
- 2366
- 413
- Robert Wunsch DVM
O link a seguir extrairá todos os URLs para uma determinada página da web.
#!/usr/bin/Env Python3 # Python Versão: 3.4.2 # BS4 Versão: 4.3.2-2 de urllib.Solicite Urlopen de importação do BS4 Import BeautifulSoup HTML = urlopen ("http: // gnu.org ") # Insira seu URL para extrair BSOBJ = BeautifulSoup (html.ler()); para link em BSOBJ.Find_all ('A'): imprimir(link.get ('href'))
Salve o script acima em um arquivo, por exemplo. Extrato-url.py
e torne -o executável:
$ chmod +x extract-url.py
Execute o script:
$ ./Extract-url.py
Tutoriais do Linux relacionados:
- Como construir um aplicativo Tknter usando um objeto orientado…
- Como trabalhar com a API de Rest WooCommerce com Python
- Como configurar um servidor OpenVPN no Ubuntu 20.04
- Baixe o arquivo do URL no Linux usando a linha de comando
- Uma introdução à automação, ferramentas e técnicas do Linux
- Coisas para instalar no Ubuntu 20.04
- Como definir programas padrão usando as alternativas de atualização em…
- Como ler e criar arquivos CSV usando Python
- Como raspar as páginas da web da linha de comando usando htmlq
- Como escrever extensões de Nautilus com Nautilus-python
- « Instalação da ferramenta Amazon S3CMD Command Line S3 no Debian Linux
- Bash Shellshock Bug Linux System Vulnerability Test »