Ryddig i Python

Innholdsfortegnelse
De Skraping av skjermen eller skjermskraping, lar oss trekke ut informasjon fra en webside ved å laste ned siden og deretter behandle den med et program; Dette er veldig nyttig, spesielt når vi trenger oppdatert informasjon fra et nettsted som ikke har noen API tilgjengelig eller noen Nettjeneste.
Å utføre en Skraping av skjermen, vi må ganske enkelt laste ned innholdet og kunne manipulere det slik at vi kan trekke ut det som interesserer oss, for dette kan vi bruke forskjellige teknikker som bruk av vanlige uttrykk eller kanskje hjelpe oss med andre biblioteker som f.eks. Ryddig.
Hva er ryddig?
For å kunne lese a HTML Vi må stole på strukturen, dette fordi siden vi ikke vet nøyaktig hvilket innhold det har, vet vi i det minste at hvis vi søker etter strukturer HTML noe vi kan få, men ikke alltid HTML den er godt dannet, enten på grunn av en unnlatelsesfeil, eller fordi programmereren vet at noen nettlesere har en tendens til å tolke HTML selv om det er noen feil.
På dette tidspunktet spiller inn Ryddig, som ikke er annet enn et verktøy som lar oss reparere misdannet HTML, er det svært konfigurerbart og lar oss tilpasse måten det skal tolke korreksjonene det kan gjøre på denne måten vil vi med sikkerhet vite hvilken type dokument vil resultere til slutt.
La oss først se et bilde av en kode HTML Med mange feil kan denne koden tolkes av noen nettlesere, men den er ikke en riktig kode i formasjonen:

Som vi kan se, har hver linje praktisk talt en feil, den vanligste er ikke-lukking av koder, så ser vi koder som lukker på feil sted, etc.
Da bruker vi Ryddig og la oss se koden allerede korrigert, der vil vi innse hvor viktig dette biblioteket er og all hjelpen det kan gi oss:

På bildet ser vi hvordan det ble korrigert av Ryddig, må vi merke at selv om Tidy er et stort bibliotek, kan det sannsynligvis ikke løse alle feilene i HTMLDet hjelper oss imidlertid mye når det gjelder å bygge vår velformede HTML.
Gjør deg ryddig
Det er flere måter å få Tidy gjennom den offisielle siden http: / /tidy.sf.net. vi kan skaffe biblioteket, men det er ingen måte i den kilden å integrere det med Python så vi må ty til en alternativ kilde, for dette har vi to alternativer: uTidy tilgjengelig på http: / /utidylib.berlios.de og mxTidy tilgjengelig på http://egenix.com/files/python/mxTidy.html, uTidy ser ut til å være den mest oppdaterte av de to, men mxTidy er litt lettere å installere, det er opp til alle å se hvilken å bruke.
La oss se et eksempel på hvordan du bruker det Ryddig Når vi har installert det, vil vi i følgende kode åpne en HTML med feil og lese den ved hjelp av Tidy, så viser vi informasjonen på skjermen.
 fra delprosessimport Popen, PIPE text = open ('messy.html'). read () tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) tidy. stdin.close () print tidy.stdout.read () 

Som vi kan se, er det ganske enkelt å bruke RyddigNår vi har nok tillit til det ved å kjenne bibliotekets oppførsel godt, kan vi oppnå veldig interessante ting.Likte og hjalp du denne opplæringen?Du kan belønne forfatteren ved å trykke på denne knappen for å gi ham et positivt poeng
wave wave wave wave wave