Introduksjon til statistisk programmering med R

Innholdsfortegnelse
R er et statistisk programmeringsspråk, det er gratis og åpen kildekode. Den brukes hovedsakelig til driften av Datautvinning eller statistikk, alt dette med sikte på å lage applikasjoner for analyse av store datamengder.
Kommandolinjegrensesnittet til R Til å begynne med kan det være noe skremmende, men dette overskygges etter at vi har sett på kraften og mulighetene som språk gir oss til å dele og reprodusere informasjonsanalyse.
R Den kan lastes ned gratis for alle gratis plattformer som finnes i dag, vi har muligheten til å installere den i Windows, Linux Til og med Mac.
I forbindelse med denne opplæringen bruker vi versjonen for Windows som vi kan finne på den offisielle siden til prosjektet i følgende lenke. Etter nedlasting og installasjon vil vi ha vår funksjonelle kopi av R, hvis vi utfører det, får vi den første skjermen til R som skal se slik ut:

R Det lar oss jobbe med data på en rask og effektiv måte, men standardgrensesnittet er ikke perfekt for denne oppgaven. Et av problemene er at alt åpnes i separate vinduer som gjør det vanskelig å jobbe, og kommandolinjegrensesnittet er ikke det samme i alle operativsystemer.
Selv om det er mange grensesnitt for å løse dette problemet, vil vi i denne opplæringen bruke RStudio som er tilgjengelig for alle plattformer, men det er viktig å nevne at det er nødvendig å ha R installert før installasjon, for å få versjonen av Windows vi går til følgende lenke og laster ned den tilsvarende versjonen.
Etter installasjonen utfører vi RStudio og vi bør se hovedgrensesnittet:

RStudio gir oss organisering av alle vinduene til R i et enkelt panel og gir oss i tillegg tilgang til funksjoner som kan være vanskelige å finne, i tillegg til dette kan vi nevne andre ekstra fordeler:
  • La oss dele opp arbeidet vårt i Prosjekter hvor hver av disse vil ha sin arbeidskatalog, historie og kildefiler.
  • Integrasjon med GitHub.
  • Lar deg lagre en historie grafisk.
  • Du kan eksportere grafikken i forskjellige formater og størrelser.
  • Det lar oss fullføre koden med tabellnøkkelen.
  • Du kan lage interaktive diagrammer takket være visse pakker.
Som vi ser RStudio er en ganske optimal måte å jobbe med RDet finnes imidlertid andre løsninger på markedet, det er opp til hver enkelt å undersøke disse og vurdere om de er bedre tilpasset behovene til hver person.
Det er flere måter å jobbe med R der det første vi vil ta opp er R -konsollTil tross for at vi ikke kan lagre arbeidet som er gjort her, er det ganske nyttig å teste noen funksjoner og begynne å bli kjent med språket.
Å jobbe med konsollen er ganske enkelt, vi skriver inn en kommando og deretter gir R oss utgangen på den, la oss prøve en enkel tilleggsoperasjon som følgende:
> 10 + 7

Vi presser Tast inn og automatisk R I følgende linje gir det oss svaret på operasjonen vår:

Som vi kan se på bildet inneholder den første linjen kommandoen med operasjonen vår, det er viktig å nevne det R det krever ikke bruk av semikolon for å avslutte linjen eller en annen avsluttende operatør. Vi kan se på den andre linjen før svaret [1] dette indikerer måten R utfører regneoperasjoner og bruker vektor, den ene betyr indeksen til det første elementet i vektoren, hvor vi kan markere at mange andre språk håndterer indeksene fra bunnen av, men R gjør det fra den ene.
Som vi nevnte tidligere, er konsollen ganske nyttig, men den er ikke den beste å jobbe med, hovedsakelig fordi den ikke har mulighet til å lagre kommandoene våre og muligheten til å bare skrive inn en kommando om gangen, noe lignende skjer med Python, men vi skal ikke bekymre oss siden RStudio gir oss skriptvindu plassert i den øvre delen av konsollen vår, hvis vi ikke finner den, går vi til Fil> Ny fil> R -skript eller trykk Shift + Command + N.
I utgangspunktet er et R -skript ren tekst med utvidelsen .R. For å se hvordan det fungerer, kan vi gjenskape vår aritmetiske operasjon fra forrige eksempel ved å lage et nytt skript og legge til flere ekstra kommandolinjer, la oss se:
 10 + 7 1:50 print ("Hello World") 

EN R -skript du kan kjøre linje for linje med alternativet vi har i den øvre menyen som heter Løpe og vi vil se resultatet av det samme i konsollen, la oss se svaret for hver linje i skriptet vårt:

Hvordan kan vi se at den første linjen gir oss resultatet vi oppnådde tidligere, den andre linjen lager en liste med tall fra 1 til 50 hvor tallet i parentes er den første indeksen for den linjen, og til slutt har vi inntrykk av den klassiske Hei Verden.
Etter å ha sett hvordan vi kan jobbe med språk, vil vi gå videre til mer teoretiske begreper for bedre å forstå hva vi har tilgjengelig på språk for å arbeide og utføre våre prosjekter.
Som med alle programmeringsspråk, variabler er et av de viktigste aspektene, å skape dem i R Vi trenger bare å skrive navnet på det uten å definere typen. Vi bruker oppdragsoperatør å gi verdien til variabelen.
ViktigVi kan tildele verdien av en variabel med likhetstegnet, men dette er dårlig praksis i R, for å gjøre det riktige oppdraget, bruk operatøren <-.
La oss se hvordan tilordne en verdi til en variabel og deretter skrive den ut ser ut:
 x <- 58 x 

Vi kan også tilordne flere verdier til våre variabler med sammenkoplingsfunksjonen:
y <- c (5, 2, 11, 28, 17)

Hvis vi kjører eksemplet, vil vi se i panelet til høyre hvordan vi har verdien av x og den numeriske listen som er tilordnet Y:

FORSTØRRE

I tillegg, for å eliminere en variabel fra arbeidsområdet, må vi bare bruke funksjonen rm, vi kan til og med rense hele arbeidsområdet, la oss se hvordan vi gjør dette:
 rm (x) rm (liste = ls ()) 

Med den første linjen eliminerer vi variabelen og med den andre linjen alt mellomrom.
På språket har vi fire datastrukturer, som gjenkjennes av R:
Karikatur, vektorEn vektor er en endimensjonal matrise der alle dataene i den må være av samme type, heltall, røye, etc., i tillegg er det viktig å merke seg at dette er det grunnleggende dataobjektet i R.
Matriser og matriserEn matrise ligner en vektor der dataene må være av samme type, men matrisen har to dimensjoner og informasjonen er organisert i rader og kolonner. Matrisen ligner matrisen, men den kan ha mer enn to dimensjoner.
DatarammerDatarammene er en samling vektorer av samme lengde, den ligner matrisen, men særegenheten ved denne typen struktur er at de kan være av blandede datatyper, hvor vektorene til og med kan ha navn.
ListerDen mest generiske typen struktur i R, en liste er en samling av elementer av enhver klasse, lengde eller struktur, vi kan til og med ha andre lister.
Lengre, R Den har flere funksjoner som lar oss konvertere en type struktur til en annen, la oss se:
som. vektor ()Denne funksjonen lar deg konvertere matriser til endimensjonale vektorer.
as.matrix ()Du kan konvertere datastrukturer til en matrise.
as.data.frame ()Du kan konvertere datastrukturer til datarammer.
as.list ()Du kan konvertere datastrukturer til lister.
En av styrkene til R er at du kan legge til pakker som lar oss utvide funksjonaliteten til språket. På andre språk kommer disse pluginene på biblioteker, men i R er biblioteket stedet der alle pakkene er lagret.
De pakker av R kan komme fra to forskjellige steder, noen kommer med R som standard, men de er ikke aktive, og andre kan bli funnet i online depoter.
For å se pakkene som er installert eller lastet for øyeblikket, kan vi utføre følgende funksjoner:
 bibliotek () søk () 

Funksjonen bibliotek () gir oss en liste over pakkene som er installert for øyeblikket, la oss se en del av hva den kaster oss når vi kjører denne linjen:

Funksjonen Søk () På den annen side viser det oss ved konsoll pakkene som er lastet for øyeblikket, la oss se i følgende bilde hvilke pakker vi har lastet:

I tillegg, for å installere pakker kan vi gjøre det på flere måter, den første er gjennom alternativet i toppmenyen Verktøy> Installer pakker og så har vi gjennom språkfunksjoner, det siste er det vi anbefaler siden det dermed kan være en del av skriptet vårt.
For å installere en pakke vi bruker installer. pakker, etter dette må vi inkludere det, kan vi bruke bibliotek eller krever For dette er det imidlertid best å bruke sistnevnte for å unngå forvirring med omfanget av funksjonene. La oss se hvordan vi installerer og inkluderer pakken ggplot2:
 install.packages ("ggplot2") krever ("ggplot2") 

Endelig for å slette en pakke vi kan bruke fjerne. pakker, la oss se hvordan det brukes:
remove.packages ("ggplot2")

Med dette avslutter vi denne opplæringen, som vi allerede har en ide om hvordan vi skal jobbe med R, i tillegg til å ha avklart punkter som variabler og datastrukturer, viktige aspekter som vi må kjenne for å dra full nytte av dette kraftfulle og effektive språket.Likte og hjalp du denne opplæringen?Du kan belønne forfatteren ved å trykke på denne knappen for å gi ham et positivt poeng
wave wave wave wave wave