Programmēšana

Vienkāršāka ggplot ar ggeasy R pakotni

Ggplot2 datu vizualizācijas R pakete ir ārkārtīgi spēcīga un elastīga. Tomēr ne vienmēr ir viegli atcerēties, kā veikt katru uzdevumu - it īpaši, ja neesat biežs lietotājs. Kā jūs maināt diagrammas nosaukuma lielumu? Kā jūs noņemat leģendu nosaukumus? Mans parastais risinājums ir saglabāt RStudio koda fragmentus lietām, kuras man ir grūti atcerēties. Bet ir arī pakete, kas var palīdzēt: ggeasy.

Kā saka nosaukums, ggeasy mērķis ir labi vai vismaz viegli padarīt ggplot2er. Daži cilvēki to var uzskatīt par intuitīvākām funkcijām tipiskiem uzdevumiem, galvenokārt ap teksta un ass formatējumu. (Šī pakete neietekmē veidu līnijas, punkti un stieņi izskatās un izturas). Visas ggeasy funkcijas sākas ar viegli_ tāpēc tos ir, jā, viegli atrast, izmantojot RStudio automātisko pabeigšanu. Kā tas darbojas, jūs varat redzēt iepriekš redzamajā videoklipā.

Ja vēlaties sekot manam zemāk redzamajam piemēram, ggeasy ir ieslēgts CRAN, tāpēc varat to instalēt ar install.packages ("ggeasy"). Es izmantošu arī paketes ggplot2 (dabiski), dplyr, rio un lubrikate. Vēlāk es pievienošu ielāpu pakotni, lai vairāku grafiku izvietošana būtu ļoti vienkārša; tas ir arī CRAN.

Šajā piemērā es izmantošu datus par to, kas mūsdienās ir domājis lielākajai daļai cilvēku: koronavīruss. Jūs varat lejupielādēt CSV failu ar datiem pēc ASV štata no koronavīrusa izsekošanas projekta ar

download.file ("// covidtracking.com/api/states/daily.csv",

destfile = "covid19.csv")

(Jūs varat nosaukt destfile failu, ko vēlaties.) Es izmantoju Rio :: importēt () lai importētu datus, bet jūs varat arī izmantot readr :: read_csv (), lasīt.csv (), data.table :: fread ()vai jebkuru citu funkciju CSV importēšanai.

Izmantojot rio, datumi tika ievadīti kā veseli skaitļi, tāpēc es izmantošu lubricātus ymd () funkcija, lai šo kolonnu pārvērstu par objektiem Datums:

dati $ datums <- lubridate :: ymd (dati $ datums)

Lai izveidotu diagrammu, kuru nav pārāk grūti saprast, es filtrēšu šos datus tikai dažiem stāvokļiem, tāpēc nav 50 atsevišķu laika rindu rindu. Es izvēlējos Luiziānu, lai redzētu lietu skaita pieaugumu - Luiziānas štata gubernators teica, ka štats ir starp visātrāk augošajām lietām pasaulē. (Pastāv pieņēmumi, ka februāra Mardi Gras varētu būt izraisījis kopu Ņūorleānā.) Es pievienošu arī Masačūsetsu - štatu, kurā dzīvo apmēram par 50 procentiem vairāk cilvēku nekā Luiziānā, jo es tur atrodos.

Pēc datu filtrēšanas izveidošu datu pamata līniju diagrammu:

stāvokļi2 <- filtrs (dati, statuss%% c ("LA", "MA"))

ggplot (stāvokļi2, aes (x = datums, y = pozitīvs, krāsa = stāvoklis)) +

geom_line () +

geom_point () +

theme_minimal () +

ggtitle ("Lousiana & Massachusetts Daily Covid-19 lietas")

Sharon Machlis,

Tas ir diezgan straujš pieaugums. Daži no tiem var būt saistīti ar testu skaita palielināšanos - varbūt mēs vienkārši zināt par vairākiem gadījumiem, jo ​​testēšana paātrinājās. Es to apskatīšu pēc minūtes.

Pirmkārt, kā būtu ar dažiem šī grafika pielāgojumiem?

Sāksim ar diagrammas nosaukuma palielināšanu. Lai izmantotu ggeasy, es sāktu rakstīt viegli_ RStudio augšējā kreisajā avota rūtī un ritiniet, līdz atrodu vēlamo.

Sharon Machlis,

easy_plot_title_size () izskatās kā man vajadzīgā funkcija. Ar šo kodu es varu mainīt diagrammas nosaukumu uz 16 punktu tipu:

ggplot (stāvokļi2, aes (x = datums, y = pozitīvs, krāsa = stāvoklis)) +

geom_line () +

geom_point () +

theme_minimal () +

ggtitle ("Lousiana & Massachusetts Daily Covid-19 lietas") +

easy_plot_title_size (16)

Es varu pagriezt x ass tekstu ar viegli_rotēt_x_labels (90) 90 grādu pagriešanai un noņemiet leģendas nosaukumu (ir diezgan skaidrs, ka tie ir stāvokļi) easy_remove_legend_title (). Pilns diagrammas kods ir zemāk, ieskaitot diagrammas saglabāšanu mainīgajā lielumā pozitīvi.

pozitīvi <- ggplot (stāvokļi2, aes (x = datums, y = pozitīvs, krāsa = stāvoklis)) +

geom_line () +

geom_point () +

theme_minimal () +

ggtitle ("Lousiana & Massachusetts Daily Covid-19 lietas") +

easy_plot_title_size (16) +

easy_rotate_x_labels (90) +

easy_remove_legend_title ()

Sharon Machlis,

Pēc tam es vēlētos apskatīt negatīvs koronavīrusa testa rezultātus, lai noskaidrotu, vai tie pieaug līdzīgā ātrumā kā pozitīvi. Es izmantošu to pašu kodu, bet vienkārši pārslēdzu y kolonnu uz negatīviem.

negatīvi <- ggplot (stāvokļi2, aes (x = datums, y = negatīvs, krāsa = stāvoklis)) +

geom_line () +

geom_point () +

theme_minimal () +

ggtitle ("Lousiana & Massachusetts Negatives") +

easy_plot_title_size (16) +

easy_rotate_x_labels (90) +

easy_remove_x_axis ("title") +

easy_remove_y_axis ("title") +

easy_remove_legend_title ()

Sharon Machlis,

Šķiet, ka Luiziānā ir vairāk pozitīvu nekā negatīvu. Lai gan mēs nezinām, vai tas ir tāpēc, ka mainījās testēšanas kritēriji vai kaut kas cits.

Būtu noderīgi redzēt šos divus grafikus blakus. Tieši šeit ir pieejams savārstījums.

Tikai ar šīm divām koda rindiņām vispirms tiek ielādēts ielāpu pakotne:

bibliotēka ("savārstījums")

pozitīvi + negatīvi

Es to saprotu:

Sharon Machlis,

Ir neticami viegli ievietot vairākus grafikus ar savārstījumu. Lai uzzinātu vairāk par to, kā pielāgot izkārtojumus, dodieties uz vietņu vietni.

Tagad es varu atgriezties un izmantot ggeasy, lai noņemtu vienu no leģendām, lai nebūtu divu, un pēc tam atkārtoti palaist savārstījumus:

negatīvi <- negatīvi +

easy_remove_legend ()

pozitīvi + negatīvi

Skaidrs, ka ggeasy ir diezgan noderīgs ātrai un vienkāršai datu izpētei!

Lai iegūtu vairāk R padomu, dodieties uz “Do More With R” lapu vai skatiet YouTube atskaņošanas sarakstu “Do More With R”.

$config[zx-auto] not found$config[zx-overlay] not found