Sammenlægning af datafiler med Statistica, del 1

Statistica Platform er rangeret i de fem bedste datavidenskabelige platforme af Gartners nye rapport for 2017, "Magic Quadrant for Data Science Platforms" (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- platforme), som tidligere blev kaldt "Advanced Analytics Platforms" i 2016. Den brede vifte af funktioner og en grafisk brugergrænseflade (GUI) leveret af Statistica gør det til et af de mest almindeligt anvendte datavidenskabelige værktøjer.

Statistica-datafiler kaldes Regneark , som har rækker og kolonner med data. Rækker af data kaldes sager og kolonneoverskrifter for data kaldes variabler . Et almindeligt problem i dataforberedelse er, at forskellige teammedlemmer udvikler eller indsamler datasæt separat, og datasættene skal flettes, før regnearket kan bruges. Dataene kan være i flere datafiler. Vi vil diskutere, hvordan data i to forskellige datafiler kan flettes til en enkelt datafil med Statistica.

Statistica understøtter forskellige typer flettetilstande for to datafiler, og disse er:

Sæt sammen: Når to datafiler er sammenkædet, tages en datafil og tilføjes (eller sammenkædes) i højre side af den anden datafil.
Kartesisk: Opretter et krydsprodukt af to datafiler.
Match sagsnavne: Fletter sagerne (rækkerne) i én fil med sagerne i de andre filer ved at matche sagsnavnene.
Matchvariabler: Fletter rækkerne i én datafil med rækkerne i den anden datafil ved at matche variabelnavnene.

Vi starter med at diskutere sammenkædningen. Denne øvelse har følgende sektioner:

Indstilling af miljøet
Sammenkædning af datafiler
Konklusion

Indstilling af miljøet

Download og installer Statistica Platform. Statistica-datafiler kaldes regneark (lagret med .sta). suffiks). Vi skal oprette nogle Statistica-datafiler i denne tutorial. En datafil oprettes med Fil>Ny . I Opret nyt dokument , vælg Regneark , som vist i figur 1.

Figur 1: Vælger nyt regneark at oprette

For at gemme en datafil skal du vælge Fil>Gem som , som vist i figur 2.

Figur 2: Fil>Gem som

Sammenkædning af datafiler

Først skal du oprette de to datafiler, der skal flettes. Datafilerne, der skal flettes, vil typisk have det samme antal rækker og samme eller forskellige antal kolonner. Fordi data skal sammenkædes, vil kolonnenavnene typisk være anderledes. Intet af dette er et krav; to datafiler kan have forskelligt antal rækker, og vi skal også diskutere, hvordan man kan flette et sådant sæt datafiler. Målet er at flette dataene i den ene datafil med den anden, så de 2 datafiler tilføjes i højre side af 1 datafilen. Som et eksempel kan du oprette en datafil (kaldet wlslog1.sta ) med kolonneoverskrifter (variabler ) tidsstempel , kategori , og skriv og følgende data (eksempel på logdata).

4-8-2014-7:06:16,Notice,WebLogicServer4-8-2014-7:06:17,Notice,WebLogicServer4-8-2014-7:06:18,Notice,WebLogicServer4-8-2014 -7:06:20,Notice,WebLogicServer4-8-2014-7:06:21,Notice,WebLogicServer4-8-2014-7:06:22,Notice,WebLogicServer

wlslog1.sta datafil er vist i Statistica i figur 3.

Figur 3: Datafil wlslog1.sta

Opret en anden datafil (wlslog2.sta ) med kolonneoverskrifter servernavn , kode , og msg , og tilføj følgende data (også eksempler på logdata).

AdminServer,BEA-000365,STANDBYAdminServer,BEA-000365,RESUMINGAdminServer,BEA-000365,ADMINAdminServer,BEA-000331,STARTINGAdminServer,BEA-000365,STARTEDBEA-000365,UNPRENING,000365,UNPRENING,000365,000365.

wlslog2.sta fil er vist i figur 4. For at flette de to datafiler, wlslog1.sta og wlslog2.sta , klik på Data fanen og vælg Flet , som vist i figur 4.

Figur 4: Datafil wlslog2.sta

A Fletningsindstillinger dialogen vises, som vist i figur 5. Variablerne fanen er valgt som standard. Vælg Tilstand som Sammenkæd . Klik på Fil 1 knappen for at vælge den 1 fil, der skal flettes.

Figur 5: Fletindstillinger

Vælg wlslog1.sta fil i Vælg regneark dialog (se figur 6). Klik på OK . wlslog1.sta fil føjes til Fil 1 Mark. På samme måde skal du vælge 2-filen wlslog2.sta .

Figur 6: Valg af et regneark, der skal flettes

Ingen anden konfiguration er påkrævet. Som standard bliver et output-regneark genereret, og det kan konfigureres med Indstillinger fanen, som vist i figur 7. Behold standardindstillingerne for output-regnearket.

Figur 7: Fanen Indstillinger

De to filer, der skal flettes, føjes til Fil 1 og Fil 2 felter, som vist i figur 8. Standardindstillingen for Umatchede tilfælde udfylder datafilerne med de manglende værdier, hvilket indebærer, at tomme data gemmes for sektionen af en flettet række (sag ), der ikke matcher fra én datafil til en anden. Klik på OK .

Figur 8: Datafiler, der skal flettes

De to datafiler bliver sammenkædet, som vist i figur 9. Det resulterende regneark har 6 kolonner og 6 rækker.

Figur 9: Resulterende regneark efter en fletning

Hvis det ene regneark skulle have flere rækker end det andet, ville de to regneark blive sammenkædet på samme måde. Som et eksempel kan du tilføje en ekstra række i regnearket 1 (wlslog1.sta ) for at lave 7 rækker, som vist i figur 10.

Figur 10: Ekstra række i wlslog1.sta

Når det er sammenkædet med regnearket 2 (wlslog2.sta ), har det resulterende regneark en ekstra række med manglende data for kolonnerne fra regnearket 2 (se figur 11).

Figur 11: Sammenlagt regneark

Konklusion

I denne øvelse introducerede vi fletning af datafiler (også kaldet regneark) i Statistica Platform for data science. Vi diskuterede en af flettetilstandene:Sammenkædning af fletning. I en efterfølgende selvstudie vil vi diskutere sammenlægning ved at matche sagsnavne og ved at matche variabler.