Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Fri, 24 Oct 2008 10:37:42 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/24/t1224866514rxobnk77x5ev7t7.htm/, Retrieved Sun, 19 May 2024 12:58:13 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18651, Retrieved Sun, 19 May 2024 12:58:13 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

403

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [Investigating Dis...] [2008-10-24 16:37:42] [0f30549460cf4ec26d9cf94b1fcf7789] [Current]
F    D      [Univariate Explorative Data Analysis] [Investigating Dis...] [2008-10-24 17:36:10] [a57f5cc542637534b8bb5bcb4d37eab1] 
-   PD        [Univariate Explorative Data Analysis] [Lag plot: huurpri...] [2008-10-29 13:28:51] [b85eb1eb4b13b870c6e7ebbba3e34fcc] 
-   PD        [Univariate Explorative Data Analysis] [Verbetering Q7] [2008-10-30 22:14:29] [6816386b1f3c2f6c0c9f2aa1e5bc9362] 
-   PD        [Univariate Explorative Data Analysis] [Paper - UEDA] [2008-12-14 13:36:01] [a57f5cc542637534b8bb5bcb4d37eab1] 

Feedback Forum

2008-10-29 13:04:35 [Ellen Smolders] [reply] 
Assumptie 1:  
Het antwoord van de student is correct, de grafiek verloopt inderdaad gedeeltelijk regelmatig, dit door de seizonaliteit. De student is vergeten het aantal lags in de calculator in te vullen. Daarna moeten we de gegevens op het ‘Lagplot’ aflezen. In de calculator ‘hoeveel lags’ kunnen we het getal 12 of 36 invullen. Door een aantal lags in te vullen verschuift de tijdreeks één bepaalde periode. Het ‘Lagplot’ geeft dan het scatterplot tussen de oorspronkelijke en de nieuwe tijdreeks weer, zo kunnen we het verband zien tussen het verleden en het heden. Op deze grafiek kunnen we dan zien dat er geen autocorrelatie is. Wanneer we voor aantal lags ‘12’  invullen kunnen we zien dat de puntenwolk dicht bij de lijn liggen en een lichte positieve helling vertoont, dit wil zeggen dat er een positieve seizonale autocorrelatie bestaat. We kunnen ook zien dat de gegevens willekeurig verspreid zijn. Als conclusie kunnen we stellen dat de tijdreeks met lags 12 geen randomness bevat maar autocorrelatie met seizonale betekenis. Als we voor het aantal lags ‘36’ invullen kunnen we op de grafiek van ‘Autocorrelation Function’ een terugkerend patroon per jaar zien.  
 
Assumptie 2: 
De student heeft deze vraag gedeeltelijk correct beantwoord. Met uitzondering van de slag links in het histogram, vertoont het histogram een normaalverdeling.Op het density plot kunnen we ook een afgevlakte normaalverdeling waarnemen. Wanneer we willen checken of beide grafieken een normaalverdeling vertonen, kunnen we ook gebruik maken van het Normal QQ Plot. Op deze grafiek zien we dat de punten relatief dicht op de rechte (die het verband tussen de werkelijke en theoretische kwantielen voorstelt) liggen, dit wijst op een bijna normaalverdeling. Slechts in het begin van de rechte zien we de punten verder verwijderd liggen, dit wijst op de afwijking links die te zien was in het histogram. Zoals we eerder geconcludeerd hadden (q1) vertoont de dataset geen autocorrelatie waardor er wel een normaalverdeling is.  
 
Assumptie 3: 
De student heeft deze vraag niet volledig beantwoord. Voor deze assumptie moeten we onderzoeken of de verdeling een constant niveau heeft, dit kunnen we zien aan de hand van de Run Sequence Plot. We kunnen vaststellen dat de curve zeer sterk op een neer gaat, maar dit is niet relevant (KT). Voor deze assumptie moeten we de LT-trend onderzoeken, dit kunnen we al zien als we de gehele grafiek bekijken, die een dalend verloop weergeeft, dus deze is niet constant.  
We kunnen dit ook op een andere manier vinden door de te berekenen of het gemiddelde constant is, met gebruik van de Central Tendancy software. http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/28/t1225208709aqnwr284qqj9tjz.htm 
Uit beide grafieken (zowel winsorized als trimmed mean) kunnen we afleiden dat het gemiddelde inderdaad niet constant verloopt. Meer kunnen we niet afleiden. We kunnen besluiten dat we een vermoeden hebben dat de dataset een dalende trend op het einde vertoont. 
 
Assumptie 4: 
De student heeft het correcte antwoord gegeven maar verder geen argumentatie. Voor deze assumptie moeten de gegevens op de y-as (random component) ongeveer eenzelfde spreiding hebben en ongeveer even breed zijn (dus constant blijven). Als we kijken naar de spreiding over de tijd heen in het Run Sequence Plot, kunnen we vaststellen dat we de grafiek in 2 kunnen delen waarvan het 1ste deel groter is dan het 2de deel. Dus er is een verandering van schommeling doorheen de tijd.  
 
CONCLUSIE: er werd niet aan alle voorwaarden voldaan, dus de tijdreeks voldoet niet aan het model van: Clothing Production = constant + random component.  
2008-10-29 16:38:23 [Veerle Jackers] [reply] 
Hier ben ik het wel met je eens. Bedankt voor de verdere uitleg.
2008-10-30 21:44:42 [Kenny Simons] [reply] 
Bij deze vraag is de student inderdaad de mist in gegaan. Ze heeft niet de juiste grafieken gebruikt om de antwoorden af te leiden.  
 
Voor de eerste assumptie moeten we zien naar de autocorrelatie of naar het lagplot. Hiervoor moest je het aantal lags instellen (best op 12 of 36). Als we de lags op 36 hebben ingesteld, zien we in de grafiek van de autocorrelation function dat we bij lag 12 een zeer grote autocorrelatiecoëfficiënt hebben. Dit komt ook weer voor bij lag 24. We kunnen dus besluiten dat de tijdreeks niet random is, want ze bevat wel degelijk correlatie, namelijk een seizoenale correlatie. Hier vind je de grafieken bij lag=36  
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/30/t1225381046jopsq56a363ocsz.htm 
 
Voor assumptie 2, moeten we zien naar het histogram en eventueel naar het density plot. Aan de hand van het histogram zien we dat we min of meer een normaal verdeling hebben. Bij het density plot, zien we dit ook. Er zit wel een kleine bult in, maar hier moeten we zeker niet van wakker liggen. Om deze assumptie op te lossen, kunnen we ook zien naar het normal QQ plot. Als de punten zo goed als op de rechte liggen, hebben we te maken met een normaal verdeling en dit is hier ook het geval.  
 
Voor de derde assumptie, moeten we zien naar het run sequence plot. Deze reeks gaat vrij snel op en neer, maar hier moeten we zien naar de lange termijntrend of hier het niveau constant blijft. Dit is hier niet het geval. Het niveau gaat hier lichtjes achteruit.  
Als we de central tendency berekenen voor deze tijdreeks, kunnen we zien dat bij de winsorized mean het gemiddelde ongeveer bij 87 begint en ook bij plus minus 87 eindigt, dit wil zeggen dat outliers geen invloed op het niveau van het gemiddelde hebben.  
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/30/t1225381872xstjbt9bcth6nen.htm 
 
Voor assumptie 4 moeten we zien naar de spreiding van het run sequence plot. Dit is weer niet eenvoudig te zien. Als we deze curve nu in 2 delen splitsen, zien we dat het eerste deel (het linkse deel) een grotere spreiding (schommeling) heeft dan het 2e deel (het rechtse deel). We kunnen dus besluiten dat de spreiding niet constant is. 
2008-11-03 10:28:55 [Zeno Thoelen] [reply] 
2008-11-03 10:34:17 [a7e076854c32462fd499d2de3f6d4e86] [reply] 
De vorige opmerkingen zijn correct, ik ben het er helemaal mee eens. 
Nog eens snel herhaald: 
  
assumptie 1: autocorrelatie of lagplot. (aantal lags instellen: 12 of 36) 
 
assumptie 2: het histogram en eventueel naar het density plot (normaal verdeling) De kleine bult = niets van aantrekken.  
Kijken naar het normal QQ plot. Als de punten zo goed als op de rechte liggen, hebben we te maken met een normaal verdeling en dit is hier ook het geval.  
 
assumptie 3: run sequence plot: uitleg zie hierboven 
 
assumptie 4: het run sequence plot. Dit is weer niet eenvoudig te zien -> spreiding is niet constant  
2008-11-03 17:44:51 [Stéphanie Van Dyck] [reply] 
Ik sluit mij volledig aan bij de feedback van de andere studenten.

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'George Udny Yule' @ 72.249.76.132

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'George Udny Yule' @ 72.249.76.132 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18651&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'George Udny Yule' @ 72.249.76.132[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18651&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18651&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'George Udny Yule' @ 72.249.76.132

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18651&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18651&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18651&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code