Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Sun, 26 Oct 2008 08:22:27 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/26/t1225030993rdxozbplwf8i5u6.htm/, Retrieved Tue, 28 May 2024 16:25:15 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18890, Retrieved Tue, 28 May 2024 16:25:15 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

170

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [Univariate explor...] [2008-10-26 14:22:27] [0d500ce70fb61d771562626855e78bdd] [Current]

Feedback Forum

2008-10-29 19:42:54 [Kevin Truyts] [reply] 
De studente heeft de bal een beetje mis geslagen en zich blind gestaard op de oplossing van de student van vorig jaar. 
Bij de eerste veronderstelling is de studente naar de run-sequence plot gaan kijken om deze assumptie te beoordelen. Tijdens het college werd gezegd dat hiervoor naar de lag-plot moest worden gezien. Hiervoor diende de lag gelijk te stellen aan 12 of 36. Bij deze tijdreeks zien we dat de punten erg gespreid liggen op de grafiek en dat de autocorrelatie bijna gelijk is aan 0. Op de laatste grafiek zien we dat we hier te maken hebben met een seizonale correlatie/tijdreeks. Dit zien we aan het feit dat op de 12e en 24ste meting er zich telkens een piek voordoet die boven het 95%-betrouwbaarheidsinterval uitstijgt.  
Conclusie: de tijdreeks is niet rondom wegens de seizonale autocorrelatie. 
Tijdens de bespreking van de 2de assumptie werd er gezegd dat er slechts een kleine afwijking te zien is op het histogram en density-plot. Toch kunnen we dit beschouwen als een normaal verdeling en dit ondanks dat er geen autocorrelatie aanwezig is. 
Voor de 3de assumptie moest er worden gezien naar de central tendency. Hier kunnen we het gemiddelde aflezen dat schommeld rond 87. Hierdoor kunnen we besluiten dat, als er outliers zijn, deze geen directe invloed hebben op de tijdreeks. Dit is ook (moeilijk) af te lezen op de run-sequence plot. Op lange termijn is het niveau niet constant en zien we zelfs een lichte afteruitgang. 
Ook de 4de assumptie werd verkeerd beoordeeld. Hiercoor moest naar de run-sequence worden gezien. We bekijken dan de spreiding van de observaties. Hier onderscheiden we 2 delen. Deel 1 is groot en deel 2 is klein qua margeschommelingen. 
 
Hieruit kunnen we besluiten dat het model niet voldoet aan de voorwaarden.
2008-11-01 17:12:09 [31b9b5cf6c410fac5a1bf722b3335cc2] [reply] 
Er is gebruikt gemaakt van de juiste methode voor het oplossen van de ze vraag: de Univariate Explorative Data Analysis.  
Voor de eerste assumptie (Are the data autocorrelated? (The model assumes no autocorrelation)) heeft deze studente naar de eerste grafiek (Run Sequence Plot) gekeken. Dit was niet de beste grafiek om dit te kunnen oplossen. Hier kan beter de lag-plot bestudeerd worden. Aangezien de oude student het aantal lags bij de berekening niet had opgegeven (en deze studente dit ook niet heeft gedaan) heb ik dit zelf even gedaan. Ik heb het aantal lags ingesteld op 12. Het resultaat is terug te vinden in de volgende link: http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/31/t1225472414r7abrub1d7f0kr6.htm Als we nu de lag-plot bestuderen waarbij k=12, zien we dat de punten vrij random (willekeurig) liggen, maar algemeen bekeken toch een stijgend verloop naar rechtboven kennen. De tijdreeks is dus niet volledig random.  
Bij het onderzoeken van de 2de assumptie (Is the random component generated by a fixed distribution? (The model assumes a fixed distribution)) moet er gekeken worden naar het histogram (en eventueel naar de density-plot en/of QQ-plot). Dat is hier gebeurd. Er bevindt zich wel een kleine uitschieter aan de linkerzijde van het histogram en density-plot, maar deze grafieken lijken toch zeer sterk op een normaalverdeling (de uitschieter is 'verwaarloosbaar'). Ook bij de QQ-plot zien we dat het merendeel van de gegevens (buiten die kleine afwijking linksonderaan dus) op de rechte liggen wat we als een normaalverdeling kunnen bestemmen.  
Om conclusies te trekken betreffende de derde assumptie (Is the deterministic component constant? (The model assumes that the distribution has a fixed location), moet het Run-Sequence-Plot bestudeerd worden (wat hier niet gebeurd is). Deze derde assumptie moet op lange termijn bestudeerd worden. Als we een rechte trekken langsheen de topwaarden uit deze grafiek, zou deze constant moeten zijn opdat er sprake zou zijn van een fixed location. Aangezien dit best op lange termijn gezien kan worden, kunnen we hierover eigenlijk moeilijk uitspraken doen in deze grafiek, maar we kunnen wel vermoeden dat er zich een dalende trend voordoet.  
Ten laatste is er de 4de assumptie (Does the random component have a fixed variation? (The model assumes a distribution with fixed variation)) waarbij gekeken wordt naar de verticale spreiding van de gegevens in het Run-Sequence-Plot. Als deze ongeveer altijd even groot is, mag geconcludeerd worden dat er sprake is van een fixed location. Als we dit doen, kunnen we zien dat in het eerste gedeelte van de grafiek er een grotere verticale spreiding is van de gegevens en dat deze schommelingen in het tweede gedeelte van de grafiek kleiner worden. Deze studente heeft geen conclusies getrokken in het bijgevoegde Word-document aangezien ze dacht andere grafieken te moeten gebruiken die niet getoond werden in de oorspronkelijke computation.  
De algemene conclusie is dat deze vraag door deze studente niet goed werd opgelost. Het is eigenlijk gewoon copy-paste van het document van de 'oude student'. Enkel de computations zijn gereproduced, maar zelfs dt was foutief (er werden geen lags ingesteld door de studente).
2008-11-01 17:14:38 [Kevin Neelen] [reply] 
Er is juist blijkbaar iets misgelopen aangezien mijn naam niet verschijnt bij mijn voorgaande commentaar. Maar die commentaar komt dus van mij voor alle duidelijkheid!
2008-11-03 17:09:05 [Jeroen Michel] [reply] 
Samenvattend waarnaar de vorige studenten verwijzen is dat er inderdaad een berekening is gemaakt waarbij dezelfde fouten zijn ingeslopen als bij de student van vorig jaar. De nodige parameters bij de berekening zijn niet aangepast geweest. 
 
Onderstaande link geeft ook nog maals de juiste berekeningen en feedback weer: 
Assumptie 1:  
Hierbij heb ik deze keer inderdaad gekeken naar de lag plot ipv. de run sequence plot. De resultaten zijn terug te vinden onder deze link:  
lag 1: Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Nov/02/t12256648775yuu0x8xxg6fgch.htm, Retrieved Sun, 02 Nov 2008 22:28:06 +0000 Tevens houden we rekening met de puntenwolken zoals opgesomd door de vorige studente.  
 
lag 12: Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Nov/02/t1225665259gny0zbzwwq6rpqr.htm, Retrieved Sun, 02 Nov 2008 22:34:28 +0000  
 
lag 36: Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Nov/02/t1225665398n329mjtqxwani17.htm, Retrieved Sun, 02 Nov 2008 22:36:51 +0000  
 
Assumptie 2:  
Hier is inderdaad een foute interpretatie gemaakt. Hier is er inderdaad sprake van een normaalverdeling. Aangezien er in Q1 geen autocorrelatie is, is er hier sprake van normaalverdeling. De resulaten zijn wel op de juiste grafieken afgelezen geweest.  
 
Assumptie 3:  
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Nov/02/t1225665670l3jnqcbv4p6c0d6.htm, Retrieved Sun, 02 Nov 2008 22:41:15 +0000  
In bovenstaande berekening vind u de juiste oplossingen terug. Hier zijn de opmerkingen van voorgaande studente op waar te nemen en zien we op het einde inderdaad de dalende trend.  
 
Assumptie 4:  
Hier is er niet gewerkt door de verschillende lags in te stellen. Belangrijk is hier wel dat deze aanpassingen gebeuren om tot volgende voorwaarde te komen: Clothing Production = constant + random component. 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 3 seconds \tabularnewline
R Server & 'Sir Ronald Aylmer Fisher' @ 193.190.124.24 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18890&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]3 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Sir Ronald Aylmer Fisher' @ 193.190.124.24[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18890&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18890&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18890&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18890&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18890&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code