Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Thu, 23 Oct 2008 04:04:10 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/23/t1224756407dauau5ixbis6gu1.htm/, Retrieved Sun, 19 May 2024 14:11:48 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18446, Retrieved Sun, 19 May 2024 14:11:48 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

223

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
-    D  [Univariate Explorative Data Analysis] [Q2 Investigate th...] [2008-10-23 09:20:20] [cb714085b233acee8e8acd879ea442b6]
F   PD      [Univariate Explorative Data Analysis] [Q2 Investigate th...] [2008-10-23 10:04:10] [787873b6436f665b5b192a0bdb2e43c9] [Current]
-             [Univariate Explorative Data Analysis] [] [2008-11-03 10:27:08] [43d870b30ac8a7afeb5de9ee11dcfc1a] 

Feedback Forum

2008-10-30 12:06:28 [Tamara Witters] [reply] 
Assumption 1: Are the data autocorrelated? (The model assumes no autocorrelation) 
 
*Grafiek lagplot: 
We kunnen dit testen door de autocorrelatie of het Lagplot. De correlatie is een maatstaf die aangeeft in welke mate de punten op een rechte ligt. 
We kunnen afleiden uit de lag plot dat de autocorrelatie heel dicht bij 0 ligt. 
*Grafiek autocorrelation function: 
We kunnen ook kijken naar de autocorrelation function , dan kunnen we het aantal lags best wel op 36 zetten. 
We zien een eerste grote correlatie bij lag 12, een 2e grote bij lag 24, waardoor we kunnen besluiten dat er seizonale correlatie is. A.d.h hiervan kunnen we ook een voorspelling voor de toekomst maken.  
De horizontale  stippenlijnen geven de betrouwbaarheidintervallen weer met een waarschijnlijkheid van 95%. We hebben 5% kans dat de autocorrelatie erbuiten valt. 
Conclusie: De tijdreeks is niet random en bevat correlatie, nl seizoensgebonden correlatie.  
 
Assumption 2: Is the random component generated by a fixed distribution? (The model assumes a fixed distribution) 
 
Hiervoor moeten we kijken naar het histogram en density plot 
Je kan merken dat het verloop een normaalverdeling weergeeft (uitgezonderd aan de linkerkant een uitschieter) 
Ook kijken we naar het Q-Q plot 
We trekken een denkbeeldige lijn door de punten : liggen de punten op deze denkbeeldige lijn? 
De punten liggen toch vrij dicht op de lijn, bijgevolg: normaalverdeling. 
 
Assumption 3: Is the deterministic component constant? (The model assumes that the distribution has a fixed location) 
We kijken hierbij naar het “run sequence plot” 
Op LT is het niveau van deze reeks niet constant 
We moeten ons afvragen of het gemiddelde constant is, bijgevolg kijken we naar de central tendency. 
Bij de robustness van central tendency zien we toch dat het verloop vrij constant is.   
MAAR op LT vermoeden we een dalende trend. 
 
 
Assumption 4: does the random component have a fixed variation? (The model assumes a distribution with fixed variation) 
Hiervoor gebruiken we ook de run  sequence plot 
We kijken naar de spreiding van de reeks over de tijd heen. Het linkse gedeeltde van de reeks schommelt harder. Bijgevolg is er een verandering van de spreiding over de jaren heen. 
 
 
Besluit: 
Er is niet aan alle voorwaarden voldoen dus de tijdreeks voldoet niet helemaal aan het model van: Clothing Production = constant + random component 
Vermits er seizoensgebonden correlatie is; 
 
2008-10-30 12:53:35 [Glenn De Maeyer] [reply] 
De student formuleerde de juiste validiteitsvoorwaarden waar het model aan dient te voldoen. Ze vulde zelf het aantal lags in bij de simulatie waardoor ze alle noodzakelijke grafieken te zien kreeg. Ze maakte echter hier en daar wel een aantal kleine foutjes. 
 
1st Assumption (Het moet gaan om random drawings, onafhankelijke trekkingen) 
 
De student besluit hier terecht dat er sprake is van autocorrelatie. Maar het gaat hier wel om een speciale correlatie nl. een seizoensgebonden correlatie. 
Hoe vinden we dit nu? 
Als we kijken naar de lag plot merken we dat de puntenwolk verspreid ligt rond de rechte. Dit wijst erop dat de autocorrelatie zo goed als 0 is. 
Indien we nu de lag instellen op 12 en dan kijken naar de grafiek lag 12 dan zien we dat hier wel correlatie is. Als we dan de lag instellen op 36 en kijken naar de autocorrelation function dan zien we een terugkerende grote correlatie bij lag 12, 24 en 36. DIt wijst op een seizoensgebonden correlatie. 
 
2nd Assumption (Is er een vaste verdeling) 
 
De student maakt hier gebruik van de juiste grafieken en trekt de juiste conclusie. Je zou kunnen denken dat er geen sprake is van een normaalverdeling omdat er zowel bij het histogram als bij het density plot links een kleine uitschieter is. Deze uitschieter is echter verwaarloosbaar. Er is hier wel degelijk sprake van een normaalverdeling. 
 
3rd Assumption (Verdeling heeft een constant niveau) 
 
De student maakte hier gebruik van het QQ plot. We werken hier echter best met het run sequence plot. Op lange termijn zien we dat deze geen constant verloop kent, eerder een dalend verloop. We dienen dan ook best even te kijken naar de trimmed en winsorised mean (berekening bij central tendency). Hier stellen we vast dat er een vrij constant verloop is en dat er niet veel invloed is van extremen. 
Op lange termijn vermoeden we dus een daling, maar we zijn niet zeker. 
 
4th Assumption (does the random component have a fixed variation) 
 
Dit werd niet besproken door de student. Hiervoor kijken we naar het run sequence plot. Er is geen constante spreiding want in het begin is er duidelijk een hogere fluctuatie dan naar het einde toe. 
Men vraagt hier eigenlijk wel om iets te berekenen van de random component. We dienen van de run sequence plot dus eigenlijk de voorspelling af te trekken. 
Yt = C + Et en Ft = Yt - Et = c (de constante is dus de voorspelling) 
Welke voorspelling moet je er nu aftrekken? Als er outliers zijn neem je best de mediaan, indien er geen outliers zijn neem je best het gemiddelde. 
Je voert de simulatie dus opnieuw uit en typt in de R-code x <- x - 86.69 (= gemiddelde). Dan krijg een run sequence plot waar de voorspelling is afgetrokken. 
 
Zoals de student reeds concludeerde is er inderdaad niet aan alle voorwaarden voldaan.
2008-11-03 08:25:21 [4db2e62d895b4fb371d0fef3013b569f] [reply] 
De student trekt de juiste conclusie, namelijk, er wordt niet aan alle voorwaarden voldaan.  
De student ziet hier en daar iets over het hoofd, daarom overlopen we even de vier assumpties: 
 
Assumptie 1: 
 
Hier spreekt men van seizoenaliteit, bij het veranderen van de 'LAGS' in veelvouden van 12 wordt duidelijk dat er zich terugkomende pieken en dalen voordoen. 
 
Assumptie 2: 
 
Na het analyseren van het Histogram en het Density plot kunnen we concluderen dat er sprake is van normaalverdeling. Ook al is de grafiek niet volledig perfect, hij benaderdt deze wel. 
 
Assumptie 3: 
 
We moeten concluderen dat er een dalend verloop is. Dit is zeer duidelijk opmerkbaar in het Run Sequence Plot. 
 
Assumptie 4: 
 
(werd niet door de student opgelost) 
 
Hiervoor moet je de simulatie opnieuw uitvoeren en in de R-code x <- x - 86.69 veranderen. 86.69 is in dit voorbeeld het gemiddelde.  
 
 
 
 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	4 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 4 seconds \tabularnewline
R Server & 'Sir Ronald Aylmer Fisher' @ 193.190.124.24 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18446&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]4 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Sir Ronald Aylmer Fisher' @ 193.190.124.24[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18446&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18446&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	4 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18446&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18446&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18446&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 12 ;

Parameters (R input):

par1 = 0 ; par2 = 12 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code