Free Statistics

of Irreproducible Research!

Author's title

Author*The author of this computation has been verified*
R Software Modulerwasp_edauni.wasp
Title produced by softwareUnivariate Explorative Data Analysis
Date of computationSun, 26 Oct 2008 02:31:23 -0600
Cite this page as followsStatistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/26/t1225010011xwntvkp4hlmw9hi.htm/, Retrieved Sun, 19 May 2024 16:34:11 +0000
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18813, Retrieved Sun, 19 May 2024 16:34:11 +0000
QR Codes:

Original text written by user:
IsPrivate?No (this computation is public)
User-defined keywords
Estimated Impact172
Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)
F       [Univariate Explorative Data Analysis] [Q2: Investigate t...] [2008-10-26 08:31:23] [54ae75b68e6a45c6d55fa4235827d5b3] [Current]
Feedback Forum
2008-11-03 09:53:52 [66991d38d6a4b2d9fe97b6c889f3689c] [reply
Randomness: De student heeft zich gebaseerd op de run sequense plot, wat echter foutief is. we moeten gebruik maken van een lag plot.
Vaste distributie: de student baseert zich op het histogram en density plot die bonvendien juist geïnterpreteerd zijn. de extreme waarden die we kunnen aflezen uit de grafiek zijn echter niet zo extreem als ze lijken. we moeten ons hierover geen zorgen maken. moest de student de QQ-plot ook hebben bekeken zou ze hebben gemerkt dat de estremen hierin ook voorkomen maar veel minder erg lijken.
Vaste component: de student baseert zich op de QQ-plot, wat foutief is. Om de vaste component te analyseren moet men bekijken hoe het gemiddelde zich manifesteert op lange termijn. Dit kan via de run sequense plot.
vaste variatie: hierbij gebruik je de run sequence plot. hierbij kunnen we zien dat de spreiding van het eerste deel van de grafiek > de spreiding van het tweede deel van de grafiek. we besluiten dus dat er een verandering is in de schommeling en er dus geen vaste variatie is.

de algehele conclusie voor deze vraag is dat er niet aan alle voorwaarden werd voldaan en dat de tijdreeks dus niet voldoet aan het model.

2008-11-03 10:56:58 [Astrid Sniekers] [reply
Ik heb de oefening niet helemaal correct uitgevoerd, maar hieronder vindt u hoe het wel zou moeten.

Om de validiteit van een model na te gaan moeten de volgende 4 assumptie getest worden.

- Assumptie 1 (are the data autocorrelated? (the model assumes no autocorrelation))

http://www.freestatistics.org/blog/date/2008/Oct/31/t1225464785zocr3xsbdw5vs1j.htm

Om autocorrelatie te kunnen aflezen, kijken we niet naar de Run Sequence Plot (eerste grafiek). Wel kijken we naar de laatste twee grafieken, namelijk: de Lag plot en de Autocorrelation Function.

De rechte lijn in de Lag plot-grafiek verloopt bijna plat, horizontaal. De puntenwolk ligt gespreid rond de lijn. Dit betekent dat de autocorrelatie BIJNA nul is. Als de autocorrelatie nul was, betekent dit dat er geen autocorrelatie is en dat de tijdreeks random zou zijn.

Als we bij het aantal lags (# lags) 36 ingeven, zien we op Autocorrelation Function-grafiek (de laatste grafiek) een eerste grote correlatie bij lag 12 en een tweede grote correlatie bij lag 24. Hieruit kunnen we besluiten dat er seizoensgebondenheid / seizoensgevoeligheid is!

 De tijdreeks is niet random en bevat seizoensgebonden autocorrelatie.

- Assumptie 2 (is the random component generated by a fixed distribution? (the model assumes a fixed distribution))
http://www.freestatistics.org/blog/date/2008/Oct/31/t1225464785zocr3xsbdw5vs1j.htm

Aan de hand van de Histogram of x-grafiek kunnen we besluiten dat er een bijna normaalverdeling is.

De Density Plot-grafiek is de afgevlakte versie van de Histogram of x-grafiek. We hebben geen enkele reden om te zeggen dat hier geen normaalverdeling zou zijn.

 We hebben dus te maken met een gelijke spreiding.

Op de Normal Q-Q Plot-grafiek zien we dat de punten bijna allemaal mooi op een rechte lijn liggen. Dit betekent dat we dicht bij een normale verdeling aanleunen, ondanks het feit dat er bijna geen autocorrelatie is.

- Assumptie 3 (is the deterministic component constant? (the model assumes that the distribution has a fixed location))
http://www.freestatistics.org/blog/date/2008/Oct/31/t1225464785zocr3xsbdw5vs1j.htm

We kijken naar de Run Sequence Plot-grafiek. We kijken naar de lange termijn trend. Blijft het niveau constant? We zien een achteruitgang. Dit betekent dat het niveau niet constant blijft. Er is een dalende trend, maar toch kunnen we dit maar moeilijk zien.

- Assumptie 4 (does the random component have a fixed variation? (the model assumes a distribution with fixed variation))
http://www.freestatistics.org/blog/date/2008/Oct/31/t1225464785zocr3xsbdw5vs1j.htm

In de Run Sequence Plot-grafiek kunnen we zien dat het eerste deel meer schommelt dan het tweede deel. De spreiding is dan ook groter in het eerste deel.

Yt = c + ct
ct (random component): dit kunnen we niet voorspellen, omdat dit normaal verdeeld is.
c (constante): dit kunnen we wel voorspellen.
Ft = Yt - ct = c = de voorspelling

We gaan het gemiddelde (86.8934426229508) als constante gebruiken. In de R-code vervangen we x door x - 86.8934426229508.

http://www.freestatistics.org/blog/date/2008/Oct/31/t1225467569er44g22fj4urwkw.htm

Het gemiddelde ligt nu rond nul.

==> Besluit: het model is niet geldig, omdat niet aan alle validiteitvoorwaarden is voldaan.
2008-11-04 07:50:46 [Peter Melgers] [reply
Assumptie 2:

Je kan ook naar central tendency gaan kijken waar een beetje fluctuatie kan opgemerkt worden (het gemiddelde schommelt een beetje).

http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/04/t1225784902023cds40uvxixun.htm

Assumptie 4:

Door het gemiddelde buiten beschouwing te laten vallen de schommelingen nog harder op. Doordat er geen gelijke spreiding is, is deze voorwaarde niet voldaan.

Post a new message
Dataseries X:
109,20
88,60
94,30
98,30
86,40
80,60
104,10
108,20
93,40
71,90
94,10
94,90
96,40
91,10
84,40
86,40
88,00
75,10
109,70
103,00
82,10
68,00
96,40
94,30
90,00
88,00
76,10
82,50
81,40
66,50
97,20
94,10
80,70
70,50
87,80
89,50
99,60
84,20
75,10
92,00
80,80
73,10
99,80
90,00
83,10
72,40
78,80
87,30
91,00
80,10
73,60
86,40
74,50
71,20
92,40
81,50
85,30
69,90
84,20
90,70
100,30




Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'Sir Ronald Aylmer Fisher' @ 193.190.124.24

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 4 seconds \tabularnewline
R Server & 'Sir Ronald Aylmer Fisher' @ 193.190.124.24 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18813&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]4 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Sir Ronald Aylmer Fisher' @ 193.190.124.24[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18813&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18813&T=0

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'Sir Ronald Aylmer Fisher' @ 193.190.124.24







Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18813&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18813&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18813&T=1

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7



Parameters (Session):
par1 = 0 ; par2 = 0 ;
Parameters (R input):
par1 = 0 ; par2 = 0 ;
R code (references can be found in the software module):
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
qqline(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot1.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main='Lag plot (k=1), lowess, and regression line')
lines(lowess(z))
abline(lm(z))
dev.off()
if (par2 > 1) {
bitmap(file='lagplotpar2.png')
dum <- cbind(lag(x,k=par2),x)
dum
dum1 <- dum[(par2+1):length(x),]
dum1
z <- as.data.frame(dum1)
z
mylagtitle <- 'Lag plot (k='
mylagtitle <- paste(mylagtitle,par2,sep='')
mylagtitle <- paste(mylagtitle,'), and lowess',sep='')
plot(z,main=mylagtitle)
lines(lowess(z))
dev.off()
}
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')