Free Statistics

of Irreproducible Research!

Author's title

Author*The author of this computation has been verified*
R Software Modulerwasp_edauni.wasp
Title produced by softwareUnivariate Explorative Data Analysis
Date of computationMon, 27 Oct 2008 12:55:20 -0600
Cite this page as followsStatistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/27/t1225133752sd3hehb931yf82a.htm/, Retrieved Tue, 28 May 2024 17:34:10 +0000
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=19406, Retrieved Tue, 28 May 2024 17:34:10 +0000
QR Codes:

Original text written by user:
IsPrivate?No (this computation is public)
User-defined keywords
Estimated Impact184
Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)
F       [Univariate Explorative Data Analysis] [Q2 IA2] [2008-10-27 18:55:20] [b05bea52879de0a398b42c6968cc24b2] [Current]
-   PD    [Univariate Explorative Data Analysis] [Q2 Univariate Exp...] [2008-10-31 19:26:40] [7d3039e6253bb5fb3b26df1537d500b4]
- RMP       [Central Tendency] [Q2 Central Tendency] [2008-11-01 09:55:04] [7d3039e6253bb5fb3b26df1537d500b4]
-             [Central Tendency] [verbetering Q2 IA2] [2008-11-03 15:48:49] [3d2d096cc21c6f80db3dd7b8e12effce]
-   P       [Univariate Explorative Data Analysis] [Q2 Univariate Exp...] [2008-11-01 13:45:41] [7d3039e6253bb5fb3b26df1537d500b4]
-           [Univariate Explorative Data Analysis] [Q2 Univariate Exp...] [2008-11-02 11:22:14] [c993f605b206b366f754f7f8c1fcc291]
-   P       [Univariate Explorative Data Analysis] [Q2 Univariate Exp...] [2008-11-02 11:55:51] [c993f605b206b366f754f7f8c1fcc291]
-   PD    [Univariate Explorative Data Analysis] [Q2 Univariate Exp...] [2008-10-31 20:25:53] [7d3039e6253bb5fb3b26df1537d500b4]
-   PD    [Univariate Explorative Data Analysis] [verbetering Q2 IA2] [2008-11-03 15:18:41] [3d2d096cc21c6f80db3dd7b8e12effce]
-   PD    [Univariate Explorative Data Analysis] [verbetering Q2 IA2] [2008-11-03 15:21:43] [3d2d096cc21c6f80db3dd7b8e12effce]
Feedback Forum
2008-11-01 10:04:55 [Stéphanie Claes] [reply
De student heeft de 4 voorwaarden niet gevolgd, hij heeft enkel de geblogde grafieken proberen interpreteren.
1. Bij de eerste assumptie gaan we na of er correlatie is (die mag er niet zijn). De student heeft zich gebaseerd op de Run Sequence plot maar hier kan je niet zoveel uit afleiden. Om de autocorrelatie na te gaan kan er beter gekeken worden naar de Lag Plot. Deze bekomen we door lags in te geven bij opties => http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/31/t1225481296kec92gedvc53vqz.htm
Als we naar de eerste Lag Plot kijken dan zien we dat de lijn bijna horizontaal loopt en de punten liggen gespreid rond de rechte, dit betekent dat de correlatie bijna 0 is.
Bij de tweede Lag Plot zien we een kromme, als we een rechte tekenen zien we dat de punten veel meer aansluiten, dit is een positieve seizonale correlatie, wat betekent dat als we de industriële productie hebben van deze maand dat we een uitspraak kunnen doen over 12 maanden verder want er gaat telken in dezelfde maand veel of minder geproduceerd worden.
Tenslotte vinden we onderaan de autocorrelatiefunctie (samenvatting van alle correlaties), als we hier de lag op 36 instellen is dat iets duidelijker.
We kunnen concluderen dat de tijdreeks niet random is, het bevat seizonale correlatie.
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/31/t1225481296kec92gedvc53vqz.htm => lag 36

2. Bij de tweede assumptie gaan we kijken naar histogram en eventueel density plot, dit heeft de student correct gedaan. Als we kijken naar het histogram vinden we een min of meer normaalverdeling en bij density plot is er links een klein bultje, maar niet erg uitgesproken.

3. Voor de derde assumptie kijken we naar de run sequence plot, kijken of het niveau constant blijft, we zien een achteruitgang dus we kunnen vermoeden dat het niveau op lange termijn niet constant blijft, maar het is moeilijk te zien.
Als we naar central tendency kijken dat zien we dat het gemiddelde ongeveer bij 87 ligt, outliers hebben geen invloed, wat niet betekent dat er geen dalende trend kan zijn op lange termijn.
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/01/t1225533357wrusa5vgn7s8ko4.htm => central tendency

4. Hier kijken we naar de Run Sequence. Kijken naar de spreiding van de reeks over de tijd heen. De spreiding van het eerste deel is groter dan het tweede deel. Door de tijd is er verandering van schommelingmarges.
2008-11-01 10:06:41 [Stéphanie Claes] [reply
De student maakt foutief het besluit dat het model geldig is. Er is niet aan alle voorwaarden voldaan en is bijgevolg ongeldig.
  2008-11-01 13:48:08 [Stéphanie Claes] [reply
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/01/t1225547185ouxyce733uum7ua.htm
Dit is de correcte link bij puntje 3
2008-11-02 19:49:01 [Bernard Femont] [reply
de student maakt hierbij gebruik van de foute grafiek.
we moeten gebruik maken van de lagplot en de partial autocorrelation.
bij de lagplot kunnen we het aantal lags instellen op 12 of 36.
we kunnen hierin zien of we op basis van de vorige observatie iets kunnen zeggen over de huidige observatie.
bij de partial autocorrelation kunnen we bij een instelling op 36 duidelijk zien dat alle autocorrelatie voor twaalf en na twaalf niet representatief zijn
(maw: aan het toeval toe te schrijven) of negatief zijn.
de meeste van deze waarden liggen binnen het betrouwbaarheids interval, de enkele die boven het betrouwbaarheidsinterval komen zijn niet representatief omdat hun kans op voorvallen veel kleiner is dan die bij 12.
we besluiten bij assumtie 1 dat de tijdreeks niet random is maar correlatie bevat. in dit geval een speciale correlatie nl. seizoensgebonden correlatie.

assumtion 2:
de student maakt gebruik van de correcte grafieken.
het is echter zo dat we van deze grafieken een normaalverdeling aflezen. bij de density plot zoeken we naar de bell shaped vorm, bij het histogram naar een piramide vorm. deze worden op 1 uitschieter na bereikt maar het is zo dat deze uitschieter niet zorgwekkend is. we kunnen dus besluiten dat het hier gaat om een normaal verdeling.
deze conclusie wordt ook bevestigd door het Q-Q plot. deze gebruikt de student bij assumtie 3 en hij zegt hierbij dat alle punten binnen het betrouwbaarheidsinterval liggen.
met deze zin spreekt hij zijn conclusie van de 2e assumtie tegen.

opmerking hierbij: er is een normaalverdeling bij autocorrelatie.
dit staaft de regel dat er wanneer er geen corr. is er steeds normaalverdeling optreedt maar dat dit niet vice versa is. (wanneer er wel autocorr. is, is er niet noodzakelijk geen normaalverdeling)

assumtion 3:
hierbij maakt de student gebruik van de foute grafiek.
we beroepen ons op de run sequence. de assumtie vraagt ons of er geen fluctuaties zijn op lange termijn.
de run sequence vertoont echter een dalende lijn.
conclusie: het is geeen uitgesproken trend maar we vermoeden een dalende. er is dus fluctuatie op lange termijn.

assumtion 4:
de student maakt opnieuw gebruik van de foute grafiek.
bij deze assumtie maken we nogmaals gebruik van de run sequence plot.
we kijken hierbij naar de spreiding van de reeks over de tijd heen.
hierbij splitsen we de grafiek in twee delen. de spreiding van het eerste deel is groter dan die van het tweede deel.
we besluiten hierbij dat er een verandering is van de schommeling en dus geen fixed variation.
2008-11-03 16:04:00 [Joren Nuyts] [reply
Q1: Zoals in het document ernaar verwezen wordt, is de correlatie het grootst bij de normaalverdeling. Deze oefening werd goed opgelost en alle gegevens werden ook correct weergegeven en geïnterpreteerd.

Q2: Ik heb me niet gehouden aan de 4 assumpties die moeten getest worden. In onderstaande link de aangepaste versie met verbeterde gegevens voor lag 12:
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/03/t1225725595srszu25x5w92nn1.htm
Deze link geeft de verbeterde versie van lag 36:
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/03/t1225725740n1rbeeqzd5mysjz.htm

Na het bekijken van de grafieken merken we dat de lag plot als grafiek moet gebruikt worden. Er is geen correlatie omdat de puntenwolk niet op de rechte ligt. Indien er wel correlatie zou zijn, kunnen we geen voorspelling doen.

Bij de grafiek met lag 12 merken we een positieve helling op, wat duidt op een positieve correlatie. We kunnen hier spreken van een positieve seizonale autocorrelatie.
Indien we de grafiek met lag 36 bekijken, merken we 2 uitschieters tijdens de maanden 12 en 24. Deze kunnen we gebruiken om voorspellingen te maken.

Na assumptie 1 kunnen we ervan uitgaan dat de tijdreeks niet random is want het bevat seizonale autocorreltaie.

Bij assumptie 2 moeten we het histogram en de density plot bekijken. Een desnity plot is eigenlijk een afgevlakte versie van het histogram. Deze lijkt sterk op een normaalverdeling.
Bekijken we het normal QQ-plot merken we dta het vrij dicht bij een normaalverdeling ligt.
De juiste technieken en interpretaties worden hier toegepast.

Bij assumptie 3 kijken we naar het run sequence plot. Hier kijken we naar de lange termijn en bemerken we een achteruitgang. Op zich mag dit op lange termijn niet fluctueren. Hier merken we dat op lange termijn het niet constant is maar dit is redelijk moeilijk te achterhalen.
We achterhalen dit door het gemiddelde te berekenen met de central tendensy:
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/03/t1225727379l4wcq5qyq2l3qmj.htm

In assumptie 4 bekijken we de random component. Hiervoor moeten we kijken naar het run sequence plot. We bestuderen hier de spreding van de reeks over de tijd heen.
Om dit te doen, splitsen we de grafiek in 2 delen en kijken we of de spreiding groter of kleiner is dan in het andere deel. We merken hier op dat in het eerste deel er meer schommeling is dan in het tweede deel.

Q3: Hier worden de gegevens op een juiste manier geïnterpreteerd en verwerkt.
Er is en dalende trend dus is er geen constante. Er is een fundamentele afwijking van de klerenproductie en de totale economische productie.

Q4: Volledig juiste interpretatie van de student.

Q5: De interpretatie die gegeven wordt, is correct. Het enige wat aangepast moet worden is de step size naar 0,005 en de R code veranderen.

Q6: Door de central tendency uit te gaan werken van de random component, zien we dat het een robuust resultaat is en dat het niet gevoelig is aan outliers. Dit doen we door de R-code te veranderen zoals reeds in het voorgaande gedaan.

Post a new message
Dataseries X:
109,20
88,60
94,30
98,30
86,40
80,60
104,10
108,20
93,40
71,90
94,10
94,90
96,40
91,10
84,40
86,40
88,00
75,10
109,70
103,00
82,10
68,00
96,40
94,30
90,00
88,00
76,10
82,50
81,40
66,50
97,20
94,10
80,70
70,50
87,80
89,50
99,60
84,20
75,10
92,00
80,80
73,10
99,80
90,00
83,10
72,40
78,80
87,30
91,00
80,10
73,60
86,40
74,50
71,20
92,40
81,50
85,30
69,90
84,20
90,70
100,30




Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time3 seconds
R Server'Sir Ronald Aylmer Fisher' @ 193.190.124.24

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 3 seconds \tabularnewline
R Server & 'Sir Ronald Aylmer Fisher' @ 193.190.124.24 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19406&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]3 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Sir Ronald Aylmer Fisher' @ 193.190.124.24[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19406&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19406&T=0

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time3 seconds
R Server'Sir Ronald Aylmer Fisher' @ 193.190.124.24







Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19406&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19406&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19406&T=1

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7



Parameters (Session):
par1 = 0 ; par2 = 0 ;
Parameters (R input):
par1 = 0 ; par2 = 0 ;
R code (references can be found in the software module):
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
qqline(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot1.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main='Lag plot (k=1), lowess, and regression line')
lines(lowess(z))
abline(lm(z))
dev.off()
if (par2 > 1) {
bitmap(file='lagplotpar2.png')
dum <- cbind(lag(x,k=par2),x)
dum
dum1 <- dum[(par2+1):length(x),]
dum1
z <- as.data.frame(dum1)
z
mylagtitle <- 'Lag plot (k='
mylagtitle <- paste(mylagtitle,par2,sep='')
mylagtitle <- paste(mylagtitle,'), and lowess',sep='')
plot(z,main=mylagtitle)
lines(lowess(z))
dev.off()
}
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')