Free Statistics

of Irreproducible Research!

Author's title

Author*Unverified author*
R Software Modulerwasp_edauni.wasp
Title produced by softwareUnivariate Explorative Data Analysis
Date of computationMon, 27 Oct 2008 03:51:57 -0600
Cite this page as followsStatistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/27/t12251012718o13w2qapiqb645.htm/, Retrieved Sun, 19 May 2024 13:33:05 +0000
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=19157, Retrieved Sun, 19 May 2024 13:33:05 +0000
QR Codes:

Original text written by user:
IsPrivate?No (this computation is public)
User-defined keywords
Estimated Impact203
Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)
F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [Q2] [2008-10-27 09:51:57] [84a986a411c52e49a8807521f8b9f7a0] [Current]
F           [Univariate Explorative Data Analysis] [Question 2] [2008-10-27 16:57:14] [5faef9c71125a233e2c8b38f64296883]
-   PD        [Univariate Explorative Data Analysis] [Q2: Univariate] [2008-11-01 11:59:06] [1ce0d16c8f4225c977b42c8fa93bc163]
-   PD      [Univariate Explorative Data Analysis] [Q2] [2008-10-29 18:14:30] [491a70d26f8c977398d8a0c1c87d3dd4]
Feedback Forum
2008-10-31 12:50:20 [Ruben Jacobs] [reply
Bij assumptie 1 test je de randomness van de tijdreeks, dit kan je zien aan de hand van het Lag-plot of de autocorrelatie. Zo test je dat er een verband is bij de verschillende punten tussen het heden en het verleden. Je moet hier de parameter van het aantal lags instellen op 12. Dan kan je zien in het lag-plot dat de punten zich concentreren rond een stijgende rechte. Er is dus een positieve seizoenale autocorrelatie. In de autocorrelatie grafiek kan je ook zien dat bij dat de autocorrelatie hoog is bij 12 lags, deze valt buiten het betrouwbaarheidsinterval: de kans is dus kleiner dan 5% dat deze autocorrelatie toeval is. Je kan dus een voorspelling doen voor de Industriële productie binnen 12 maanden aan de hand van de cijfers van vandaag of als je een voorspelling wilt maken kan je best kijken naar de cijfers van 12 of 24 maanden geleden. Er is dus autocorrelatie en de punten zijn dus niet random.
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/27/t1225100171q0i4nxj6uumuqrl.htm
2008-10-31 12:54:42 [Ruben Jacobs] [reply
Voor Assumptie 2 moet je inderdaad kijken naar de Histogram of het Density Plot. Je kan hier besluiten dat wel een normaalverdeling is. De kleine afwijking in de grafiek is niet erg.
Je zou hier ook naar het Normal QQ-plot kunnen kijken. Dan kan je opmerken dat de punten zich concentreren rond de rechte en er dus sprake is van een normaalverdeling.
2008-10-31 13:05:38 [Ruben Jacobs] [reply
Voor assumptie 3 moet de deterministische component constant zijn. De central tendency moet dus constant zijn. Hiervoor bereken je best de central tendency.
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/31/t1225458042yko0yiotwjt2j0x.htm

Je kan opmerken in de grafiek dat het verloop een beetje schommelt maar toch redelijk constant blijft. De outliers hebben geen effect op het central tendency.
2008-10-31 13:11:27 [Ruben Jacobs] [reply
Voor de 4e en laatste assumptie moet je kijken naar het Run Sequence Plot. Als je deze grafiek in 2 delen zou hakken dan kan je zien dat de spreiding over de Y-as in het eerste deel veel groter is dan deze in het tweede deel. Je kan dus zeggen dat het random component geen vaste variatie heeft.

Voor het hele model kan je dus besluiten dat niet aan alle 4 de voorwaarden of assumpties is voldaan en het model dus niet geschikt is.
2008-11-01 14:33:40 [Stijn Van de Velde] [reply
Je bent hier vergeten om de gewenste lag in te vullen. Hiervoor had je bijvoorbeeld 12 of 36 (het maximum) kunnen nemen. Op onderstaande link zie je wat dan het resultaat had geweest, ik heb daarvoor lag 36 genomen.

http://www.freestatistics.org/blog/date/2008/Oct/31/t1225457138bdsczdub7e7sbwh.htm

1ste assumptie: random drawings?
Hiervoor kijken we best naar de auto correcaltie grafiek (welke jij in je berekening dus niet had), en niet naar de run sequence plot.
Er zijn maar 2 pieken (naast lag=0) die buiten het 95% betrouwbaarheids interval (de stippellijntjes) liggen. Deze bevinden zich bij lag=12 en lag=24. Als je naar lag=36 kijkt zie je daar ook een piek, al ligt deze wel binnen het 95% interval.
Met andere woorden: de piek herhaald zich elke 12 maanden. Men kan bij deze tijdsreeks dus spreken van seizoenaliteit.

=> de tijdreeks is random.

Als we naar de lagplot grafiek kijken zien we ook een soort 'puntenwolk', dewelke er ook op duid dat de tijdreeks random is.

2de assumptie: fixed distribution?
Hiervoor hebben we nog een 3de mogelijkheden: het normal Q-Q plot.

Bij deze methode moeten de punten precies op de rechte liggen om een perfecte normaal verdeling te hebben. Dit is bij deze tijdreeks niet helemaal het geval.
Dit word ook bevestigd door de 2 eerste methoden. Er lijkt, niet zoals de student zegt, een kleine slag aan de linkerkant te zitten.

Al bij al kan men toch spreken van een vrij normale verdeling.

3de assumptie: has the distribution a fixed location
Hiervoor moeten we naar het Run Sequence Plot kijken, en niet naar het Q-Q plot.
Lijkt de tijdreeks op lange termijn constant te blijven, of is er eerder een stijging/daling merkbaar?
Omdat dit niet altijd even duidelijk is kan men best de central tendency berekenen, en dan kijken naar de trimmed mean.

De trimmed mean lijkt hier constant, wat wil zeggen dat de tijdreeks zelf ook vrij constant is.
link: http://www.freestatistics.org/blog/date/2008/Oct/31/t12254590302bbxtdnhnhsyzak.htm

Assumtion 4: has the distribution a fixed variation
Deze ben je vergeten.
Run sequence plot:
Kijken naar de grootte van de flucuatie over de Y-as. Deze moet redelijk constant blijven.
Aan deze voorwaarde lijkt hier niet voldaan. Er zijn korte en grote pieken.


Je conclusie is dus niet juist. Er is hier GEEN spraken van 'tijdreeks = constante + random component'
2008-11-02 14:18:01 [Ciska Tanghe] [reply
Wat de vorige twee studenten verteld hebben over deze vraag klopt. Ik wil er graag het volgende aan toevoegen:

Bij de eerste assumptie heb je het aantal lags niet aangepast, waardoor je de lag-plot niet hebt. Vul bij het aantal lags bijvoorbeeld 36 in, dan krijg je een duidelijk beeld van alle gegevens en zie je waar er mogelijks grote correlatie is. In dit geval is dit bij 12 en 24. We kunnen dus zeggen dat deze tijdreeks niet random is, want er is seizonale correlatie (elk jaar).

Bij de tweede assumptie heb je de grafieken niet volledig juist geïnterpreteerd. Je ziet inderdaad dat er geen perfecte bell-shape is op de Density Plot en dat op de linkerhelft van het histogram enkele blokjes te laag liggen. Maar dit is absoluut verwaarloosbaar. Hier is min of meer een normale verdeling. Een kleine afwijking in de staarten van de QQ-plot is er ook te zien, maar daar hoef je je niets van aan te trekken.

Bij de derde assumptie kan je op de Run Sequence Plot kijken. Daar zie je dat de reeks geen constant niveau kent. Ook kan je gebruik maken van central tendency. Outliers hebben geen effect op de central tendency. Vandaar dat deze behoorlijk constant verloopt. Toch vermoeden we een licht dalende trend cfr. Run Sequence Plot.

Voor de vierde assumptie heb je de Run Sequence Plot nodig. Je gaat kijken naar de spreiding over de tijd en daarvoor splits je de grafiek in twee delen. Op de linkerhelft van de grafiek is er een grotere spreiding/schommeling van de gegevens. Daaruit volgt dat de random component geen vaste spreiding heeft.
2008-11-03 18:10:49 [9142cf052ad32d043faa9486189092cf] [reply
Hiervoor moet de tijdreeks voldoen aan bepaalde voorwaarden.
1. random drawings;
2. from a fixed distribution;
3. with the distribution having fixed location; and
4. with the distribution having fixed variation.

Deze voorwaarden kan je testen door hier bepaalde berekeningen op uit te voeren. Deze kan je terugvinden op onderstaande link:

Assumptie 1

De student heeft voor assumptie 1 gekeken naar de Run sequence plot. Dit is in de praktijk wel mogelijk maar is in de lessen nog niet besproken. Andere methode

Voor Assumptie 1: Aflezen op de lag plot

Hoe bekom je deze grafieken
lags (autocorrelation function) (?) invullen 12 (1jaar) of 36 voor 3 jaren.
Waarom is dit niet automatisch ingevuld: Lags enkel gebruiken voor tijdreeksen.

Link met juiste oplossing
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Oct/29/t1225305186cxgzc1bhcatjb0e.htm , Retrieved Wed, 29 Oct 2008 18:33:10 +0000

De lag plots gaan het verband vast leggen tussen heden en verleden

Bij de lag plot k=1: punten liggen verspreid rond de rechte lijn ( autocorrelatie (maatstaf die aangeeft hoe dicht de punten op een rechte liggen)-> bijna nul) Het is hier ook moeilijk om uitspraak te doen over de toekomst

Bij lag plot k=12: samenvatting lag plot 1 jaar: De punten liggen hier veel dichter bij de lijn: positieve helling. We kunnen hier spreken van seizonale correlatie

Bij de samenvattende grafiek zien we dat er jaar na jaar de zelfde goede maanden zijn en ook jaar na jaar dezelfde slechte maanden: we kunnen hier dus spreken van seizonaliteit. Dit wordt duidelijker als we de lag op 36 zetten.

Zie link
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Oct/29/t12253059326fytwv662g6869d.htm , Retrieved Wed, 29 Oct 2008 18:45:41 +0000

Hoogte lijntje gaat bij 12 een stuk boven de stippelijn: Er bestaat maar 5% kans dat dit toeval is. Betekenis :seizonale autocorrelatie
Hoogte lijntje gaat bij 24 een stuk boven de stippelijn: Er bestaat maar 5% kans dat dit toeval is. Betekenis :seizonale autocorrelatie
De productie van het verleden heeft dus nog altijd iets te maken met het heden.

Algemene conclusie: De tijdreeks is niet random en bevat wel degelijk autocorrelatie maar dit met seizonale betekenis.

Assumptie 2

Voor de tweede assumptie heeft de student gekeken naar de density plot en het histogram. Volgens de student is er geen gelijke spreiding. Dit moet ik tegen spreken. Op het histogram zien we dat de verdeling min of meer normaal is, op een kleine uitzondering nl de tweede staart is hoger dan de derde.

Ook op de density plot kunnen we een normaalverdeling vast stellen. Er is een heel kleine afwijking merkbaar bij een waarde van ongeveer 70 maar deze is niet doorslaggevend voor de algemene conclusie.

Ook is het mogelijk om de normaalverdeling af te lezen op de Normal Q-Q plot.

Op de verticale as staan dan de gewone quantilen en op de horizontale de theoretische kwantielen. Hoe dichter de punten op de normaal lijn liggen, hoe normaler de verdeling.

We kunnen hier zien dat de meeste punten op de normaal lijn liggen, hier een daar zijn er een paar heel kleine afwijkingen maar we kunnen concluderen dat er geen uitgesproken verschillen zijn. Dus ook op deze grafiek kunnen we aflezen dat er een normaal verdeling is.

Assumptie 3

Om een conclusie te vormen bij het derde puntje heeft de student gekeken naar de normal Q-Q plot. Aan de hand van deze grafiek is het moeilijk om een juiste conclusie te vormen. Je kan hier het best een conclusie vormen aan de hand van de central tendensy.

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Oct/30/t1225378639d0ysfw9m5xg2jui.htm , Retrieved Thu, 30 Oct 2008 14:57:36 +0000

We hebben een gemiddelde van 87, ook kunnen we zien dat er niet echt invloeden outliers aanwezig zijn.
Conclusie: Het is moeilijk te zien maar we vermoeden dat er op LT een dalende trend is.

Assumptie 4:

De student heeft dit deeltje niet opgelost.
Hiervoor moet je kijken naar de Run sequence plot. Als je de grafiek in twee delen splits dan zie je dat de spreiding in deel 1 groter is dan de spreiding in deel 2. Dus deel 1 schommelt harder als deel 2
2008-11-03 20:51:12 [Chi-Kwong Man] [reply
1ste assumptie: random drawings?

Hier kan je best kijken naar de autocorrelatie op de lagplot (welke jij niet had). Deze grafiek kan je bekomen door het aantal lags in te vullen: 12 of 36, m.a.w. niet naar de run sequence plot kijken. Hier kan je zien dat er bij lag 12 de correlatie groot is, en niet toevallig ook bij 24, dus de piek herhaalt zich alle 12 maanden. Dit is een duidelijke indicatie van seizoenaliteit. Er is dus autocorrelatie en de punten zijn dus niet random.

2de assumptie: fixed distribution?
1ste manier: kijken naar histogram en density plot --> lijkt vrij sterk op een normaalverdeling. De kleine afwijking in de grafiek is niet erg.
Een 2de mogelijkheid is kijken naar QQ-plot: de punten liggen dicht bij de lijn --> normaalverdeling.

3de assumptie: has the distribution a fixed location

Hier moet men niet naar de QQ-plot kijken, maar naar de run sequence plot. Er is een daling als men ziet naar de eerste grafiek, dus geen constante, maar moeilijk te zien, dus moeten we een andere methode gebruiken. Centrale tendens. Hier moet men naar de trimmed mean kijken, de grafiek verloopt redelijk constant lijkt, wat dus betekent dat de tijdreeks ook vrij constant is.

Assumptie 4: has the distribution a fixed variation

Deze kan je vinden op de run sequence plot grafiek. Deze moet je in 2 hakken: in het linkergedeelte kan men zien dat de spreiding van de Y-as groter is als het rechtergedeelte. M.a.w. geen vaste variatie.

Het model voldoet dus niet aan alle 4 voorwaarden, dus niet geschikt.

Post a new message
Dataseries X:
109,20
88,60
94,30
98,30
86,40
80,60
104,10
108,20
93,40
71,90
94,10
94,90
96,40
91,10
84,40
86,40
88,00
75,10
109,70
103,00
82,10
68,00
96,40
94,30
90,00
88,00
76,10
82,50
81,40
66,50
97,20
94,10
80,70
70,50
87,80
89,50
99,60
84,20
75,10
92,00
80,80
73,10
99,80
90,00
83,10
72,40
78,80
87,30
91,00
80,10
73,60
86,40
74,50
71,20
92,40
81,50
85,30
69,90
84,20
90,70
100,30




Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time2 seconds
R Server'Gwilym Jenkins' @ 72.249.127.135

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'Gwilym Jenkins' @ 72.249.127.135 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19157&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Gwilym Jenkins' @ 72.249.127.135[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19157&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19157&T=0

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time2 seconds
R Server'Gwilym Jenkins' @ 72.249.127.135







Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19157&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19157&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19157&T=1

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7



Parameters (Session):
par1 = 0 ; par2 = 0 ;
Parameters (R input):
par1 = 0 ; par2 = 0 ; par3 = ; par4 = ; par5 = ; par6 = ; par7 = ; par8 = ; par9 = ; par10 = ; par11 = ; par12 = ; par13 = ; par14 = ; par15 = ; par16 = ; par17 = ; par18 = ; par19 = ; par20 = ;
R code (references can be found in the software module):
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')