Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Mon, 27 Oct 2008 13:33:14 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/27/t12251360308ctiwyg9rtsa3un.htm/, Retrieved Thu, 17 Jul 2025 05:00:57 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=19474, Retrieved Thu, 17 Jul 2025 05:00:57 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

207

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [Investigating Dis...] [2008-10-27 19:33:14] [e08fee3874f3333d6b7a377a061b860d] [Current]

Feedback Forum

2008-10-29 14:59:44 [Siem Van Opstal] [reply] 
Voor assumptie 2 kunnen we stellen dat de gegevens dicht bij een normaalverdeling liggen. Buiten een uitschieter links kunnen we dat van het histogram aflezen.Ook via de Normal Q-Q Plot kunnen we dat aflezen. De rechte stelt de theoretische kwantielen voor die je zou hebben bij een perfecte normaalverdeling. Je merkt duidelijk dat de werkelijke kwantielen zeer dicht bij die rechte liggen. 
 
Voor assumptie 3 kijken we best ook naar het gemiddelde. Dat doen we door de oorspronkelijke gegevens te reproduceren in de central tendency module. Het is moeilijk af te lezen maar er is vermoedelijk een dalende trend op lange termijn.  
 
Assumptie 4 bekijken we best op het run sequence plot. Daar zien we dat de spreiding niet gelijk is over heel de tijdreeks. In het eerst deel van de reeks zien we een bredere spreiding dan in het tweede deel. We kunnen dus stellen dat er geen vaste spreiding is. 
2008-11-02 10:49:15 [Kevin Neelen] [reply] 
Voor de tweede assumptie zien we bij de gegevens een kleine linkse uitschieter, maar tijdens het laatste hoorcollege heeft Dhr. Wessa gezegd dat dit te verwaarlozen is. Er kan ds gesteld worden dat deze gegevens een normaalverdeling hebben. 
Bij de derde assumptie is er gekeken naar het Run-Sequence-Plot, maar hieruit vallen echter niet echt veel conclusies te halen. Deze assumptie zou best op lange termijn bestudeerd moeten worden, want in deze grafiek uiteraard niet mogelijk. We kunnen enkel vermoeden dat er een dalende trend in de grafiek op te merken is.
2008-11-02 13:22:45 [Michaël De Kuyer] [reply] 
Vaste verdeling: de student heeft zich gebaseerd op de juiste grafieken. Hij heeft echter een foute interpretatie gedaan, namelijk dat de tijdreeks geen normaalverdeling heeft. Het is echter zo dat de uitschieter aan de linkerkant van het histogram (en density plot)te verwaarlozen is. 
 
Vaste component: Bij de analyse van de vaste component moeten we kijken hoe het gemiddelde zich gedraagt op lange termijn. Zo zien we dat het gemiddelde een dalend verloop heeft en dus geen vaste locatie. De student heeft dus de juiste conclusie getrokken maar een foutieve manier van interpreteren toegepast. 
Wat Siem zegt is eveneens correct: een verder analyse via central tendency is aan te raden. 
 
Vaste variatie: Om dit te controleren, moeten we ons niet baseren op een al dan niet terugkerend patroon, maar moeten we nagaan of de schommelingen constant zijn. Uit de run sequense plot blijkt dat de schommelingen in het eerste deel van de grafiek sterker zijn dan in het tweede deel. De schommelingen zijn dus niet constant en er kan dus niet gesproken worden van vaste variatie.
2008-11-02 13:58:58 [Stijn Van de Velde] [reply] 
We moeten hier dus kijken of er aan de 4 voorwaarden/assumpties is voldaan. Hierbij heb ik slechts enkele kleine toevoegingen. 
 
Assumptie 1: 
Dit antwoord is volledig juist. We zien inderdaad dat als we lag 36 nemen dat er dan elke 12 maanden een piek is op de autocorrealtie grafiek. Dit duid op seizoenalteit. We mogen hier dus concluderen dat de tijdreeks random is. 
 
Assumptie 2: 
De 3 grafieken duiden inderdaad niet op een volledige symmetrie, maar dit verschil is echter zo klein dat het te verwaarlozen is. Aan deze voorwaarde is dus ook voldaan. 
 
Assumptie 3: 
Volgens het run sequence plot lijkt de grafiek op lange termijn te dalen, toch is deze methode niet altijd even duidelijk. 
Daarom kunnen we best de central tendency berekenen: 
 
De trimmed mean lijkt hier constant, wat wil zeggen dat de tijdreeks zelf ook vrij constant is. 
 
link: http://www.freestatistics.org/blog/date/2008/Oct/31/t12254590302bbxtdnhnhsyzak.htm 
 
Assumptie4: 
Correct. De groote van de variatie op de Y-as op de grafiek van de run sequence plot is niet altijd even groot. Er lijkt wel alsof de eerste helft van de grafiek hoger ligt dan de 2de helft. 
=> aan deze voorwaarde is dus niet voldaan. 
 
Conclusie: 
Er is hier dus gaan spraken van 'tijdreeks = constante + randm component', omdat niet aan alle voorwaarden is voldaan.
2008-11-02 16:59:02 [Evelyn Ongena] [reply] 
Om voorwaarden te kunnen nagaan is het aangeraden om de r code aan te passen zodanig dat we lag plots te zien krijgen. Deze hebben we nodig om de eerste voorwaarde na te gaan, de student had naar deze grafiek moeten kijken ipv naar de run sequence plot. Deze wijsiging in de r code is correct uitgevoerd(zoals in het document vermeld staat)
2008-11-02 19:09:56 [Yara Van Overstraeten] [reply] 
De student heeft hier inderdaad de juiste opmerking gemaakt dat men om een correcte analyse van autocorrelatie te maken moet kijken naar de lag plot in plaats van naar de run sequence plot zoals de student van vorig jaar had gedaan.
2008-11-04 08:36:58 [Michael Van Spaandonck] [reply] 
Bespreking adhv de assumpties: 
 
Geen randomness. De grafiek van de autocorrelatie geeft weer dat er bij een lag van 12 sprake is van seizoensinvloeden. Ik heb dus foutief gesteld dat er wel randomness is. 
Wel fixed distribution. Ondanks de kleine uitschieter, die tijdens de colleges als verwaarloosbaar behandeld werd, kan er gesproken worden van een normaalverdeling. Hier kwam ik dus ook tot een foutieve conclusie. Het feit dat in het Q-Q plot alle punten benaderend genoeg op de rechte liggen bevestigt een normale verdeling. 
Geen fixed location. We zien in het run sequence plot een licht dalende trend, die bevestigd word door trimmed en winsorized mean. Hier ben ik op de juiste manier tot de juiste conclusie gekomen. 
Geen fixed variation. De verticale spreiding van het run sequence plot verkleint na de 30e waarneming, dus deze is niet over de gehele grafiek constant. Ik ben hier op de juiste wijze tot de juiste conclusie gekomen. 
 
Algemeen: het model is niet geldig omdat niet aan alle assumpties is voldaan.

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'Gwilym Jenkins' @ 72.249.127.135 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19474&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Gwilym Jenkins' @ 72.249.127.135[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19474&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19474&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19474&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19474&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19474&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code