Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Sat, 25 Oct 2008 07:30:36 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/25/t1224941563gbfn3v20pwe5fpq.htm/, Retrieved Sun, 19 May 2024 14:39:09 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18726, Retrieved Sun, 19 May 2024 14:39:09 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

154

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F       [Univariate Explorative Data Analysis] [Investigating Dis...] [2008-10-25 13:30:36] [7957bb37a64ed417bbed8444b0b0ea8a] [Current]
-   PD    [Univariate Explorative Data Analysis] [Investigating Dis...] [2008-10-31 16:59:21] [819b576fab25b35cfda70f80599828ec] 
- RMP       [Mean Plot] [herberekening] [2008-11-02 21:31:42] [c45c87b96bbf32ffc2144fc37d767b2e] 
-   PD    [Univariate Explorative Data Analysis] [Reproducement Inv...] [2008-10-31 17:40:27] [819b576fab25b35cfda70f80599828ec] 
-   PD    [Univariate Explorative Data Analysis] [herberekening] [2008-11-02 21:20:15] [c45c87b96bbf32ffc2144fc37d767b2e] 

Feedback Forum

2008-10-31 17:39:03 [Kevin Neelen] [reply] 
Er is gebruikt gemaakt van de juiste methode voor het oplossen van de ze vraag: de Univariate Explorative Data Analysis. 
Voor de eerste assumptie (Are the data autocorrelated? (The model assumes no autocorrelation)) heeft deze studente naar de eerste grafiek (Run Sequence Plot) gekeken. Dit was niet de beste grafiek om dit te kunnen oplossen. Hier kan beter de lag-plot bestudeerd worden. Aangezien de oude student het aantal lags bij de berekening niet had opgegeven (en deze studente dit ook niet heeft gedaan) heb ik dit zelf even gedaan. Ik heb het aantal lags ingesteld op 12. Het resultaat is terug te vinden in de volgende link: http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/31/t1225472414r7abrub1d7f0kr6.htm. Als we nu de lag-plot bestuderen waarbij k=12, zien we dat de punten vrij random (willekeurig) liggen, maar algemeen bekeken toch een stijgend verloop naar rechtboven kennen. De tijdreeks is dus niet volledig random. 
Bij het onderzoeken van de 2de assumptie (Is the random component generated by a fixed distribution? (The model assumes a fixed distribution)) moet er gekeken worden naar het histogram (en eventueel naar de density-plot en/of QQ-plot). Dat is her gebeurd. Er bevindt zich wel een kleine uitschieter aan de linkerzijde van het histogram en density-plot, maar deze grafieken lijken toch zeer sterk op een normaalverdeling (de uitschieter is 'verwaarloosbaar'). Ook bij de QQ-plot zien we dat het merendeel van de gegevens (buiten die kleine afwijking linksonderaan dus) op de rechte liggen wat wijst op een normaalverdeling. 
Om conclusies te trekken betreffende de derde assumptie (Is the deterministic component constant? (The model assumes that the distribution has a fixed location), moet het Run-Sequence-Plot bestudeerd worden (wat hier niet gebeurd is). Deze derde assumptie moet op lange termijn bestudeerd worden. Als we een rechte trekken langsheen de topwaarden uit deze grafiek, zou deze constant moeten zijnn opdat er sprake zou zijn van een fixed location. Aangezien dit best op lange termijn gezien kan worden, kunnen we hierover eigenlijk moeilijk uitspraken doen in deze grafiek, maar we kunnen wel vermoeden dat er zich een dalende trend voordoet. 
Ten laatste is er de 4de assumptie (Does the random component have a fixed variation? (The model assumes a distribution with fixed variation)) waarbij gekeken wordt naar de verticale spreiding van de gegevens in het Run-Sequence-Plot. Als deze ongeveer altijd even groot is, mag geconcludeerd worden dat er sprake is van een fixed location. Als we dit doen, kunnen we zien dat in het eerste gedeelte van de grafiek er een grotere verticale spreiding is van de gegevens en dat deze schommelingen in het tweede gedeelte van de grafiek kleiner worden. Deze studente heeft geen conclusies getrokken in het bijgevoegde Word-document aangezien ze dacht andere grafieken te moeten gebruiken die niet getoond werden in de oorspronkelijke computation. 
De algemene conclusie is dat deze vraag door deze studente niet goed werd opgelost. Het is eigenlijk gewoon copy-paste van het document van de 'oude student'. Enkel de computations zijn gereproduced, maar zelfs dt was foutief (er werden geen lags ingesteld door de studente).
  2008-10-31 17:43:18 [Kevin Neelen] [reply] 
De opgegeven link moet gekopieerd worden in de adresblak. Als je er op klikt, werkt deze niet aangezien blijkbaar het puntje op het einde meegerekend wordt in het adres :)
2008-11-02 21:37:38 [Michaël De Kuyer] [reply] 
Randomness: De studente heeft zich gebaseerd op de verkeerde grafiek. Men moet zich baseren op de lag plot en de autocorrelation plot. Allereerst moet men dan wel het aantal lags invullen. Ik heb hier 36 ingevuld en dan bekom ik volgende grafieken: http://www.freestatistics.org/blog/date/2008/Nov/02/t1225660848slj4nws6mebdi01.htm. De lag plot toont dat de puntenwolk zeer verspreid is. Dit wijst erop dat we geen uitspraak kunnen doen over het heden op basis van de gegevens van een maand geleden. Op basis van de autocorrelation function kunnen we vaststellen dat de 12de lag telkens buiten het betrouwbaarheidsintval valt. Dit wijst erop dat er geen randomness, maar wel een positieve seizonlatiteit. De feedback van Kevin is dan ook niet volledig juist naar mijn mening. Het feit dat er een stijgend verloop is, wijst niet direct op randomness. De mate waarin de puntenwolk de rechte benadert wel. 
 
Vaste distributie: Hier kan ik Kevin bijtreden. De uitschieter aan de linkerkantvan het histogram en density plot is te verwaarlozen. De normaalverdeling wordt in sterke mate benaderd. Ook de QQ-plot ondersteunt dit: het merendeel van de punten ligt op de rechte. 
 
Vaste component: Voor deze analyse moeten we ons niet baseren op de QQ-plot, maar op de run sequense plot. We moeten controleren in welke mate het gemiddelde constant is op lange termijn. Ik heb een vermoeden dat er een dalende trend is. Dit zouden we verder kunnen analyseren via de mean plot: http://www.freestatistics.org/blog/date/2008/Nov/02/t1225661533lx5z72itmrqw5fj.htm. We kunnen aan de hand van de mean plot vaststellen dat de waarden op het einde van de geobserveerde periode onder het gemiddelde komen te liggen. Er is dus geen sprake van een vaste component. 
 
Vaste variatie: Dit kan wel geanalyseerd worden. Men moet zich immers baseren op de run sequense plot. Aan de hand van de run sequense plot zou men dan kunnen vaststellen dat de waarden in het eerste gedeelte van de grafiek sterker schommelen dan in het tweede deel. Er is dus geen vaste variatie. 
 
Ik kan enkel de algemene conclusie van Kevin bijtreden: de antwoorden zijn enkel 'gecopy-paste' van het document van de oude student.
2008-11-03 18:21:10 [256f97d8b7c07ed49f142eff724c6520] [reply] 
Assumptie 1 
Je moet hier best gebruik maken van de lags, dan kan je zien dat er in lag 12 en 24 er pieken zijn. Hierdoor kan je vaststellen dat er telkens in maand 12 een terugkerend patroon zichtbaar is. Je kan hier spreken van autocorrelatie met seizoensinvloed, dus niet random. 
Assumptie2 
Je kan bij de drie grafieken zien dat er een normale verdeling is. Je ziet wel bij de grafieken dat er aan de linkerkant een licht effect is van outliers. En bij de QQ-plot zie je dat bij het begin en einde de punten iets verder van de rechter verwijderd is, maar dit vormt geen probleem. 
Assumptie 3 
Je kan op de run sequence plot een dalende trend waarnemen 
Assumptie 4 
Je kan bij deze assumptie geen gelijke spreiding vaststellen aan de hand van de run sequence plot

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 3 seconds \tabularnewline
R Server & 'Sir Ronald Aylmer Fisher' @ 193.190.124.24 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18726&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]3 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Sir Ronald Aylmer Fisher' @ 193.190.124.24[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18726&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18726&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18726&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18726&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18726&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Figure 7

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
qqline(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot1.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main='Lag plot (k=1), lowess, and regression line')
lines(lowess(z))
abline(lm(z))
dev.off()
if (par2 > 1) {
bitmap(file='lagplotpar2.png')
dum <- cbind(lag(x,k=par2),x)
dum
dum1 <- dum[(par2+1):length(x),]
dum1
z <- as.data.frame(dum1)
z
mylagtitle <- 'Lag plot (k='
mylagtitle <- paste(mylagtitle,par2,sep='')
mylagtitle <- paste(mylagtitle,'), and lowess',sep='')
plot(z,main=mylagtitle)
lines(lowess(z))
dev.off()
}
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code