Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Sun, 26 Oct 2008 05:37:07 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/26/t1225021145m4bk925webniejs.htm/, Retrieved Sun, 19 May 2024 13:53:35 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18856, Retrieved Sun, 19 May 2024 13:53:35 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

176

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [Q2 investigating ...] [2008-10-26 11:37:07] [e81ac192d6ae6d77191d83851a692999] [Current]
-   P       [Univariate Explorative Data Analysis] [verbetering q2] [2008-10-29 22:28:48] [73d6180dc45497329efd1b6934a84aba] 
-   P         [Univariate Explorative Data Analysis] [verbetering q2 de...] [2008-10-29 22:47:54] [73d6180dc45497329efd1b6934a84aba] 
- RMP       [Central Tendency] [verbetering q2 de...] [2008-10-30 00:11:42] [73d6180dc45497329efd1b6934a84aba] 

Feedback Forum

2008-10-29 16:53:24 [Jan Van Riet] [reply] 
Voor assumption 1 moest je de autocorrelatie nagaan. Dit doe je door de Autocorrelation function en de lag-plot te bestuderen. Doordat je het aantal lags niet hebt ingesteld tijdens het invoeren van de tijdreeks, zijn deze 2 grafieken niet verschenen. Als je dit wel doet krijg je dit als resultaat:  
 
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/27/t122510109796z6abyl5r37kuj.htm 
 
Je kan zo aflezen dat er sprake is van autocorrelatie met seizonale betekenis.  
 
In tegenstelling tot wat je beweert, is er wel een normaalverdeling (met uitzondering van een uitschieter in het histogram en een bult in de density plot). (assumptie 2) 
 
Ivm de 3e assumptie zou ik naar de Run Sequence plot kijken, om daarvan af te lezen dat deze op lange termijn niet gelijk blijft, maar daalt. Er is echter geen uitgesproken trend op te merken. 
 
Assumptie 4 keur jij goed, dit is fout. Als we de grafiek van de Run Sequence pot in 2 delen, zien we duidelijk dat de spreiding aan de linkerkant niet gelijk loopt met die aan de rechterkant. De spreiding is dus niet constant. 
 
Je conclusie klopt wel, nl. deze tijdreeks voldoet niet, daar ze niet tegemoetkomt aan de vooropgestelde assumpties.
2008-10-29 22:51:22 [Gregory Van Overmeiren] [reply] 
Voor assumptie 1 moeten we kijken naar autocorrelatie of de lag-plot. Ik kreeg hier idd de laatste 2 grafieken niet maar door het #lags op 12 te zetten (ofwel op het maximum =36)bekom je ze wel. 
(http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/29/t1225319369ygmdcgxusv9z109.htm) 
 
Onder het lag-plot zie je lags(xk=1) staan wat wil zeggen dat de tijdreeks met 1 periode vertraagd is.. => hier kan je geen voorspelling maken voor volgend jaar. We merken ook een rechte lijn op in de grafieken een puntenwolk die rond deze rechte liggen=> dwz dat de autocorrelatie = bijna 0. 
 
De laatste grafiek (autocorrelation function) geeft een samenvatting van de puntenwolk. Deze sluit veel dichter aan bij deze rechte wat wijst op een positieve seizonale autocorrelatie. 
 
Nu kunnen we wel een voorspelling maken naar volgend jaar toe. dit doen we door de #lags in de autocorrelation function op 36 te zetten ipv 12. 
(http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/29/t1225320516y5f46ttv246tbv1.htm) 
We zien dat op lag 12 de correlatie zéér groot is en ,niet toevallig, ook op lag 24 (2x12). We hebben hier dus een duidelijke seizonale autocorrelatie
2008-10-30 00:27:38 [Gregory Van Overmeiren] [reply] 
Voor assumptie 2 moeten we naar het density plot kijken. Er is dus wel degelijk sprake van een (min of meer) normaalverdeling=> zie histogram. Als we kijken naar de normal QQ plot zien we dat de punten een beetje afwijken van de rechte dwz dat het niet perfect normaal verdeeld is maar we liggen er zeer dicht bij. 
 
Voor assumptie 3 zou ik, in tegenstelling tot wat de student hierboven zegt, eerder kijken naar central tendency. We zien dat het gemiddelde fluctueert maar schommelt rond 87  (http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/30/t12253256749n8j4m79im0ov8x.htm) dwz dat de ouliers er geen groot effect op hebben. We vermoeden dat er een dalende trend is maar dit is moeilijk te zien op lange termijn. 
 
Voor assumptie 4 moeten we naar de run sequence plot kijken. Als we deze in 2 gelijke delen hakken zien we dat de spreiding in het eerste deel groter is dan in het tweede.Er is dus een verandering van spreiding. 
 
conclusie is dus => Dit is geen geldig model omdat niet alle validiteitsvoorwaarden zijn voldaan
2008-11-03 09:19:20 [339a57d8a4d5d113e4804fc423e4a59e] [reply] 
Ass 1:  
De student probeert deze assumptie te staven via de Run Suquence plot, maar dit is niet correct. Men moet deze assumptie controleren door naar de lagplot te kijken. Op de lagplot kan men zien dat elk punt onafhankelijk is van elkaar en dat er dus sprake is van autocorrelatie. 
 
Ass 2: 
Op de densityplot kan men zien dat deze mooi bellshaped is. We merken wel op dat er weliswaar een kleine deuk in zit. Wanneer we kijken op het histogram, zien we dat deze deuk te verklaren is door het redelijk hoge aantal in de tweede klasse. Dit verandert echter niets aan de spreiding. We kunnen hier spreken van een normaalverdeling. 
 
Ass 3: 
Deze vraag bekijkt men best op de Run Sequence Plot of via Central Tendency. Op de Run Sequence Plot is er geen 'fixed location', men ziet een lichte daling op de Run Sequence Plot. Deze daling is echter een vermoeden en is niet uitgesproken. Via de Central Tendency kan men die vermoeden proberen staven, maar dit is nog steeds geen garantie dat het juist is. 
 
Ass 4: 
Deze is in tegenstelling tot wat de student denkt, wel mogelijk. Hiervoor kijkt men naar spreiding van de random component. Op de Run Sequence plot deelt men de grafiek als het ware in twee. men kan zien dat de grafiek in het tweede deel meer schommelt dan in het eerste deel. De spreiding van de random component is dus gelijk. 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'George Udny Yule' @ 72.249.76.132

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'George Udny Yule' @ 72.249.76.132 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18856&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'George Udny Yule' @ 72.249.76.132[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18856&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18856&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'George Udny Yule' @ 72.249.76.132

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18856&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18856&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18856&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code