Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Thu, 23 Oct 2008 04:15:43 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/23/t1224757016u9yk3qa7mnh6g4h.htm/, Retrieved Sun, 19 May 2024 14:10:58 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18447, Retrieved Sun, 19 May 2024 14:10:58 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

239

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [] [2008-10-23 10:15:43] [c60a842d48931bd392d024d8e9ef4583] [Current]
-   PD      [Univariate Explorative Data Analysis] [investigating dis...] [2008-11-04 05:50:48] [090686c1af2bb318059a6f656863a319] 
-   P         [Univariate Explorative Data Analysis] [investigating dis...] [2008-11-04 05:55:10] [090686c1af2bb318059a6f656863a319] 
-    D          [Univariate Explorative Data Analysis] [paper 2.3 werkloo...] [2008-12-19 09:24:48] [090686c1af2bb318059a6f656863a319] 
-   P             [Univariate Explorative Data Analysis] [paper 2.3 werkloo...] [2008-12-19 09:28:10] [090686c1af2bb318059a6f656863a319] 
-   PD              [Univariate Explorative Data Analysis] [paper 2.3 aantal ...] [2008-12-19 09:31:18] [090686c1af2bb318059a6f656863a319] 
-   P                 [Univariate Explorative Data Analysis] [paper 2.3 aantal ...] [2008-12-19 09:35:48] [090686c1af2bb318059a6f656863a319] 
- RMP         [Harrell-Davis Quantiles] [investigating dis...] [2008-11-04 06:18:30] [090686c1af2bb318059a6f656863a319] 

Feedback Forum

2008-11-02 20:57:18 [Bernard Femont] [reply] 
de gevonden conclusies zijn goed maar; door het niet instellen van de lag 12 of 36 hebben we als resultaat dat er sommige assumpties niet met de 100% juiste grafiek beoordeeld zijn. Nadien hebben we een herberekening gemaakt door het wel instellen van de lags en onderstaande link geeft het resultaat hiervan weer: 
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/02/t1225642101u1vfe9sltwlul8p.htm/
2008-11-03 09:22:39 [Michael Van Spaandonck] [reply] 
Op de bespreking van de grafieken in het bijhorende document valt weinig aan te merken. 
Helaas zijn niet al de juiste grafieken besproken om deze vraag goed te kunnen beantwoorden. 
De lag plots zijn nodig om na te gaan of er sprake is van randomness, en deze ontbreken. 
 
Hieronder een link naar een pagina met lag plots: 
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/22/t1224676255e8svfaech5nqt0t.htm 
 
Wanneer we de lag plot bekijken, zien we een grote spreiding van de gegevens voor een lag van 1. 
De spreiding van deze gegevens wijst er volgens de theorie in het EDA-document op dat er sprake is van randomness. 
 
Echter, je kunt slechts correct voorspellingen doen wanneer er een lag van 12 is. De lag plot heeft slechts een lag van 1. Daarom moet er gekeken worden naar de autocorrelatiefunctie, en die geeft bij een lag van 12 (1 jaar geleden) een waarde van ongeveer 70%. 
Hieruit kan geconcludeerd worden dat er sprake is van seizoensinvloeden, een speciale vorm van autocorrelatie. Er is dus geen sprake van randomness.
2008-11-03 09:56:07 [Michael Van Spaandonck] [reply] 
Verder mis ik eigenlijk de bespreking van de overige assumpties. 
 
Fixed distribution: wordt niet expliciet vermeld door de student. We zien in het histogram een klokvormig verloop van de gegevens, maar er is geen sprake van symmetrie vanwege de uitschieter aan de linkerzijde. 
Om te bepalen of deze uitschieter van belang is of niet, kun je kijken naar het normal Q-Q plot. De gegevens op deze grafiek liggen over het geheel gezien dicht genoeg op de rechte om uit te mogen gaan van een normaalverdeling en dus een fixed distribution. De student kwam wel tot deze conclusie. 
 
Fixed location: wordt niet expliciet vermeld door de student. Wanneer we het run sequence plot bekijken zien we een heel licht dalend verloop van de grafiek, al is dit moeilijk te zien. In dergelijke gevallen kun je kijken naar de central tendency en deze bevestigt het licht dalende verloop. Volgens de EDA theorie mag de grafiek geen op- of neerwaartse trend vertonen, dus is er geen sprake van een fixed location. De student kwam slechts tot de vaststelling dat er geen op- of neerwaartse trend was, maar heeft verder niets vermeld over de locatie. 
 
Fixed variation: wordt niet besproken door de student. Voor deze assumptie kan gekeken worden naar het run sequence plot. Om te kunnen spreken van fixed variation, moet volgens de EDA theorie de verticale spreiding van de grafiek overal zo goed als even groot zijn. Gedurende de eerste 30 waarnemingen is dit het geval, nadien niet meer. Conclusie: er is geen sprake van een fixed variation. 
 
De algemene conclusie van de vraag is dan ook dat -Clothing Production = constant + random component- geen geldig model is.
2008-11-04 06:12:18 [Nilay Erdogdu] [reply] 
Hiervoor moet je de 4 assumpties nagaan.  
Assumptie 1: spreiding is constant verdeeld 
Assumptie 2: normale verdeling 
Assumtie 3: geen autocorrelatie 
Assumptie 4: gemiddelde is constant en gelijk aan 0 
 
Voor ass 1, moet je de lag plot of de run sequence plot nakijken. De time lags kan je op 12 (maandcijfers) zetten of je kan ook max ingeven nl 36.  
link lag:12 
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/04/t1225778184i2135t1qazndkpu.htm 
 
link lag 36 
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/04/t1225777919n8ct8dnmm6wev8r.htm 
 
bij lag plot moet ik me afvragen: als ik de vorige productie ken, kan ik dan uitspraak doen over de volgende? Antwoord is neen. De rechte is bijna horizontaal. 
Voor ass 2: hiervoor kunnen we kijken naar de histogram/density plot/qq plot. 
Bij density plot zien we dat er klein bultje is, maar niet zo uitgesproken. Lijkt op een normaal verdeling. Bij qq plot liggen de punten niet perfect op één rechte, zo zou het moeten zijn indien het perfect normaal zou zijn. We zitten echter wel dicht bij de normaalverdeling. De histogram vertoont ook geen perfect symmetrie. Het is echter wel min of meer normaalverdeeld. 
 
voor ass 3: hiervoor kijken we naar autocorrelation function. Er is seizoenaliteit. lag 12 steekt er boven uit. Lag 24 steekt er ook boven uit. duidelijke indicatie voor seizoenaliteit. 
 
voor ass4: gemiddelde is rond de 0. We zien aan de hand van de rin sequence plot dat er over de tijd een verandering is. Hiervoor gaan we de random component berekenen. We gaan eerst en vooral van de reeks de voorspelling aftrekken.  
2008-11-04 07:30:54 [Evelyne Slegers] [reply] 
Ass.1: Er is geen autocorrelatie. Het is een vaste verdeling. De punten hebben dezelfde spreiding. Je kan niet aflezen op de gewone grafiek of er al dan niet autocorrelatie is. Hiervoor moet je bij de calculator instellen dat er 12 of 36 lags zijn (verband tussen heden en verleden) De tijdreeks is niet random maar heeft een seizonale betekenis. 
 
Ass. 2: Als we het histogram bekijken zien we dat het min of meer normaal verdeeld is. 
 
Ass. 3: We vermoeden dat het gemiddelde constant is maar dit is moeilijk te zien. Om het zeker te weten moeten we de berekening maken met de central tendency. 
 
Ass. 4: Voor deze assumptie moet je kijken naar de run sequel plot. De verticale spreiding moet ongeveer overal even groot zijn. Als we de reeks in twee splitsen zien we dat dit wel het geval is maar als we de grafiek samenvoegen zien we dat de spreiding in het eerste deel groter is dan in het tweede. 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'George Udny Yule' @ 72.249.76.132

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 3 seconds \tabularnewline
R Server & 'George Udny Yule' @ 72.249.76.132 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18447&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]3 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'George Udny Yule' @ 72.249.76.132[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18447&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18447&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'George Udny Yule' @ 72.249.76.132

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18447&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18447&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18447&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code