Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Wed, 22 Oct 2008 12:51:31 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/22/t1224701577r5lbmbk4j04cfb0.htm/, Retrieved Sun, 19 May 2024 14:09:59 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18433, Retrieved Sun, 19 May 2024 14:09:59 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

279

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [vraag 1: Q2 valid...] [2008-10-22 18:51:31] [00a0a665d7a07edd2e460056b0c0c354] [Current]
-   P       [Univariate Explorative Data Analysis] [vraag 1:Q2 invest...] [2008-11-03 09:40:43] [82d201ca7b4e7cd2c6f885d29b5b6937] 
- RMP       [Central Tendency] [central tendency] [2008-11-04 08:47:16] [82d201ca7b4e7cd2c6f885d29b5b6937] 
- R PD      [Univariate Explorative Data Analysis] [Univariate Explor...] [2008-12-17 19:09:02] [82d201ca7b4e7cd2c6f885d29b5b6937] 

Feedback Forum

2008-11-03 10:50:14 [Niels Herremans] [reply] 
Assumptie 1: Hiervoor moeten we kijken naar de lag plot en de autocorrelation functie. De lag plot zoekt eigelijk het verband tussen het heden en het verleden. Voor het aantal lags kan je best 12 of 36(maximum) nemen. In de eerste lagplot zou je dan zien dat de puntenwolk niet op een rechte ligt en in de 2de lag plot de puntenwolk meer op een rechte ligt. Dus voor de 2de lagplot kan je wel een uitspraak doen over de toekomst. Als je dan gaat kijken naar de autocorrelation functie dan zie je dat het lijntje bij 12 en 24 hoog is dus er is sprake van seizoenaliteit. 
 
Assumptie 2: Je moet inderdaad kijken naar histogram, density plot en normal QQ plot. it deze grafieken is echter duidelijk dat de verdeling bijna gelijk is en dat de punten vrij dicht bij de normaal verdeling liggen. 
 
Assumptie 3: Hier moeten we gebruik maken van de run sequence plot. Het is heel licht dalend dus niet constant. 
 
Assumptie 4: Hiervoor moeten we wee de run sequence plot gebruiken en kijken naarde spreiding over de tijd heen. In het 1ste deel schommelt de reeks harder dan in het 2de deel van de grafiek.
2008-11-03 18:19:22 [Elias Van Deun] [reply] 
Assumptie 1: Deze assumptie wordt op de verkeerde grafiek afgelezen. Het is niet de run sequence plot die we moeten hebben, maar de lag plot. Deze bekom je door bij de berekening het aantal lags in te vullen. In dit voorbeeld heb ik 12 lags gekozen:  
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/02/t1225623402715pn0ml5lw71j0.htm  
 
Als we dan de Autocorrelation Function bekijken, zie je dat er op de 12de lag een grote verticale rechte is, dat wil zeggen dat we er autocorrelatie is.  
 
Assumptie 2: Aan de hand van het histogram en de density plot kunnen we toch afleiden dat er min of meer een normaal verdeling is. De student vergeet ook te verwijzen naar de QQ plot, hierop is te zien dat de punten min of meer op de rechte liggen, dat wil zeggen dat er sprake is van een normaal verdeling.  
 
Assumptie 3: Ook hier gebruikt de student de verkeerde grafiek. Het is niet de QQ plot die we gebruiken, maar de run sequence plot. Op deze grafiek zien we dat er op langere termijn de constante achteruit gaan. Om zekerder te zijn berekenen we het gemiddelde via de central tendency.  
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/02/t1225624585k99kterovz3fqxe.htm  
Uit de grafieken van de trimmed- en winsorised mean kunnen we afleiden dat het gemiddelde niet constant blijft. Er is een dalende trend aanwezig.  
 
Assumptie 4: Hiervoor gebruiken we terug de run sequence plot. Als je de grafiek in twee helften verdeeld, merk je op dat de spreiding niet gelijk is in de linker- en rechter helft. In de linker helft is de spreiding groter.  
 
De conclusie is correct: Dit model is niet geldig omdat niet aan alle voorwaarden zijn voldaan.
2008-11-03 22:08:38 [Isabel Wilms] [reply] 
assumptie 1: om de autocorrelatie te testen gebruiken we de 'lag plot', deze komt pas tevoorschijn wanneer je de lags invult. Bij de lagplot k=1 zien we dat de punten verspreid liggen (niet op de rechte) en er dus geen correlatie is. We kunnen dus ook geen voorspelling maken. Je kan bij de lags ook 12(1jaar) of 36(3jaar) invullen. Vul nu 36 in, dan zie je bij de autocorrelatiefunctie een rechte bij 12 en 24, deze wil zeggen dat er seizoenale autocorrelatie is. Men kan dus verdere voorspellingen maken want er zijn terugkerende patronen.  
 
assumptie 2: Hier gebruiken we de density plot en normal qq-plot. Omdat bij de density plot de grafiek een zo goed als vloeiend verloop heeft, kunnen we zeggen dat er sprake is van een normaal verdeling. Ook de normal qq-plot laat dit zien, bijna alle puntjes liggen op de rechte.  
 
assumptie 3: Om deze assumptie te testen, hebben we de 'run sequence plot' nodig. Op het einde gaat deze reeks zeer snel op en neer, we moeten kijken naar de LT- trend. We zien een achteruitgang, het niveau van deze reeks is dus niet constant, we kunnen stellen dat er geen constante aanwezig is. Om van deze stelling zeker te zijn, berekenen we het gemiddelde via de central tendency, hier zien we dat de trimmed mean en de winsorized mean dalen, dus het gemiddelde is geen constante.  
 
assumptie 4: Hier ook gebruiken we de run sequence plot. Wanneer we de grafiek in 2 helften splitsen (waar het patroon van spreiding veranderd), zien we dat de linkerhelft niet gelijk is aan de rechterhelft. De spreiding aan de linkerkant is groter.  
 
Conclusie: Er is niet aan alle voorwaarden voldaan, dus model is niet geldig.
2008-11-04 08:50:28 [Inge Meelberghs] [reply] 
* assumptie 1: Mijn antwoord was hier niet correct. Om na te gaan of de dataset autocorrelatie bevat kan je best naar de lag plot kijken en de autocorrelatiefunctie i.p.v. de run sequence plot. Dit kan je instellen door het aantal lags in te vullen. De lag plot zoekt eigelijk het verband tussen het heden en het verleden. Voor het aantal lags kan je best 12 of 36(maximum) nemen. In de eerste lagplot k=1 liggen de punten gespreid rond de rechte. In de 2de lagplot ligt de puntenwolk veel dichter op de rechte en vormt er zich een positieve helling. Dit wijst op een positieve seizoenale autocorrelatie. Als je naar de autocorrelatiefunctie kijkt dan zie je dat het verticaal lijntje bij 12 en 24 hoog is dus er is sprake van seizoenaliteit.  
 
* assumptie 2: De normaalverdeling kan je op drie wijzen aflezen. Via de histogram, de density plot en de normal QQ plot. De histogram toont aan dat de verdeling min of meer toch gelijk is. Op de density plot kunnen kan ik zien dat het verloop ook een vrij normale verdeling vertoont , buiten de hobbel die rond de waarde 70 voorkomt al is deze afwijking niet doorslaggevend. Op de normal QQ plot is te zien dat de punten min of meer op de rechte liggen, wat wil zeggen dat er sprake is van een normaal verdeling.  
 
* assumptie 3: Om na te gaan of de verdeling constant is moet ik naar de run sequence plot kijken. Deze daalt lichtjes en is dus niet constant. Maar om een nog naukeuriger resultaat te verkrijgen moet ik eigenlijk de central tendency van deze tijdreeksen berekenen. 
 
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Nov/04/t1225788485vmmbzlxgxx692za.htm 
 
Uit de grafieken van de Trimmed mean en de Winsored mean kan ik dan afleiden dat het gemiddelde niet constant blijft maar eerder een dalende trend aanneemt.  
 
* assumptie 4: Mijn oplossing was hier fout. Om na te gaan of de spreiding vast is moet ik naar de Run sequence plot kijken. Ik moet kijken naar de spreiding over de tijd heen. Deze grafiek moet je dan in midden delen en vergelijken of de schommelingen aan beide kanten ongeveer gelijk zijn. In het 1ste deel schommelt de reeks harder dan in het 2de deel van de grafiek. De spreiding is niet gelijk aan de linker en rechterkant. 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'Gwilym Jenkins' @ 72.249.127.135 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18433&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Gwilym Jenkins' @ 72.249.127.135[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18433&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18433&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18433&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18433&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18433&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code