Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Mon, 27 Oct 2008 11:11:02 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/27/t1225127608bwsqa0fvbxuiqwn.htm/, Retrieved Sun, 19 May 2024 16:28:40 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=19279, Retrieved Sun, 19 May 2024 16:28:40 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Q2: Investigate the validity of the model: Clothing Production = constant + random component.

Estimated Impact

149

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [Investigate the v...] [2008-10-27 17:11:02] [3efbb18563b4564408d69b3c9a8e9a6e] [Current]
-   P       [Univariate Explorative Data Analysis] [herberekening taa...] [2008-11-02 16:07:00] [c29178f7f550574a75dc881e636e0923] 

Feedback Forum

2008-10-29 18:01:51 [Romina Machiels] [reply] 
Er zijn 4 assumpties, dit had de student goed opgemerkt. 
Assumptie 1: Deze vraag werd niet goed beantwoord. Of de tijdreeks autocorrelatie vertoond moet je aflezen op de Lag-plot. Deze grafieken komen bij hem echter niet te voorschijn omdat hij bij de berekening niet het aantal lags heeft ingevuld. Hier had 12 of 36 moeten staan.  
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/29/t1225300234x8jti5g72uddtjs.htm 
 
Assumptie 2: bij deze vraag werd naar de juiste grafieken gekeken en op zich de juiste uitleg gegeven. De student maakt wel een punt van de oneffenheid. Maar hier moet je echter niet van wakker liggen, zodat de conclusie is dat er een normale verdeling is. 
 
Assumptie 3: Hier werd niet naar de juiste grafiek gekeken, beter is kijken naar de run sequency plot ofwel central tendency berekenen. Hier zie je dan dat het gemiddelde altijd rond 87 schommelt en dat de outliërs dus weinig invloed hebben. 
 
Assumptie 4: Deze vraag werd fout beantwoord. Je moet hier niet kijken naar de lag-plot, wel de run sequency plot. Als je deze grafiek in 2 splitst, zie je dat de spreiding in het 1ste deel groter is dan in het 2de deel. 
De vraag heeft ook betrekking op de random component, dus je kan bij het berekenen de R-module veranderen nl. x = -0,86... (het gemiddelde)dus dan trek je de voorspelling af en zie je nog beter dat de spreiding niet dezelfde is. 
2008-10-30 17:27:41 [Bob Leysen] [reply] 
De lags werden niet ingesteld, deze moeten 36 worden. Ik heb dan ook een nieuwe link gemaakt:  
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/30/t12253728791frueq4z3rg1624.htm  
 
Als we naar de density plot of de QQ plot kijken is er duidelijk een normaalverdeling. De punten liggen zeer dicht bij de rechte. Enkel in het begin en einde zijn er wat outliers.  
 
De run sequence plot kent een lichte daling, maar je kan ook zien dat er een zekere seasonaliteit is. Op lange termijn is het niveau van deze reeks niet constant. Het is moeilijk te zien. Dit is belangrijk voor assumptie 3.  
 
In de run sequence plot kan je ook zien dat er geen gelijke spreiding is. De laatste assmptie is hier niet van toepassing. De spreiding van het eerste deel (tot 30) is kleiner dan de spreiding na 30. We hebben tijdens het college ook gezien dat wanneer je een lijn invoegt in de R-code de spreiding kan wijzigen.  
2008-11-01 15:13:55 [66991d38d6a4b2d9fe97b6c889f3689c] [reply] 
assumtion 1:  
de student maakt hierbij gebruik van de foute grafiek.  
we moeten gebruik maken van de lagplot en de partial autocorrelation.  
bij de lagplot kunnen we het aantal lags instellen op 12 of 36.  
we kunnen hierin zien of we op basis van de vorige observatie iets kunnen zeggen over de huidige observatie.  
bij de partial autocorrelation kunnen we bij een instelling op 36 duidelijk zien dat alle autocorrelatie voor twaalf en na twaalf niet representatief zijn  
(maw: aan het toeval toe te schrijven) of negatief zijn.  
de meeste van deze waarden liggen binnen het betrouwbaarheids interval, de enkele die boven het betrouwbaarheidsinterval komen zijn niet representatief omdat hun kans op voorvallen veel kleiner is dan die bij 12.  
we besluiten bij assumtie 1 dat de tijdreeks niet random is maar correlatie bevat. in dit geval een speciale correlatie nl. seizoensgebonden correlatie.  
 
assumtion 2:  
de student maakt gebruik van de correcte grafieken.  
het is echter zo dat we van deze grafieken een normaalverdeling aflezen. bij de density plot zoeken we naar de bell shaped vorm, bij het histogram naar een piramide vorm. deze worden op 1 uitschieter na bereikt maar het is zo dat deze uitschieter niet zorgwekkend is. we kunnen dus besluiten dat het hier gaat om een normaal verdeling.  
deze conclusie wordt ook bevestigd door het Q-Q plot. deze gebruikt de student bij assumtie 3 en hij zegt hierbij dat alle punten binnen het betrouwbaarheidsinterval liggen.  
met deze zin spreekt hij zijn conclusie van de 2e assumtie tegen.  
 
opmerking hierbij: er is een normaalverdeling bij autocorrelatie.  
dit staaft de regel dat er wanneer er geen corr. is er steeds normaalverdeling optreedt maar dat dit niet vice versa is. (wanneer er wel autocorr. is, is er niet noodzakelijk geen normaalverdeling)  
 
assumtion 3: 
hierbij maakt de student gebruik van de foute grafiek.  
we beroepen ons op de run sequence. de assumtie vraagt ons of er geen fluctuaties zijn op lange termijn.  
de run sequence vertoont echter een dalende lijn.  
conclusie: het is geeen uitgesproken trend maar we vermoeden een dalende. er is dus fluctuatie op lange termijn. 
 
assumtion 4:  
de student maakt opnieuw gebruik van de foute grafiek. 
bij deze assumtie maken we nogmaals gebruik van de run sequence plot.  
we kijken hierbij naar de spreiding van de reeks over de tijd heen.  
hierbij splitsen we de grafiek in twee delen. de spreiding van het eerste deel is groter dan die van het tweede deel.  
we besluiten hierbij dat er een verandering is van de schommeling en dus geen fixed variation.  
 
 
conclusie: de tijdreeks voldoet niet aan alle validiteitsvoorwaarden en is dus geen geldig model voor de vorm clothing production = constant + random component.
2008-11-01 15:14:18 [Natascha Meeus] [reply] 
Er is inderdaad sprake van 4 assumpties. Maar het aantal lags had hij moeten aanpassen naar 12 of 36.  
 
assumptie 1: om deze op te lossen moesten we naar het lag plot kijken, deze is bij hem niet verschenen omdat de lags moesten aangepast worden en dat is niet gebeurd.  
 
assumptie 2: de juiste grafieken werden gebruikt, namelijk het histogram en het density plot. Er is een normale verdeling zichtbaar bij het density plot. De meeste punten liggen dicht bij de rechte, het is wel niet perfect normaal verdeeld. Er is wel een kleine afwijking, maar deze is niet zo belangrijk.  
 
assumptie 3: Hier moest ger run sequence plot gebruikt worden of de central tendancy gebruiken. Bij het gebruiken van de central tendancy zien we dat outliers niet veel invloed hebben. Er is een vermoeden van een dalende trend, maar dit is niet zeker. 
 
assumptie 4: run sequence plot gebruiken. Dat is hier niet gebeurd. Voor 30 zien we veel meer schommelingen. De mediaan is ongevoelig voor outliers.
2008-11-02 16:09:29 [Bernard Femont] [reply] 
Mits het niet instellen van de lags, zijn in de oplossing te weinig grafieken verschenen waardoor we voor sommige assumpties (1, 3 en 4) niet de correcte output krijgen om deze assumptie te bespreken. 
Ik heb de grafiek herberekend met een lag 12 en zie hier het resultaat. 
http://www.freestatistics.org/blog/date/2008/Nov/02/t1225642101u1vfe9sltwlul8p.htm

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	4 seconds
R Server	'Herman Ole Andreas Wold' @ 193.190.124.10:1001

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 4 seconds \tabularnewline
R Server & 'Herman Ole Andreas Wold' @ 193.190.124.10:1001 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19279&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]4 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Herman Ole Andreas Wold' @ 193.190.124.10:1001[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19279&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19279&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	4 seconds
R Server	'Herman Ole Andreas Wold' @ 193.190.124.10:1001

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19279&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19279&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19279&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code