Free Statistics

of Irreproducible Research!

Author's title

Author*The author of this computation has been verified*
R Software Modulerwasp_edauni.wasp
Title produced by softwareUnivariate Explorative Data Analysis
Date of computationMon, 27 Oct 2008 11:11:02 -0600
Cite this page as followsStatistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/27/t1225127608bwsqa0fvbxuiqwn.htm/, Retrieved Sun, 19 May 2024 16:28:40 +0000
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=19279, Retrieved Sun, 19 May 2024 16:28:40 +0000
QR Codes:

Original text written by user:
IsPrivate?No (this computation is public)
User-defined keywordsQ2: Investigate the validity of the model: Clothing Production = constant + random component.
Estimated Impact149
Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)
F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [Investigate the v...] [2008-10-27 17:11:02] [3efbb18563b4564408d69b3c9a8e9a6e] [Current]
-   P       [Univariate Explorative Data Analysis] [herberekening taa...] [2008-11-02 16:07:00] [c29178f7f550574a75dc881e636e0923]
Feedback Forum
2008-10-29 18:01:51 [Romina Machiels] [reply
Er zijn 4 assumpties, dit had de student goed opgemerkt.
Assumptie 1: Deze vraag werd niet goed beantwoord. Of de tijdreeks autocorrelatie vertoond moet je aflezen op de Lag-plot. Deze grafieken komen bij hem echter niet te voorschijn omdat hij bij de berekening niet het aantal lags heeft ingevuld. Hier had 12 of 36 moeten staan.
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/29/t1225300234x8jti5g72uddtjs.htm

Assumptie 2: bij deze vraag werd naar de juiste grafieken gekeken en op zich de juiste uitleg gegeven. De student maakt wel een punt van de oneffenheid. Maar hier moet je echter niet van wakker liggen, zodat de conclusie is dat er een normale verdeling is.

Assumptie 3: Hier werd niet naar de juiste grafiek gekeken, beter is kijken naar de run sequency plot ofwel central tendency berekenen. Hier zie je dan dat het gemiddelde altijd rond 87 schommelt en dat de outliërs dus weinig invloed hebben.

Assumptie 4: Deze vraag werd fout beantwoord. Je moet hier niet kijken naar de lag-plot, wel de run sequency plot. Als je deze grafiek in 2 splitst, zie je dat de spreiding in het 1ste deel groter is dan in het 2de deel.
De vraag heeft ook betrekking op de random component, dus je kan bij het berekenen de R-module veranderen nl. x = -0,86... (het gemiddelde)dus dan trek je de voorspelling af en zie je nog beter dat de spreiding niet dezelfde is.
2008-10-30 17:27:41 [Bob Leysen] [reply
De lags werden niet ingesteld, deze moeten 36 worden. Ik heb dan ook een nieuwe link gemaakt:
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/30/t12253728791frueq4z3rg1624.htm

Als we naar de density plot of de QQ plot kijken is er duidelijk een normaalverdeling. De punten liggen zeer dicht bij de rechte. Enkel in het begin en einde zijn er wat outliers.

De run sequence plot kent een lichte daling, maar je kan ook zien dat er een zekere seasonaliteit is. Op lange termijn is het niveau van deze reeks niet constant. Het is moeilijk te zien. Dit is belangrijk voor assumptie 3.

In de run sequence plot kan je ook zien dat er geen gelijke spreiding is. De laatste assmptie is hier niet van toepassing. De spreiding van het eerste deel (tot 30) is kleiner dan de spreiding na 30. We hebben tijdens het college ook gezien dat wanneer je een lijn invoegt in de R-code de spreiding kan wijzigen.
2008-11-01 15:13:55 [66991d38d6a4b2d9fe97b6c889f3689c] [reply
assumtion 1:
de student maakt hierbij gebruik van de foute grafiek.
we moeten gebruik maken van de lagplot en de partial autocorrelation.
bij de lagplot kunnen we het aantal lags instellen op 12 of 36.
we kunnen hierin zien of we op basis van de vorige observatie iets kunnen zeggen over de huidige observatie.
bij de partial autocorrelation kunnen we bij een instelling op 36 duidelijk zien dat alle autocorrelatie voor twaalf en na twaalf niet representatief zijn
(maw: aan het toeval toe te schrijven) of negatief zijn.
de meeste van deze waarden liggen binnen het betrouwbaarheids interval, de enkele die boven het betrouwbaarheidsinterval komen zijn niet representatief omdat hun kans op voorvallen veel kleiner is dan die bij 12.
we besluiten bij assumtie 1 dat de tijdreeks niet random is maar correlatie bevat. in dit geval een speciale correlatie nl. seizoensgebonden correlatie.

assumtion 2:
de student maakt gebruik van de correcte grafieken.
het is echter zo dat we van deze grafieken een normaalverdeling aflezen. bij de density plot zoeken we naar de bell shaped vorm, bij het histogram naar een piramide vorm. deze worden op 1 uitschieter na bereikt maar het is zo dat deze uitschieter niet zorgwekkend is. we kunnen dus besluiten dat het hier gaat om een normaal verdeling.
deze conclusie wordt ook bevestigd door het Q-Q plot. deze gebruikt de student bij assumtie 3 en hij zegt hierbij dat alle punten binnen het betrouwbaarheidsinterval liggen.
met deze zin spreekt hij zijn conclusie van de 2e assumtie tegen.

opmerking hierbij: er is een normaalverdeling bij autocorrelatie.
dit staaft de regel dat er wanneer er geen corr. is er steeds normaalverdeling optreedt maar dat dit niet vice versa is. (wanneer er wel autocorr. is, is er niet noodzakelijk geen normaalverdeling)

assumtion 3:
hierbij maakt de student gebruik van de foute grafiek.
we beroepen ons op de run sequence. de assumtie vraagt ons of er geen fluctuaties zijn op lange termijn.
de run sequence vertoont echter een dalende lijn.
conclusie: het is geeen uitgesproken trend maar we vermoeden een dalende. er is dus fluctuatie op lange termijn.

assumtion 4:
de student maakt opnieuw gebruik van de foute grafiek.
bij deze assumtie maken we nogmaals gebruik van de run sequence plot.
we kijken hierbij naar de spreiding van de reeks over de tijd heen.
hierbij splitsen we de grafiek in twee delen. de spreiding van het eerste deel is groter dan die van het tweede deel.
we besluiten hierbij dat er een verandering is van de schommeling en dus geen fixed variation.


conclusie: de tijdreeks voldoet niet aan alle validiteitsvoorwaarden en is dus geen geldig model voor de vorm clothing production = constant + random component.
2008-11-01 15:14:18 [Natascha Meeus] [reply
Er is inderdaad sprake van 4 assumpties. Maar het aantal lags had hij moeten aanpassen naar 12 of 36.

assumptie 1: om deze op te lossen moesten we naar het lag plot kijken, deze is bij hem niet verschenen omdat de lags moesten aangepast worden en dat is niet gebeurd.

assumptie 2: de juiste grafieken werden gebruikt, namelijk het histogram en het density plot. Er is een normale verdeling zichtbaar bij het density plot. De meeste punten liggen dicht bij de rechte, het is wel niet perfect normaal verdeeld. Er is wel een kleine afwijking, maar deze is niet zo belangrijk.

assumptie 3: Hier moest ger run sequence plot gebruikt worden of de central tendancy gebruiken. Bij het gebruiken van de central tendancy zien we dat outliers niet veel invloed hebben. Er is een vermoeden van een dalende trend, maar dit is niet zeker.

assumptie 4: run sequence plot gebruiken. Dat is hier niet gebeurd. Voor 30 zien we veel meer schommelingen. De mediaan is ongevoelig voor outliers.
2008-11-02 16:09:29 [Bernard Femont] [reply
Mits het niet instellen van de lags, zijn in de oplossing te weinig grafieken verschenen waardoor we voor sommige assumpties (1, 3 en 4) niet de correcte output krijgen om deze assumptie te bespreken.
Ik heb de grafiek herberekend met een lag 12 en zie hier het resultaat.
http://www.freestatistics.org/blog/date/2008/Nov/02/t1225642101u1vfe9sltwlul8p.htm

Post a new message
Dataseries X:
109.20
88.60
94.30
98.30
86.40
80.60
104.10
108.20
93.40
71.90
94.10
94.90
96.40
91.10
84.40
86.40
88.00
75.10
109.70
103.00
82.10
68.00
96.40
94.30
90.00
88.00
76.10
82.50
81.40
66.50
97.20
94.10
80.70
70.50
87.80
89.50
99.60
84.20
75.10
92.00
80.80
73.10
99.80
90.00
83.10
72.40
78.80
87.30
91.00
80.10
73.60
86.40
74.50
71.20
92.40
81.50
85.30
69.90
84.20
90.70
100.30




Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'Herman Ole Andreas Wold' @ 193.190.124.10:1001

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 4 seconds \tabularnewline
R Server & 'Herman Ole Andreas Wold' @ 193.190.124.10:1001 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19279&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]4 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Herman Ole Andreas Wold' @ 193.190.124.10:1001[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19279&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19279&T=0

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'Herman Ole Andreas Wold' @ 193.190.124.10:1001







Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19279&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19279&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19279&T=1

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7



Parameters (Session):
par1 = 0 ; par2 = 0 ;
Parameters (R input):
par1 = 0 ; par2 = 0 ;
R code (references can be found in the software module):
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')