Free Statistics

of Irreproducible Research!

Author's title

Author*Unverified author*
R Software Modulerwasp_boxcoxnorm.wasp
Title produced by softwareBox-Cox Normality Plot
Date of computationTue, 11 Nov 2008 04:20:38 -0700
Cite this page as followsStatistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Nov/11/t1226402559wai6xbdyqya85xa.htm/, Retrieved Sun, 19 May 2024 10:24:24 +0000
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=23324, Retrieved Sun, 19 May 2024 10:24:24 +0000
QR Codes:

Original text written by user:
IsPrivate?No (this computation is public)
User-defined keywords
Estimated Impact197
Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)
F       [Box-Cox Normality Plot] [Box-Cox Normality...] [2008-11-11 11:20:38] [3b916296c2d2371d528ff188880e3d2b] [Current]
-    D    [Box-Cox Normality Plot] [box cox norm] [2008-11-12 18:55:23] [762cc4d66bc29c3c2c407be34c6d0239]
F    D    [Box-Cox Normality Plot] [box normality plot] [2008-11-13 10:03:31] [74be16979710d4c4e7c6647856088456]
F    D    [Box-Cox Normality Plot] [box-cox normality...] [2008-11-13 16:09:34] [0e5eff269cdcaf8789c45b6ee36b0c3d]
Feedback Forum
2008-11-22 14:01:13 [An Knapen] [reply
we kunnen vaststellen dat hier het maximum zich bevindt in het punt (1.37;0.77)
De correlatie ligt dus iets lager dan in het vorige geval.Ook de optimale Lambda is veranderd van 2 naar 1.37.
2008-11-23 14:07:01 [Nathalie Daneels] [reply
Evaluatie opdracht 3 - Blok 8 (Q4)

De student zou ook de grafieken van de histogrammen (van de oorspronkelijke data en de getransformeerde data) erbij moeten zetten.
Dit zou de student nog bij de conclusie kunnen zetten:

De Box-Cox transformatie is een bijzonder nuttige familie van transformaties. Het wordt gedefinieerd als:
T(Y) = (Y ^ lambda - 1) / lambda
waar Y de reactievariabele/antwoordvariabele is en lambda de transformatieparameter.
Ook hier geldt: Als lambda = 0, dan wordt de transformatie ‘log’ toegepast op de gegevens en wordt de bovengenoemde formule buiten beschouwing gelaten.
Gezien het gebruik van een bepaalde transformatie, zoals de hierboven genoemde Box-Cox trasformatie, kan het erg nuttig zijn om een maatstaf van de normaliteit van de resulterende transformatie te definiëren. Een van de mogelijke maatstaven is het berekenen van de correlatiecoëfficiënt van een Normal Probability Plot. De correlatie wordt berekend tussen de variabelen van de verticale en horizontale as van de propablity plot en is een geschikte maatstaf voor het bepalen van het lineair verband van de probability plot. (Hoe meer lineair de probability plot is, hoe beter een normale verdeling past bij de gegevens).
Het Box-Cox normality plot is een plot/grafiek van deze correlatiecoëfficiënten voor diverse waarden van de lambda -parameter. De optimale keuze voor de waarde van lambda is die waarde die overeenstemt met de maximumcorrelatie op de plot/grafiek.
Definitie van de Box-Cox normality plot: Deze plots worden gevormd door:
- Op de verticale (y-) as: De correlatiecoëfficiënt van de normal probability plot, na het toepassen van de Box-Cox transformatie.
- Op de horizontale (x-) as: De gekozen waarde voor lambda .

Wat ik hierboven heb vermeld is de theorie over de Box-Cox Normality Plot volgens EDA. De conclusie zou vervolgens nog aangevuld worden met:

Allereerst moeten we opmerken dat de box cox normality plot niet hetzelfde is als de box-cox linearity plot. De box-cox normality plot gaat over de distributieverdeling van 1 variabele. We moeten ook bij deze grafiek nagaan bij welke waarde van lambda de grafiek een maximum bereikt. Net zoals bij de box-cox normality plot laten we de waardes van lambda variëren tussen -2 en 2 (De horizontale as op de grafiek). De verticale as op de grafiek toont de gewijzigde correlatie (na toepassing van de transformatie van een variabele). De correlatie waarbij de grafiek een maximum bereikt (bij een bepaalde waarde van lambda) zorgt ervoor dat de verdeling van de tijdreeks meer op een normaalverdeling gaat lijken: Bij een hogere correlatie gaat de tijdreeks meer de normaalverdeling benaderen. De correlatie heeft hier betrekking op de verdeling van de Normal QQ-plot
In dit geval kunnen we vaststellen dat de grafiek een maximum bereikt bij een waarde van 1,37 voor lambda. We zien duidelijk dat de grafiek na 1,37 gaat dalen.
Vervolgens kunnen we op de histogrammen zien dat de transformatie niet veel effect heeft gehad op de verdeling van de tijdreeks. Uit het histogram van de getransformeerde data kunnen we besluiten dat de verdeling van gegevens niet echt meer gelijken op een normaalverdeling, na transformatie van de variabele. Ook als we naar de normal QQ plot kijken, kunnen we concluderen dat door de transformatie van de variabele de tijdreeks eigenlijk niet dichter bij een normaalverdeling aanleunt. De rechte lijn van normal q-q plot geeft een perfect lineair verband weer. Hierdoor kunnen we een conclusie vormen over de verbeterde correlatie tussen 2 variabelen na transformatie van een variabele. De 2e grafiek (de normal QQ plot van de getransformeerde data) toont duidelijk aan dat deze perfecte lineariteit niet beter benaderd wordt na transformatie. We zijn dus niet in ons opzet geslaagd.

Post a new message
Dataseries X:
93,5
94,7
112,9
99,2
105,6
113
83,1
81,1
96,9
104,3
97,7
102,6
89,9
96
112,7
107,1
106,2
121
101,2
83,2
105,1
113,3
99,1
100,3
93,5
98,8
106,2
98,3
102,1
117,1
101,5
80,5
105,9
109,5
97,2
114,5
93,5
100,9
121,1
116,5
109,3
118,1
108,3
105,4
116,2
111,2
105,8
122,7
99,5
107,9
124,6
115
110,3
132,7
99,7
96,5
118,7
112,9
130,5
137,9
115
116,8
140,9
120,7
134,2
147,3
112,4
107,1
128,4
137,7
135
151
137,4
132,4
161,3
139,8
146
166,5
143,3
121
152,6
154,4
154,6
158




Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'Sir Ronald Aylmer Fisher' @ 193.190.124.24

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 4 seconds \tabularnewline
R Server & 'Sir Ronald Aylmer Fisher' @ 193.190.124.24 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=23324&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]4 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Sir Ronald Aylmer Fisher' @ 193.190.124.24[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=23324&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=23324&T=0

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'Sir Ronald Aylmer Fisher' @ 193.190.124.24







Box-Cox Normality Plot
# observations x84
maximum correlation0.777584732024896
optimal lambda1.37

\begin{tabular}{lllllllll}
\hline
Box-Cox Normality Plot \tabularnewline
# observations x & 84 \tabularnewline
maximum correlation & 0.777584732024896 \tabularnewline
optimal lambda & 1.37 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=23324&T=1

[TABLE]
[ROW][C]Box-Cox Normality Plot[/C][/ROW]
[ROW][C]# observations x[/C][C]84[/C][/ROW]
[ROW][C]maximum correlation[/C][C]0.777584732024896[/C][/ROW]
[ROW][C]optimal lambda[/C][C]1.37[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=23324&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=23324&T=1

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Box-Cox Normality Plot
# observations x84
maximum correlation0.777584732024896
optimal lambda1.37



Parameters (Session):
Parameters (R input):
R code (references can be found in the software module):
n <- length(x)
c <- array(NA,dim=c(401))
l <- array(NA,dim=c(401))
mx <- 0
mxli <- -999
for (i in 1:401)
{
l[i] <- (i-201)/100
if (l[i] != 0)
{
x1 <- (x^l[i] - 1) / l[i]
} else {
x1 <- log(x)
}
c[i] <- cor(qnorm(ppoints(x), mean=0, sd=1),x1)
if (mx < c[i])
{
mx <- c[i]
mxli <- l[i]
}
}
c
mx
mxli
if (mxli != 0)
{
x1 <- (x^mxli - 1) / mxli
} else {
x1 <- log(x)
}
bitmap(file='test1.png')
plot(l,c,main='Box-Cox Normality Plot',xlab='Lambda',ylab='correlation')
mtext(paste('Optimal Lambda =',mxli))
grid()
dev.off()
bitmap(file='test2.png')
hist(x,main='Histogram of Original Data',xlab='X',ylab='frequency')
grid()
dev.off()
bitmap(file='test3.png')
hist(x1,main='Histogram of Transformed Data',xlab='X',ylab='frequency')
grid()
dev.off()
bitmap(file='test4.png')
qqnorm(x)
qqline(x)
grid()
mtext('Original Data')
dev.off()
bitmap(file='test5.png')
qqnorm(x1)
qqline(x1)
grid()
mtext('Transformed Data')
dev.off()
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Box-Cox Normality Plot',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations x',header=TRUE)
a<-table.element(a,n)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum correlation',header=TRUE)
a<-table.element(a,mx)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'optimal lambda',header=TRUE)
a<-table.element(a,mxli)
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')