Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_boxcoxlin.wasp

Title produced by software

Box-Cox Linearity Plot

Date of computation

Thu, 13 Nov 2008 01:29:17 -0700

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Nov/13/t1226565064r0m70z5zbrz0igk.htm/, Retrieved Sun, 19 May 2024 11:39:35 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=24482, Retrieved Sun, 19 May 2024 11:39:35 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

natalie en evelyn

Estimated Impact

270

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

-     [Bivariate Kernel Density Estimation] [Bivariate Kernel ...] [2008-11-11 14:08:00] [adb6b6905cde49db36d59ca44433140d]
F RMPD  [Hierarchical Clustering] [Hierarchical Clus...] [2008-11-11 23:34:50] [b591abfa820a394aeb0c5ebd9cfa1091]
F RMPD      [Box-Cox Linearity Plot] [box cox linearity...] [2008-11-13 08:29:17] [32a7b12f2bdf14b45f7a9a96ba1ab98d] [Current]

Feedback Forum

2008-11-15 13:26:43 [Hundra Smet] [reply] 
goede plots, niet echt een inzichtelijke oplossing. 
 
door middel van de box cox transformation zoeken we uit of de data te transformeren zijn tot een lineair verband. 
 
in de box cox linearity plot van de student zien we een negatieve parabool die bij de lambda waarde -2 reeds een beetje naar beneden gaat. het maximum bevindt zich rond (-1,5;0,791). gevolg hiervan is dat -1,5 de beste transformatie is. 
 
we zien dat bij de transformatie van de student er niet echt een groot verschil is tussen de lineair fit van de originele data en die van de getransformeerde.  
  2008-11-17 09:35:23 [Katrijn Truyman] [reply] 
De vorige student heeft ook hier weer goede uitleg gegeven over de box cox linearity plot. 
Ik kan er nog aan toevoegen dat, als de correlatie tussen de 2 variabelen niet echt verhoogt door de transformatie toe te passen, dat het dan geen zinvolle transformatie is. Soms wordt er dan ook geen maximum correlatie bereikt.
2008-11-15 13:33:53 [Hundra Smet] [reply] 
zoals de student ook zei in de oplossing is de residual standard deviation gedaald, wat toch duidt op een kleine verbetering.
2008-11-17 16:17:51 [Stefan Temmerman] [reply] 
Deze plot voert een transformatie door om de variabelen meer lineair te zetten. Hiervoor wordt de functie getest met verschillende lambda's, om zo een beter verband te krijgen. De lambda-waarde die de hoogste correlatiecoëfficiënt voor de functie oplevert, wordt gekozen om de grafiek te transformeren(te zien op de grafiek als het maximum van de linearity plot). 
In het voorbeeld van de student, is de optimale lambda waarde ongeveer -1.4. Als we functie transformeren met behulp van deze waarde -1.4, zou deze een beter verband opleveren. Dit is te merken aan de kleinere standaarddeviatie. De getransformeerde data liggen ook na de transformatie dichter bij de diagonaal. In dit voorbeeld is invloed van de transformatie echter moeilijk waar te nemen, en heeft dus bijgevolg niet veel invloed. 
2008-11-18 10:32:20 [72e979bcc364082694890d2eccc1a66f] [reply] 
De gegevens worden niet veel gewijzigd door de transformatie. De resultaten worden iets dichter bij elkaar gebracht maar het verschil is zeer klein.
2008-11-18 13:49:13 [Julie Govaerts] [reply] 
Bij de Box Cox linearity plot wordt de x variabele getransformeerd (m.b.v. de Box Cox formule) zodanig dat de scatterplot tss. x en y zo dicht mogelijk op een rechte ligt 
 
Doel: De transformatie vinden van de X-variabele die de correlatie tussen Y en een X-variabele verbetert = meer lineair 
 
λ (lambda) is de transformatieparameter die schommelt tussen -2 en 2 = wordt toegepast op X --> de optimale waarde van lambda zoeken!
2008-11-24 16:34:53 [5faab2fc6fb120339944528a32d48a04] [reply] 
Deze plot voert een transformatie door om de variabelen meer lineair te maken. Hiervoor wordt de functie aan de hand van de Box-Cox formule, om zo het optimale verband te vinden. De lambda-waarde, die schommelt tussen -2 en 2, die de hoogste correlatiecoëfficiënt voor de functie oplevert, wordt gebruikt om de grafiek te transformeren. De transformatie wordt doorgevoerd op de X-variabelen.  
In het voorbeeld van de student, is de optimale lambda waarde ongeveer -1.4 à -1.5. Als we functie transformeren met behulp van deze waarde, bekomen we een beter verband. Dit is te merken aan de kleinere standaarddeviatie. De getransformeerde data liggen ook na de transformatie dichter bij de diagonaal. In dit voorbeeld is invloed van de transformatie echter moeilijk waar te nemen, en heeft dus bijgevolg niet veel invloed. 
2008-11-24 19:41:28 [7bf28d4d60530086dbc44ae6b648927e] [reply] 
We gaan met deze methode de x-variable transformeren zodat de scatterplots meer lineair worden. Op de plaats waar de curve een maximum vertoont  geeft de beste transformatie aan. Door de transformatie worden de gegevens niet hard gewijzigd.
2008-11-24 20:59:55 [Kevin Vermeiren] [reply] 
Wederom geeft de student een zeer beperkt antwoord. De student zegt dat de getransformeerde data dichter bij de diagonaal liggen. Dit klopt maar dit is slechts  een zeer kleine verbetering. Verder wordt er niets vermeld over de werking van de box-cox linearity plot. Deze module wordt gebruikt om na te gaan welke lambda de beste waarde geeft voor de efficiëntste transformatie. Op de Y-as staat de correlatie weergegeven. Hoger op de y-as hoe groter het verband. In deze berekening gaat de lambda verschillende waardes aannemen en worden alle mogelijke transformaties uitgeprobeerd. Dit geeft als resultaat een stijgende- of dalende curve (hopelijk met een maximum). Het maximum van deze box-cox linearity plot vertegenwoordigt het punt waarbij we de beste transformatie bereiken. In dit voorbeeld zal lambda de waarde -1,46 aannemen. Verder wordt de lineair fit van de originele gegevens met deze van de getransformeerde gegevens vergeleken, zoals de student vermeld heeft. Hierdoor is het mogelijk te kijken of de transformatie de lineair fit beter, meer lineair maakt of niet. In dit voorbeeld kunnen we zeggen dat de transformatie nier erg nuttig is.

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Dataseries Y:

Download CSV

Histogram

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	1 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 1 seconds \tabularnewline
R Server & 'Gwilym Jenkins' @ 72.249.127.135 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=24482&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]1 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Gwilym Jenkins' @ 72.249.127.135[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=24482&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=24482&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	1 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

Box-Cox Linearity Plot
# observations x	60
maximum correlation	0.790184667421954
optimal lambda(x)	-1.46
Residual SD (orginial)	22350.4025397238
Residual SD (transformed)	22120.8558326268

\begin{tabular}{lllllllll}
\hline
Box-Cox Linearity Plot \tabularnewline
# observations x & 60 \tabularnewline
maximum correlation & 0.790184667421954 \tabularnewline
optimal lambda(x) & -1.46 \tabularnewline
Residual SD (orginial) & 22350.4025397238 \tabularnewline
Residual SD (transformed) & 22120.8558326268 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=24482&T=1

[TABLE]
[ROW][C]Box-Cox Linearity Plot[/C][/ROW]
[ROW][C]# observations x[/C][C]60[/C][/ROW]
[ROW][C]maximum correlation[/C][C]0.790184667421954[/C][/ROW]
[ROW][C]optimal lambda(x)[/C][C]-1.46[/C][/ROW]
[ROW][C]Residual SD (orginial)[/C][C]22350.4025397238[/C][/ROW]
[ROW][C]Residual SD (transformed)[/C][C]22120.8558326268[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=24482&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=24482&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Box-Cox Linearity Plot
# observations x	60
maximum correlation	0.790184667421954
optimal lambda(x)	-1.46
Residual SD (orginial)	22350.4025397238
Residual SD (transformed)	22120.8558326268

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Parameters (Session):

Parameters (R input):

R code (references can be found in the software module):

n <- length(x)
c <- array(NA,dim=c(401))
l <- array(NA,dim=c(401))
mx <- 0
mxli <- -999
for (i in 1:401)
{
l[i] <- (i-201)/100
if (l[i] != 0)
{
x1 <- (x^l[i] - 1) / l[i]
} else {
x1 <- log(x)
}
c[i] <- cor(x1,y)
if (mx < abs(c[i]))
{
mx <- abs(c[i])
mxli <- l[i]
}
}
c
mx
mxli
if (mxli != 0)
{
x1 <- (x^mxli - 1) / mxli
} else {
x1 <- log(x)
}
r<-lm(y~x)
se <- sqrt(var(r$residuals))
r1 <- lm(y~x1)
se1 <- sqrt(var(r1$residuals))
bitmap(file='test1.png')
plot(l,c,main='Box-Cox Linearity Plot',xlab='Lambda',ylab='correlation')
grid()
dev.off()
bitmap(file='test2.png')
plot(x,y,main='Linear Fit of Original Data',xlab='x',ylab='y')
abline(r)
grid()
mtext(paste('Residual Standard Deviation = ',se))
dev.off()
bitmap(file='test3.png')
plot(x1,y,main='Linear Fit of Transformed Data',xlab='x',ylab='y')
abline(r1)
grid()
mtext(paste('Residual Standard Deviation = ',se1))
dev.off()
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Box-Cox Linearity Plot',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations x',header=TRUE)
a<-table.element(a,n)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum correlation',header=TRUE)
a<-table.element(a,mx)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'optimal lambda(x)',header=TRUE)
a<-table.element(a,mxli)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Residual SD (orginial)',header=TRUE)
a<-table.element(a,se)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Residual SD (transformed)',header=TRUE)
a<-table.element(a,se1)
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code