Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_boxcoxlin.wasp

Title produced by software

Box-Cox Linearity Plot

Date of computation

Wed, 12 Nov 2008 07:19:21 -0700

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Nov/12/t1226499862ab4z6tgrts6q9g0.htm/, Retrieved Sun, 19 May 2024 12:37:07 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=24205, Retrieved Sun, 19 May 2024 12:37:07 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

200

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F       [Box-Cox Linearity Plot] [Various EDA Topic...] [2008-11-12 14:19:21] [1351baa662f198be3bff32f9007a9a6d] [Current]
F         [Box-Cox Linearity Plot] [opdracht3 blok8 q3] [2008-11-12 18:08:58] [975daa21de49eaf4d491226310243f5a] 
-    D    [Box-Cox Linearity Plot] [Blok 8, Opdracht ...] [2008-11-15 15:10:00] [6173c35e31b784a490c8cd5476f785d4] 

Feedback Forum

2008-11-14 15:53:53 [Katrijn Truyman] [reply] 
je legt heel goed uit wat je kan afleiden uit deze analyse (in theorie), maar je hebt het niet concreet toegepast op jouw gegevens. Je zegt wat je kan zien, maar geeft geen concrete getallen die bij jou van toepassing zijn.
2008-11-17 08:10:13 [006ad2c49b6a7c2ad6ab685cfc1dae56] [reply] 
De optimale waarde om te transformeren ligt hier bij lambda=2. Daar vertoont de grafiek namelijk een maximum.
2008-11-22 14:53:39 [Peter Van Doninck] [reply] 
Het is goed dat je de theorie erbij hebt gehaald, toch vind ik nergens een duidelijke conclusie. Het toepassen van de box-cox linearity plot zorgt ervoor dat de variabele x getransformeerd wordt, waardoor het scatterplot lineairder wordt. Hier is er echter een zeer kleine verandering, waardoor de transformatie niet echt een effect heeft. Lambda bereikt in het interval wel een maximum waarde in 2. 
2008-11-23 12:26:41 [Nathalie Daneels] [reply] 
Evaluatie opdracht 3 - Blok 8 (Q3) 
De student heeft in haar conclusie enkel de theorie van de Box Cox Linearity Plot staan. Deze theorie is correct, maar de conclusie zou ook een interpretatie moeten bevatten van de eigen gegevens. Dit zou een interpretatie kunnen zijn: 
De Box-Cox Linearity Plot brengt 2 variabelen met elkaar in verband. Er wordt geprobeerd om daar een rechte door te trekken om eventueel wetmatigheid te construeren en voorspellingen te maken. Nu moeten we ons de volgende vraag stellen: Is het mogelijk om een variabele te transformeren zodat de scatterplot wordt gelinealiseerd (lineairder wordt gemaakt), zodat we nog een betere rechte (een rechte die dichter bij de aanduiding van het lineair verband ligt) erdoor kunnen trekken? Om deze vraag op te lossen moeten we gaan kijken naar de R-code. Daarin kan je zien dat x getransformeerd wordt naar x1.  
Box Cox Linearity Plot gaat lambda (= parameter) laten variëren van -2 tot 2 (zie horizontale as van de grafiek) en al deze transformaties toepassen op de variabele x. Voor elke waarde van lambda gaat men de (gewijzigde) correlatie tussen de getransformeerde x en variabele y berekenen en deze correlatie wordt getoond op de verticale as. Vervolgens moeten we op de grafiek gaan kijken of er zich ergens een maximum voordoet en voor welke waarde van lambda dit is. Voor die waarde van lambda gaat de scatterplot een betere lineaire vorm bereiken, gaat er een hogere correlatie bestaan tussen de variabelen x en y (na transformatie van x). In dit geval kunnen we stellen dat lambda een maximum bereikt in de waarde 2. We zouden ons kunnen afvragen of dit werkelijk het maximum is, maar we hebben een sterk vermoeden dat dit zo is. De curve gaat heel waarschijnlijk dalen na de waarde 2 voor lambda. Als deze curve geen maximum moest bereiken, dan zouden we eventueel de het interval op de x-as kunnen opschuiven naar links of rechts (hangt er vanaf hoe de rechte loopt), maar dit gaan we dan niet doen. Als er geen maximum zou bereikt worden, dan mogen we concluderen dat er geen zinvolle transformatie bestaat die de correlatie tussen de 2 variabelen zou verbeteren. 
Als we wel een maximum kunnen aanduiden, dan moeten we nog nagaan of deze transformatie ook echt de correlatie tussen de 2 variabelen voldoende verbetert. Dit kunnen we zien aan de schaal van de y-as. In dit geval is er een verbetering van slechts 0,015 (ongeveer). We kunnen dus stellen dat de transformatie verloren moeite is geweest: We hebben er moeite ingestopt voor maar weinig effect. Ook als we naar de 2 scatterplots (Lineair fit of original data en Lineair fit of transformed data) kijken, kunnen we vaststellen dat de transformatie weinig effect heeft gehad. De 2 scatterplots lijken nog sterk op elkaar en de punten liggen niet dichter of op de getrokken rechte, na transformatie van de variabele x. 
We kunnen er eveneens bij vermelden dat als lambda een waarde nul aanneemt in het maximum van de grafiek, dat de transformatie dan uit een 'log' bestaat, maar dit is eerder bijkomende informatie.

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Dataseries Y:

Download CSV

Histogram

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'Gwilym Jenkins' @ 72.249.127.135 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=24205&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Gwilym Jenkins' @ 72.249.127.135[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=24205&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=24205&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

Box-Cox Linearity Plot
# observations x	73
maximum correlation	0.633348496466385
optimal lambda(x)	2
Residual SD (orginial)	16.9388536094336
Residual SD (transformed)	16.9144640951199

\begin{tabular}{lllllllll}
\hline
Box-Cox Linearity Plot \tabularnewline
# observations x & 73 \tabularnewline
maximum correlation & 0.633348496466385 \tabularnewline
optimal lambda(x) & 2 \tabularnewline
Residual SD (orginial) & 16.9388536094336 \tabularnewline
Residual SD (transformed) & 16.9144640951199 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=24205&T=1

[TABLE]
[ROW][C]Box-Cox Linearity Plot[/C][/ROW]
[ROW][C]# observations x[/C][C]73[/C][/ROW]
[ROW][C]maximum correlation[/C][C]0.633348496466385[/C][/ROW]
[ROW][C]optimal lambda(x)[/C][C]2[/C][/ROW]
[ROW][C]Residual SD (orginial)[/C][C]16.9388536094336[/C][/ROW]
[ROW][C]Residual SD (transformed)[/C][C]16.9144640951199[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=24205&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=24205&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Box-Cox Linearity Plot
# observations x	73
maximum correlation	0.633348496466385
optimal lambda(x)	2
Residual SD (orginial)	16.9388536094336
Residual SD (transformed)	16.9144640951199

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Parameters (Session):

Parameters (R input):

R code (references can be found in the software module):

n <- length(x)
c <- array(NA,dim=c(401))
l <- array(NA,dim=c(401))
mx <- 0
mxli <- -999
for (i in 1:401)
{
l[i] <- (i-201)/100
if (l[i] != 0)
{
x1 <- (x^l[i] - 1) / l[i]
} else {
x1 <- log(x)
}
c[i] <- cor(x1,y)
if (mx < abs(c[i]))
{
mx <- abs(c[i])
mxli <- l[i]
}
}
c
mx
mxli
if (mxli != 0)
{
x1 <- (x^mxli - 1) / mxli
} else {
x1 <- log(x)
}
r<-lm(y~x)
se <- sqrt(var(r$residuals))
r1 <- lm(y~x1)
se1 <- sqrt(var(r1$residuals))
bitmap(file='test1.png')
plot(l,c,main='Box-Cox Linearity Plot',xlab='Lambda',ylab='correlation')
grid()
dev.off()
bitmap(file='test2.png')
plot(x,y,main='Linear Fit of Original Data',xlab='x',ylab='y')
abline(r)
grid()
mtext(paste('Residual Standard Deviation = ',se))
dev.off()
bitmap(file='test3.png')
plot(x1,y,main='Linear Fit of Transformed Data',xlab='x',ylab='y')
abline(r1)
grid()
mtext(paste('Residual Standard Deviation = ',se1))
dev.off()
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Box-Cox Linearity Plot',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations x',header=TRUE)
a<-table.element(a,n)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum correlation',header=TRUE)
a<-table.element(a,mx)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'optimal lambda(x)',header=TRUE)
a<-table.element(a,mxli)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Residual SD (orginial)',header=TRUE)
a<-table.element(a,se)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Residual SD (transformed)',header=TRUE)
a<-table.element(a,se1)
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code