Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*Unverified author*

R Software Module

rwasp_cloud.wasp

Title produced by software

Trivariate Scatterplots

Date of computation

Wed, 12 Nov 2008 10:33:13 -0700

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Nov/12/t1226511218iyiz9sjnk6t3c1g.htm/, Retrieved Sun, 19 May 2024 12:42:28 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=24311, Retrieved Sun, 19 May 2024 12:42:28 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

165

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

-     [Bivariate Kernel Density Estimation] [Bel20 en Downjones] [2008-11-12 17:23:23] [74be16979710d4c4e7c6647856088456]
F RMPD    [Trivariate Scatterplots] [kelly] [2008-11-12 17:33:13] [d41d8cd98f00b204e9800998ecf8427e] [Current]

Feedback Forum

2008-11-15 13:51:57 [Hundra Smet] [reply] 
de student heeft goed de voor-en nadelen van partial correlation en trivariate scatterplot opgesomd. 
ik zou er toch een beetje algemene informatie over de werking bijvoegen: 
 
het nut van de trivariate scatterplot is de correlatie (het verband) tussen 3 variabelen gelijktijdig na te gaan. er wordt dus een figuur met 3 dimensies gegeven. er gaat echter veel informatie verloren door de 2 dimensionaliteit van het scherm. de software lost dit op door de gecreëerde kubus uit verschillende punten weer te geven. hierdoor gaan we andere dingen ontdekken.  
 
ook worden er gestandaardiseerde weergaven gemaakt: staafdiagram en scatterplot.  
in de meeste scatterplots van de student zien we een tamelijk lineair verloop. vooral de variabelen Nikkei en Bel20 kennen een hoge correlatie. (zie positief lineair verloop density plot).  
dit zien we ook op de kernel density plot die het verband tussen X en Y weergeeft. de 2 ellipsen liggen bijna helemaal op de diagonaal. 
2008-11-16 15:07:39 [074508d5a5a3592082de3e836d27af7d] [reply] 
De nadelen heb ik tijdens de les wel gevonden: Bij de Trivarate scatterplot willen we het verband tussen 3 variabelen gelijktijdig onderzoeken. De 3 kubussen zijn vertekend door de manier van projecteren, daarom kijken we beter naar de matrix. Hier zijn bepaalde dimensies ook vertekend omdat de 3de dimensie er ook niet bijstaat. Dus kunnen we beter naar de Bivariate Kernel density plot kijken. De hoogtelijnen stellen de dichtheid voor, en wanneer ze dicht op de lijn liggen is de correlatie hoog. 
2008-11-20 10:09:36 [Hannes Van Hoof] [reply] 
Het begrip van partial correlation kon als volgt worden uitgewerkt: 
Het effect van een 3de variabele wordt hier weggewerkt. Wanneer er een groot verschil is tussen de correlatie en de partiele correlatie, is de invloed van de derde variabele dus groot. Hier is dit vooral het geval van de variabele x op de correlatie tussen y en z. 
 
Van de trivariate scatterplots konden eventueel ook de kubussen worden weergegeven. Een nadeel van deze is dat ze elk een vertekent beeld geven door de dimensies.
2008-11-24 20:49:33 [Jonas Scheltjens] [reply] 
Q1: De student maakt hier geen slechte bespreking van zowel de triviate scatterplot als van de partial correlation. Het is inderdaad een groot voordeel bij de triviate scatterplot dat dat we de 3 variabelen in een handig overzicht kunnen bekijken in de 2-dimensionele scatterplot, net zoals de correlatie tussen elk van de gegevensreeksen. Hierbij is echter wel enig nadeel: er doet zich enige vertekening voor bij de kubusvoorstelling aangezien de driedimensionalteit niet volledig juist kan geprojecteerd worden. Het gebruik van de  kubussen is op zijn beurt dan wel erg praktisch daar ze alle drie de reeksen op het zelfde moment in 1 plot kunnen weergeven. De student heeft zich hier wel vergist, daar hij of zij de 2 dimensionale weergave van de triviate scatterplot vermeend als de triviate scatterplot. Verder heeft de triviate scatterplot dus ook het voordeel dat men verschillende manieren heeft om de (cor-)relaties  te interpreteren aangezien er door de verschillende weergaves ook verschillende invalshoeken ontstaan. Hier is de sterkste correlatie inderdaad tussen de Bel20 en Nikkei. Dit kunnen we zien aan de puntenwolk waar we met enige nuance de beste positieve lineaire verhouding (wat duidt op sterke correlatie) in kunnen terug vinden (zie ook de 2 dimensionale plot). De student vergist zich naar mijn menig toch wat het verband betreft wanneer de 3 beurzen op dezelfde moment in de plots (dit is dus bij de kubussen) komen. Naar mijn mening kan je ook dan nog een redelijk goed positief verband ontdekken. Ook als we naar de realiteit kijken –los van de opdracht en cijfergegevens- lijkt het mij logisch dat net zoals bijvoorbeeld bij de beurscrisis er enige samenhang bestaat over het al dan niet positief noteren van de grootste beurzen ter wereld (zoals alle beurzen een zware recessie kenden met de bankencrisis). 
De bivariate density plot had hier wel gebruikt kunnen worden omdat men hier makkelijk kan zien waar de gegevens zich bevinden. De hoogtelijnen van de plot geven de dichtheid van de gegevens weer. Dit kan men ook zien aan de clustervorming (wat duidt op veel gegevens op die plek) en de hoogtelijnen geven aan dat er een verband zou kunnen bestaan tussen de variabelen. De lijn dwars door de density plot geeft het gemiddelde aan. De student heeft echter ervoor gekozen deze niet op te nemen in het bestand, dus vermeld ik er verder niets over.

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Dataseries Y:

Download CSV

Histogram

Dataseries Z:

Download CSV

Histogram

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	6 seconds
R Server	'Herman Ole Andreas Wold' @ 193.190.124.10:1001

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 6 seconds \tabularnewline
R Server & 'Herman Ole Andreas Wold' @ 193.190.124.10:1001 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=24311&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]6 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Herman Ole Andreas Wold' @ 193.190.124.10:1001[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=24311&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=24311&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	6 seconds
R Server	'Herman Ole Andreas Wold' @ 193.190.124.10:1001

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Figure 7

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Bel20 ; par6 = Nikkei ; par7 = Down Jones ;

Parameters (R input):

par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Bel20 ; par6 = Nikkei ; par7 = Down Jones ;

R code (references can be found in the software module):

x <- array(x,dim=c(length(x),1))
colnames(x) <- par5
y <- array(y,dim=c(length(y),1))
colnames(y) <- par6
z <- array(z,dim=c(length(z),1))
colnames(z) <- par7
d <- data.frame(cbind(z,y,x))
colnames(d) <- list(par7,par6,par5)
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
if (par1>500) par1 <- 500
if (par2>500) par2 <- 500
if (par1<10) par1 <- 10
if (par2<10) par2 <- 10
library(GenKern)
library(lattice)
panel.hist <- function(x, ...)
{
usr <- par('usr'); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col='black', ...)
}
bitmap(file='cloud1.png')
cloud(z~x*y, screen = list(x=-45, y=45, z=35),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud2.png')
cloud(z~x*y, screen = list(x=35, y=45, z=25),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud3.png')
cloud(z~x*y, screen = list(x=35, y=-25, z=90),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='pairs.png')
pairs(d,diag.panel=panel.hist)
dev.off()
x <- as.vector(x)
y <- as.vector(y)
z <- as.vector(z)
bitmap(file='bidensity1.png')
op <- KernSur(x,y, xgridsize=par1, ygridsize=par2, correlation=cor(x,y), xbandwidth=dpik(x), ybandwidth=dpik(y))
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,y)',xlab=par5,ylab=par6)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,y)
(r<-lm(y ~ x))
abline(r)
box()
dev.off()
bitmap(file='bidensity2.png')
op <- KernSur(y,z, xgridsize=par1, ygridsize=par2, correlation=cor(y,z), xbandwidth=dpik(y), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (y,z)',xlab=par6,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(y,z)
(r<-lm(z ~ y))
abline(r)
box()
dev.off()
bitmap(file='bidensity3.png')
op <- KernSur(x,z, xgridsize=par1, ygridsize=par2, correlation=cor(x,z), xbandwidth=dpik(x), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,z)',xlab=par5,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,z)
(r<-lm(z ~ x))
abline(r)
box()
dev.off()

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code