Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*Unverified author*

R Software Module

rwasp_cloud.wasp

Title produced by software

Trivariate Scatterplots

Date of computation

Thu, 13 Nov 2008 08:46:12 -0700

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Nov/13/t12265912375kfflkfk4ka5z3o.htm/, Retrieved Sun, 19 May 2024 12:38:18 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=24656, Retrieved Sun, 19 May 2024 12:38:18 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

131

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F       [Trivariate Scatterplots] [Eigen tijdreeks t...] [2008-11-13 15:46:12] [c8dc05b1cdf5010d9a4f2d773adefb82] [Current]

Feedback Forum

2008-11-16 11:03:42 [Nicolaj Wuyts] [reply] 
Uit alle drie de bivariate Kernel density plots, kan je afleiden dat er een positieve correlatie is tussen zowel x en y, als y en Z en x en z. Dit kan je zien doordat de rode kern van de plots een stijgend verloop heeft. Je kan ook zien dat de correlatie tussen x en z dicht tegen de één zal liggen aangezien de spreiding van de plot vrij klein is. Als je de correlatie vergelijkt met de partiele correlatie, kan je zien dat deze overeenkomen behalve voor x en y. De partiële correlatie wordt hier plots -1 tov 0,11 bij de gewone correlatie. Aangezien de invloed van de derde variable er wordt uit gefilterd bij de partiële correlatie, kunnen we besluiten dat de z-waarden een grote invloed hadden op de relatie tussen x en y. Dat is dus het grote nadeel van de gewone correlatie en de bivariate Kernel density plot: zij houden geen rekening met de invloed van de derde variabele op de relatie van de twee andere variabelen.
2008-11-23 13:16:12 [c97d2ae59c98cf77a04815c1edffab5a] [reply] 
de student had geen oplossing bij deze opgave gegeven. 
Hier zou de bespreking van de triviate scatterplot en de bivariate density moeten komen. Allereerst zal ik wat theorie geven, zodat het concept toch wat duidelijker wordt. 
De trivariate scatterplotgeeft telkens de correlatie tussen 2 variabelen weer, zonder rekening te houden met een eventuele effect van een derde variabele die ervoor zou kunnen zorgen dat het verband tussen x en y eigenlijk een schijncorrelatie is. Het verband tussen de derde variabel z en de andere variabelen wordt wel weergegeven, waardoor je zou kunnen afleiden of z het verband tussen x en y zal beïnvloeden. Hier is het verband tussen x(goederen) en y(diensten) klein, omdat de punten van de puntenwolk verspreid liggen. Het verband tussen x en z vertoont een veel positiever lineair verband. Uit deze scatterplot kan je ook afleiden hoe de gegevens verdeeld zijn. 
Bivariate density : 
De hoogtelijnen geven de waarschijnlijkheid, d.m.v. de dichtheid/concentratie , aan dat een bepaald verband tussen variabelen (= de punten) zich daar bevindt, waar de hoogtelijnen de hoogste waarde aannemen (het rode-witte vlekje). Verschillende groepen met hoge hoogtelijnen geven clustering weer. We stellen ons hierbij de vraag of er een wetmatigheid bestaan tussen 2 variabelen dat hier voor elke periode geldt.de grafieken bevestigen onze conclusie uit de trivariate scatterplot, nl dat het lineair verband tussen x en y zeer klein is, dit zie je doordat de hoogtelijnen niet erg de vorm van een ellips vertonen. Het zeer positieve lineaire verband tussen y en z wordt hier ook bevestigd. (zie ellipsvorm van links-onder naar rechts-boven. we kunnen hier ook concluderen dat er geen clustering waar te nemen valt, omdat er geen verschillende 'rode vlekjes' aanwezig zijn.
2008-11-24 09:59:17 [Julian De Ruyter] [reply] 
De student had de juiste berekening gemaakt maar geen conclusie of uitleg erbij gegeven. 
Hier zou hij de Trivariate scatterplot, Bivariate density moeten uitleggen. 
trivariate scatterplot: 
Dit is een manier om de correlaties tussen meedere variabelen uit te drukken in 1 figuur onderverdeeld in scatterplots die alle correlatie tussen alle variabelen uitdrukken. Uit deze figuur kunnen we afleiden dat er een lineair verband is tussen Totaal en Goederen. Tussen Totaal en Diensten en Diensten en Goederen is er een veel kleiner (of zelfs een verwaarloosbaar) lineair verband aangezien de puntjes zeer verspreid liggen. 
Bivariate Density: 
Dit is een andere soort van scatterplot. Door middel van dichtheid en concentratie wordt een eventueel verband uitgedrukt. Je ziet in het midden een regressielijn met daarrond de concentratie-hoogtelijnen (rood=hogeconcentratie, geel minder,groen nog minder). Weederom zie je een positief lineair verband tussen X en Z (totaal en goederen). 
 
2008-11-24 19:30:45 [Liese Drijkoningen] [reply] 
De student moet hier de Brivarite kernel density en de triviate scatterplots uitleggen. Dit is niet gebeurt. 
Ik kan hier hetvolgende over zeggen. 
BIVARIATE KERNEL DENSITY 
De rechte lijn die door de grafiek loop, probeert de puntenwolk zo goed mogelijk te benaderen. De hoogtelijnen die we terug vinden proberen de derde dimensie voor te stellen. Deze dimensie stelt de dichtheid of de concentratie van de punten voor. Maar de dichtheid van de punten stelt eerder de waarschijnlijkheid voor dat de punten zich daar bevinden. Het heeft niet rechtstreeks met de derde dimensie te maken. 
TRIVIATE SCATTERPLOT 
Deze grafiek gaat het verband tussen 3 variabele na. We werken hier dus in 3 dimensies. Als we de kubus die gegeven wordt, platduwen, bekomen we ene projectie in 2 dimensies. Door deze tranformatie gaat er echter wel informatie verloren. Afhankelijk van de rotatie en de invalshoek gaan we een andere oplossing krijgen. Op de hoofddiagonaal kunnen we de histogrammen van de variabelen terugvinden. Boven en onder de hoofddiagonaal vinden we de scatterplots trug. Deze zijn de projecties van de kubus. De afstand tussen de punten in de scatterplots kan in werkelijkheid zeer groot zijn, ookal liggen de punten dicht bij elkaar. Dit is te wijten aan de 3e dimensie. Toch moeten we proberen hiet nuttige informatie uit af te leiden. Zoals we kunnen zien, vertonen het totaal en de goederen de beste correlatie in dit geval. 
2008-11-24 21:07:11 [Jonas Scheltjens] [reply] 
Q1: De student maakt hier helemaal geen bespreking van zowel de triviate scatterplot, de bivariate kernel density plot als van de partial correlation. Één van de voordelen bij de triviate scatterplot is, dat we de 3 variabelen in een eenvoudig en makkelijk hanteerbaar overzicht kunnen bekijken in de 2-dimensionele scatterplot, teglijkertijd met de correlatie tussen elk van de gegevensreeksen. Wanneer men dan gebruik maakt van de  kubussen, merkt men al snel dat ze erg praktisch zijn, daar ze alle drie de reeksen op het zelfde moment in 1 plot kunnen weergeven. Hieraan is echter wel een nadeel aan verbonden. Enige vertekening doet zich voor bij de kubusvoorstelling aangezien de driedimensionalteit niet volledig juist kan geprojecteerd worden. Een ander voordeel van de triviate scatterplot is dat men verschillende manieren heeft om de (cor-)relaties  te interpreteren aangezien er door de verschillende weergaves ook verschillende invalshoeken ontstaan. Men ziet duidelijk de sterke correlatie tussen het totaal en de goederen, wat te zien valt de puntenwolk waar we de beste positieve lineaire verhouding (wat duidt op sterke correlatie) in kunnen terug vinden (zie ook de 2 dimensionale plot). De bivariate density plot is hier ook gebruikt maar echter ook niet besproken. De dichtheid van de gegevens van de plot worden door de hoogtelijnen voorgesteld. Dit kan men ook zien aan de clustervorming (wat duidt op veel gegevens op die plek) en de hoogtelijnen geven aan dat er een verband zou kunnen bestaan tussen de variabelen. Verder  verteld de lijn dwars door de density plot welke de gemiddelde waarde is.

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Dataseries Y:

Download CSV

Histogram

Dataseries Z:

Download CSV

Histogram

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	4 seconds
R Server	'George Udny Yule' @ 72.249.76.132

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 4 seconds \tabularnewline
R Server & 'George Udny Yule' @ 72.249.76.132 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=24656&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]4 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'George Udny Yule' @ 72.249.76.132[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=24656&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=24656&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	4 seconds
R Server	'George Udny Yule' @ 72.249.76.132

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Figure 7

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Goederen ; par6 = Diensten ; par7 = Totaal ;

Parameters (R input):

par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Goederen ; par6 = Diensten ; par7 = Totaal ;

R code (references can be found in the software module):

x <- array(x,dim=c(length(x),1))
colnames(x) <- par5
y <- array(y,dim=c(length(y),1))
colnames(y) <- par6
z <- array(z,dim=c(length(z),1))
colnames(z) <- par7
d <- data.frame(cbind(z,y,x))
colnames(d) <- list(par7,par6,par5)
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
if (par1>500) par1 <- 500
if (par2>500) par2 <- 500
if (par1<10) par1 <- 10
if (par2<10) par2 <- 10
library(GenKern)
library(lattice)
panel.hist <- function(x, ...)
{
usr <- par('usr'); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col='black', ...)
}
bitmap(file='cloud1.png')
cloud(z~x*y, screen = list(x=-45, y=45, z=35),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud2.png')
cloud(z~x*y, screen = list(x=35, y=45, z=25),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud3.png')
cloud(z~x*y, screen = list(x=35, y=-25, z=90),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='pairs.png')
pairs(d,diag.panel=panel.hist)
dev.off()
x <- as.vector(x)
y <- as.vector(y)
z <- as.vector(z)
bitmap(file='bidensity1.png')
op <- KernSur(x,y, xgridsize=par1, ygridsize=par2, correlation=cor(x,y), xbandwidth=dpik(x), ybandwidth=dpik(y))
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,y)',xlab=par5,ylab=par6)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,y)
(r<-lm(y ~ x))
abline(r)
box()
dev.off()
bitmap(file='bidensity2.png')
op <- KernSur(y,z, xgridsize=par1, ygridsize=par2, correlation=cor(y,z), xbandwidth=dpik(y), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (y,z)',xlab=par6,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(y,z)
(r<-lm(z ~ y))
abline(r)
box()
dev.off()
bitmap(file='bidensity3.png')
op <- KernSur(x,z, xgridsize=par1, ygridsize=par2, correlation=cor(x,z), xbandwidth=dpik(x), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,z)',xlab=par5,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,z)
(r<-lm(z ~ x))
abline(r)
box()
dev.off()

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code