Free Statistics

of Irreproducible Research!

Author's title

Author*Unverified author*
R Software Modulerwasp_cloud.wasp
Title produced by softwareTrivariate Scatterplots
Date of computationThu, 13 Nov 2008 08:46:12 -0700
Cite this page as followsStatistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Nov/13/t12265912375kfflkfk4ka5z3o.htm/, Retrieved Sun, 19 May 2024 12:38:18 +0000
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=24656, Retrieved Sun, 19 May 2024 12:38:18 +0000
QR Codes:

Original text written by user:
IsPrivate?No (this computation is public)
User-defined keywords
Estimated Impact131
Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)
F       [Trivariate Scatterplots] [Eigen tijdreeks t...] [2008-11-13 15:46:12] [c8dc05b1cdf5010d9a4f2d773adefb82] [Current]
Feedback Forum
2008-11-16 11:03:42 [Nicolaj Wuyts] [reply
Uit alle drie de bivariate Kernel density plots, kan je afleiden dat er een positieve correlatie is tussen zowel x en y, als y en Z en x en z. Dit kan je zien doordat de rode kern van de plots een stijgend verloop heeft. Je kan ook zien dat de correlatie tussen x en z dicht tegen de één zal liggen aangezien de spreiding van de plot vrij klein is. Als je de correlatie vergelijkt met de partiele correlatie, kan je zien dat deze overeenkomen behalve voor x en y. De partiële correlatie wordt hier plots -1 tov 0,11 bij de gewone correlatie. Aangezien de invloed van de derde variable er wordt uit gefilterd bij de partiële correlatie, kunnen we besluiten dat de z-waarden een grote invloed hadden op de relatie tussen x en y. Dat is dus het grote nadeel van de gewone correlatie en de bivariate Kernel density plot: zij houden geen rekening met de invloed van de derde variabele op de relatie van de twee andere variabelen.
2008-11-23 13:16:12 [c97d2ae59c98cf77a04815c1edffab5a] [reply
de student had geen oplossing bij deze opgave gegeven.
Hier zou de bespreking van de triviate scatterplot en de bivariate density moeten komen. Allereerst zal ik wat theorie geven, zodat het concept toch wat duidelijker wordt.
De trivariate scatterplotgeeft telkens de correlatie tussen 2 variabelen weer, zonder rekening te houden met een eventuele effect van een derde variabele die ervoor zou kunnen zorgen dat het verband tussen x en y eigenlijk een schijncorrelatie is. Het verband tussen de derde variabel z en de andere variabelen wordt wel weergegeven, waardoor je zou kunnen afleiden of z het verband tussen x en y zal beïnvloeden. Hier is het verband tussen x(goederen) en y(diensten) klein, omdat de punten van de puntenwolk verspreid liggen. Het verband tussen x en z vertoont een veel positiever lineair verband. Uit deze scatterplot kan je ook afleiden hoe de gegevens verdeeld zijn.
Bivariate density :
De hoogtelijnen geven de waarschijnlijkheid, d.m.v. de dichtheid/concentratie , aan dat een bepaald verband tussen variabelen (= de punten) zich daar bevindt, waar de hoogtelijnen de hoogste waarde aannemen (het rode-witte vlekje). Verschillende groepen met hoge hoogtelijnen geven clustering weer. We stellen ons hierbij de vraag of er een wetmatigheid bestaan tussen 2 variabelen dat hier voor elke periode geldt.de grafieken bevestigen onze conclusie uit de trivariate scatterplot, nl dat het lineair verband tussen x en y zeer klein is, dit zie je doordat de hoogtelijnen niet erg de vorm van een ellips vertonen. Het zeer positieve lineaire verband tussen y en z wordt hier ook bevestigd. (zie ellipsvorm van links-onder naar rechts-boven. we kunnen hier ook concluderen dat er geen clustering waar te nemen valt, omdat er geen verschillende 'rode vlekjes' aanwezig zijn.
2008-11-24 09:59:17 [Julian De Ruyter] [reply
De student had de juiste berekening gemaakt maar geen conclusie of uitleg erbij gegeven.
Hier zou hij de Trivariate scatterplot, Bivariate density moeten uitleggen.
trivariate scatterplot:
Dit is een manier om de correlaties tussen meedere variabelen uit te drukken in 1 figuur onderverdeeld in scatterplots die alle correlatie tussen alle variabelen uitdrukken. Uit deze figuur kunnen we afleiden dat er een lineair verband is tussen Totaal en Goederen. Tussen Totaal en Diensten en Diensten en Goederen is er een veel kleiner (of zelfs een verwaarloosbaar) lineair verband aangezien de puntjes zeer verspreid liggen.
Bivariate Density:
Dit is een andere soort van scatterplot. Door middel van dichtheid en concentratie wordt een eventueel verband uitgedrukt. Je ziet in het midden een regressielijn met daarrond de concentratie-hoogtelijnen (rood=hogeconcentratie, geel minder,groen nog minder). Weederom zie je een positief lineair verband tussen X en Z (totaal en goederen).

2008-11-24 19:30:45 [Liese Drijkoningen] [reply
De student moet hier de Brivarite kernel density en de triviate scatterplots uitleggen. Dit is niet gebeurt.
Ik kan hier hetvolgende over zeggen.
BIVARIATE KERNEL DENSITY
De rechte lijn die door de grafiek loop, probeert de puntenwolk zo goed mogelijk te benaderen. De hoogtelijnen die we terug vinden proberen de derde dimensie voor te stellen. Deze dimensie stelt de dichtheid of de concentratie van de punten voor. Maar de dichtheid van de punten stelt eerder de waarschijnlijkheid voor dat de punten zich daar bevinden. Het heeft niet rechtstreeks met de derde dimensie te maken.
TRIVIATE SCATTERPLOT
Deze grafiek gaat het verband tussen 3 variabele na. We werken hier dus in 3 dimensies. Als we de kubus die gegeven wordt, platduwen, bekomen we ene projectie in 2 dimensies. Door deze tranformatie gaat er echter wel informatie verloren. Afhankelijk van de rotatie en de invalshoek gaan we een andere oplossing krijgen. Op de hoofddiagonaal kunnen we de histogrammen van de variabelen terugvinden. Boven en onder de hoofddiagonaal vinden we de scatterplots trug. Deze zijn de projecties van de kubus. De afstand tussen de punten in de scatterplots kan in werkelijkheid zeer groot zijn, ookal liggen de punten dicht bij elkaar. Dit is te wijten aan de 3e dimensie. Toch moeten we proberen hiet nuttige informatie uit af te leiden. Zoals we kunnen zien, vertonen het totaal en de goederen de beste correlatie in dit geval.
2008-11-24 21:07:11 [Jonas Scheltjens] [reply
Q1: De student maakt hier helemaal geen bespreking van zowel de triviate scatterplot, de bivariate kernel density plot als van de partial correlation. Één van de voordelen bij de triviate scatterplot is, dat we de 3 variabelen in een eenvoudig en makkelijk hanteerbaar overzicht kunnen bekijken in de 2-dimensionele scatterplot, teglijkertijd met de correlatie tussen elk van de gegevensreeksen. Wanneer men dan gebruik maakt van de kubussen, merkt men al snel dat ze erg praktisch zijn, daar ze alle drie de reeksen op het zelfde moment in 1 plot kunnen weergeven. Hieraan is echter wel een nadeel aan verbonden. Enige vertekening doet zich voor bij de kubusvoorstelling aangezien de driedimensionalteit niet volledig juist kan geprojecteerd worden. Een ander voordeel van de triviate scatterplot is dat men verschillende manieren heeft om de (cor-)relaties te interpreteren aangezien er door de verschillende weergaves ook verschillende invalshoeken ontstaan. Men ziet duidelijk de sterke correlatie tussen het totaal en de goederen, wat te zien valt de puntenwolk waar we de beste positieve lineaire verhouding (wat duidt op sterke correlatie) in kunnen terug vinden (zie ook de 2 dimensionale plot). De bivariate density plot is hier ook gebruikt maar echter ook niet besproken. De dichtheid van de gegevens van de plot worden door de hoogtelijnen voorgesteld. Dit kan men ook zien aan de clustervorming (wat duidt op veel gegevens op die plek) en de hoogtelijnen geven aan dat er een verband zou kunnen bestaan tussen de variabelen. Verder verteld de lijn dwars door de density plot welke de gemiddelde waarde is.

Post a new message
Dataseries X:
10165
269
708
1362
2271
3516
4775
6334
6150
7794
8851
9721
9676
402
1046
1743
2711
3817
4128
5505
4921
6091
7263
8035
7828
296
500
1134
2061
2737
2959
4113
3494
4518
5470
5664
4717
-606
-615
-1062
-983
-340
467
1580
804
1709
2335
2832
2582
Dataseries Y:
2136
41
202
710
1018
1177
1408
918
553
423
880
1057
1603
112
304
794
901
1232
1240
1032
1145
1588
2264
2209
2917
243
558
1238
1502
2000
2146
2066
2046
1952
2771
3278
4000
410
1107
1622
1986
2036
2400
2736
2901
2883
3747
4075
4996
Dataseries Z:
12301
310
910
2072
3289
4693
6183
7252
6703
8217
9731
10778
11279
514
1350
2537
3612
5049
5368
6537
6066
7679
9527
10244
10745
539
1058
2372
3563
4737
5105
6179
5540
6470
8241
8942
8717
-196
492
560
1003
1696
2867
4316
3705
4592
6082
6907
7578




Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'George Udny Yule' @ 72.249.76.132

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 4 seconds \tabularnewline
R Server & 'George Udny Yule' @ 72.249.76.132 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=24656&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]4 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'George Udny Yule' @ 72.249.76.132[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=24656&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=24656&T=0

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'George Udny Yule' @ 72.249.76.132



Parameters (Session):
par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Goederen ; par6 = Diensten ; par7 = Totaal ;
Parameters (R input):
par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Goederen ; par6 = Diensten ; par7 = Totaal ;
R code (references can be found in the software module):
x <- array(x,dim=c(length(x),1))
colnames(x) <- par5
y <- array(y,dim=c(length(y),1))
colnames(y) <- par6
z <- array(z,dim=c(length(z),1))
colnames(z) <- par7
d <- data.frame(cbind(z,y,x))
colnames(d) <- list(par7,par6,par5)
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
if (par1>500) par1 <- 500
if (par2>500) par2 <- 500
if (par1<10) par1 <- 10
if (par2<10) par2 <- 10
library(GenKern)
library(lattice)
panel.hist <- function(x, ...)
{
usr <- par('usr'); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col='black', ...)
}
bitmap(file='cloud1.png')
cloud(z~x*y, screen = list(x=-45, y=45, z=35),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud2.png')
cloud(z~x*y, screen = list(x=35, y=45, z=25),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud3.png')
cloud(z~x*y, screen = list(x=35, y=-25, z=90),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='pairs.png')
pairs(d,diag.panel=panel.hist)
dev.off()
x <- as.vector(x)
y <- as.vector(y)
z <- as.vector(z)
bitmap(file='bidensity1.png')
op <- KernSur(x,y, xgridsize=par1, ygridsize=par2, correlation=cor(x,y), xbandwidth=dpik(x), ybandwidth=dpik(y))
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,y)',xlab=par5,ylab=par6)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,y)
(r<-lm(y ~ x))
abline(r)
box()
dev.off()
bitmap(file='bidensity2.png')
op <- KernSur(y,z, xgridsize=par1, ygridsize=par2, correlation=cor(y,z), xbandwidth=dpik(y), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (y,z)',xlab=par6,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(y,z)
(r<-lm(z ~ y))
abline(r)
box()
dev.off()
bitmap(file='bidensity3.png')
op <- KernSur(x,z, xgridsize=par1, ygridsize=par2, correlation=cor(x,z), xbandwidth=dpik(x), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,z)',xlab=par5,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,z)
(r<-lm(z ~ x))
abline(r)
box()
dev.off()