Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Mon, 27 Oct 2008 12:14:51 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/27/t1225131349lctcge685rwi6m1.htm/, Retrieved Sun, 19 May 2024 13:20:05 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=19362, Retrieved Sun, 19 May 2024 13:20:05 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

140

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F       [Univariate Explorative Data Analysis] [Investigating Dis...] [2008-10-27 18:14:51] [7957bb37a64ed417bbed8444b0b0ea8a] [Current]
-   P     [Univariate Explorative Data Analysis] [Reproducement tas...] [2008-10-31 18:31:56] [819b576fab25b35cfda70f80599828ec] 
- RMP     [Tukey lambda PPCC Plot] [Reproducement Q8 ...] [2008-10-31 18:52:15] [819b576fab25b35cfda70f80599828ec] 
-   P     [Univariate Explorative Data Analysis] [herberekening] [2008-11-02 22:12:41] [c45c87b96bbf32ffc2144fc37d767b2e] 
-   P     [Univariate Explorative Data Analysis] [herberekening] [2008-11-02 22:12:41] [c45c87b96bbf32ffc2144fc37d767b2e] 
- RMP     [Mean Plot] [herberekening] [2008-11-02 22:23:00] [c45c87b96bbf32ffc2144fc37d767b2e] 

Feedback Forum

2008-10-31 18:47:26 [Kevin Neelen] [reply] 
Er is voor deze vraag een juiste methode gebruikt, namelijk de Univariate Explorative Data Analysis.  
Assumption 1: Are the data autocorrelated? (The model assumes no autocorrelation). De student heeft hier naar de Run-Seqsuence-Plot gekeken, maar hieruit kan men niet echt conclusies trekken. Hiervoor zou beter gekeken moeten worden naar de lag-plot die in deze computation niet berekend is. Bijgevoegd de link waar het aantal lags is ingesteld op 12: http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/31/t12254779576brds41btb14eyv.htm Hieruit kan besloten worden dat er echt sprake is van autocorrelatie en er bijgevolg dus gesproken kan worden van randomness. De gegevens liggen dus vrij verspreid, hoewel ze wel een lichtelijk stijgende tendens kennen. 
Assumption 2: Is the random component generated by a fixed distribution? (The model assumes a fixed distribution). Er is hier gekeken naar het Density-Plot, wat correct is. Daarnaast kunnen ook het QQ-Plot en het histogram bestudeerd worden. De conclusie van de studente dat er bij haar tijdreeks sprake is van een normaalverdeling, klopt. Deze conclusie wordt enkel bevestigd als gekeken wordt naar het QQ-Plot en het histogram. 
Assumption 3: Is the deterministic component constant? (The model assumes that the distribution has a fixed location). Hierbij kan het Run-Sequence-Plot bestudeerd worden, wat hier echter niet is gedaan. Als we langsheen de topwaarden in de grafiek een rechte kunnen trekken, is er sprake van een fixed location. Dat is hier zeker niet het geval. Er moet echter opgemerkt worden, dat deze assumptie best op lange termijn gezien kan worden om echt grondige conclusies te kunnen trekken. 
Assumption 4: does the random component have a fixed variation? (The model assumes a distribution with fixed variation). Hierbij moet het Run-Sequence-Plot bestudeerd worden, wat hier echter niet is gedaan (de studente heeft geen grafiek bekeken aangezien ze dacht dat de juiste grafiek er niet tussen stond). Als we het Run-Sequence-Plot bekijken, zien we dat in het eerste en laatste gedeelte van de grafiek, de verticale spreiding van de gegevens ongeveer dezelfde is. In het middenstuk zien we dan weer een grotere verticale spreiding tussen de gegevens.
2008-10-31 18:54:28 [Kevin Neelen] [reply] 
Bij de volgende vraag (Q8) staat geen link opgegeven in het bijgevoegde Word-document. Ik heb dan zelf even het Tukey Lambda PPCC-Plot berekend. Hierbij de link van deze computation: http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/31/t1225479184ednuchml6vrd6b8.htm Hieruit kunnen we inderdaad opmaken dat de hoogste correlatiewaarde rond een Lambda-waarde van 0,14 ligt. Er kan bijgevolg dus gesteld worden dat er sprake is van ee normaalverdeling van de gevevens.
2008-11-02 22:30:35 [Michaël De Kuyer] [reply] 
Randomness: Ook hiervoor gebruikt de student de run sequense plot wat foutief is. Ze zou zich moeten baseren op de lag plot en de autocorrelation plot http://www.freestatistics.org/blog/date/2008/Nov/02/t1225664054ojo8pvfvvxwqbds.htm. Op basis van de lag plot kunnen we vaststellen dat de puntenwolk verspreid is. Op basis hiervan is er dus randomness. Op basis van de autocorrelation function stellen we vast dat heel wat waarden buiten het betrouwbaarheidsinterval vallen wat dus wijst op geen autocorrelatie. http://www.freestatistics.org/blog/date/2008/Nov/02/t1225664054ojo8pvfvvxwqbds.htm 
 
Vaste distributie: Zoals Kevin heeft vermeld, kunnen we ons ook baseren op het histogram en de QQ-plot. De tijdreeks benadert de normaalverdeling. Dit zien we vooral op de QQ-plot waar het overgrote deel van de waarden de recht benadert. 
 
Vaste component: hiervoor moeten we ons baseren op de run sequense plot. We moeten kijken hoe het gemiddelde zich manifesteert op lange termijn. Op basis van deze grafiek zou ik besluiten dat het gemiddelde stijgt en dus geen vaste component is. Een verdere analyse zou men kunnen doen via de mean plot http://www.freestatistics.org/blog/date/2008/Nov/02/t1225664805fyofraer7so71x7.htm. Aan de hand van de mean plot kunnen we vaststellen dat de waarden eerst boven het gemiddelde liggen dan dalen tot onder het gemiddelde om vervolgens weer te stijgen. Het vermoeden wordt bevestigd, nameijk dat er geen vaste component is. 
 
Vaste distributie: Dit doen we aan de hand van de run sequense plot. Eerst zien we dat er relatief kleine schommelingen zijn, dan grote en dan weer kleine. Deze voorwaarde is dus niet voldaan. 
 
Algemeen besluit: het model gaat niet op voor deze tijdreeks.
2008-11-03 18:41:16 [256f97d8b7c07ed49f142eff724c6520] [reply] 
assumptie 1: 
U best basseren op de lags. 
assumptie 2: 
correct uitgevoerd 
assumptie 3: 
Hier moet je naar de run sequence plot kijken om de trend vast te stellen 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 3 seconds \tabularnewline
R Server & 'Sir Ronald Aylmer Fisher' @ 193.190.124.24 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19362&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]3 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Sir Ronald Aylmer Fisher' @ 193.190.124.24[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19362&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19362&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

Descriptive Statistics
# observations	97
minimum	1570
Q1	2063
median	2259
mean	2278.55670103093
Q3	2478
maximum	3439

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 97 \tabularnewline
minimum & 1570 \tabularnewline
Q1 & 2063 \tabularnewline
median & 2259 \tabularnewline
mean & 2278.55670103093 \tabularnewline
Q3 & 2478 \tabularnewline
maximum & 3439 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19362&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]97[/C][/ROW]
[ROW][C]minimum[/C][C]1570[/C][/ROW]
[ROW][C]Q1[/C][C]2063[/C][/ROW]
[ROW][C]median[/C][C]2259[/C][/ROW]
[ROW][C]mean[/C][C]2278.55670103093[/C][/ROW]
[ROW][C]Q3[/C][C]2478[/C][/ROW]
[ROW][C]maximum[/C][C]3439[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19362&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19362&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	97
minimum	1570
Q1	2063
median	2259
mean	2278.55670103093
Q3	2478
maximum	3439

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Figure 7

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
qqline(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot1.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main='Lag plot (k=1), lowess, and regression line')
lines(lowess(z))
abline(lm(z))
dev.off()
if (par2 > 1) {
bitmap(file='lagplotpar2.png')
dum <- cbind(lag(x,k=par2),x)
dum
dum1 <- dum[(par2+1):length(x),]
dum1
z <- as.data.frame(dum1)
z
mylagtitle <- 'Lag plot (k='
mylagtitle <- paste(mylagtitle,par2,sep='')
mylagtitle <- paste(mylagtitle,'), and lowess',sep='')
plot(z,main=mylagtitle)
lines(lowess(z))
dev.off()
}
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code