A new version of this entry is available:
Abstract (English)
Molecular biological technologies are frequently applied for heterosis research. Large datasets are generated, which are usually analyzed with linear models or linear mixed models. Both types of model make a number of assumptions, and it is important to ensure that the underlying theory applies for datasets at hand. Simultaneous violation of the normality and homoscedasticity assumptions in the linear model setup can produce highly misleading results of associated t- and F-tests. Linear mixed models assume multivariate normality of random effects and errors. These distributional assumptions enable (restricted) maximum likelihood based procedures for estimating variance components. Violations of these assumptions lead to results, which are unreliable and, thus, are potentially misleading. A simulation-based approach for the residual analysis of linear models is introduced, which is extended to linear mixed models. Based on simulation results, the concept of simultaneous tolerance bounds is developed, which facilitates assessing various diagnostic plots. This is exemplified by applying the approach to the residual analysis of different datasets, comparing results to those of other authors. It is shown that the approach is also beneficial, when applied to formal significance tests, which may be used for assessing model assumptions as well. This is supported by the results of a simulation study, where various alternative, non-normal distributions were used for generating data of various experimental designs of varying complexity. For linear mixed models, where studentized residuals are not pivotal quantities, as is the case for linear models, a simulation study is employed for assessing whether the nominal error rate under the null hypothesis complies with the expected nominal error rate.
Furthermore, a novel step within the preprocessing pipeline of two-color cDNA microarray data is introduced. The additional step comprises spatial smoothing of microarray background intensities. It is investigated whether anisotropic correlation models need to be employed or isotropic models are sufficient. A self-versus-self dataset with superimposed sets of simulated, differentially expressed genes is used to demonstrate several beneficial features of background smoothing. In combination with background correction algorithms, which avoid negative intensities and which have already been shown to be superior, this additional step increases the power in finding differentially expressed genes, lowers the number of false positive results, and increases the accuracy of estimated fold changes.
Abstract (German)
Molekularbiologische Verfahren werden häufig in der Heterosis-Forschung eingesetzt. Dabei werden große Datensätze generiert, welche gewöhnlich mittels linearer oder linearer gemischter Modelle analysiert werden. Beide Modellklassen setzen bestimmte Annahmen voraus, damit deren zugrunde liegende Theorie greift. Werden die Annahmen der Normalität und Varianzhomogenität für lineare Modelle gleichzeitig verletzt, kann das zu völlig falschen Ergebnissen bei den zugehörigen t- und F-Tests führen. Bei linearen gemischten Modellen wird multivariate Normalverteilung der zufälligen Effekte sowie der Fehlerterme vorausgesetzt. Diese Verteilungsannahmen ermöglichen die Anwendung des (Restricted) Maximum Likelihood Verfahrens zur Schätzung der Varianzkomponenten. Verletzung dieser Annahmen führen zu ungenauen Schätzungen und sind deshalb von geringem Nutzen. Es wird ein auf Simulation beruhendes Verfahren für die Residuenanalyse linearer Modelle vorgestellt, welches dann auf lineare gemischte Modelle erweitert wird. Basierend auf den simulierten Daten wird das Konzept simultaner Toleranzgrenzen entwickelt, welches die Bewertung verschiedener diagnostischer Plots vereinfacht. Dies wird anhand der jeweiligen Residuenanalyse für verschiedene Datensätze gezeigt, wobei die Ergebnisse des auf Simulation beruhenden Verfahrens mit denen anderer Autoren verglichen werden. Außerdem wird gezeigt, dass dieses Verfahren auf Signifikanztests, welche man ebenfalls zur Überprüfung der Modellvoraussetzungen benutzen könnte, übertragen werden kann und dabei von Vorteil ist. Die Ergebnisse einer Simulationsstudie lassen dies erkennen, wobei verschiedene alternative Verteilungen benutzt werden, um Daten verschiedener, unterschiedlich komplexer Designs zu erzeugen. Im Falle von linearen gemischten Modellen sind studentisierte Residuen nicht unabhängig von Modellparametern, was bei linearen Modellen der Fall ist. Aus diesem Grund wird eine Simulationsstudie präsentiert, welche die Fragestellung klären soll, ob die empirischen Fehlerraten von simultanen Toleranzgrenzen von den erwarteten Fehlerraten abweichen, wenn man Daten unter der Nullhypothese simuliert.
Desweiteren wird ein Verfahren für die komplexe Preprozessierung von 2-Kanal cDNA Microarrays vorgestellt. Dieser zusätzliche Schritt umfasst räumliche Glättungsverfahren für die Hintergrundfluoreszens von Microarrays. Es wird der Frage nachgegangen, ob man Verfahren benötigt, welche anisotrope Korrelationsmodelle verwenden, oder ob isotrope Modelle ausreichen. Um die verschiedenen vorteilhaften Eigenschaften dieses Verfahrens zu zeigen, wird ein Self-versus-Self Microarray Datensatz mit einem simulierten Anteil differentiell exprimierter Gene verwendet. Kombiniert man Verfahren zur Glättung der Hintergrundwerte mit etablierten Verfahren zur Hintergrundkorrektur, welche negative Spot-Intensitäten vermeiden, kann eine höhere statistische Power beim Nachweis differentiell exprimierter Gene erzielt werden. Außerdem kann der Anteil falsch-positiver Ergebnisse reduziert und die Präzision der Quantifizierung von differentieller Expression erhöht werden.
File is subject to an embargo until
This is a correction to:
A correction to this entry is available:
This is a new version of:
Notes
Publication license
Publication series
Published in
Faculty
Faculty of Agricultural Sciences
Faculty of Natural Sciences
Faculty of Natural Sciences
Institute
Institute of Crop Science
Institute of Applied Mathematics and Statistics
Institute of Applied Mathematics and Statistics
Examination date
2011-05-26
Supervisor
Edition / version
Citation
Identification
DOI
ISSN
ISBN
Language
English
Publisher
Publisher place
Classification (DDC)
510 Mathematics
Collections
Original object
Standardized keywords (GND)
Sustainable Development Goals
BibTeX
@phdthesis{Schützenmeister2010,
url = {https://hohpublica.uni-hohenheim.de/handle/123456789/5492},
author = {Schützenmeister, André},
title = {Biometrical tools for heterosis research},
year = {2010},
school = {Universität Hohenheim},
}