Ravimi kõrvaltoime on binaarne tunnus – sellel on kaks võimalikku väärtust: esineb/ei esine. Binaarse sõltuva tunnuse ja mingi sõltumatu tunnuse vahelise seose leidmiseks kasutatakse tavaliselt logistilist regressiooni.
Olgu \(Y\) meile huvipakkuv sündmus ehk ravimi kõrvaltoime tekkimine. Tähistame sündmuse esinemise tõenäosust \(P(Y=1)=\pi\). Logistiline mudel hindab sündmuse esinemise logaritmitud šanssi
\[\text{logit}(\pi)=\beta_0+\beta_1x_1+\ldots+\beta_kx_k,\]
kus \(\beta_0, \beta_1, \ldots, \beta_k\) (\(k\) on argumenttunnuste arv) on mudeli tundmatud parameetrid ning \(x_1,\ldots, x_k\) on argumenttunnused (nt uuritav CNV, sugu, sünniaasta, populatsiooni struktuuri tunnused).
Nii CNV-d kui ka ravimite kõrvaltoimete diagnoosid on harvad. Kui juhtusid on vähe, siis tavalise logistilise regressiooni puhul kasutatav suurima tõepära meetod annab nihkega hinnanguid või põhjustab andmetes kas osalist või täielikku eralduvust, mis juhul suurima tõepära hinnanguid ei leidugi.
Nende probleemide vastu võitlemiseks kasutasime Firth’i meetodit, mille puhul maksimeeritakse tavalise tõepära \(L(\beta)\) asemel parandusliikmega tõepära
\[L(\beta)^*=L(\beta)|\mathbf{I}(\beta)|^{1/2}.\]
Partneri valik järglaste saamiseks ei ole juhuslik (näiteks geograafilise eraldatuse tõttu), seega esineb erinevate populatsioonide geno- ja fenotüübis tihti süstemaatilisi erinevusi. Populatsiooni struktuur on segav tunnus, mis võib mõjutada nii uuritavat genotüüpi (CNV-d) kui fenotüüpi (ravimi kõrvaltoimet) ning tekitada nende vahele seeläbi fiktiivse seose. Assotsiatsiooniuuringutes populatsiooni struktuuriga arvestamiseks lisasime regressioonimudelisse kovariaatidena peakomponendid, mis on leitud genotüübiandmete pealt tehtud peakomponentanalüüsi abil.
Geenidoonorite seas on palju ka inimesi, kes on omavahel lähisugulased ja seega geneetiliselt väga sarnased. Sõltumatuse eeldus logistilise regressiooni ja Firth’i meetodi korral ei ole nende inimeste puhul täidetud. Probleemi lahendamiseks leidsime iga kahe indiviidi kohta nende ühispõlvnemise hinnangu (näitab, kui kaugel on nende viimane ühine esivanem) ja jätsime analüüsi jaoks alles vaid need doonorid, kes pole omavahel sugulased.
Vaatluste eemaldamine vähendab valimimahtu ja seeläbi võimsust seoseid avastada. Seetõttu kasutasime suguluse arvestamiseks ka segamudeleid, mis lubavad vaatlustevahelist sõltuvust.
Olgu \(n\) indiviidide arv valimis ja \(k\) kovariaatide arv. Logistiline segamudel \(i\)-inda indiviidi jaoks on kujul
\[\text{logit}(\pi_i)=\beta_0+\beta_1x_{i1}+\ldots+\beta_kx_{ik} + b_i,\]
kus \(b_i\) on juhuslik efekt. Tähistades \(b = (b_1, \ldots, b_n)^T\), siis \(b \sim \mathcal{N}(0, \sigma^2K)\), kus \(K\) on sugulusmaatriks, mis kirjeldab \(i\)-nda ja \(j\)-inda indiviidi vahelist geneetilist sarnasust.
Töös kontrollitakse mitmeid hüpoteesipaare ja see toob kaasa mitmese testimise probleemi. I liiki vea kontrolli all hoidmiseks kasutatatakse Bonferroni parandust.