Количественный анализ экспрессии генов

Количественный анализ экспрессии генов — анализ транскриптома, измерение транскрипционной активности гена с помощью определения количества его продукта, матричной РНК (мРНК), универсальной для большей части генов.

При этом конечным продуктом экспрессии генов как правило являются белки, а не мРНК.

Методы

Методы для измерения количества мРНК :

количественная ПЦР в реальном времени (qPCR) — из-за ограничений метода, применяют для анализа уровня экспрессии относительно небольшого количества генов
сравнительная геномная гибридизация на чипах (CGH) — позволяет видеть количественные изменения экспрессии генов прямо на хромосомах
микрочипы — можно получать данные по уровню экспрессии большого количества генов
высокопроизводительное параллельное секвенирование РНК (RNA-Seq) — позволяет рассчитать количество как многочисленных, так и малочисленных РНК.

Количественный анализ экспрессии с помощью RNA-Seq

В результате секвенирования РНК создаётся библиотека ридов (или библиотека прочтений). Длина рида варьируется от 25 до 200 нуклеотидов в зависимости от выбранного метода секвенирования. После чего риды картируются (или выравниваются) на референсный геном. Риды могут быть выравнены сразу на несколько областей генома или на разные изоформы одного гена. Технология позволяет измерять лишь относительное количество транскрипта в клетке. Самый простой подход — рассматривать только однозначно выравненные риды на аннотированные модели генов. В этом случае величина RPKM (reads per kilobase per million mapped reads — количество прочтений на килобазу на картированные риды) является подходящей количественной мерой экспрессии транскрипта:

R P K M = X ( l 10 3 ) ⋅ ( N 10 6 ) {displaystyle RPKM={frac {X}{({frac {l}{10^{3}}})cdot ({frac {N}{10^{6}}})}}} ,

где X {displaystyle X} — количество прочтений, попавших на транскрипт, l {displaystyle l} — длина транскрипта, N {displaystyle N} — общее количество прочтений. Эта формула является оценкой максимального правдоподобия при полиномиальной модели картирования ридов на транскрипты

Однако многие прочтения не могут быть однозначно картированы. Например, при дупликациях гена, так как в таком случае не понятно, куда именно картировать геном. Также информация о структуре генов (альтернативный сплайсинг, альтернативные промоторы, разные сайты полиаденилирования) в высших эукариотах недостаточно изучена даже на модельных организмах, что также осложняет однозначное трактование полученных результатов. Поэтому используют подходы, позволяющие картирование с установлением точек сплайсинга и последующей сборкой транскриптома.

В настоящее время существует большое разнообразие моделей для вычисления количества транскрипта. их можно разделить в зависимости от следующих основных свойств:

генеративная модель картирования ридов: используют полиномиальное, пуассоновское, отрицательное биномиальное, обобщённое пуассоновское. Известно, что генеративные модели вне зависимости от выбранного типа распределения приводят к одинаковым оценкам количества транскрипта.
учитывающие «мульти-риды» (рид, который может относиться как к разным изоформам одного гена, так и к разным транскриптам разных генов).
учитывающие парные риды (концы секвенированных фрагментов) — представляют ценную информацию, при их анализе необходимо оценивать распределение длин фрагментов. В случае парных ридов вводится мера FPKM (fragments per kilobase per million mapped reads — фрагменты на килобазу на миллион картированных прочтений)
учитывающие систематические позиционные отклонения такие, как неравномерное покрытие транскрипта
учитывающие систематические отклонения в зависимости от контекста последовательности такие, как концы ридов так, как они, как правило, неслучайны и означают предпочтения при фрагментации РНК.

В настоящее время существуют широкий спектр программ для количественного анализа экспрессии генов: Cufflinks, IsoEM, HTSeq, RSEM, MISO. Данные методы одинаково активно используются при оценки количества транскриптома, однако некоторые нюансы в работе заложенных алгоритмов могут сделать одну программу предпочтительней другой в зависимости от ситуации.

HTSeq

Простой подход, при котором считается количество ридов, которые пересекаются с данным геномом. При этом в программе заложены различные определения факта пересечения рида с геном. Далее экспрессию можно определять через RPKM.

Cufflinks

В данном алгоритме сначала происходит картирование библиотеки кДНК на геном для построения сплайсируемого выравнивания при помощи ещё одной программы TopHat. Затем на основании выравнивания строят граф с парными ридами кДНК в вершинах, где ребро проводится, если два парных рида могут находиться в одном транскрипте. На основании графа восстанавливаются возможные изоформы (как минимальное покрытие графа). В результате, риды картируются на построенные транскрипты. В рамках статистической модели, вероятность принадлежности рида изоформе пропорциональна количеству транскрипта, и на этом основании строится функция максимального правдоподобия, где максимум функции максимального правдоподобия отвечает искомому количеству транскриптов.

MISO

MISO (Mixture of Isoforms) представляет собой вероятностный фрэймворк, который количественно определяет уровень экспрессии альтернативно сплайсированных генов по данным RNA-Seq и идентифицирует дифференциально регулируемые изоформы или экзоны в образцах. В основе статистическая модель для оценки количества изоформ гена(MISO). MISO рассматривает уровень экспрессии набора изоформ как случайную переменную и оценивает распределение по значениям этой переменной. Алгоритм оценки основан на выборке и относится к методам Монте Карло по схеме марковской цепи («MCMC»).

Систематические ошибки и воспроизводимость

В результате секвенирования РНК происходят систематические ошибки, которые могут значительно влиять на оценку экспрессии. Многие биохимические особенности не удаётся обнаружить и учесть их влияние, однако, некоторые ошибки, такие как неслучайное и неравномерное по длине фрагментирование, всё же возможно учитывать до некоторой степени.

Для коррекции ошибок используют реплики. Существует два вида реплик: технические и биологические. Технические реплики предполагают секвенирование одного и того же биологического материала несколько раз. Биологические же реплики предполагают секвенирование различного биологического материала. Из отсеквенированных фрагментов прочитывается лишь небольшая часть. Часть ридов, относящихся к фиксированному гену, будет несколько отличаться для образца и небольшой рассматриваемой части ввиду случайного выбора этой части. Если часть ридов данного гена в образце равна p, то часть ридов, попавших на ген подчиняется биномиальному распределению или распределению Пуассона со средним p. Для оценки этой части p нужны технические реплики. В случае биологических реплик, вариация в экспрессии не объясняется распределением Пуассона. В этому случае используется отрицательное биномиальное или обобщённое пуассоновское распределения. При этом сохраняется допущение, что вариация зависит от среднего экспрессии. Ввиду малого количества биологических реплик, вариация оценивается с помощью различных регрессионных методов.

Анализ экспрессии генов с помощью ДНК-микрочипов

ДНК-микрочип представляет собой небольшую поверхность, на которую нанесены фрагменты одноцепочечной ДНК с известной последовательностью. Эти фрагменты выступают в роли зондов, с которыми гибридизуются комплементарные им цепи ДНК из исследуемого образца. Существует два различных типа ДНК-микрочипов — олигонуклеотидные микрочипы и кДНК-микрочипы.

С помощью кДНК-микрочипов удобно исследовать изменения в уровнях экспрессии генов в случаях, например, различных заболеваний. Из двух образцов клеток (контрольного и исследуемого) выделяется РНК, из которой обратной транскрипцией получают кДНК. Каждая из полученных проб окрашивается каким-либо красителем (обычно используются Cy3 и Cy5). Меченые образцы наносятся на микрочип одновременно, и после отмывки негибридизовавшихся молекул производится измерение флуоресценции с помощью сканирующего конфокального микроскопа.

При подготовке образца для анализа на олигонуклеотидном микрочипе на матрице полученной кДНК в присутствии метки (например, биотина или флюоресцеина) синтезируется кРНК. В условиях повышенной температуры меченая кРНК гибридизуется с зондами на микрочипе. Для нормализации, значения о связывании с мутированным олигонуклеотидом вычитаются из получившихся при анализе данных. Более того, поскольку для каждого гена создаётся примерно 25 различных зондов, итоговые значения для них высчитываются как среднее нормализованных интенсивностей всех этих проб.

Гибридизация на микрочипах, является очень сильным методом для одновременной оценки уровней экспрессии всех генов в исследуемом образце. Однако, природа данной техники исследования такова, что для получения достоверных качественных и количественных данных требуется аккуратный анализ полученных в эксперименте значений. Необходимо нормировать данные и максимально повысить соотношение сигнал/шум, поскольку изменения профилей экспрессии в сравниваемых образцах могут быть невелики.

Перед началом обработки данные представляют собой цифровое изображение интенсивностей флуоресценций различных каналов. В первую очередь проводится вычитание флуоресценции подложки из флуоресценции каждой конкретной пробы. Возможны два варианта — либо для каждой пробы высчитывается флуоресценция подложки непосредственно рядом с ней, либо считают среднюю флуоресценции подложки на всем микрочипе. Первый вариант считается более правильным, поскольку флуоресценция различных участком микрочипа может отличаться.

Вслед за вычитанием фона проводится нормировка интенсивностей флуоресценции красок. Флуоресценция красок и их слияние с зондами зависит от последовательности гена, условий проведения каждой конкретной гибридизации, качества микрочипа и от условий и длительности их хранения. Нормализацию проводят либо основываясь на флуоресценции проб, соответствующим генам домашнего хозяйства, либо внося на микрочип и в образец известное количество экзогенной, несвойственной исследуемым клеткам мРНК. Для получения более достоверных значений на разные области одного микрочипа наносятся одинаковые образцы ДНК. Индекс качества для микрочипа определяется уровнем различия значений данных для идентичных образцов в разных пробах.

Однако, несмотря на все это, получаемые в экспериментах данные не являются количественной оценкой экспрессии генов. Получаемые для одного гена результаты могут варьировать от лаборатории к лаборатории и от одного микрочипа к другому. Подобные эксперименты позволяют оценить качественные изменения профилей экспрессии в различных образцах.

Применение

Ранее учёные классифицировали различные типы рака основываясь лишь на том, какой орган был поражён. С помощью ДНК-микрочипов станет возможным классифицировать опухоли по паттернам активности генов в клетках. Это позволит разрабатывать лекарства, предназначенные для конкретного вида ракового заболевания. Кроме того, анализ профилей экспрессии в обработанных и необработанных лекарством клетках позволит учёным понять, как именно препарат влияет на клетки. Кроме того, зачастую в исследуемом образце опухоли присутствуют клетки разных клонов, которые могут значительно отличаться по профилю экспрессии генов. Оценка уровня экспрессии генов отдельных единичных клеток злокачественного новообразования позволит точнее прогнозировать дальнейшее развитие опухоли и её метастазов.

В лабораторных исследованиях методы количественного анализа экспрессии генов находят применение в ряде опытов, связанных с изучением экспрессий различных генов. В экспериментах, где клетки содержались в каких-либо условиях, отличных от нормальных, в большинстве своём обнаруживаются изменения в профилях экспрессии генов. Результаты подобных исследований проливают свет на механизмы клеточного ответа на изменения окружающей среды. Также уровни экспрессии генов активно меняются в ходе эмбрионального и постэмбрионального развитий, когда на смену одним белкам приходят другие, регулирующие процессы роста и формирования организма. Совместные изменения уровней экспрессии нескольких генов при смене каких-либо параметров могут говорить о взаимодействии продуктов этих генов в клетке.

Анализ экспрессии генов

Количественный анализ экспрессии генов проводится на нескольких уровнях и с разными целями,:

1) Определение изменении экспрессии отдельного гена в зависимости от условий эксперимента (обработки образца).

2) Кластерный анализ генов по общей функциональности, взаимодействию, совместной регуляции. В данном случае используют методы сокращения размерности и методы визуализации. Как пример: метод главных компонент и кластеризация. Анализируют последовательности ДНК для нахождения регуляторных районов, мотивов.

3) Выявление и понимание сетей взаимодействия генов и белков, отвечающих наблюдаемым результатам измерения.

Таким образом, анализ изменения экспрессии можно рассматривать как кластеризацию генов на «изменившиеся» и «неизменившиеся».

Систематические ошибки и воспроизводимость

Анализ изменения экспрессии генов может осложняться из-за плохой воспроизводимости, возникающей из-за большого количества сложно взаимосвязанных факторов, взаимодействующих на разных уровнях и на различных этапах эксперимента. Все вариации можно разделить на биологические, экспериментальные и технические источники вариации. К техническим источником вариций в полученных результатах относят: погрешность при изготовлении микрочипов, различия в технологиях получения и обработки изображения, способов выделения сигналов и обработки данных.

Биологические

Считается, что наибольший вклад во возникновение вариаций вносят различия индивидуальных уровней экспрессии генов в различных клетках и популяциях клеток. Различия обнаруживают не только между клиническими образцами (содержащими клетки различных типов), но даже между образцами моноклональных «идентичных» культур, являющиеся клонами одной клетки и содержащихся в «идентичных» условиях встречаются различия. Эти различия объясняются влиянием микроокружения (например, не совсем равномерным содержанием питательных веществ, градиентом температуры), различиями в фазе роста клеток в культуре, периодами быстрого изменения экспрессии генов и многими другими случайными воздействиями, неподдающимися контролю, такими как влияние клеток друг на друга и случайное распределение небольшого количества молекул транскрипционных факторов (экспрессия определённых генов может существенно зависеть от нескольких молекул).

Так же на сохранность РНК влияет наличие вторичной структуры транскрипта.

Экспериментальные (подготовка образца)

Существенное значение имеет стандартизация всех этапов подготовки образцов (например, изменение температурного режима, состава питательных веществ даже при кратковременном центрифугировании живых клеток может вызвать изменение профиля экспрессии). Для подготовки образцов бактерий важное значение имеет быстрая деградация РНК в присутствии РНКаз, и в связи с эти следует соблюдать абсолютную стерильность, чтобы избежать превдевременной деградации РНК.

Наилучшей стратегией подготовки образца мРНК считают минимальное время обработки при условиях, «замораживающих» уровень мРНК на уровне в момент взятия образца, и ингибирование активности РНКаз, ферментов, разрушающих РНК.

Нормализация

При сравнении профилей экспрессии генов образцов применяют нормализацию, учитывающую источники экспериментальной и биологической вариации:

количество клеток в образце
общую эффективность выделения РНК
эффективность выделения и мечения молекул РНК (от последовательности)
эффективность гибридизации
точность и чувствительность измерения сигнала

Для систематических вариаций (считают одинаково воздействующими на сравниваемые образцы) используют следующие методы:

различия в нуклеотидном составе последовательностей могут приводит к различиям в представленности фрагментов в библиотеке анализируемого образца
для генов большей длины картируется больше фрагментов
при изготовлении библиотеки кДНК с поли-Т праймера представленность фрагментов возрастает от начала к концу гена

При этом простые подходы к нормализации учитывают лишь суммарное количество фрагментов сравниваемых образцов, а малое количество генов повысивших экспрессию может привести к ложному выявлению значительного количества генов снизивших экспрессию.

Также часто вместе или вместо значений количества картируемых фрагментов используют величины RPKM — Read Per Kilobase per Million mapped reads либо FPKM — Fragments Per Kilobase per Million mapped reads.

Методы

Все методы нормализации предполагают, что большая часть генов в сравниваемых образцах экспрессируется одинаково и доля генов снизивших экспрессию (downregulated) более или менее равна доле повысивших (upregulated). TMM (Trimmed Mean of M-values) и используемый в пакете DESeq.

Парное сравнение

Для поиска используется сравнение двух групп образцов и поиск генов, чьи уровни экспрессии значимо отличаются между двумя группами. Для каждого гена проверяют изменилась ли его экспрессия. Предполагают, что данные являются набором повторных измерений для каждого гена x 1 c ; . . . ; x n c c {displaystyle x_{1}^{c};...;x_{n_{c}}^{c}} и x 1 t ; . . . ; x n t t {displaystyle x_{1}^{t};...;x_{n_{t}}^{t}} , представляющих измеренный уровень экспрессии или его логарифм в исследуемом (treatment) и контрольном (control) образцах. Используемые методы можно разделить на непрерывные (t-тест) и дискретные (PPDE).

При анализе данных, полученных с использованием микрочипов, полученные измерения трактуют как непрерывные величины (логнормальное распределение). При анализе данных RNA-Seq используют Пуассоновское распределение, обратное биномиальное и даже бета-биномиальное.

Фиксированный порог относительного изменения экспрессии

В ранних работах использовали подход при котором ген считался дифференциально экспрессируемым, если относительное изменение его экспрессии превысило некоторый порог (обычно 2).

Простой t-тест

t-тест — хорошо известный критерий оценки равенства средних с учётом вариации. Рассчитывают нормализованное расстояние, используя выборочные средние m c {displaystyle m_{c}} и m t {displaystyle m_{t}} контрольного и исследуемого образцов соответственно и их дисперсии s c 2 {displaystyle s_{c}^{2}} и s t 2 {displaystyle s_{t}^{2}} , по формуле

t = ( m c − m t ) s c 2 n c + s t 2 n t {displaystyle t={frac {left(m_{c}-m_{t} ight)}{sqrt {{frac {s_{c}^{2}}{n_{c}}}+{frac {s_{t}^{2}}{n_{t}}}}}}} ,

где m = ∑ i x i / n { extstyle m={sum _{i}x_{i}}/{n}} и s 2 = ∑ i ( x i − m ) 2 / n − 1 { extstyle s^{2}={sum _{i}{(x_{i}-m)}^{2}}/{n-1}} . Известно что распределение t близко к распределению Стьюдента с количеством степеней свободы f, где

f = [ ( s c 2 / n c ) + ( s t 2 / n t ) ] 2 ( s c 2 / n c ) 2 n c − 1 + ( s t 2 / n t ) 2 n t − 1 { extstyle f={frac {left[left(s_{c}^{2}/n_{c} ight)+left(s_{t}^{2}/n_{t} ight) ight]^{2}}{{frac {left(s_{c}^{2}/n_{c} ight)^{2}}{n_{c}-1}}+{frac {left(s_{t}^{2}/n_{t} ight)^{2}}{n_{t}-1}}}}} .

При превышении t некоторого порога, зависящего от выбранного уровня значимости, ген считают изменившим экспрессию.

Так как в t-тесте расстояние нормализуют выборочным стандартным отклонением, его применение предпочтительнее, чем использование фиксированного порога относительного изменения экспрессии.

Основная проблема применения t-теста заключена в малом количестве повторностей измерения n c {displaystyle n_{c}} и n t {displaystyle n_{t}} вследствие дороговизны или сложности эксперимента.

Регуляризованный t-тест

Данный метод используют для оценки вариабельности гена при помощи информации о других генах. Значения логарифма экспрессии генов моделируют как независимые нормальные распределения, параметризуемые соответствующими средними и дисперсиями.

P ( D | μ , σ 2 ) ≈ ∏ i = 1 n N ( x i , μ , σ 2 ) = C ( σ 2 ) − n / 2 e − ∑ i ( x i − μ ) 2 / 2 σ 2 = { extstyle Pleft(D ight|mu ,sigma ^{2})approx prod _{i=1}^{n}{Nleft(x_{i},mu ,sigma ^{2} ight)}=Cleft(sigma ^{2} ight)^{-n/2}e^{-sum _{i}{(x_{i}-mu )^{2}}/2sigma ^{2}}=}
= C ( σ 2 ) − n / 2 e − ( n ( m − μ ) 2 ) + ( n − 1 ) s 2 ) ) / 2 σ 2 { extstyle =Cleft(sigma ^{2} ight)^{-n/2}e^{-left(n(m-mu )^{2})+(n-1)s^{2}) ight)/2sigma ^{2}}} ,
где C — константа для нормализации распределения.

Для μ {displaystyle mu } и σ {displaystyle sigma } принимают априорные вероятности P ( σ 2 ) {displaystyle P(sigma ^{2})} — scaled inverse gamma и P ( μ | σ 2 ) = N ( μ ; μ 0 , σ 2 / λ 0 ) {displaystyle P(mu |sigma ^{2})=Nleft(mu ;mu _{0},sigma ^{2}/lambda _{0} ight)} — распределено нормально.

Показано, что существует взаимоотношение между значением и вариацией экспрессии. При близких значениях экспрессии наблюдают близкие значения вариации экспрессии. Таким образом возможно приложение априорного знания в Байесовой статистике для получения лучших оценок вариации экспрессии отдельного гена, используя значения измеренного уровня экспрессии значительного числа других генов с близким уровнем экспрессии из того же эксперимента.

P ( μ , σ 2 | D , α ) = N ( μ ; μ n , σ 2 ) I ( σ 2 ; ν n , σ n 2 ) {displaystyle Pleft(mu ,sigma ^{2}|D,alpha ight)=Nleft(mu ;mu _{n},sigma ^{2} ight)I(sigma ^{2}; u _{n},sigma _{n}^{2})} ,

где
μ n = λ 0 λ 0 + n μ 0 + n λ 0 + n m {displaystyle mu _{n}={frac {lambda _{0}}{lambda _{0}+n}}mu _{0}+{frac {n}{lambda _{0}+n}}m} , λ n = λ 0 + n {displaystyle lambda _{n}=lambda _{0}+n} , ν n = ν 0 + n {displaystyle u _{n}= u _{0}+n} ,
ν n σ n 2 = ν 0 σ 0 2 + ( n − 1 ) s 2 + λ 0 n λ 0 + n ( m − μ 0 ) 2 {displaystyle u _{n}sigma _{n}^{2}= u _{0}sigma _{0}^{2}+(n-1)s^{2}+{frac {lambda _{0}n}{lambda _{0}+n}}{(m-mu _{0})}^{2}}

Для точечных оценок используют среднее апостериорной оценки (MP) либо моду (MAP — maximum a posteriori).

В гибкой реализации, фоновую дисперсию экспрессии гена вычисляют, принимая во внимание гены, соседствующие с рассматриваемым, например 100 генов попадающие в симметричное окно по уровню экспрессии.

Хотя этот метод не исключает необходимости повторностей измерений, его использование позволяет значительно сократить число ложно-положительных находок даже при небольшом количестве повторов.

Оценка вероятности дифференциальной экспрессии

PPDE (Posterior Probability of Differential Expression), постариорная вероятность дифференциальной экспрессии.

По причине зашумлённости и вариабельности измеряемых данных ожидают получение ложно-положительных и ложно-отрицательных находок дифференциально экспрессирующихся генов.

Интуитивным способом оценки уровня ложно-положительных находок является сравнение измерений полученных с одного контрольного образца, при этом экспрессия генов не должна измениться.

Предложена также более формальная вычислительная реализация такого подхода: априорные знания основываются на наблюдении, что в случае отсутствия изменений экспрессии генов p-value по каждому гену должно быть распределено равномерно между 0 и 1 (доля генов ниже любого значения p равна p и доля выше равна 1-p). В случае наличия изменений распределение значений p-value для генов будет «стягиваться» больше к 0 чем к 1, то есть будет подмножество дифференциально экпрессирующихся генов с «значимыми» p-value. Это распределение моделируют взвешенной комбинацией равномерного и неравномерного распределений. Для каждого гена рассчитывают вероятность его ассоциации с неравномерным распределением — PPDE.

При моделировании используют смесь бета-распределений, где равномерное является частным случаем.

P ( p ) = ∑ i = 0 K λ i β ( p ; r i , s i ) {displaystyle P(p)=sum _{i=0}^{K}{lambda _{i}}eta (p;r_{i},s_{i})}

Обычно используют EM-алгоритм для определения весов λ i {displaystyle lambda _{i}} в смеси.

Апостериорную вероятность дифференциальной экспрессии рассчитывают.

P P D E = P ( c h a n g e | P ) = ∑ i = 1 K λ i β ( p ; r i , s i ) ∑ i = 0 K λ i β ( p ; r i , s i ) = ∑ i = 1 K λ i β ( p ; r i , s i ) λ 0 + ∑ i = 1 K λ i β ( p ; r i , s i ) {displaystyle PPDE=P(change|P)={frac {sum _{i=1}^{K}{lambda _{i}eta (p;r_{i},s_{i})}}{sum _{i=0}^{K}{lambda _{i}eta (p;r_{i},s_{i})}}}={frac {sum _{i=1}^{K}{lambda _{i}eta (p;r_{i},s_{i})}}{lambda _{0}+sum _{i=1}^{K}{lambda _{i}eta (p;r_{i},s_{i})}}}}

Часто в реализации предполагают, что значения p-value получены из распределения t-test как новые данные и строят вероятностную модель с ними.

Алгоритмы

Исходными данными методов/программ анализа дифференциально экспрессирующихся генов являются матрицы, содержащие данные о количестве фрагментов, картированных на ген/экзон для каждого образца в эксперименте RNA-Seq. В основном данные отсчётов используются прямо (baySeq , EBSeq , ShrinkSeq , edgeR , DESeq , NBPSeq и TSPM ), но существуют алгоритмы, преобразующие отсчёты и использующие алгоритмы, предназначенные для анализа данных, полученных гибридизационными микрочипами ( NOISeq и SAMseq ).

Значительно ускорить обработку данных по РНК позволяют «лёгкие алгоритмы» Sailfish

Модели

Параметрические

Признано, что для анализа дифференциальной экспрессии критично получение надёжной оценки параметра дисперсии для каждого гена, в этом направлении сосредоточено много усилий. Получение этой оценки осложнено малым размером выборки в большинстве экспериментов RNA-seq, что мотивирует разделение информации между генами для получения более точных оценок. Первым предположением было принять, что параметр дисперсии одинаков для всех генов, что позволяло оценивать его, используя все имеющиеся данные методом условного максимального правдоподобия. DESeq, edgeR, NBPSeq используют разделение данных генов для оценки дисперсии, различия заключаются в способе. В edgeR используют менее ограничивающий подход — дисперсию определяют для каждого гена, но индивидуальные оценки «стягивают» к общей дисперсии методом взвешенного правдоподобияe dgeR ,,.

Большая часть параметрических моделей (baySeq, DESeq, edgeR и NBPSeq) использует модель обратного биномиального распределения для объяснения избытка дисперсии,,.

TSPM (Two-Stage Poisson Model) основана на модели Пуассона для отсчётов, расширенной с помощью подхода квази-правдоподобия для описания избытка дисперсии данных. Первым шагом каждый ген тестируют индивидуально на наличие избыточной дисперсии, чтобы решить какую из двух модель использовать для анализа дифференциальной экспрессии. Тестирование дифференциальной экспрессии основано на асимптотической статистике, которая предполагает, что общее количество фрагментов для каждого гена не слишком мало. Авторы рекомендуют отбрасывать гены, для которых общее число фрагментов менее 10. Также важно присутствие в данных генов без избыточной дисперсии).

ShrinkSeq позволяет пользователю выбрать из набора распределений, включая обратное биномиальное и обратное биномиальное с избыточным числом нулевых значений.

DESeq, edgeR, NBPSeq используют классический подход проверки гипотезы,. baySeq, EBSeq, ShrinkSeq используют байесову статистику.

В DESeq и NBPSeq получают оценки дисперсии, моделируя наблюдаемую зависимость между средним и дисперсией локальной или параметрической регрессией. В NBPSeq используют полученные значения дисперсии, в DESeq используют консервативный подход — выбирают наибольшее значение дисперсии (из оценки с разделением информации о других генах и оценки дисперсии для индивидуального гена). В edgeR, DESeq и NBPSeq значимость дифференциальной экспрессии тестируют разновидностью точного теста (для сравнения двух групп) либо обобщённой линейной моделью.

В baySeq пользователь задаёт коллекцию моделей, разбивающих образцы на группы. В группе предполагают одинаковые параметры основного распределения. Затем оценивают апостериорную вероятность каждой модели для каждого из генов. Информация из всего набора генов используется для формирования эмпирического априорного распределения для параметров обратного биномиального распределения.

EBSeq использует подобный подход, но предполагает параметрическую форму априорного распределения параметров, с гиперпараметрами, разделяемыми между всеми генами и оцениваемыми по данным.

Непараметрические

В NOISeq и SAMSeq — непараметрические методы, не предполагают какого-либо распределения для данных, .

SAMSeq основан на статистике Вилкоксона, усреднённой по нескольким оценкам данных с использованием пермутаций, для оценки FDR (false discovery rate). Эти оценки используют для определения q-value для каждого гена.

В NOISeq определяют распределение крастности изменения и различия абсолютных значений экспрессии между образцами при различных условиях и сравнивают это распределение с полученным при сравнении образцов при одних условиях (называют «распределением шума»). Кратко, для каждого гена рассчитывают статистику, определяемую как доля точек из распределения шума, соответствующих более низкой кротности изменения и разности абсолютных значений экспрессии, чем полученные для интересующего гена в исходных данных.

Множественное сравнение

При сравнение экспрессии генов в нескольких экспериментах либо проводят множественные попарные сравнения, либо используют модели, в которых сравниваются группы экспериментов. В случае, когда рассматривается Κ воздействий (например, лечение), Τ0…Τκ-1, на экспрессию генов, можно использовать несколько принципиально отличающихся планов сравнения.

Непрямое сравнение — попарные сравнения каждого эксперимента (Τ0…Τκ-1) с контролем;

Прямое сравнение — попарное сравнение серий экспериментов, например T0 c T1, T1 с T2 и т. д.

Сравнение всех возможных пар,

При сравнение большого количества экспериментов необходимо использовать поправку на множественное сравнение (FDR, FWER, adjusted p-value или другие), чтобы исключить возможность случайного получить значимое различие в экспрессии генов. Использование только попарных сравнений при анализе большого количества групп экспериментов (факторов) не оптимально, поскольку требует значительных временных затрат. В подобных случаях более рационально использовать модели, учитывающие воздействия нескольких факторов.

При сравнении эффектов действия одного фактора возможно использовать линейную модель (linear model). В данной модели предполагается нормальное распределение экспрессии генов, используется, как правило, для анализа микрочиповых данных. Для каждого гена создаётся подходящая линейная модель и через неё рассчитывается изменение уровня экспрессии гена (fold change, log-fold change и другие статистики), а также стандартная ошибка. Полученные данные отображаются на вулкан диаграмме (volcano plot) Значимость изменения уровня экспрессии генов определяется с помощью дисперсионного анализа (ANOVA). Далее возможно определить работа каких генов изменяется под действием изучаемого фактора. При анализе нескольких групп используются реплики (повторы) экспериментов для определения уровней внутригрупповой дисперсии, что позволяет учитывать технические факторы. Такая модель используется, например, в пакете программ limma Bioconductor.
Обобщённая линейная модель (Generalized Linear Model, GLM), является усложнением линейной модели, её можно использовать для различных распределений данных (нормальное, биномиальное, экспоненциальное, Пуассона, гамма…). В качестве факторов можно рассматривать как непрерывные величины, так и дискретные. Например, с помощью данной модели возможно анализировать данные RNA-Seq. Значимость дифференциальной экспрессии определяется с помощью функции правдоподобия. Подобный анализ можно проводить в пакетах программ таких как edgeR, или DESeq.

Однофакторная дисперсионная модель (one-way ANOVA test) позволяет анализировать несколько независимых экспериментов (более трёх), при этом возможно выявить дифференциально экспрессирующиеся гены между любой парой выборок. Этот анализ удобен, если заранее не известно между какими выборками/экспериментами будет отличие, а также тем, что его результат не связан со способом определения групп. Фактически, данный анализ осуществляется через попарное сравнение уровней экспрессии всех генов и выявляет все пары между которыми разница ненулевая.
Многомерная обобщённая линейная модель (multivariate general linear model) позволяет анализировать несколько зависимых групп экспериментов (в отличие от описанных выше моделей). Например, учитывать взаимосвязь экспрессии генов в двух разных тканях мозга.

Дизайн мультифакторных сравнений

Эксперименты, в которых рассматривается воздействие нескольких факторов, используются практически те же математические подходы (регрессионный анализ, байесовская статистика), что и при однофакторном анализе, но более сложный дизайн групповых сравнений. Вот некоторые из них.

Вложенная модель (иерархическая)- подход, пример мультифакторной модели. В подобной модели некоторые факторы можно рассматривать иерархически. Например, учитывать несколько категорий (состояние, степень воздействия, пол, и т. п.), каждый объект можно классифицировать по данным признакам и далее проводить сравнение между интересующими группами.
Временные ряды (Time series) — подход, при которой в течение эксперимента измеряют уровень экспрессии через определённые промежутки времени, рассматривают не только непрерывно распределённые, но и дискретные параметры. Например, с помощью подобной модели можно изучать динамику изменения работы генов в ответ на какие-либо условия.
Аддитивная модель — подход, при котором изучается один и тот же объект (особь, линия) до и после воздействия, а далее сравниваются для каждого организма по отдельности и далее сопоставляется с группой организмов. Такая модель является частым случаем блокирования (Blocking), идеи о сравнении максимально схожих (по нескольким факторам) образцов.