Информация

Стандартная практика построения кривых разрежения на основе данных секвенирования следующего поколения

Стандартная практика построения кривых разрежения на основе данных секвенирования следующего поколения



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

У нас есть несколько миллионов операций чтения 18S из определенной среды. Чтения были сгруппированы в операционную таксономическую единицу (OTU), а OTU аннотированы в справочной базе данных.

Насколько я понимаю, для создания кривой разрежения одна случайная выборка $ n $ читает, где $ n $ находится в диапазоне (с некоторым размером шага) от 0 до общего числа чтений, и подсчитывает количество OTU, наблюдаемых при каждой такой подвыборке. .

Какой из этих двух способов, реализуемый такими пакетами анализа последовательностей, как QIIME и mothur, является стандартной практикой? Что лучше всего использовать в описанной выше ситуации?

  1. Рассматривайте исходные присвоения считываний OTU как истину, и при повторной выборке $ n $ считываний просто подсчитайте количество «исходных» OTU, наблюдаемых в этой подвыборке.

  2. Повторно кластеризуйте подвыборочные чтения, а затем подсчитайте количество «новых» OTU в подвыборке.

Изучив документацию QIIME, я понял, что метод 1 является стандартным, но я не уверен. Я также не совсем понимаю, почему метод 2 не был бы лучшим вариантом, хотя он был бы более дорогостоящим в вычислительном отношении.


На самом деле я работаю в той же группе, что и Крис (автор QIIME), поэтому я надеюсь, что это поможет: объяснение, которое он дал нам некоторое время назад относительно основы кривых разрежения, просто для того, чтобы указать, достигает ли ваша выборка насыщенного разнообразия, при сравнении 2-х неравных образцов.

Если вы сравните 2 образца, где образец x имеет меньше информации (чтения / ампликоны и т. Д.), Подтверждающей его, вы не можете быть уверены, что вы выбрали все возможное разнообразие.

Таким образом, вы наносите на график количество видимых OTU для увеличения числа чтений. Если вы насыщаете разнообразие, вы должны увидеть плато.

Чтобы привести 2 выборки в соответствие с имеющимся у них «количеством подтверждающих данных», вы произвольно выбираете данные из большего набора данных, чтобы он был эквивалентен меньшему, а затем сравниваете количество OTU, каждый из которых сообщает.


Обзорное руководство QIIME¶

В этом руководстве объясняется, как использовать QIIME (Quantitative Insights Into Microbial Ecology) Конвейер для обработки данных высокопроизводительных исследований секвенирования 16S рРНК. Цель этого конвейера - обеспечить непрерывный рабочий процесс, начиная с считывания мультиплексированных последовательностей и заканчивая таксономическими и филогенетическими профилями и сравнениями образцов в исследовании. Имея эту информацию в руках, можно определить биологические факторы и факторы окружающей среды, которые изменяют экологию микробного сообщества в вашем эксперименте.

В качестве примера мы будем использовать данные исследования реакции микробных сообществ кишечника мышей на голодание (Crawford et al., 2009). Чтобы быстро запустить это руководство на персональном компьютере, мы будем использовать подмножество данных, полученных от 5 животных, содержавшихся на контрольной диете ad libitum, и 4 животных, голодавших в течение 24 часов перед умерщвлением. В конце нашего урока мы сможем сравнить структуру сообщества контрольных животных и голодных животных. В частности, мы сможем сравнивать таксономические профили для каждого типа выборки, различия в показателях разнообразия внутри выборок и между группами, а также выполнять сравнительный кластерный анализ для поиска общих различий в выборках.

Чтобы обработать наши данные, мы выполним следующие шаги, каждый из которых более подробно описан в Шагах анализа данных:

  • Отфильтруйте чтение последовательности для обеспечения качества и назначьте мультиплексированные чтения начальным образцам по нуклеотидному штрих-коду.
  • Выберите операционные таксономические единицы (OTU) на основе сходства последовательностей в пределах считывания и выберите репрезентативную последовательность из каждой OTU.
  • Назначьте OTU таксономическому идентификатору с помощью справочных баз данных.
  • Совместите последовательности OTU и создайте филогенетическое дерево.
  • Рассчитайте показатели разнообразия для каждой выборки и сравните типы сообществ, используя таксономические и филогенетические назначения.
  • Создавайте графики UPGMA и PCoA, чтобы визуально отображать различия между образцами, и динамически работайте с этими графиками для получения показателей качества публикации.

Абстрактный

Технология секвенирования нового поколения (NGS) позволяет обнаруживать почти все генетические варианты, присутствующие в геноме. Однако подмножество этих вариантов может иметь низкое качество секвенирования из-за ограничений в вызывающих NGS или вариантах. В генетических исследованиях, в которых анализируется большое количество секвенированных особей, критически важно обнаруживать и удалять эти варианты низкого качества, поскольку они могут привести к ложным результатам. В этой статье мы представляем ForestQC, статистический инструмент для выполнения контроля качества вариантов, идентифицированных на основе данных NGS, путем объединения традиционного подхода к фильтрации и подхода машинного обучения. Наше программное обеспечение использует информацию о качестве секвенирования, такую ​​как глубина секвенирования, качество генотипирования и содержание GC, чтобы предсказать, является ли конкретный вариант ложноположительным. Чтобы оценить ForestQC, мы применили его к двум наборам данных полногеномного секвенирования, где один набор данных состоит из связанных лиц из семей, а другой - из несвязанных лиц. Результаты показывают, что ForestQC превосходит широко используемые методы для выполнения контроля качества таких вариантов, как VQSR GATK, за счет значительного улучшения качества вариантов, подлежащих включению в анализ. ForestQC также очень эффективен и, следовательно, может применяться к большим наборам данных секвенирования. Мы пришли к выводу, что объединение алгоритма машинного обучения, обученного с информацией о качестве секвенирования, и подхода к фильтрации является практическим подходом для выполнения контроля качества генетических вариантов на основе данных секвенирования.


ВЛИЯНИЕ НА КЛИНИЧЕСКОЕ ВЕДЕНИЕ

Три конкретных применения этой стратегии направлены на решение актуальных глобальных проблем инфекционных заболеваний. Одна из проблем - рост устойчивости к противомикробным препаратам, которую Всемирная организация здравоохранения называет одной из 3 самых серьезных угроз для здоровья человека [35]. Частично виноваты поставщики медицинских услуг, чрезмерно использующие противомикробные препараты и разжигающие резистентность у субклинических носителей: недавние исследования оценивают долю неправильного использования в пределах от четверти до половины всех видов лечения [36]. Множественная лекарственная устойчивость увеличивает заболеваемость и смертность от инфекций, приобретенных в результате медицинских мероприятий (HAI), которые составляют 1,7 миллиона случаев в год в Соединенных Штатах, а предполагаемые ежегодные затраты составляют более 30 миллиардов долларов [37], что значительно превышает вероятные затраты на любые профилактические мероприятия на основе информатики. Отрезвляющая угроза со стороны циркулирующих в сообществе микроорганизмов с широкой лекарственной устойчивостью, у некоторых из которых частота терапевтических неудач составляет 25% & # x0201329% [38], меняет анализ рисков для больничных процедур, когда-то считавшихся рутинными, и требует новых всеобъемлющих стратегий управления.

Выявление пациентов из группы высокого риска ИСМП

Инфекционный контроль при ИСМП зависит от выявления пациентов из группы высокого риска и применения мер предосторожности по изоляции или снижения известных факторов риска во время их пребывания в больнице. Что касается ИКД, наиболее часто регистрируемой внутрибольничной инфекции в США, остается много вопросов о том, как передаются инфекции и как вести себя с пациентами из группы риска [39]. Преобладающее мнение о том, что инфекции в основном передаются от человека к человеку в больницах [40], противоречит недавним данным NGS о том, что источники инфекции более разнообразны [41], предполагая большую роль бессимптомных колонизированных пациентов и источников окружающей среды.

Каждая система здравоохранения представляет собой уникальную среду сетей контактов между людьми, загрязненных поверхностей, микробиомов и бессимптомной колонизации, которая способствует риску ИКД. Данные EMR и NGS могут доказать или опровергнуть передачу инфекции между пациентами и раскрыть секреты изменяемых факторов риска в этой хаотической среде. Алгоритмы машинного обучения, прогнозирующие индивидуальный риск ИКД для крупной больницы, работали лучше (площадь под кривой рабочих характеристик приемника [AUC] = 0,81) при работе с неограниченными переменными EMR & # x0003e10 000, а не с регулируемыми переменными для известных факторов риска [12]. Подобные модели ML, основанные на данных EMR с 2009 по 2014 год для больницы Mount Sinai в Нью-Йорке, охватывающей 192 000 пациентов и 1366 диагнозов CDI, демонстрируют одинаковую эффективность (AUC = 0,80) и выявляют ассоциации, которые обычно не публикуются для CDI. Они могут быть уникальными для окружающей среды горы Синай и включать дыхательную недостаточность (отношение шансов [OR], 8,3 95% доверительный интервал [CI], 6,6 & # x0201310,3), нерегулярность питания (OR, 6,6 95% CI, 4,7 & # x020138 .6) и панцитопении (OR, 4,4 95% ДИ, 3,1 & # x020135,5) (Тимоти О'Доннелл, личное сообщение).

Система поддержки принятия решений, основанная на моделях, позволила бы проводить скрининг пациентов с более высокой вероятностью ИКД или бессимптомной колонизации и позволять более раннюю диагностику и вмешательство. Подтвержденные NGS события передачи и взаимодействия между людьми и оборудованием, указанные в EMR и других данных, могут расширить эту базовую модель, чтобы выделить общие факторы, лежащие в основе подтвержденной передачи, и сообщить эмпирическим модификациям политики инфекционного контроля в режиме реального времени. Поперечный анализ фенотипов, полученных из NGS, и факторов риска в EMR будет способствовать более точному принятию клинических решений, например, будет ли сокращение времени пребывания пациента в отделениях интенсивной терапии или уменьшение использования провокационных антибиотиков более профилактическим в местной среде. За исключением клинических испытаний, которые, вероятно, невозможно провести, а тем более воспроизвести в разных учреждениях, в настоящее время мало доказательств для принятия этих решений, поэтому локализованная количественная модель может только помочь.

Раннее обнаружение вспышек внутри и за пределами больницы

Текущие программные пакеты для инфекционного контроля, такие как VigiLanz Dynamic Monitoring Suite и TheraDoc Infection Control Assistant, в основном выдают предупреждения о вспышках на основе пороговых значений частоты заражения. Это может быть устаревшим с помощью рутинной NGS образцов клинической микробиологии, которая с большой точностью определяет, произошло ли событие передачи [1, 2]. Программная система с доступом к EMR и другим данным больницы может автоматически искать элементы, общие для подтвержденных случаев передачи (лица, осуществляющие уход, оборудование или комнаты), и предупреждать персонал о проверке этих элементов до того, как они произведут достаточное количество передач для срабатывания предупреждения о пороговой частоте. При наличии достаточного количества исторических данных NGS может также помочь больницам отличить внебольничные инфекции от инфекций, приобретенных в больницах, и тем самым уточнить показатели, используемые для оценки политики инфекционного контроля.

Активные усилия по отбору образцов окружающей среды внутри и за пределами больницы могут еще больше расширить сферу наблюдения. В больнице «проблемные точки», выявленные в ходе более ранних исследований, можно было бы регулярно повторно анализировать с помощью NGS для переоценки эффективности мер инфекционного контроля. Больница также производит образцы патогенной экосистемы местного населения. Больницы уже сообщают правительственным органам о диагнозах высокоинфекционных и опасных инфекций, и обмен данными NGS для этих случаев позволит в реальном времени оценить, откуда берутся патогены, как они развиваются и где находятся популяции, не подверженные патогену. Текущие усилия по картированию и эпиднадзору [42] будут значительно усилены богатой филогенетической информацией, что позволит связать вспышки в разных регионах [3, 4, 43]. Детализированное отслеживание распространения инфекционных заболеваний в режиме реального времени поможет лучше информировать врачей, диагностирующих и лечащих новых пациентов, агентов на местах, отслеживающих случаи и контакты, а также лиц, определяющих политику здравоохранения, которые ищут профилактические меры для населения.

Контроль над антимикробными препаратами

Системы поддержки принятия решений для эмпирической антибиотикотерапии изучались в течение десятилетий [44], но с ростом распространенности устойчивости к противомикробным препаратам возросла актуальность внедрения систем, которые специально поощряют сдерживание антибиотиков [45]. Выборочное сообщение - это распространенная стратегия, которая направляет поставщиков услуг к оптимальному лечению, просто опуская названия неподходящих лекарств в отчетах о чувствительности [46]. Более агрессивная стратегия подталкивает к оповещению об ЭМИ всякий раз, когда врачи назначают лечение антибиотиками, несовместимое с передовой практикой [47].

Эти решения игнорируют способность EMR предоставлять доказательства, которые оправдывают или улучшают меры по контролю над противомикробными препаратами. Например, хотя общепризнано, что чрезмерное употребление антибиотиков увеличивает распространенность резистентности, текущие программы управления антимикробными препаратами не продемонстрировали ни воздействия на исходы лечения пациентов, ни даже того, что уменьшение количества антибиотиков приводит к снижению устойчивости к антибиотикам [45]. Объединив данные NGS и EMR, эти гипотезы можно было бы детально исследовать в больших когортах пациентов. NGS может выявить и перечислить генетические механизмы устойчивости, циркулирующие в системе здравоохранения. Отслеживая рецидив патогенов в местном сообществе, система здравоохранения, оснащенная NGS, может определить, генерировали ли пациенты, получающие антибиотики, и передавали ли они устойчивые к лекарствам мутанты. Конкретные схемы приема лекарств могут коррелировать с развитием определенных мутаций устойчивости. И наоборот, при наличии достаточного количества продольных данных, усилия программы управления противомикробными препаратами могут быть подтверждены наблюдением за уменьшением появления мутаций устойчивости к лекарствам, назначаемым более консервативно.


Обсуждение

В этом отчете мы обеспечиваем проверку экономящих время изменений двух общих рабочих процессов для подготовки библиотеки NGS. Реализуя FA-NGS, мы показываем, что можем отслеживать амплификацию каждого образца в библиотеке NGS, выполнять количественную оценку во время qPCR, чтобы определить коэффициенты нормализации библиотеки для секвенирования, и одновременно выполнять простой QC, чтобы подтвердить наличие амплифицированной ДНК-матрицы.

FA-NGS обеспечивает точное объединение непосредственно после ПЦР, снижая риск ошибки пользователя. Типичная подготовка библиотеки NGS требует очистки отдельной библиотеки перед контролем качества и объединением (дополнительный файл 1: рис. S1), что может привести к смешиванию образцов или потере библиотеки. В качестве альтернативы неочищенные и неколичественные библиотеки могут быть объединены в эквивалентных количествах, однако не будет никаких указаний на то, что библиотека амплифицирована (увеличивая потенциал для объединения димера праймера, который будет иметь вредные эффекты во время секвенирования [23]) или что образцы различаются по концентрации. Чтобы избежать последней проблемы, можно применить множество циклов ПЦР (& gt 20 циклов) для полного насыщения реакций, однако это вводит предупреждение о повышенном смещении ПЦР, которое может повлиять на последующую интерпретацию результатов секвенирования. FA-NGS решает эти проблемы с помощью одного шага амплификации и количественной оценки.

MCA позволяет пользователям выполнять тестирование QC отдельных библиотек без очистки ДНК. Во многих рабочих процессах, особенно в подготовке библиотек на основе Nextera, отсутствуют тесты контроля качества до последнего этапа протокола. При использовании на небольших аликвотах амплифицированных библиотек MCA подтверждает, присутствует ли продукт амплифицированной библиотеки. При применении FA-NGS мы предлагаем удалить лунки, содержащие образцы без амплифицированной библиотеки, как определено MCA, из расчетов объединения. Образцы без амплифицированной библиотеки могут содержать димер праймера, который, если его не удалить при окончательном выборе размера, может повлиять на качество выполнения секвенирования и вызвать избыточную кластеризацию, поскольку более мелкие фрагменты ДНК группируются более эффективно [24]. В соответствии с нашей целью сделать рабочий процесс подготовки библиотеки NGS для мультиплексированных библиотек удобным для пользователя, MCA добавляет важный этап контроля качества без дополнительных затрат или реагентов.

Описанные здесь модифицированные стратегии рабочего процесса NGS наиболее полезны для высокопроизводительных библиотечных приложений NGS благодаря их совместимости с системами автоматизации, такими как Labcyte Echo. Чтобы сделать этот модифицированный рабочий процесс доступным для исследователей с высокопроизводительными рабочими процессами NGS, мы сделали программный инструмент FA-NGS доступным на GitHub (см. Доступность данных и материалов), который можно использовать для настройки, анализа и объединения Библиотеки FA-NGS. «Инструмент настройки» выводит a. CSV-файл для переноса праймера в систему дозирования жидкости Echo Acoustic. «Инструменты анализа» позволяют быстро определять разрушение образца по конечным RFU и измерениям кривой плавления. Эти инструменты выводят тепловые карты значений конечной флуоресценции и небольшие графики множественной MCA в макете планшета по выбору пользователя. «Калькулятор объединения» выводит a. CSV-файл, совместимый с акустической системой распределения жидкости Echo, для объединения библиотек на основе конечных значений RFU.

Общей целью количественной оценки отдельных образцов в объединенной библиотеке является обеспечение того, чтобы один данный образец не был чрезмерно представлен по сравнению с другим. Из-за потенциального изменения в распределении размеров ДНК или фрагментации при получении библиотеки NGS может быть рекомендовано как измерение концентраций библиотеки, так и анализ размера отдельной библиотеки, чтобы обеспечить объединение в эквимолярных количествах. Однако анализ размера отдельной библиотеки для высокопроизводительных приложений секвенирования может быть трудоемким и дорогостоящим. Мы демонстрируем, используя относительную флуоресценцию от кПЦР для нормализации концентраций библиотеки, без применения индивидуального анализа размеров, что распределение секвенирования считывает (рис. 4, дополнительный файл 7: рис. S7 и дополнительный файл 8: рис. S8) при использовании FA- Стратегии количественной оценки библиотек NGS достаточно для сопоставимого представления 96 библиотек.

Для дальнейшей проверки рабочего процесса FA-NGS мы выполнили оценку качества секвенирования и включили Illumina PhiX Library Control для сравнения. Все библиотеки превзошли рекомендуемый показатель качества (дополнительный файл 9: рис. S9), согласно спецификации Illumina процентного содержания оснований на уровне Q30 или выше, что указывает на то, что рабочий процесс FA-NGS успешно сгенерировал высококачественные считывания секвенирования.

Хотя внедрение FA-NGS имеет много преимуществ, следует отметить очевидные подводные камни. Мы наблюдали, что образцы в библиотеке гДНК со значениями конечных RFU ниже 700 RFU были недостаточно объединены (рис. 3b и 4b). Поскольку эти образцы находились за пределами линейного диапазона флуоресценции кПЦР, вполне вероятно, что значения конечной флуоресценции для этих образцов нельзя было использовать в качестве точного показателя относительной концентрации ДНК, и поэтому они были перенесены в объеме, который завышал относительную концентрацию ДНК. концентрация. Мы не наблюдали этой тенденции с библиотекой плазмид. Мы предполагаем, что изменение процента считываний для библиотек плазмид может быть результатом амплификации за пределами экспоненциальной фазы до фазы плато qPCR, так что значения конечной флуоресценции, используемые для объединения, были менее точными (дополнительный файл 10: рис. S10). Для стандартных рабочих процессов подготовки библиотеки, в которых используется обычная ПЦР, может существовать сопоставимое ограничение на заключительном этапе количественной оценки библиотеки, в зависимости от линейного диапазона флуоресценции количественного анализа ДНК [25, 26]. Для высокопроизводительных приложений, использующих FA-NGS, на самом деле может быть предпочтительнее разрешить амплификацию до фазы плато, поскольку начальные концентрации образцов или типы образцов могут варьироваться, а дополнительные циклы qPCR помогают обеспечить достаточную амплификацию всех образцов.

Последовательность библиотек в этом отчете была проверена с помощью комплектов Illumina Miseq Nano в качестве доказательства принципа нашего модифицированного рабочего процесса библиотеки. Хотя наборы Nano дают относительно низкое количество считываний по сравнению с другими наборами для секвенирования Illumina, они сгенерировали более чем достаточное покрытие для 96 плазмид (дополнительный файл 11: таблица S1). Однако для глубокого секвенирования, например, для бактериального генома, обычно рекомендуются более крупные наборы MiSeq, HiSeq или NovaSeq.

В этом исследовании наш модифицированный рабочий процесс был успешно применен для секвенирования полных плазмид и бактериальных геномов. Такая оптимизированная подготовка библиотек улучшает возможности тестирования QC, сокращая при этом общее количество шагов, необходимых для создания библиотек.


# 13) Бета-разнообразие и иерархическая кластеризация

Этот рабочий процесс использует реплики складного ножа для оценки неопределенности графиков PCoA и иерархической кластеризации микробных сообществ. Здесь используются многие из тех же концепций, которые относятся к бета-разнообразию и PCoA. Для этого анализа мы используем скрипт jackknifed_beta_diversity.py, который выполняет следующие шаги:

  1. Вычислите матрицу расстояний бета-разнесения из полной таблицы OTU (и дерева, если применимо) (для получения дополнительной информации обратитесь кbeta_diversity.py)
  2. Построить дерево UPGMA из полной матрицы расстояний (для получения дополнительной информации см. Upgma_cluster.py)
  3. Создавайте разреженные таблицы OTU (дополнительную информацию см. В multiple_rarefactions.py)
  4. Вычислить матрицы расстояний для таблиц разреженных OTU (дополнительную информацию см. В beta_diversity.py) & lt ../ scripts / beta_diversity.html & gt`_)
  5. Постройте UPGMA-деревья из матриц разреженных расстояний (для получения дополнительной информации см. Upgma_cluster.py)
  6. Сравните разреженные деревья UPGMA и определите поддержку складного ножа для узлов дерева. (для получения дополнительной информации обратитесь к totree_compare.py и consnsus_tree.py)
  7. Вычислить главные координаты для каждой разреженной матрицы расстояний (для получения дополнительной информации см. Principal_coordinates.py)
  8. Сравните графики разреженных главных координат из каждой разреженной матрицы расстояний (для получения дополнительной информации обратитесь к tomake_3d_plots.py и make_2d_plots.py)

Чтобы запустить анализ, введите следующее:

Шаги 1 и 2. Кластеризация UPGMA

Невзвешенный метод парных групп со средним арифметическим (UPGMA) - это тип метода иерархической кластеризации с использованием средней связи и может использоваться для интерпретации матрицы расстояний, созданной beta_diversity.py.

Результатом является файл, который можно открыть с помощью программного обеспечения для просмотра дерева, такого как FigTree.

Это дерево показывает отношения между 4 образцами.

Шаги 3, 4 и 5. Выполните опору домкратом.

Чтобы измерить устойчивость этого результата к усилиям по секвенированию, мы выполняем анализ складных операций, в котором меньшее количество последовательностей выбирается случайным образом из каждой выборки, а результирующее дерево UPGMA из этого подмножества данных сравнивается с деревом, представляющим все доступные данные. набор данных. Этот процесс повторяется со многими случайными подмножествами данных, и узлы дерева, которые оказываются более согласованными в наборах данных, обработанных складным ножом, считаются более надежными.

Сначала должны быть сгенерированы складные таблицы OTU путем подвыборки всего доступного набора данных. В этом руководстве каждый образец содержит от 146 до 150 последовательностей, как показано с per_library_stats.py:

Чтобы гарантировать, что из каждой выборки выбирается случайное подмножество последовательностей, мы выбрали выбор 110 последовательностей из каждой выборки (75% от самой маленькой выборки, хотя это значение является только ориентировочным), что обозначено опцией «-e». при запуске сценария рабочего процесса (см. выше).

Большее количество копий складного ножа дает более точную оценку ожидаемой изменчивости результатов бета-разнообразия, но за счет более длительного времени вычислений. По умолчанию QIIME создает 10 копий имеющихся данных. Каждая реплика представляет собой имитацию меньшего усилия по секвенированию (110 последовательностей в каждом образце, как определено ниже).

Затем рабочий процесс вычисляет матрицу расстояний для каждого набора данных, созданного с помощью складного ножа, но теперь в пакетном режиме, в результате чего два набора из 10 файлов матрицы расстояний записываются в wf_jack / unweighted_unifrac / Red_dm / а также wf_jack / weighted_unifrac / Red_dm / каталоги. Каждый из них затем используется в качестве основы для иерархической кластеризации с UPGMA, записываемой в wf_jack / unweighted_unifrac / Red_upgma / а также wf_jack / weighted_unifrac / Red_upgma / каталоги.

Шаг 6. Сравните деревья, перебитые ножом.

Кластеризация UPGMA из 10 файлов матрицы расстояний приводит к 10 иерархическим кластерам из 9 сообществ мышей микробов, причем каждый иерархический кластер основан на случайной подвыборке доступных данных последовательностей.

Это сравнивает кластеризацию UPGMA на основе всех доступных данных с полученными результатами UPGMA. Три файла записываются в wf_jack / unweighted_unifrac / upgma_cmp / а также wf_jack / weighted_unifrac / upgma_cmp / :

  • master_tree.tre , что практически идентично jackknife_ named_nodes.tre но каждому внутреннему узлу кластеризации UPGMA присваивается уникальное имя
  • jackknife_ named_nodes.tre
  • jackknife_support.txt объясняет, как часто данный внутренний узел имел тот же набор образцов-потомков в кластерах UPGMA, созданных с помощью складных головок, что и в кластере UPGMA, с использованием полных доступных данных. Значение 0,5 указывает на то, что половина установленных наборов данных поддерживает этот узел, а 1,0 указывает на идеальную поддержку.

Шаги 7 и 8. Сравните графики главных координат.

Графики PCoA, созданные с помощью складного ножа, можно сравнить, чтобы оценить степень вариации от одной реплики к другой. QIIME отображает это изменение, отображая эллипсоиды достоверности вокруг образцов, представленных на графике PCoA. Полученные графики присутствуют в wf_jack / unweighted_unifrac / 3d_plots , а также соответствующие weighted_unifrac / а также 2d_plots / локации. Пример показан ниже:

Сгенерировать загрузочное дерево

jackknife_ named_nodes.tre можно просмотреть с помощью FigTree или другой программы просмотра дерева. Однако, в качестве примера, мы можем визуализировать начальное дерево, используя make_bootstrapped_tree.py QIIME, как показано ниже: (Примечание: для этой команды необходимо включить пересылку x11: http://ccv.brown.edu/doc/gui-software.html)

Полученный PDF-файл показывает дерево с внутренними узлами, окрашенными в красный цвет для поддержки 75–100%, желтый для 50–75%, зеленый для 25–50% и синий для поддержки <25%. Хотя UPGMA показывает, что PC.354 и PC.593 объединяются в кластеры, а PC.481 и PC.6xx - вместе, мы не можем быть уверены в этом результате. Тем не менее, существует отличная поддержка складного ножа для всех сэмплов без поста (PC.6xx), которые объединяются в кластеры, отдельно от сэмплов без поста (PC.35x).


4. Метагеномное и метатранскриптомное секвенирование дробовика

В то время как методы секвенирования на основе ампликонов часто нацелены только на один ген, метагеномное секвенирование дробовика способно случайным образом секвенировать весь метагеном образца без определенного праймера, что снижает предвзятость выбора праймера. По сравнению с профилированием сообщества на основе маркерных генов, метагеномное секвенирование с дробовиком добавляет подробный слой к таксономической характеристике сообщества, предоставляя информацию о составе генов и функциональных возможностях микробиома кишечника, хотя это более затратно и требует больше времени, чем маркерное амплификация гена. Обладая способностью обнаруживать организмы из всех сфер жизни, метагеномное секвенирование по-прежнему представляет собой наиболее эффективный и комплексный подход для получения как структурных, так и функциональных данных. Состав гена также можно использовать для определения предполагаемых функциональных путей. Метагеномное секвенирование методом дробовика применялось для изучения функциональных изменений микробиома кишечника при различных заболеваниях, таких как воспалительное заболевание кишечника [76], синдром раздраженного кишечника [77], связанное с алкоголем заболевание печени [78,79], неалкогольная жировая болезнь печени. [80,81], стеатоз печени [82], болезнь Крона [83,84], меланома [85], болезнь Паркинсона [86], высокое кровяное давление [87] и туберкулез легких [88].

Процесс метагеномного секвенирования можно резюмировать следующим образом: сбор и хранение образцов, экстракция нуклеиновых кислот, подготовка метагеномной библиотеки, контроль качества и анализ данных. Контроль качества - это первый шаг в конвейере метагеномного анализа дробовика (рис. 3), который включает различные инструменты, такие как Trimmomatic [89], Ktrim [90], Cutadapt [91], MultiQC [92]. Полученные в результате высококачественные считывания могут быть либо сопоставлены с эталонными геномами, либо собраны с помощью инструментов сборки. Таким образом, анализ метагеномного секвенирования дробовика в целом можно разделить на два подхода: подход, основанный на выравнивании, и подход, основанный на сборке. Часто рекомендуется использовать оба подхода в комбинации для получения наиболее точных результатов [93,94].

Конвейер анализа данных метагеномного секвенирования дробовика.

Подход, основанный на выравнивании, определяет таксономию и функциональный профиль считываний секвенирования посредством сопоставления считываний с известными эталонными микробными геномами или поиска в базах данных охарактеризованных семейств белков различными картографами, такими как Bowtie2 [95], DIAMOND [96], BBMap [97] ] и т. д. Для таксономической и функциональной аннотации доступны различные базы данных маркерных генов и базы данных генов, кодирующих белки, такие как Киотская энциклопедия генов и геномов (KEGG) [98], аннотации семейств белков (PFAM) [99], генные онтологии (GO). ) [100], кластеры ортологичных групп (COG) [101], эволюционная генеалогия генов: неконтролируемые ортологические группы (eggNOG) [102] и эталонные кластеры UniProt (UniRef) [103].

Подход, основанный на сборке, позволяет реконструировать несколько геномов, даже если некоторые из них еще неизвестны. Этот подход сильно зависит от охвата генома. Подход, основанный на сборке, собирает короткие считывания в контиги, что позволяет выполнять множественное выравнивание последовательностей считываний относительно согласованной последовательности, а затем группирует контиги в каркасы, которые перечисляют порядок и ориентацию контигов и размер промежутков между контигами. Важным параметром для оценки качества сборки генома является N50, который относится к наименьшему размеру контига в наборе контигов, который составляет по крайней мере 50% сборки [104]. Метагеномный ассемблер обычно использует подходы, основанные на графах, такие как консенсус перекрытия-компоновки и граф де Бруджина, для сборки более длинных и более коротких чтений соответственно. Из-за коротких считываний последовательностей, производимых популярными платформами секвенирования, широко используются ассемблеры на основе графов де Бруджина, такие как Meta-IDBA [105], IDBA-UD [106], MetaVelvet [107] и MegaHit [108] и т. Д. Сборщики метагенома основаны либо на эталонном геноме для аннотации микроорганизмов, либо на сборке de novo, которые обнаруживают и реконструируют геномы без обращения к базам данных и делают предсказание генов более надежным. Как правило, в сборке de novo метагеномные последовательности делятся на заранее определенные сегменты размера k (k-мер), которые перекрываются, чтобы сформировать сеть перекрывающихся путей, а затем интерактивно формируют контиги [109], что считается в качестве основы графов де Брюжена для сборки коротких чтений [104].

Качество сборки можно оценить с помощью таких инструментов, как MetaQUAST [110]. Собранные геномы можно аннотировать с помощью системы идентификации семейств генов в базах данных. Считывания метагеномных последовательностей также можно сопоставить с собранными геномами для оценки их численности. Есть несколько автоматизированных конвейеров, которые объединяют различные этапы в один удобный пакет, например, MEtaGenome Analyzer (MEGAN) [111], метагеномный филогенетический анализ (MetaPhlAn) [112], HMP Unified Metabolic Analysis Network (HUMAnN2) [113] и некоторые онлайн-серверы, такие как RAST-сервер Metagenomics (MG-RAST) [114], Integrated Microbial Genomes and Microbiomes (IMG / M) [115] и JCVI Metagenomics Reports (METAREP) [116], которые обеспечивают комплексное решение. Иногда несколько методов метагеномного анализа могут давать разные результаты, даже если используются одни и те же базы данных. Standardization of data processing and analysis is warranted to enable further integration of shotgun metagenomic analysis into the gut microbiome research to enhance the reproducibility and application of the analysis into clinical practice.

Although metagenomics provides access to microbial gene and genome composition and pathways, it has limited roles in revealing the gene expression in the microbial community. Shotgun metagenomic sequencing is performed on genomic DNA isolated from the biological samples however, it is hard to distinguish whether this DNA comes from viable or dead cells or whether the genes are expressed under given conditions. Instead, metatranscriptomic sequencing allows scientists to identify whether a microbe is an active member of the microbiome or not, and to identify actively expressed genes in the microbial community to get a deeper understanding of the activity of the gene of interest. Metatranscriptomics complement shotgun metagenomics by elucidating what gens are actively transcribed from a potential repertoire of annotated genes as revealed by shotgun metagenomic analysis. Metatranscriptomic sequencing analysis has been used to study microbial RNA-based regulation and expressed biological signatures in several diseases such as inflammatory bowel disease [117] and rheumatoid arthritis [118]. It provides a snapshot of the gene expression profile under specific conditions and at a given moment, instead of its potential as inferred from DNA-based shotgun metagenomic analysis.

The construction of metatranscriptomic library starts with the isolation of total RNA and removal of host RNA contaminations which can occur to various degrees as well as removal of mRNA with probes targeting certain rRNA regions, followed by cDNA synthesis, adapter ligation and end repair. After that similar to the process of constructing shotgun metagenomic library, cDNA ends are repaired and adapters are ligated, followed by library cleanup, amplification and quantification, and the library is then sequenced on the sequencing platform. Due to the unstable nature and short half-life time, RNA isolation becomes the most difficult task, especially from some biological samples such as feces. The isolation process must be carefully carried out to avoid RNA degradation by contaminated ribonucleases, and multiple approaches specific to different cell types have been developed [119,120,121,122].

Similar to shotgun metagenomic analysis, comprehensive data analysis suites such as HUMAnN2 and MG-RAST also provide an end-to-end solution for metatranscriptomic analysis, which are combinations of multiple specialized tools, such as Trimmomatic for quality control, Bowtie for mapping, CuffDuff [123] for differential gene expression, etc. As always, quality control is the first step for metatranscriptomic analysis. An essential process in quality control step is to filter out non-mRNA reads, in addition to trimming of low-quality reads and host reads. The resulting good quality reads are used for the following analysis which are categorized into alignment-based approach and assembly-based approach. Alignment-based approach maps the sequencing reads to reference database. With assembly-based approach, the sequenced reads are first assembled into contigs, scaffolds, and then mapped to reference genomes. The assembly step is computationally challenging, which requires deeper sequencing depth and higher quality sequencing reads. The assembled transcripts are annotated through software such as Blast2GO [124] to align against protein databases, followed by normalization and calculation of relative gene expression levels and statistical analysis.


This article is based on course notes presented by the author at the Marine Biological Laboratory at the STAMPS course in 2013, 2014, 2015, 2016, 2017, and 2018. The author is grateful to Berry Brosi, the MBL, the STAMPS course directors, and the STAMPS participants for countless discussions on this topic. The author also thanks Thea Whitman and two referees for many thoughtful suggestions on the manuscript. This manuscript has been released as a preprint via bioRxiv (Willis, 2017).

Arbel, J., Mengersen, K., and Rousseau, J. (2016). Bayesian nonparametric dependent model for partially replicated data: the influence of fuel spills on species diversity. Анна. Прил. Стат. 10, 1496�. doi: 10.1214/16-AOAS944

Arora, T., Seyfried, F., Docherty, N. G., Tremaroli, V., le Roux, C. W., Perkins, R., et al. (2017). Diabetes-associated microbiota in fa/fa rats is modified by Roux-en-Y gastric bypass. ISME J. 11, 2035�. doi: 10.1038/ismej.2017.70

Bunge, J., Willis, A., and Walsh, F. (2014). Estimating the number of species in microbial diversity studies. Анну. Rev. Stat. Прил. 1, 427�. doi: 10.1146/annurev-statistics-022513-115654

Chao, A., and Bunge, J. (2002). Estimating the number of species in a stochastic abundance model. Биометрия 58, 531�. doi: 10.1111/j.0006-341X.2002.00531.x

Chao, A., and Shen, T.-J. (2003). Nonparametric estimation of Shannon's index of diversity when there are unseen species in sample. Environ. Ecol. Стат. 10, 429�. doi: 10.1023/A:1026096204727

Demidenko, E. (2004). Mixed Models: Theory and Applications. Hoboken, NJ: Wiley-Interscience. doi: 10.1002/0471728438

Fisher, R. A., Corbet, A. S., and Williams, C. B. (1943). The relation between the number of species and the number of individuals in a random sample of an animal population. J. Anim. Ecol. 12:42. doi: 10.2307/1411

Hurlbert, S. H. (1971). The nonconcept of species diversity: a critique and alternative parameters. Экология 52, 577�. doi: 10.2307/1934145

Lande, R. (1996). Statistics and partitioning of species diversity, and similarity among multiple communities. Ойкос 76, 5�. doi: 10.2307/3545743

Lande, R., DeVries, P. J., and Walla, T. R. (2000). When species accumulation curves intersect: implications for ranking diversity using small samples. Ойкос 89, 601�. doi: 10.1034/j.1600-0706.2000.890320.x

Makipaa, R., Rajala, T., Schigel, D., Rinne, K. T., Pennanen, T., Abrego, N., et al. (2017). Interactions between soil- and dead wood-inhabiting fungal communities during the decay of Norway spruce logs. ISME J. 11, 1964�. doi: 10.1038/ismej.2017.57

McMurdie, P. J., and Holmes, S. (2014). Waste not, want not: why rarefying microbiome data is inadmissible. PLoS Comput. Биол. 10:e1003531. doi: 10.1371/journal.pcbi.1003531

Sanders, H. L. (1968). Marine benthic diversity: a comparative study. Являюсь. Nat. 102, 243�. doi: 10.1086/282541

Shade, A. (2016). Diversity is the question, not the answer. ISME J. 11, 1𠄶. doi: 10.1038/ismej.2016.118

Shannon, C. E. (1948). A mathematical theory of communication. Bell Syst. Tech. Дж. 27, 379�. doi: 10.1002/j.1538-7305.1948.tb01338.x

Simpson, E. H. (1949). Measurement of diversity. Природа 163:688. doi: 10.1038/163688a0

Washburne, A. D., Morton, J. T., Sanders, J., McDonald, D., Zhu, Q., Oliverio, A. M., et al. (2018). Methods for phylogenetic analysis of microbiome data. Nat. Microbiol. 3:652. doi: 10.1038/s41564-018-0156-0

Weiss, S., Xu, Z. Z., Peddada, S., Amir, A., Bittinger, K., Gonzalez, A., et al. (2017). Normalization and microbial differential abundance strategies depend upon data characteristics. Микробиом 5:27. doi: 10.1186/s40168-017-0237-y

Willis, A. (2017). Rarefaction, alpha diversity, and statistics. bioRxiv 1𠄸. doi: 10.1101/231878

Willis, A., and Bunge, J. (2015). Estimating diversity via frequency ratios. Биометрия 71, 1042�. doi: 10.1111/biom.12332

Willis, A. D., Bunge, J., and Whitman, T. (2016). Improved detection of changes in species richness in high-diversity microbial communities. J. R. Stat. Soc. C Appl. Стат. 66, 963�. doi: 10.1111/rssc.12206

Willis, A. D., and Martin, B. D. (2018). Divnet: estimating diversity in networked communities. bioRxiv 1�. doi: 10.1101/305045

Zhang, Z., and Grabchak, M. (2016). Entropic representation and estimation of diversity indices. J. Nonparametr. Стат. 28, 563�. doi: 10.1080/10485252.2016.1190357

Keywords: bioinformatics, computational biology, ecological data analysis, latent variable model, reproducibility, measurement error

Citation: Willis AD (2019) Rarefaction, Alpha Diversity, and Statistics. Передний. Microbiol. 10:2407. doi: 10.3389/fmicb.2019.02407

Received: 19 August 2019 Accepted: 07 October 2019
Published: 23 October 2019.

David Anthony Nipperess, Macquarie University, Australia
Alex Washburne, Montana State University System, United States

Copyright © 2019 Willis. Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License (CC BY). Использование, распространение или воспроизведение на других форумах разрешено при условии указания автора (авторов) и правообладателя (ов) и ссылки на оригинальную публикацию в этом журнале в соответствии с принятой академической практикой. Запрещается использование, распространение или воспроизведение без соблюдения этих условий.


Абстрактный

Anaerobic lagoons are a standard practice for the treatment of swine wastewater. This practice relies heavily on microbiological processes to reduce concentrated organic material and nutrients. Despite this reliance on microbiological processes, research has only recently begun to identify and enumerate the myriad and complex interactions that occur in this microbial ecosystem. To further this line of study, we utilized a next-generation sequencing (NGS) technology to gain a deeper insight into the microbial communities along the water column of four anaerobic swine wastewater lagoons. Analysis of roughly one million 16S rDNA sequences revealed a predominance of operational taxonomic units (OTUs) classified as belonging to the phyla Firmicutes (54.1%) and Proteobacteria (15.8%). At the family level, 33 bacterial families were found in all 12 lagoon sites and accounted for between 30% and 50% of each lagoon's OTUs. Analysis by nonmetric multidimensional scaling (NMS) revealed that TKN, COD, ORP, TSS, and DO were the major environmental variables in affecting microbial community structure. Overall, 839 individual genera were classified, with 223 found in all four lagoons. An additional 321 genera were identified in sole lagoons. The top 25 genera accounted for approximately 20% of the OTUs identified in the study, and the low abundances of most of the genera suggests that most OTUs are present at low levels. Overall, these results demonstrate that anaerobic lagoons have distinct microbial communities which are strongly controlled by the environmental conditions present in each individual lagoon.


16S rRNA gene high-throughput sequencing data mining of microbial diversity and interactions

The ubiquitous occurrence of microorganisms gives rise to continuous public concerns regarding their pathogenicity and threats to human environment, as well as potential engineering benefits in biotechnology. The development and wide application of environmental biotechnology, for example in bioenergy production, wastewater treatment, bioremediation, and drinking water disinfection, have been bringing us with both environmental and economic benefits. Strikingly, extensive applications of microscopic and molecular techniques since 1990s have allowed engineers to peep into the microbiology in “black box” of engineered microbial communities in biotechnological processes, providing guidelines for process design and optimization. Recently, revolutionary advances in DNA sequencing technologies and rapidly decreasing costs are altering conventional ways of microbiology and ecology research, as it launches an era of next-generation sequencing (NGS). The principal research burdens are now transforming from traditional labor-intensive wet-lab experiments to dealing with analysis of huge and informative NGS data, which is computationally expensive and bioinformatically challenging. This study discusses state-of-the-art bioinformatics and statistical analyses of 16S ribosomal RNA (rRNA) gene high-throughput sequencing (HTS) data from prevalent NGS platforms to promote its applications in exploring microbial diversity of functional and pathogenic microorganisms, as well as their interactions in biotechnological processes.

Это предварительный просмотр содержимого подписки, доступ через ваше учреждение.


Смотреть видео: Технологии секвенирования. Кирилл Григорьев Caribbean Genome Center, University of Puerto Rico (August 2022).