Куда спрятались гены? (Как читать геномы. Продолжение)⁠⁠

Начало истории о том, как читают генетический код было тут: https://pikabu.ru/story/kak_chitayut_geneticheskiy_kod_56254...

[Продолжение]

Мы получили строчку текста, в которой не знаем, где начало, где конец, но в которой, возможно, записан ген. А может быть и нет.

Почему строчка ДНК не обязательно содержит ген?

Давайте посчитаем. В геноме человека почти три миллиарда пар оснований (то есть букв на каждой из двух цепей ДНК).

В одном генетическом слове 3 буквы. Итого получили миллиард возможных слов (закодированных аминокислот).

Сколько нужно слов, чтобы записать белок? От 2х до нескольких сотен. Давайте округлим в большую сторону и примем, что длина белка 1000 аминокислотных слов.

Делим 1 000 000 000 на 1000 и получаем 1 000 000(!) возможных белков.

Вот только... по оценкам на сегодняшний день в ДНК человека белков всего... чуть более 20 000!

То есть 20 000 / 1 000 000 = 2/100 = 0,02 или 2% (а на самом деле ещё меньше, около 1%)

Представьте, вы получили кусочек непрерывного текста, в котором надо найти что-то, у чего неизвестно начало, непонятна его длина, а ещё и вероятность найти хоть что-то в довольно небольшом «отрывке» общей «ДНК-книги» мизерная!

Примерно, как разделить текст этого поста на произвольные кусочки, вставить эти кусочки в текст двухтомника Майн Рида, положить в измельчитель и попробовать восстановить исходный текст поста, содержимое которого мы только примерно представляем:)

Но и это не конец условий задачи: гены ядерных организмов (к которым мы с вами относимся) состоят из нескольких кодирующих частей - экзонов, разделённых длинными кусками «белиберды» - интронов. То есть: кусочек гена, «мусор», снова кусочек гена, «мусор» и так много раз. (прим.: автор текста в курсе, что "мусор" это давно уже не мусор, но об этом в простых примерах он расскажет в другой раз)

Крутая задачка? Дзен-пазл нервно курит в сторонке:)

В общем, вновь время звать биоинформатиков.

Задача предсказания генов ещё одна проблема, в которой нужен мозг математика и навыки программиста.

P.s.

И еще одно примечание. Меня упрекнули в прошлых постах, что я рассказываю элементарщину, которую все должны помнить со школы. Но, к сожалению, мой опыт популяризации показывает, что помнят это всё лишь те, кто и сам интересовался темой впоследствии.

Я пишу для тех, для кого школьная биология была "непонятной и скучной", для тех, у кого (как, кстати, у автора) школьную биологию вел некомпетентный преподаватель (у автора ее вел священник. В обычной школе, да).

Для тех, кто открыт воспринять новое, когда оно рассказано просто и, надеюсь, понятно.

А еще я пишу для тех, кто сам занимается популяризацией, и для тех, у кого есть дети-школьники.

В общем, если вам очень хочется поставить минус и в очередной раз написать "автор, ты что нашел школьный учебник и решил поделиться?", знайте, вы не первый:) Но есть те, кому это нужно и интересно. Пройдите мимо и прочтите что-то более подходящее для вас:)

Лига биологов

7.9K поста15.5K подписчиков

Добавить пост

Правила сообщества

‣ Правила сайта никем не отменялись.

‣ Будьте вежливы и сдержаны.

‣ Не разводите политоту, не тащите спам.

‣ Пост-определялка. Если хотите определить представителя флоры или фауны, можете спросить там, я обязательно постараюсь помочь.

‣ Выносятся посты содержащие антинаучные и другие сомнительные идеи. Их авторы караются на месте.

‣ Так как в сообществе отключена премодерация, могут проходить посты по тем или иным причинам не подходящие под формат сообщества. Такие посты переносятся в общую ленту.

‣ Администратор иногда переносит в сообщество посты подходящей тематики, которые ей особенно понравились, не серчайте, считайте комплиментом.

‣ Если в пост закралась грубая ошибка, не удивляйтесь, если администратор попросит её исправить.

‣ Вбросы антинаучных идей и попросту различная глупость в комментариях расцениваются как развлечение для публики. Такие сообщения отдаются на растерзание толпе, как и их авторы, будь то тролли, адепты всех мастей или просто недальновидные личности.

‣ Политика сообщества не предусматривает раздачу банов направо и налево, однако, если вы нарушаете покой пользователей, и на вас пожаловались – не обижайтесь.

FroggyFrog

6 лет назад

Ура, биологи :) Хочу написать пост о карьере ученого, не знаю, будет ли это кому-то интересно?

раскрыть ветку

DELETED

6 лет назад

Комментарий удален. Причина: данный аккаунт был удалён

раскрыть ветку

Judge71

6 лет назад

упрекнули в прошлых постах, что я рассказываю элементарщину, которую все должны помнить со школы

Конечно, должны. Вот только гомеопатия до сих пор успешно продается с витрин аптек, а против высокотехнологичной ГМ-индустрии до сих пор выступает немалый процент населения. Хотя физика, химия и биология (в необходимом минимальном объеме) в школе были у всех, и в ВУЗе у многих.

Порой очевидные нам вещи для окружающих совсем не очевидны. На то существуют разные причины (низкий познавательный потенциал, некомпетентные педагоги, отсутствие мотивации, некачественные источники информации, отсутствие критического мышления, эффект Даннинга-Крюгера, Елена Малышева, Геннадий Малахов и другие), но грустный факт остается грустным фактом.

Поэтому, пожалуйста, не останавливайтесь, пишите. Капля камень точит :-)

раскрыть ветку

terstr

6 лет назад

Всё хорошо, но много неточностей. Например, Нельзя говорить про 1 миллиард "генетических слов", потому что возможен сдвиг рамки считывания. Нельзя говорить, что для кодирования белка нужно от двух триплетов - мРНК содержит как минимум всякие 3'- и 5'-UTR. И нельзя говорить о 20 000 белков в ДНК, правильней говорить о генах (и их, если мне не изменяет память, около 25к), так как существует альтернативный сплайсинг.

Понятно, что популяризация связана с упрощениями, но упрощение не есть перевирание. Лучше сделать оговорку или вообще не упоминать о чём-то, чем создавать ложной мнение. В том-то и сложность работы популяризатора.

раскрыть ветку

DELETED

6 лет назад

Читают не код все-таки, а последовательность букв. Код - это таблица соответствия кодонов и аминокислот.

раскрыть ветку