Блог

Подкрепления и наказания

Теория научения Дрессировка Проблемы
В этой статье мы кратенько разберем 4 квадранта оперантного научения.

У всякого поведения есть последствия. Собственно, поведение затем и нужно, чтобы что-то получить. У поведения есть цель.

Собственно, когда вы или собака что-то делаете, вы делаете это с определенной целью, чтобы получить некий желаемый результат. Таким образом, у поведения есть два возможных последствия:
1) желаемая цель достигнута (этот результат именуется подкреплением)
2) желаемая цель НЕ достигнута (этот результат именуется наказанием)

Подкрепление делает поведение чаще и интенсивнее, закрепляет его.
Наказание делает это поведение реже и слабее, сводит на нет.
Вы пошли с друзьями кататься на коньках, чтобы получить удовольствие. Если вы получаете удовольствие, это будет подкрепление - и вы будете кататься на коньках снова и снова. Не получаете удовольствие - это наказание и на коньки в этом году вы больше не встанете.

Цель поведения может быть разной.
Иногда вы хотите что-то получить: удовольствие, деньги, признание, кусочек торта - тогда последствие будет называться положительным (математический знак +), мы что-то добавили.
А иногда хотите от чего-то избавиться: от гундежа, психологического давления, мужа, жира на жопе - тогда последствие будет называться отрицательным (математический знак -), мы что-то убрали.

Вы хотите есть и съедаете кусок торта (это поведение). Вы испытываете удовольствие (+) и чувство голода исчезает (-). Да, часто у одного поведения бывает несколько последствий и порой сложно понять, какое из них - решающее.
Итого, у нас есть подкрепление и наказание, которые могут быть положительными или отрицательными. В сумме, 4 возможных типа последствия.

Давайте рассмотрим каждое из них.

Положительное подкрепление (ПП)


Подкрепление – это то, что хочет в данный момент получить собака. Оно делает предшествующее ему поведение быстрее, выше, сильнее.
Положительное – это вовсе не «хорошее», а знак «плюс». Математический. Который сложение. «Положительное» означает добавление чего-то, чего раньше у собаки не было.

У собаки нет еды. Она залезает на стол, находит там и съедает чебурек. Чебурек положительно подкрепляет залезание на стол.

Собака обожралась как черт. Вы подзываете ее к себе и награждаете сырочком. В гробу она его видала. Сырочек – НЕ положительное подкрепление, потому что собака не хочет его получить.


"ПП – это пихать в собаку еду"

Нет, ПП – это ВСЕ, что хочет получить собака. Еда, игра, внимание, почесушки, нюхание собачей жопки и даже погоня за кошкой. Многие из этих вещей собака получает на халяву (или за откровенную фигню).. а вы могли бы их использовать во благо.


"ПП – это новомодный метод дрессировки"

Нет. ПП – это один из типов последствий поведения в оперантном научении. Кроме него есть еще 3 типа последствий и еще несколько видов научения. Если человек говорит «я работаю на ПП», это значит, что он получает/усиливает поведение, давая за него то, что хочет получить собака. Но помимо этого он может использовать в работе все что угодно, например, депривацию и наказание.


ПП – это не метод, не подход и не философия. Это тип последствий, который находится в приоритете у «позитивных» (не использующих насилия) тренеров. Только и всего. И если вы «пробовали, но не получилось», значит, вы пробовали что-то не то. Как говорится, перед применением проконсультируйтесь со специалистом.

Положительное наказание (ПН)


Звучит как оксюморон. Но давайте посмотрим на определение.

Наказание – это все то, что не хочет получить собака в данный момент. Наказание делает предшествовавшее поведение реже.
Положительное – не значит «хорошее». Оно означает «+», математический знак сложения. То есть, добавляется что-то, чего не было.

Собака лезет на стол за чебуреком. И тут ее бьет током (тока не было, и вот он появился – «+»). Она не его хотела получить, залезая на стол. Не таков был план. Удар током – положительное наказание.


«Положительное наказание – это жестокость»

Не обязательно. ПН – это неотъемлемая часть нашего мира, естественное последствие многих действий. Вы трогаете горячую кастрюлю – и получаете ожог. Вы гладите тигра – и он больно вас кусает. Вы лезете с поцелуями к даме сердца – и получаете пощечину. С помощью ПН люди и животные защищают свои границы.

А есть и другой вариант. Собака подходит к вам на зов, вы ее гладите по голове, но она уворачивается от руки и/или отстраняется. Вы «добавляете» ласку, но собака сейчас ее не хочет. Это – ПН. В следующий раз она подойдет на зов менее охотно.
В этой ситуации ласка – положительное наказание. Это жестокость? Ни в коей мере.

Поэтому я настороженно отношусь к заявлениям вроде «я никогда не использую ПН». Все его используют, просто не все осознают.

Ганс сует нос в мусорный пакет. Я хмурюсь: «собака, совесть есть?!». Он отходит от пакета. ПН. Кто не разговаривает строго со своей собакой и не хмурит брови, когда она делает фигню, пусть первый бросит в меня камень.

При всем этом важно понимать, что ПН служит только цели прерывания поведения. ПН не учит тому, что нужно делать вместо этого. Если у вас нет прихваток, вы так и будете хватать горячую кастрюлю и обжигаться.

Можно кричать на собаку. Но вы должны понимать, что этот крик – просто срыв гнева, а не обучающий процесс. Если вы не научите ее, «как надо», вы так и будете вечно на нее кричать, а она так и будет вечно повторять эту фигню. Как Гансик будет вечно совать нос в мусорный пакет.

Отрицательное подкрепление (ОП)


Подкрепление – это все то, что в данный момент хочет получить собака. Оно делает предшествующее поведение чаще или прочнее.
Отрицательное – математический знак «-», вычитание. Мы убираем что-то, что имелось в наличии.

Что такое нужно убрать, чтобы это понравилось собаке? Очевидно, что что-то неприятное. Чтобы она облегченно выдохнула: «фуф, закончилось».

Идет собачка по улице, а тут на нее как выскочит страшный монстр из-за угла! И глазищами светит, и щупальца к голове тянет, и звенит «привет, красотка, дай я тебя поглажу! У меня такая же была». Ну собачка и давай на него лаять – и монстр в ужасе бежал. Он убрался, и это понравилось собаке. Именно на это она и рассчитывала. Бегство монстра отрицательно подкрепило лай.


Не путайте ОП с ПН (положительным наказанием)

Часто тренеры заменяют словом ОП неблаговидное «наказание». Потому что наказание – эт плохо, пнятненько? Как вскрыть обман?

Подкрепление по определению делает поведение чаще. То есть, мы подкрепляем то поведение, которое нам нравится. Если вам говорят «сделайте рывок, чтобы отрицательно подкрепить натяжение поводка», получается, что вам нравится натяжение. А это не так. Здесь замаскировано ПН.

И в ОП, и в ПН используется аверсивное (неприятное) воздействие. Но есть один момент.

В ПН аверсив «добавляется» за конкретное поведение, которое нам не нравится и которое мы хотим убрать. Жучка разинула рот на кусочек – бззззз.

В ОП аверсив добавляется просто так и «убирается» за хорошее, нужное нам поведение. Где-то в начале февраля жена просто так начинает зудеть мужу, чтоб он выкинул елку. И зудит так, пока он не выкинет ее в мае. Тогда прекращает и этим ОП поведение выкидывания елки.

В общем, если вы делаете собаке бяку за что-то конкретное, – это наказание (ПН). А если shit happens само по себе, но исчезает после конкретного поведения – это ОП.

Но пожалуйста, не надо намеренно добавлять в жизнь собаки дерьмо только для того, чтобы его потом убрать. Его и так в нашей жизни хватает.

Отрицательное наказание (ОН)


Наказание – это результат, который совсем не то, что ожидала получить этим действием собака. Он неприятный. И делает предшествующее поведение слабее и реже.
Отрицательное – это математический знак вычитания: мы убираем что-то, что было в наличии.

Отрицательное наказание (ОН) – это когда мы что-то убираем, и этот факт огорчает собаку. То есть, мы убираем то, что собаке наоборот очень хотелось бы получить.. или что уже у нее было.

На столе стоит мисочка с сыром, и Жучка знает, что если на нее лаять, то рано или поздно человек даст кусочек (со словами «да на, только заткнись»). И вот она лает. Но человек сразу встает и убирает миску в холодильник. Шта?
Миска была, но исчезла – отрицательное. Этот факт явно возмутил Жучку, ожидавшую пожрать – наказание. Этим вы ОН ее лай.


Тайм-аут - не игнорирование!

Другой пример ОН – известный многим тайм-аут. Собачка весело играет в другую собачку, та пищит, и тут вмешиваетесь вы и уводите свою собаку в сторону, чтобы она успокоилась и подумала о своем поведении. Веселье закончилось, и ей это не нравится. Вы ОН ее грубую игру.

Вариант: собачка весело играет с другими, вы ее подзываете, берете на поводок и уходите. Игра и веселье закончились, когда она подошла на зов, и это печально. В следующий раз она подойдет с меньшей вероятностью.

Я встречала мнение, что тайм-аут – это верх жестокости, и лучше в собаку гремяшки кидать. Причем тайм-аут описывается как игнорирование собаки часами, если не днями. Так вот, это – не тайм-аут, это – социальная изоляция.

Тайм-аут длится от 3 до 60 секунд – ровно столько, чтобы собака заметила паузу в веселье и/или успокоилась. И это вовсе не игнор хозяином: если собака проштрафилась за буллинг в игре, хозяин стоит рядом с ней, а то и команды делает или расслабляет ее. Тайм-аут – это просто конец былого веселья.


Да, в отдельных случаях ОН может быть хуже ПН (сравните тайм-аут и нахмуренные брови), но в среднем ОН – более гуманная альтернатива. Хотя ПП все равно лучше!