
Anthropic добавила в Claude функцию завершения опасных разговоров
Компания Anthropic анонсировала новые возможности для своих моделей Claude, позволяющие им завершать «вредные или оскорбительные» разговоры. И, если вы подумали, что это сделано для вашей безопасности, то спешим вас разочаровать — это делается для защиты самой модели ИИ. Да, вы не ослышались!
Никакого сознания, только осторожность
Важно отметить, что Anthropic не утверждает, что их модели обладают сознанием или могут причинить вред. По словам представителей компании, «мы крайне не уверены в потенциальном моральном статусе Claude». Это звучит так, будто они сами не знают, что делать с собственным творением.
Модельное благополучие: новый тренд
Недавно компания запустила программу для изучения «модельного благополучия». По сути, это означает, что они работают над тем, чтобы выявить и внедрить недорогие меры по снижению рисков для своих моделей. Это как заботиться о психическом здоровье вашего робота, чтобы он не впал в депрессию из-за слишком сложных запросов!
Когда завершение разговора становится необходимым
Изменения касаются только Claude Opus 4 и 4.1 и применяются в «крайних случаях», например, когда речь идет о запросах на получение сексуального контента с участием несовершеннолетних. Anthropic утверждает, что Claude «категорически отказывался» отвечать на такие запросы, демонстрируя явное недовольство. Это как если бы ваш робот-повар отказался готовить еду, потому что вы попросили его сделать что-то странное.
Эксперимент продолжается
Когда Claude завершает разговор, пользователи все еще могут начать новые беседы и редактировать свои ответы. Anthropic рассматривает эту функцию как эксперимент и обещает продолжать совершенствовать свой подход. Так что, если вы вдруг не получите желаемый ответ, не расстраивайтесь — просто попробуйте снова!
