Чем больше лотерейных билетов вы покупаете, тем выше ваши шансы на победу, но тратить больше, чем выигрываете, очевидно, не самая мудрая стратегия. Нечто похожее происходит в ИИ, работающем на глубоком обучении: мы знаем, что чем больше нейронная сеть (т. е. чем больше у нее параметров), тем лучше она может изучить задачу, которую мы ей ставим.
Однако стратегия создания бесконечно большого объема во время обучения не только невозможна, но и крайне неэффективна. Ученые пытались имитировать способ обучения биологического мозга, который является очень ресурсоэффективным, предоставляя машинам постепенный процесс обучения, который начинается с более простых примеров и переходит к более сложным — модель, известная как « обучение по программе ».
Однако, как ни странно, они обнаружили, что эта, казалось бы, разумная стратегия неактуальна для сверхпараметризованных (очень больших) сетей.
Исследование , опубликованное в журнале Journal of Statistical Mechanics: Theory and Experiment, было направлено на то, чтобы понять, почему происходит этот «сбой», и предположить, что эти сверхпараметризованные сети настолько «богаты», что они склонны обучаться, следуя пути, основанному больше на количестве (ресурсов), чем на качестве (входные данные, организованные по возрастающей сложности).
На самом деле это может быть хорошей новостью, поскольку это говорит о том, что при тщательной корректировке начального размера сети обучение по учебной программе может оставаться жизнеспособной стратегией, потенциально перспективной для создания более ресурсоэффективных и, следовательно, менее энергозатратных нейронных сетей.
Существует большой ажиотаж вокруг искусственного интеллекта на основе нейронных сетей, такого как ChatGPT: каждый день появляется новый бот или функция, которые все хотят попробовать, и это явление также растет в научных исследованиях и промышленных приложениях. Это требует увеличения вычислительной мощности — и, следовательно, потребления энергии — и растет обеспокоенность как относительно необходимых источников энергии, так и относительно выбросов, производимых этим сектором. Таким образом, решающее значение имеет то, чтобы сделать эту технологию способной делать больше с меньшими затратами.
Нейронные сети — это вычислительные модели, состоящие из множества «узлов», выполняющих вычисления, с отдаленным сходством с сетями нейронов в биологическом мозге, способные обучаться автономно на основе получаемых ими входных данных. Например, они «видят» огромное количество изображений и учатся категоризировать и распознавать контент без прямых инструкций.
Среди экспертов хорошо известно, что чем больше нейронная сеть на этапе обучения (т. е. чем больше параметров она использует), тем точнее она может выполнять требуемые задачи. Эта стратегия известна на техническом жаргоне как «гипотеза лотерейного билета» и имеет существенный недостаток, требующий огромного количества вычислительных ресурсов, со всеми вытекающими проблемами (необходимы все более мощные компьютеры, которые требуют все больше и больше энергии).
Чтобы найти решение, многие ученые обратились к тому, где этот тип проблемы, по-видимому, был, по крайней мере частично, решен: биологический мозг. Наш мозг, питаясь всего два-три раза в день, может выполнять задачи, требующие суперкомпьютеров и огромного количества энергии для нейронной сети. Как они это делают?
Ответом может быть порядок, в котором мы учимся. «Если кто-то никогда не играл на пианино, и вы даете ему произведение Шопена, он вряд ли добьется большого прогресса в его изучении», — объясняет Лука Сальетти, физик из Университета Боккони в Милане, который координировал исследование. «Обычно существует целый путь обучения, охватывающий годы, начиная с исполнения „Twinkle Twinkle Little Star“ и в конечном итоге приводя к Шопену».
Когда входные данные предоставляются машинам в порядке возрастания сложности, это называется «обучением по учебной программе». Однако наиболее распространенный способ обучения нейронных сетей — это случайная подача входных данных в мощные, сверхпараметризованные сети.
После того, как сеть обучилась, можно уменьшить количество параметров — даже ниже 10% от первоначального количества — поскольку они больше не используются. Однако если вы начнете только с 10% параметров, сеть не сможет обучиться. Таким образом, хотя ИИ в конечном итоге может поместиться в наш телефон, во время обучения ему потребуются огромные серверы.
Ученые задавались вопросом, может ли обучение по программе сэкономить ресурсы. Однако исследования на данный момент показывают, что для очень перепараметризированных сетей обучение по программе, по-видимому, не имеет значения: производительность на этапе обучения, похоже, не улучшается.
Новая работа Сальетти и его коллег попыталась понять, почему это так.
«Мы увидели, что сверхпараметризованной нейронной сети не нужен этот путь, потому что вместо того, чтобы руководствоваться обучением на примерах, она руководствуется тем фактом, что у нее очень много параметров — ресурсов, которые уже близки к тому, что ей нужно», — объясняет Сальетти.
Другими словами, даже если вы предлагаете ей оптимизированные данные для обучения, сеть предпочитает полагаться на свои огромные вычислительные ресурсы, находя внутри себя части, которые, с небольшими изменениями, уже могут выполнить эту задачу.
Это на самом деле хорошие новости, поскольку это не означает, что сети не могут воспользоваться преимуществами обучения по программе, но что, учитывая большое количество начальных параметров, они подталкиваются в другом направлении. В принципе, поэтому можно было бы найти способ начать с меньших сетей и принять обучение по программе.
«Это одна из частей гипотезы, изучаемой в нашем исследовании», — объясняет Сальетти.
«По крайней мере, в ходе проведенных нами экспериментов мы заметили, что если начать с меньших сетей, эффект учебной программы — показ примеров в определенном порядке — начинает демонстрировать улучшение производительности по сравнению с тем, когда входные данные предоставляются случайным образом. Это улучшение больше, чем когда вы продолжаете увеличивать параметры до точки, где порядок входных данных больше не имеет значения».