|
Сообщения участника "mserg" | |
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
По-видимому результаты по GPT взяты отсюда:
https://arcprize.org/leaderboard
Проверка результатов, как я понимаю, описана здесь:
https://arcprize.org/policy
Проверку коммерческих систем с общей капитализацией под триллион проводит кучка гордых ученых.
Анализ результатов 2025 года сделан тут:
https://arcprize.org/blog/arc-prize-2025-results-analysis
Судя по анализу, прогресс действительно идет.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
С трепом этого практикующего эксперта есть одна проблема, которую он сам как бы понимает.
Цель состоит в том, чтобы решать задачи, для которых нет примеров в обучающей выборке.
В идеальном случае, известны общие условия задачи (ограничения на размеры входных и выходных матриц, и ограничения на значения элементов матриц), и нет ни одного обучающего примера.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Понимаю, обидно за инфлюенсера.
Руками написать парсеры, паттерны, генераторы, и т.д. , скрестить с LLM, и т.п.
Ведь так же должен работать AGI?
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
| 13:48 05.01.2026 |
|
13:49 05.01.2026 |
|
№13468 |
Sanek22:
Это кстати классическая иллюзия "магии ЕИ". Как по мне суть в асимметрии предобучения. Человек, решая ARC на 3 примерах, использует не магию, а колоссальный скрытый багаж — интуитивную физику, понятия симметрии, счёта и причинности, усвоенные за десятилетия взаимодействия с миром и через язык, я уже молчу про сотни миллионы лет эволюции мозга и сколько в нём захардкоженно уже сходу. Это не обучение с нуля, а точечная достройка готовых абстракций.
Чтобы нейросеть справилась, ей нужно, самое меньше, аналогичное "детство" — предобучение на специальных датасетах, формирующих нужные примитивы. Как минимум это "мир объектов" — видео с 2D/3D-фигурами, чтобы научиться видеть отдельные сущности(латентные принаки), а не пиксели, "библиотека операций" — миллиарды пар "вход-выход", сгенерированных простыми программами (отразить, сгруппировать, посчитать), чтобы выучить базовые преобразования и "связь с языком" — описание этих преобразований словами ("симметрия", "чередование"), чтобы абстрагировать концепты.
Относительно достаточности ARC-библиотеки для полного самообучения - вопрос, конечно, интересный.
В свое время, я составил для обучающих ARC-1 примеров python-скрипты. Появилась вручную составленная библиотечка, с помощью которой описывались решения. ARC-2 примеры тоже просмотрел. Чего там, с точки зрения математики, только нет - вплоть до топологии. Поэтому под моими заявлениями о самообучении есть некоторая проделанная работа.
Так вот, насчет процесса самообучения. В любом случае будет некоторая база, в математике называемая сигнатурой, с помощью которой образуется "пространство поиска". Допустим, что эта сигнатура включает в себя числа, векторы, матрицы, кванторы, функции (включая рекурсивные) и т.п.
Этого, конечно, недостаточно для прямого обучение (решения головоломок). Однако, если использовать критерий информации, то обучение становится более реалистичным. Скажем, если использование некоторой подобранной функции (признака) позволяет более кратко описать значимую часть обучающих изображений, то для нее можно сделать определение и добавить ее к сигнатуре. Например, простая симметрия позволяет описывать изображения до 2 раз компактнее.
Если мы используем информацию на уровне пикселей в качестве критерия описания задач, то это и будет тот самый парсинг. Можно использовать информацию и на более высоких уровнях - в общем виде это близко к процессу декомпозиции. Если исходить из этих соображений, то возможность полного самообучения зависит от того, присутствуют ли "признаки" в достаточном количестве в достаточно простых примерах (с учетом уже ранее выделенных "признаков"). Если это не так, то просматриваются проблемы не только с вычислительными ресурсами, но и с самой возможностью самообучения.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
| 19:07 08.02.2026 |
|
19:07 08.02.2026 |
|
№13569 |
Gray Tag:Вышел новый Claude, Opus 4.6, решает ARC AGI 2 с качеством 68.8%
Понимаю, ув. mserg опять бесноваться и кричать, что всё написано руками))
Написано, может быть, было и руками, а вот обдумана новая моделька была точно умной головой)))
https://www.anthropic.com/news/claude-opus-4-6
Никогда не было, и вот опять! И вообще, я миллион раз уже говорил, не надо преувеличивать!
В действительности могу повторить все то же. Нужна независимая проверка, которая делается Шолле и ко. и публикуется на https://arcprize.org/
Пока там самый умный GPT. Как появится на сайте опус с 68.8%, тогда признаем успех. А пока нет.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Gray Tag:mserg: В действительности могу повторить все то же.
Именно об этом я и говорю, ты уже четыре года повторяешь одно и то же, а тем временем ARC-1 решена полностью, а ARC-2 на 70%, что уже выше человеческого результата)))
Цитату можно было отрезать и получше.
У Лукашенко можно поучиться:
Как из маминой из спальни
Кривоногий и хромой
Выбегает...
Так вот, выбегает Egg, и рассказывает про людей с 70%. Но это, скорее, уровень неглупой гориллы - Шолле для людей говорил о 85%. Что у вас там в Америке случилось с людьми?
И прогресс связан не чисто с LLM ...
А, ладно, пишите еще.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Конфлюенсеры говорят о "97.92% on the ARC-AGI-2 public evaluation set". Это прямо заголовок у них в github.
С этим результатом есть только одна проблема - "public evaluation set".
А формально тест еще не пройден, т.к. лучший результут сейчас у Gemini 3 Deep Think (2/26) - дает 84.6%. А нужно 85%.
Ну и такая мелочь, как ограничение стоимости на задачу 5$. Но это, скорее всего, скоро тоже решат.
Так что можно сказать, что тест практически пройден. Огромный прогресс налицо - качество растет прямо на глазах.
Есть, правда, нюанс - используется "CoT", т.е. часть задачи ("декомпозицию") решил человек "вручную".
Но, видимо, это часть вопроса о непрерывном самообучении, о котором говорил Альтман в интервью.
В марте запускается ARC-AGI-3. По прогнозам Шолле он может продержаться 5 лет.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Кстати, на каггле продолжение банкета
arc-prize-2026-arc-agi-2
Франсуа опять, видимо, что-то подшаманил - лучшее решение пока 40%.
----
Могу на примере своих экспериментов несколько слов сказать о споре "нейросеть - формула/алгоритм".
Во-первых, настроенный ChatGPT - это вычислимая функция. Можно, конечно придраться к тому, что возможно добавлением элементов случайности при вычислении, но суть предмета, думаю, ясна. Формула/алгоритм для задачи Шолле - это то же самое - вычислимая функция. По-сути мы имеем просто разный способ определения вычислимой функции, а на этапе обучение нужно подбирать эту функцию.
Во времена, когда трава была зеленее, был спор о том, может ли аппроксимация быть моделью. Очевидно что да, может, но альтернативно одаренные говорили о "подгонке под результат" и всем таком прочем. Никакие аргументы про соответствии наблюдаемым данным, соблюдение ограничений применения, хорошую прогностическую силу, и т.д. и т.п. не имело никакого эффекта.
Во-вторых, в свое время я экспериментировал на данных каггла - пытался подбирать прямые формулы вместо регрессий; критерием был компромисс между точностью и оценкой сложности критерия Оккама (оценка была - количество закорючек в формуле).
И... результат был хуже чем при использовании регрессии. Самое смешное, что формула была короткая, данных много, точность на обучающих данных неплохая, но на проверочных выборках точность была средненькая. Как бы получалось, что принцип Оккама не работал.
Но, как я теперь полагаю, принцип Оккама все же работает, - просто требуется сделать уточнения. При регрессии практически всегда используется либо регуляризация, либо какой-то ее аналог. Это позволяет регулировать гибкость подбираемой функции. Скажем, при линейной регрессии используется всего несколько регуляризационных коэффициентов. Таким образом, большое количество подбираемых коэффициентов регрессии c i - это промежуточная часть подбора функции, и их конкретные значения не нужно учитывать при оценивании по Оккаму.
Мораль тут все та же - в конкретной задаче может "выстрелить" любой из способов определения функции. В задачах Шолле интуитивно кажется, что "функционально-алгоритмический" подбор вычислимых функций должен быть лучше. Однако "статистическая машина" нейросетей не выглядит безнадежной, т.к. при подборе функций потенциально будет выбирать наиболее вероятные варианты формул.
|
|
|