Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Здание @EurekaLabsAI. Ранее директор по искусственному интеллекту @ Tesla, команда основателей @ OpenAI, CS231n/PhD @ Stanford. Мне нравится обучать большие глубокие нейронные сети.
В эпоху предварительного обучения важен был текст из интернета. Вам в первую очередь нужна была большая, разнообразная, качественная коллекция интернет-документов для обучения.
В эпоху контролируемой донастройки важны были разговоры. Наемные работники нанимаются для создания ответов на вопросы, немного похоже на то, что вы видите на Stack Overflow / Quora и т.д., но ориентировано на случаи использования LLM.
Ни одно из двух вышеупомянутых не исчезнет (по моему мнению), но в этой эпохе обучения с подкреплением важны теперь среды. В отличие от вышеупомянутого, они дают LLM возможность действительно взаимодействовать - предпринимать действия, видеть результаты и т.д. Это означает, что вы можете надеяться добиться гораздо лучших результатов, чем статистическая имитация эксперта. И их можно использовать как для обучения модели, так и для оценки. Но, как и прежде, основной проблемой сейчас является необходимость в большом, разнообразном, качественном наборе сред, как упражнения для LLM для практики.
В некотором смысле, я вспоминаю о самом первом проекте OpenAI (gym), который был именно фреймворком, надеющимся создать большую коллекцию сред в одной и той же схеме, но это было задолго до LLM. Поэтому среды были простыми академическими контрольными задачами того времени, такими как cartpole, ATARI и т.д. Хаб сред @PrimeIntellect (и репозиторий `verifiers` на GitHub) создает модернизированную версию, специально нацеленную на LLM, и это отличное усилие/идея. Я предложил, чтобы кто-то построил что-то подобное в начале этого года:
У сред есть свойство, что как только скелет фреймворка на месте, в принципе, сообщество/индустрия могут параллелизировать по многим различным областям, что захватывающе.
Последняя мысль - лично и в долгосрочной перспективе я оптимистично настроен по поводу сред и агентных взаимодействий, но пессимистично по поводу обучения с подкреплением в частности. Я думаю, что функции вознаграждения очень подозрительны, и я думаю, что люди не используют RL для обучения (возможно, они делают это для некоторых моторных задач и т.д., но не для интеллектуальных задач решения проблем). Люди используют разные парадигмы обучения, которые значительно более мощные и эффективные по выборке и которые еще не были должным образом изобретены и масштабированы, хотя ранние эскизы и идеи существуют (в качестве одного примера, идея "обучения по системным подсказкам", перемещение обновления к токенам/контекстам, а не весам и, возможно, дистилляция в веса как отдельный процесс, немного как сон).

Prime Intellect28 авг. 2025 г.
Представляем Хаб Окружений
Окружения RL являются ключевым узким местом для следующей волны прогресса в области ИИ, но крупные лаборатории их закрывают
Мы создали платформу сообщества для краудсорсинга открытых окружений, чтобы любой мог внести свой вклад в открытый AGI
797,94K
Продолжая путь к оптимальному опыту кодирования с помощью LLM. В частности, я замечаю, что вместо того, чтобы сосредоточиться на чем-то одном идеальном, мое использование все больше диверсифицируется по нескольким рабочим процессам, которые я "сшиваю" плюсы и минусы:
Лично основная часть (~75%?) моей помощи от LLM по-прежнему заключается в простом (Cursor) автозаполнении. Это связано с тем, что я считаю, что написание конкретных фрагментов кода/комментариев самостоятельно и в нужной части кода является высокоэффективным способом передачи "спецификации задачи" LLM, т.е. это в первую очередь касается частей спецификации задачи - для передачи того, что я хочу, в текстовом формате требуется слишком много данных и слишком много задержек, и быстрее просто продемонстрировать это в коде и в нужном месте. Иногда модель автозаполнения раздражает, поэтому я часто переключаю ее вкл/выкл.
Следующий уровень - это выделение конкретного фрагмента кода и запрос на какое-то изменение.
Следующий уровень - это Claude Code / Codex / и т.д., работающие параллельно с Cursor, к которым я обращаюсь для больших фрагментов функциональности, которые также довольно легко специфицировать в запросе. Они очень полезны, но в целом все еще смешанные и иногда немного раздражающие. Я не работаю в режиме YOLO, потому что они могут сбиться с пути и сделать глупости, которые вам не нужны, и я часто нажимаю ESC. Я также не научился быть продуктивным, используя более одного экземпляра параллельно - один уже кажется достаточно сложным. Я не нашел хорошего способа поддерживать CLAUDE[.]md в хорошем состоянии или актуальном. Мне часто приходится делать "уборку" для стиля кодирования или вопросов вкуса кода. Например, они слишком защитные и часто чрезмерно используют конструкции try/catch, они часто усложняют абстракции, они перегружают код (например, вложенные конструкции if-else, когда можно было бы использовать списковое выражение или однострочное if-then-else), или они дублируют фрагменты кода вместо создания хорошей вспомогательной функции, и тому подобное... у них, по сути, нет чувства вкуса. Они незаменимы в случаях, когда я погружаюсь в более "вибрационное" кодирование, где я менее знаком (например, недавно писал на Rust, или SQL-команды, или что-то еще, что я делал меньше). Я также пытался использовать CC, чтобы научить меня чему-то наряду с кодом, который он писал, но это вообще не сработало - он действительно хочет просто писать код гораздо больше, чем объяснять что-либо по ходу дела. Я пытался заставить CC делать настройку гиперпараметров, что было весьма забавно. Они также очень полезны во всех видах одноразовых пользовательских визуализаций или утилит или отладочного кода, которые я никогда бы не написал, потому что это заняло бы слишком много времени. Например, CC может создать 1,000 строк одноразовой обширной визуализации/кода просто для выявления конкретной ошибки, которая затем удаляется сразу после ее нахождения. Это эпоха пост-дефицита кода - вы можете просто создавать и затем удалять тысячи строк супер пользовательского, супер эфемерного кода, это нормально, это больше не такая драгоценная и дорогая вещь.
Последний уровень защиты - это GPT5 Pro, к которому я обращаюсь для самых сложных задач. Например, несколько раз со мной / Cursor / CC мы застревали на ошибке на 10 минут, но когда я копирую и вставляю все это в 5 Pro, он работает 10 минут, но затем действительно находит очень тонкую ошибку. Он очень силен. Он может находить всевозможные эзотерические документы и статьи и тому подобное. Я также использовал его для других более серьезных задач, например, предложений о том, как очистить абстракции (смешанные результаты, иногда хорошие идеи, но не все), или для полного обзора литературы о том, как люди делают то или это, и он возвращается с хорошими актуальными ресурсами / указателями.
В любом случае, кодирование кажется совершенно открытым для возможностей в различных "видах" кодирования и с рядом инструментов с их плюсами и минусами. Трудно избежать чувства тревоги из-за того, что я не нахожусь на переднем крае того, что коллективно возможно, отсюда случайные воскресные размышления и хорошая доля любопытства о том, что находят другие.
615,37K
Я получаю около 10 спам-звонков в день (различные автоматические голосовые сообщения, "предварительное одобрение кредита" и т.д.) и около 5 спам-сообщений в день (обычно фишинг).
- У меня есть AT&T Active Armor, но все вышеперечисленное все равно проходит.
- Все звонки и сообщения всегда от новых, уникальных номеров, поэтому блокировка не работает.
- Я везде в списках "Не беспокоить".
- У меня включена функция iOS "Молчание неизвестных абонентов", но даже если она их ловит и отключает, я все равно получаю уведомления.
Не уверен, видят ли другие люди что-то подобное или нашли что-то, что работает.
4,45K
Топ
Рейтинг
Избранное