Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construindo @EurekaLabsAI. Anteriormente Diretor de AI @ Tesla, equipe fundadora @ OpenAI, CS231n/PhD @ Stanford. Eu gosto de treinar grandes redes neurais profundas.
Post novo rápido: Auto-avaliando discussões de Hacker News de décadas atrás com retrospectiva
Peguei todo o artigo de capa do 930 Hacker News + discussão de dezembro de 2015 e pedi à API de Pensamento do GPT 5.1 que fizesse uma análise retrospectiva para identificar os comentários mais ou menos prescientes. Isso levou ~3 horas para o vibe code e ~1 hora e $60 para rodar. A ideia surgiu ontem com o artigo da HN, onde o Gemini 3 foi convidado a alucinar a capa da HN uma década depois.
De forma mais geral:
1. Análise retrospectiva sempre me fascinou como uma forma de treinar seu modelo de previsão futura, então ler os resultados é realmente interessante e
2. vale a pena pensar como será quando os Megaminds LLM do futuro podem fazer esse tipo de trabalho muito mais barato, rápido e melhor. Cada pedaço de informação que você contribui para a internet pode (e provavelmente será) analisado em detalhes se for "gratuito". Por isso também meu tweet anterior de um tempo atrás - "seja bom, futuros LLMs estão de olho".
Parabéns às 10 principais contas pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth e johncolanduoni - GPT 5.1. O Thinking achou seus comentários os mais perspicazes e perspicazes de todos os comentários sobre HN em dezembro de 2015.
Links:
- Muito mais detalhes no meu post no blog
- Repositório do projeto no GitHub caso você queira jogar
- As páginas de resultados reais para seu prazer de leitura

43,27K
No episódio de hoje do programa de horror...
Na documentação em Python do random.seed() def, nos disseram
"Se a for um int, ele é usado diretamente." [1]
Mas se você semear com 3 ou -3, na verdade obtém exatamente o mesmo objeto de RNG, produzindo os mesmos fluxos. (Aprendi hoje). No NanoChat, eu estava usando o sinal como uma forma (que eu achava que era) inteligente para obter diferentes sequências de RNG para divisões de tren/teste. Daí bug nojento porque agora treino = teste.
Achei o código CPython responsável em cpython/Modules/_randommodule.c [2], onde na linha 321 vemos em um comentário:
"Esse algoritmo depende do número ser não sinalizado. Então: se o arg for um PyLong, use seu valor absoluto." seguido de
n = PyNumber_Absolute(arg);
que explicitamente chama abs() na sua seed para torná-la positiva, descartando o bit de sinal.
Mas esse comentário também está errado/enganoso. Por trás do capot, o Python chama o algoritmo Mersenne Twister MT19937, que no caso geral tem 19937 bits (não zero) de estado. Python pega sua int (ou outros objetos) e "espalha" essa informação entre esses bits. Em princípio, o bit de sinal poderia ter sido usado para aumentar os bits de estado. Não há nada no algoritmo que "dependa do número ser não sinalizado". Foi tomada a decisão de não incorporar a parte do sinal (o que, na minha opinião, foi um erro). Um exemplo trivial poderia ter sido mapear n -> 2*abs(n) + int(n < 0).
Finalmente, isso nos leva ao contrato do aleatório de Python, que também não está totalmente detalhado na documentação. O contrato mencionado é o seguinte:
Mesma semente = > mesma sequência.
Mas não há garantia de que sementes diferentes produzam sequências diferentes. Então, em princípio, o Python não promete que, por exemplo, seed(5) e seed(6) sejam fluxos de RNG diferentes. (Embora isso seja bastante comumente assumido implicitamente em muitas aplicações.) De fato, vemos que seed(5) e seed(-5) são fluxos idênticos. E provavelmente você não deveria usá-los para separar seus comportamentos de treino/teste em aprendizado de máquina. Uma das armas de footgun de horror de programação mais divertidas que encontrei recentemente. Nos vemos no próximo episódio.
[1]
[2]

570,75K
Não pense nos LLMs como entidades, mas sim como simuladores. Por exemplo, ao explorar um tema, não pergunte:
"O que você acha de xyz"?
Não existe um "você". Da próxima vez, tente:
"Qual seria um bom grupo de pessoas para explorar xyz? O que eles diriam?"
O LLM pode canalizar/simular muitas perspectivas, mas não "pensa" em xyz há um tempo e com o tempo e formou suas próprias opiniões do jeito que estamos acostumados. Se você forçar isso usando "você", ele vai te dar algo ao adotar um vetor de embedding de personalidade implícito pelas estatísticas dos seus dados de ajuste fino e então simular isso. Tudo bem fazer isso, mas há muito menos mistério do que as pessoas ingenuamente atribuem a "perguntar para uma IA".
400,33K
Melhores
Classificação
Favoritos
