Modelos de linguagem baseados em Inteligência Artificial, como o ChatGPT da OpenAI, estão transformando as interações humanas com a tecnologia e sendo cada vez mais utilizados em campos como a educação. Observa-se, especialmente em cursos de ciências do ensino superior, que estudantes já utilizam amplamente esses recursos tecnológicos como suporte ao aprendizado ou estratégia para resolução de problemas. Contudo, há debates sobre os impactos disso no desenvolvimento cognitivo dos alunos. Nesse contexto de emergência, é indispensável aprofundar a compreensão e estabelecer comparações acerca das habilidades e limitações dos modelos de linguagem de IA, especialmente quando empregados em ambientes educacionais. Este trabalho se propõe a analisar respostas dos modelos de linguagem de IA, GPT-3.5 e GPT-4, quando aplicados a problemas de Mecânica Clássica de ensino superior. Utiliza-se a Taxonomia de Bloom Revisada como base para avaliação, que categoriza os objetivos de aprendizagem em seis níveis de complexidade e abstração. Os modelos responderam a problemas selecionados de um livro-texto de física. Os resultados demonstram que há avanços na capacidade dos modelos de linguagem em lidar com problemas de Mecânica Clássica do GPT-3.5 para o GPT-4. No entanto, nenhum dos modelos atingiu o nível mais alto da taxonomia, "criar". A abordagem proposta neste trabalho permitiu uma análise mais refinada da capacidade de simulação cognitiva dos modelos de linguagem, destacando sua eficiência parcial em resolver problemas de física e identificando os níveis cognitivos necessários para as respostas.