{"id":471,"date":"2024-04-02T14:01:58","date_gmt":"2024-04-02T12:01:58","guid":{"rendered":"https:\/\/blog.uclm.es\/proyectosciencuenca\/?p=471"},"modified":"2024-04-02T14:01:58","modified_gmt":"2024-04-02T12:01:58","slug":"chatgpt-4-superado-por-claude-3-opus-segun-los-usuaris","status":"publish","type":"post","link":"https:\/\/blog.uclm.es\/proyectosciencuenca\/2024\/04\/02\/chatgpt-4-superado-por-claude-3-opus-segun-los-usuaris\/","title":{"rendered":"Chatgpt-4, superado por Claude 3 Opus, seg\u00fan los usuari@s"},"content":{"rendered":"\n<p><a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/rivales-gpt-4-no-han-logrado-plantarle-cara-jamas-eso-acaba-cambiar-nuevo-rey-chatbots\">Noticia de <strong>Javier Pastor<\/strong> (Xataka)<\/a><\/p>\n\n\n\n<p>OpenAI ha dominado con mano de hierro el segmento de los modelos de IA generativa de texto. Desde que lanz\u00f3 ChatGPT, la capacidad de su chatbot ha estado siempre por encima de sus competidores, que&nbsp;<strong>lo utilizaban como vara de medir<\/strong>: cada vez que sal\u00eda un nuevo chatbot, este promet\u00eda que era mejor que ChatGPT seg\u00fan ciertos benchmarks.<\/p>\n\n\n\n<p>Lo cierto es que aunque en pruebas sint\u00e9ticas eso pod\u00eda ser verdad, la experiencia de usuario dec\u00eda lo contrario. La primera versi\u00f3n de ChatGPT, basada en GPT-3.5, ya mostraba sus poderes desde el principio, pero fue el lanzamiento de GPT-4 (usado en ChatGPT Plus y base tambi\u00e9n de Copilot, antes Bing Chat) el que puso claramente el LLM de OpenAI por encima del resto. Los dem\u00e1s iban a la zaga, y aunque mejoraban, no lograban \u00abtransmitir\u00bb un mejor comportamiento cuando los us\u00e1bamos.<\/p>\n\n\n\n<p>Eso acaba de cambiar seg\u00fan&nbsp;<a href=\"https:\/\/huggingface.co\/spaces\/lmsys\/chatbot-arena-leaderboard\">Chatbot Arena<\/a>, un ranking cada vez m\u00e1s prestigioso que fue creado por la organizaci\u00f3n Large Model Systems (LMSYS ORG) en colaboraci\u00f3n con varias instituciones acad\u00e9micas. Su calificaci\u00f3n y clasificaci\u00f3n de grandes modelos de lenguaje se ha convertido en todo un referente, y lo es porque es especialmente distinto de otras herramientas de este tipo.<\/p>\n\n\n\n<p>Lo que se hace en Chatbot Arena es permitir que los usuarios voten por el modelo que mejor responde a sus consultas.&nbsp;<a href=\"https:\/\/chat.lmsys.org\/\">Cualquiera puede participar<\/a>, y gracias a ello este ranking permite tener en cuenta no solo par\u00e1metros t\u00e9cnicos de modelos como GPT-4, sino tambi\u00e9n la experiencia de usuario que ofrece. As\u00ed,&nbsp;<strong>lo que los usuarios piensan de cada chatbot acaba siendo tan importante<\/strong>&nbsp;como lo que dicen las pruebas sint\u00e9ticas. O m\u00e1s.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/i.blogs.es\/2657f8\/ranking\/450_1000.jpeg\" alt=\"Ranking\" \/><\/figure>\n\n\n\n<p>Y como comentan&nbsp;<a href=\"https:\/\/www.genbeta.com\/inteligencia-artificial\/modelo-inteligencia-artificial-popular-ha-sido-destronado-saludad-al-nuevo-rey?mrfhud=true\">nuestros compa\u00f1eros de Genbeta<\/a>, los votos de 400.000 usuarios han permitido dejar claro que hoy por hoy GPT-4 ha sido superado. Lo ha sido por Claude 3 Opus, el modelo que la firma Anthropic&nbsp;<a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/anthropic-quiere-desafiar-hegemonia-chatgpt-claude-3-multimodal-puede-absorber-150-000-palabras-consulta\">present\u00f3 hace pocas semanas<\/a>&nbsp;y que es (por poco) el ganador en&nbsp;<strong>esa particular puntuaci\u00f3n ELO<\/strong>&nbsp;\u2014un concepto adaptado del mundo del ajedrez\u2014 que en Chatbot Arena asignan a cada modelo.<\/p>\n\n\n\n<p>Es cierto que la diferencia con GPT-4 es muy peque\u00f1a, pero a\u00fan as\u00ed esto representa un singular punto de inflexi\u00f3n que demuestra que hay una sana competencia en el mundo de los chatbots. Gemini Pro es el cuarto clasificado, mientras que Mistral, el chatbot de la startup francesa, ocupa la octava plaza. Es cierto que las variantes de GPT-4 copan el ranking, pero a\u00fan as\u00ed el avance aqu\u00ed de Anthropic es una excelente noticia para la competitividad en este mercado.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/i.blogs.es\/fb9721\/leader\/450_1000.png\" alt=\"Leader\" \/><\/figure>\n\n\n\n<p>Otros estudios recientes parecen confirmar el auge de Claude 3. Lo hace por ejemplo el llamado&nbsp;<a href=\"https:\/\/gorilla.cs.berkeley.edu\/blogs\/8_berkeley_function_calling_leaderboard.html\">Berkeley Function-Calling Leaderboard<\/a>&nbsp;(BFCL), un nuevo conjunto de pruebas que no eval\u00faan el comportamiento de preguntas y respuestas de los chatbots, sino su capacidad para convertirse en la base de los futuros y cada vez m\u00e1s&nbsp;<a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/chatbots-como-chatgpt-se-nos-quedan-cortos-puede-que-proxima-revolucion-sean-agentes-ia\">populares agentes de IA<\/a>.<\/p>\n\n\n\n<p>En este benchmark Claude 3 Opus fue superior a GPT-4, que una vez m\u00e1s&nbsp;<a href=\"https:\/\/gorilla.cs.berkeley.edu\/leaderboard.html\">domin\u00f3 el ranking<\/a>&nbsp;aunque tambi\u00e9n se met\u00eda en esa particular clasificaci\u00f3n Mistral. Parece por tanto que esa&nbsp;<strong>capacidad de \u00abconectarse\u00bb con otros servicios<\/strong>&nbsp;a trav\u00e9s de funciones en lenguajes como Java, JavaScript, Python, consultas SQL o llamadas a APIs REST es especialmente destacable en el modelo de Anthropic, que desde luego tiene un futuro prometedor.<\/p>\n\n\n\n<p>Estos rankings, eso s\u00ed,&nbsp;<strong>no parar\u00e1n de cambiar<\/strong>&nbsp;a corto y medio plazo: la evoluci\u00f3n de estos LLMs sigue siendo fren\u00e9tica y de hecho los indicios apuntan a que&nbsp;<a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/gpt-5-esta-a-vuelta-esquina-openai-se-prepara-para-lanzar-su-nuevo-modelo-ia-a-mediados-ano-insider\">GPT-5 est\u00e1 a la vuelta de la esquina<\/a>. Mientras, los modelos que aprovechan licencias Open Source como Llama 2 o Grok \u2014que&nbsp;<a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/elon-musk-xai-cumplen-su-promesa-abren-su-chatbot-grok-como-open-source-modelo-gigantesco\">acaba de estrenarse<\/a>&nbsp;en ese apartado\u2014 podr\u00edan tambi\u00e9n comenzar a ganar enteros en todos estos apartados.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Noticia de Javier Pastor (Xataka) OpenAI ha dominado con mano de hierro el segmento de los modelos de IA generativa de texto. Desde que lanz\u00f3 ChatGPT, la capacidad de su chatbot ha estado siempre por encima de sus competidores, que&nbsp;lo &hellip; <a href=\"https:\/\/blog.uclm.es\/proyectosciencuenca\/2024\/04\/02\/chatgpt-4-superado-por-claude-3-opus-segun-los-usuaris\/\">Sigue leyendo <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":441,"featured_media":472,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-471","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sin-categoria"],"_links":{"self":[{"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/posts\/471","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/users\/441"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/comments?post=471"}],"version-history":[{"count":1,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/posts\/471\/revisions"}],"predecessor-version":[{"id":473,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/posts\/471\/revisions\/473"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/media\/472"}],"wp:attachment":[{"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/media?parent=471"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/categories?post=471"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.uclm.es\/proyectosciencuenca\/wp-json\/wp\/v2\/tags?post=471"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}