Apple : quelle est cette nouvelle approche qui défie ChatGPT ?

Apple a trouvé une nouvelle approche pour que l’IA puisse mieux nous comprendre.

Publié le 3 avril 2024 à 13 h 32 min

Alors que les sociétés comme Google ou Microsoft enchaînent les annonces en lien avec l’IA, Apple reste très discret à ce sujet. La firme de Cupertino s’est contentée de conformée qu’elle travaille sur l’IA générative, et qu’elle fera une annonce, cette année. Mais, en coulisse, Apple travaillent à fond sur l’IA. Et récemment, un groupe de chercheurs de la firme de Cupertino a publié un article scientifique sur Arxiv, qui décrit une nouvelle approche qui pourrait révolutionner la façon dont nous interagissons avec l’intelligence artificielle générative.

Ces dernières années, les grands modèles de langage, comme GPT-4 ou Gemini de Google, ont démontré leurs performances. Cependant, selon l’article d’Apple, cette technologie est encore sous-exploitée pour le traitement des informations non conversationnelles, comme les éléments présents sur l’écran d’un appareil, ou encore des tâches en arrière-plan. Or, pour que les interactions avec l’IA soient naturelles, celle-ci doit être en mesure de répondre à l’utilisateur en tenant compte du contexte et en comprenant les références ambiguës.

Pour résoudre ce problème, Apple a développé un modèle appelé ReALM ou Reference Resolution As Language Modeling, avec une toute nouvelle approche. En substance, celle-ci consiste à convertir les éléments non conversationnels, comme les éléments présents sur l’écran de l’utilisateur, en données textuelles qui peuvent être traitées par l’IA. Résultat : un utilisateur peut interagir avec un assistant qui comprend ce qu’il y a sur son écran. Dans un exemple fourni par Apple, l’utilisateur demande une liste de pharmacies à proximité. Quand la liste s’affiche, celui-ci peut ensuite demander à l’assistant d’appeler un élément spécifique ou d’appeler “celui qui est en bas”. Grâce à l’approche d’Apple, l’IA connaît la position des différents éléments présents sur l’écran, ainsi que leurs positions.

Plus adapté que ChatGPT

En tout cas, grâce à cette nouvelle approche, Apple revendique de meilleures performances que GPT-4, le modèle d’OpenAI, qui est pourtant capable de recevoir des captures d’écran dans ses prompts. “Nous démontrons de grandes améliorations par rapport à un système existant avec des fonctionnalités similaires sur différents types de références, notre plus petit modèle obtenant des gains absolus de plus de 5 % pour les références à l’écran. Nous nous comparons également aux GPT-3.5 et GPT-4, notre plus petit modèle atteignant des performances comparables à celles du GPT-4, et nos plus grands modèles les surpassant considérablement”, lit-on dans la publication d’Apple.

De plus, ReaLM a nettement moins de paramètres que le modèle le plus récent d’OpenAI. De ce fait, Apple estime que, sans “compromettre les performances”, son modèle est le choix idéal pour “un système de résolution de référence pratique qui peut exister sur l’appareil”. Évidemment, ces travaux nous font rêver d’une nouvelle version de Siri qui serait plus intelligente, et capable de comprendre les références ambiguës à des éléments sur l’écran ou à des applications en arrière-plan. Malheureusement, pour connaître les nouveautés de Siri et d’iOS 18, dont celles qui sont liées à l’intelligence artificielle, il faudra attendre la conférence WWDC du mois de juin.

Apple n’a pas encore présenté de produits basés sur l’IA générative, mais il travaille sur cette technologie en coulisse
Dans un article scientifique, des chercheurs d’Apple présentent un modèle appelé ReALM, qui a un gros avantage sur les modèles tels que GPT-4
Celui-ci comprendrait mieux les éléments non conversationnels comme les objets sur l’écran, ou les activités qui se déroulent en arrière-plan sur un appareil

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.