Mix
OpenAI debuton modelin “omni” GPT-4o që fuqizon ChatGPT
OpenAI ka njoftuar një model të ri gjenerues të AI, të cilin e quajtën GPT-4o – “o” qëndron për “omni”, duke iu referuar aftësisë së modelit për të trajtuar tekstin, fjalimin (speech) dhe videon. GPT-4o është vendosur të shpërndahet “në mënyrë të përsëritur” në të gjithë zhvilluesit e kompanisë dhe produktet që përballen me konsumatorin gjatë javëve të ardhshme.
CTO e OpenAI, Mira Murati ka thënë se GPT-4o ofron inteligjencë të nivelit GPT-4, por përmirëson aftësitë e GPT-4 në shumë modalitete dhe media.
“GPT-4o arsye për zërin, tekstin dhe vizionin. Dhe kjo është tepër e rëndësishme, sepse ne po shikojmë të ardhmen e ndërveprimit midis nesh dhe makinerive”, ka pohuar Murati gjatë një prezantimi të transmetuar në zyrat e OpenAI në San Francisko.
GPT-4 Turbo , modeli i mëparshëm më i avancuar i OpenAI, u trajnua për një kombinim imazhesh dhe teksti dhe mund të analizonte imazhet dhe tekstin për të kryer detyra si nxjerrja e tekstit nga imazhet apo edhe përshkrimi i përmbajtjes së atyre imazheve. Por, GPT-4o shton fjalimin (speech).
Çfarë mundëson kjo? Një shumëllojshmëri gjërash.
GPT-4o përmirëson shumë përvojën në chatbot-in e hapur me AI, ChatGPT . Platforma ka ofruar prej kohësh një modalitet zanor që transkripton përgjigjet e chatbot-it duke përdorur një model “text-to-speech”, por GPT-4o e plotëson këtë, duke i lejuar përdoruesit të ndërveprojnë me ChatGPT më shumë si një asistent. Për shembull, përdoruesit mund t’i bëjnë një pyetje ChatGPT-së me fuqi GPT-4o dhe të ndërpresin ChatGPT ndërsa ai përgjigjet. Modeli ofron reagim në kohë reale, dhe madje mund të kuptojë nuancat në zërin e një përdoruesi, si përgjigje duke gjeneruar zëra në një varg stilesh të ndryshme emocionuese, përfshirë këndimin.
GPT-4o gjithashtu përmirëson aftësitë e vizionit të ChatGPT. Duke pasur parasysh një foto, ose një ekran desktopi, ChatGPT tani mund t’u përgjigjet shpejt pyetjeve të lidhura, nga temat që variojnë nga: “Çfarë po ndodh në këtë kod software-ësh?” tek “Çfarë marke këmishë ka veshur ky person?”.
Murati ka theksuar se këto karakteristika do të evoluojnë më tej në të ardhmen. Ndërsa sot GPT-4o mund të shikojë një fotografi të një menuje në një gjuhë tjetër dhe ta përkthejë atë, në të ardhmen, modeli mund të lejojë ChatGPT që, për shembull, të “shikojë” një lojë sportive live dhe t’ju shpjegojë rregullat.
“Ne e dimë që këto modele po bëhen gjithnjë e më komplekse, por ne duam që përvoja e ndërveprimit të bëhet në fakt më e natyrshme, e lehtë dhe që ju të mos përqendroheni fare në ndërfaqen e përdoruesit, por thjesht të përqendroheni në bashkëpunimin me ChatGPT. Për dy vitet e fundit, ne kemi qenë shumë të fokusuar në përmirësimin e inteligjencës së këtyre modeleve … Por kjo është hera e parë që ne po bëjmë vërtet një hap të madh përpara kur bëhet fjalë për lehtësinë e përdorimit”, shtoi Murati.
GPT-4o është gjithashtu më shumëgjuhësh, pretendon OpenAI, me performancë të përmirësuar në rreth 50 gjuhë. Dhe në API-në e OpenAI-t dhe Shërbimin Azure OpenAI të Microsoft-it , GPT-4o është dy herë më i shpejtë se gjysma e çmimit dhe ka kufij më të lartë të tarifave se GPT-4 Turbo, sipas kompanisë. Aktualisht, zëri nuk është pjesë e API-së GPT-4o për të gjithë klientët. OpenAI, duke përmendur rrezikun e keqpërdorimit, thotë se planifikon të nisë fillimisht mbështetjen për aftësitë e reja audio të GPT-4o për një grup të vogël partnerësh të besuar në javët e ardhshme.GPT-4o është i disponueshëm në nivelin falas të ChatGPT dhe për abonentët në planet premium të OpenAI ChatGPT Plus dhe Team me kufij mesazhesh 5 herë më të larta. (OpenAI vëren se ChatGPT do të kalojë automatikisht në GPT-3.5 , një model më i vjetër dhe më pak i aftë, kur përdoruesit të arrijnë kufirin e tarifës.) Përvoja e përmirësuar e zërit ChatGPT e mbështetur nga GPT-4o do të arrijë në alfa për përdoruesit e Plus në muajin e ardhshëm ose, krahas opsioneve të përqendruara në ndërmarrje.
Në lajmet përkatëse, OpenAI njoftoi se po lëshon një ndërfaqe të rifreskuar të ChatGPT në web me një ekran të ri, “më bisedues” në bazë dhe paraqitjen e mesazheve, dhe një version desktop të ChatGPT për macOS që lejon përdoruesit të bëjnë pyetje nëpërmjet një shkurtoreje tastierë ose të marrin dhe diskutojnë pamjet e ekranit. Përdoruesit e ChatGPT Plus do të kenë akses të parë në aplikacion dhe një version i Windows do të arrijë më vonë gjatë vitit. Ndërkohë, GPT Store , biblioteka e OpenAI dhe mjetet e krijimit për chatbot të palëve të treta të ndërtuara në modelet e tij të AI, tani janë në dispozicion për përdoruesit e nivelit të lirë të ChatGPT. Dhe përdoruesit pa pagesë mund të përfitojnë nga veçoritë e ChatGPT që ishin më parë me pagesë, si një aftësi memorie që lejon ChatGPT të kujtojë preferencat për ndërveprimet e ardhshme, të ngarkojë skedarë dhe foto dhe të kërkojë në web përgjigje për pyetjet në kohë.