شرکت اوپنایآی(OpenAI) ادعا میکند که مدل رایگان GPT-۴o آن میتواند مانند یک انسان صحبت کند، بخندد، آواز بخواند و ببیند. این شرکت همچنین در حال انتشار یک برنامه مخصوص دسکتاپ از مدل زبان بزرگ ChatGPT است.
به گزارش ایسنا، شرکت اوپنایآی روز گذشته مدل هوش مصنوعی GPT-۴o را معرفی کرد که یک مدل کاملاً جدید از هوش مصنوعی این شرکت است که به گفته اوپنایآی یک گام به تعامل بسیار طبیعیتر میان انسان و رایانه نزدیکتر شده است.
این مدل جدید، هر ترکیبی از متن، صدا و تصویر را به عنوان ورودی میپذیرد و میتواند خروجی را در هر سه فرمت تولید کند. همچنین میتواند احساسات را تشخیص دهد، به کاربر امکان میدهد آن را در اواسط گفتار قطع کند و تقریباً به سرعت یک انسان در طول مکالمه پاسخ میدهد.
میرا موراتی مدیر ارشد فناوری شرکت اوپنایآی در پخش زنده معرفی این مدل جدید گفت: نکته ویژه در مورد GPT-۴o این است که هوش سطح GPT-۴ برای همه، از جمله کاربران رایگان ما در دسترس قرار گرفته است. این اولین بار است که ما در مورد سهولت استفاده گام بزرگی رو به جلو برمیداریم.
اوپنایآی در طول معرفی این مدل، GPT-۴o را نشان داد که به صورت زنده بین انگلیسی و ایتالیایی ترجمه میکند، با توانایی درک بصری به یک پژوهشگر کمک میکند یک معادله خطی را در لحظه بر روی کاغذ حل کند و تنها با گوش دادن به نفسهای یکی از مدیران اوپنایآی درباره تنفس عمیق به او راهنمایی میدهد.
حرف «o» در اسم مدل GPT-۴o مخفف واژه «omni» است که اشارهای به قابلیتهای چندوجهی این مدل است.
اوپنایآی گفت که GPT-۴o با متن، تصویر و صدا آموزش داده شده است، به این معنی که تمام ورودیها و خروجیها توسط یک شبکه عصبی پردازش میشوند. این با مدلهای قبلی این شرکت شامل GPT-۳.۵ و GPT-۴ متفاوت است که به کاربران اجازه میدادند تنها با صحبت کردن سؤال بپرسند، اما سپس سخنان را به متن تبدیل میکردند. این موجب میشد لحن و احساسات از بین برود و تعاملات کندتر شود.
شرکت اوپنایآی این مدل جدید را طی چند هفته آینده آینده به صورت رایگان در دسترس همگان از جمله کاربران ChatGPT قرار میدهد و همچنین نسخه دسکتاپ ChatGPT را در ابتدا برای رایانههای شرکت اپل(Mac) منتشر میکند که کاربرانی که اشتراک خریداری کردهاند، از امروز به آن دسترسی خواهند داشت.
معرفی مدل جدید اوپنایآی یک روز قبل از برگزاری رویداد گوگل I/O که کنفرانس سالانه توسعه دهندگان این شرکت است، انجام گرفت.
گفتنی است که مدت کوتاهی پس از اینکه اوپنایآی GPT-۴o را معرفی کرد، گوگل نیز نسخهای از هوش مصنوعی خود موسوم به جمینای(Gemini) را با قابلیتهای مشابه به نمایش گذاشت.
در حالی که مدل GPT-۴ در وظایف مربوط به تجزیه و تحلیل تصاویر و متن برتر بود، مدل GPT-۴o پردازش گفتار را ادغام میکند و طیف قابلیتهای آن را گسترش میدهد.
تعامل طبیعی انسان و رایانه
طبق گفته اوپنایآی، مدل GPT-۴o گامی به سوی تعامل بسیار طبیعیتر انسان و رایانه است که هر ترکیبی از متن، صدا و تصویر را به عنوان ورودی میپذیرد و هر ترکیبی از متن، صدا و تصویر را تولید میکند.
این مدل میتواند به ورودیهای صوتی در کمتر از ۲۳۲ میلیثانیه و با میانگین سرعت ۳۲۰ میلیثانیه پاسخ دهد که مشابه زمان پاسخدهی انسانها در مکالمه است.
این مدل عملکرد مدل GPT-۴ Turbo روی متن زبان انگلیسی و کد را با بهبود قابل توجهی در تبدیل متن به زبانهای غیرانگلیسی مطابقت میدهد، در حالی که در واسطه برنامهنویسی کاربردی(API) بسیار سریعتر و ۵۰ درصد ارزانتر است. مدل GPT-۴o به ویژه در درک تصویری و صوتی در مقایسه با مدلهای موجود بهتر است.
معرفی این مدل دقیقا چه معنایی برای کاربران دارد؟
مدل GPT-۴o به طور قابل توجهی تجربه ChatGPT را که ربات گفتگوگر هوش مصنوعی بسیار محبوب اوپنایآی است، افزایش میدهد. کاربران اکنون میتوانند مانند یک دستیار شخصی با ChatGPT تعامل داشته باشند، از آن سؤال بپرسند و حتی آن را در هر جای دلخواه قطع کنند.
علاوه بر این، همانطور که گفته شد اوپنایآی نسخه دسکتاپ ChatGPT را در کنار یک رابط کاربری اصلاح شده معرفی میکند.
موراتی تاکید کرد: ما پیچیدگی فزاینده این مدلها را تشخیص میدهیم، اما هدف ما این است که تجربه تعامل را بصریتر و یکپارچهتر کنیم. ما میخواهیم کاربران به جای اینکه حواسشان به رابط کاربری پرت شود، روی همکاری با GPT تمرکز کنند. مدل جدید ما میتواند متن، صدا و ویدیو را در لحظه استدلال کند. این مدل همهکاره است، کار با آن سرگرم کننده است و گامی به سوی شکل بسیار طبیعیتر تعامل انسان و رایانه و حتی تعامل انسان-رایانه-رایانه است.
مدل GPT-۴o همچنین با بیش از ۷۰ متخصص در حوزههایی مانند روانشناسی اجتماعی، سوگیری و انصاف و اطلاعات نادرست برای شناسایی خطراتی که با روشهای جدید اضافه شده معرفی یا تقویت میشوند، تحت بررسی گستردهای قرار گرفته است. اوپنایآی از این یادگیریها برای ایجاد مداخلات ایمنی به منظور بهبود ایمنی تعامل با GPT-۴o استفاده کرده است.
اعضای تیم اوپنایآی در معرفی عمومی این مدل جدید، مهارت صوتی آن را به نمایش گذاشتند. یک پژوهشگر به نام مارک چن بر توانایی آن در سنجش احساسات تاکید کرد و به سازگاری آن با وقفههای کاربر اشاره کرد.
چن تطبیق پذیری این مدل را با درخواست یک داستان قبل از خواب با لحنهای متنوع، از دراماتیک تا رباتیک نشان داد و حتی از آن خواست که آن را برایش بخواند.
همانطور که گفته شد این مدل جدید برای همه کاربران ChatGPT به صورت رایگان در دسترس قرار میگیرد. تاکنون مدلهای کلاس GPT-۴ فقط برای افرادی که اشتراک ماهانه پرداخت میکردند، در دسترس بود.
سام آلتمن مدیرعامل اوپنایآی گفت: این برای ما مهم است، چرا که ما میخواهیم ابزارهای هوش مصنوعی عالی را در دسترس همگان قرار دهیم.
بازار قوی برای هوش مصنوعی مولد
شرکت اوپنایآی در کنار مایکروسافت و گوگل در حوزه هوش مصنوعی مولد پیشتاز است، زیرا شرکتها در بخشهای مختلف عجله دارند تا چتباتها یا رباتهای گفتگوگر مبتنی بر هوش مصنوعی خود را در خدمات خود ادغام کنند تا رقابتی باقی بمانند.
به عنوان مثال شرکت آنتروپیک(Anthropic) که رقیب اوپنایآی محسوب میشود، به تازگی از اولین پیشنهاد سازمانی خود به شرکت اپل برای ارائه یک برنامه رایگان برای گوشیهای آیفون پرده برداشت.
اوپنایآی در بیانیهای گفت: ما متوجهیم که ارائههای صوتی GPT-۴o خطرات جدیدی را به همراه دارد. امروز ما ورودیهای متن و تصویر و خروجی متن را به صورت عمومی منتشر میکنیم و در هفتهها و ماههای آینده روی زیرساختهای فنی، قابلیت استفاده پس از آموزش و ایمنی لازم برای انتشار سایر روشها کار خواهیم کرد. به عنوان مثال در هنگام راهاندازی، خروجیهای صوتی به مجموعهای از صداهای از پیش تعیین شده محدود میشود و از سیاستهای ایمنی موجود ما تبعیت میکند. ما جزئیات بیشتری را در مورد طیف کامل روشهای GPT-۴o در سیستم آینده به اشتراک خواهیم گذاشت.
بر اساس گزارش، بازار هوش مصنوعی مولد شاهد سرمایهگذاری خیره کننده ۲۹.۱ میلیارد دلاری در نزدیک به ۷۰۰ معامله در سال ۲۰۲۳ بود که بیش از ۲۶۰ درصد نسبت به سال قبل افزایش داشت. پیشبینیها حاکی از آن است که بازدهی این بازار در دهه آینده از یک تریلیون دلار فراتر رود.
با این حال، نگرانیها در مورد استقرار سریع خدمات آزمایشنشده توسط دانشگاهیان و اخلاقگراهایی که از پتانسیل این فناوری برای تداوم تعصبات مشکل دارند، وجود دارد.
چتبات ChatGPT از زمان راهاندازی در نوامبر ۲۰۲۲ رکوردهایی را به عنوان سریعترین رشد مصرفکننده در تاریخ شکسته است و تقریباً ۱۰۰ میلیون کاربر فعال هفتگی دارد. اوپنایآی گزارش میدهد که بیش از ۹۲ درصد از ۵۰۰ شرکت برتر دنیا از آن استفاده میکنند.
در رویداد معرفی شب گذشته موراتی به پاسخ به برخی از سوالات مخاطبان پرداخت و وقتی او به زبان ایتالیایی روان صحبت کرد و هوش مصنوعی صحبتهای وی را به انگلیسی ترجمه کرد، سالن مملو از شور و هیجان شد.
چیزهای بیشتری نیز وجود دارد. این یعنی دفعه بعد که سلفی میگیرید، هوش مصنوعی اوپنایآی میتواند احساسات دقیق شما را ارزیابی کند. تنها کاری که باید انجام دهید این است که یک عکس سلفی را انتخاب کنید و از ChatGPT بخواهید که احساس شما را مشخص کند.
گفتنی است که عوامل شرکت اوپنایآی آنقدر خوشحال بودند که ChatGPT از آنها دلیل خوشحالی شدیدشان را جویا شد!