ایلیا سوتسکور، دانشمند ارشد OpenAI، زمانی که من یک ساعت پس از اعلام در یک تماس ویدیویی با اعضای تیم GPT-4 صحبت کردم، گفت: “می دانید، این چیزی است که می دانید، ما واقعاً نمی توانیم در حال حاضر درباره آن اظهار نظر کنیم.” “این خارج از کشور بسیار رقابتی است.”
GPT-4 یک مدل زبان بزرگ چندوجهی است، به این معنی که می تواند هم به متن و هم به تصاویر پاسخ دهد. یک عکس از محتویات یخچال خود به آن بدهید و از او بپرسید که چه چیزی می توانید درست کنید، و GPT-4 سعی خواهد کرد دستور العمل هایی را ارائه کند که از مواد تشکیل دهنده تصویر استفاده می کنند. Sutskever میگوید که در توضیح جوکها نیز عالی است: “اگر یک میم به آن نشان دهید، میتواند به شما بگوید که چرا خندهدار است.”
دسترسی به GPT-4 برای کاربرانی که در لیست انتظار ثبتنام میکنند و مشترکین چتجیپیتی پلاس با ظرفیت محدود و فقط متنی در دسترس خواهد بود.
اورن اتزیونی در موسسه آلن برای هوش مصنوعی می گوید: «پیشرفت های مستمر در بسیاری از ابعاد قابل توجه است. “GPT-4 اکنون استانداردی است که تمام مدل های پایه توسط آن ارزیابی می شوند.”
توماس ولف، یکی از بنیانگذاران Hugging Face، استارتاپ هوش مصنوعی پشت مدل زبان بزرگ منبع باز BLOOM، می گوید: «یک مدل چندوجهی خوب، جام مقدس بسیاری از آزمایشگاه های بزرگ فناوری در چند سال گذشته بوده است. “اما این گریزان مانده است.”
در تئوری، ترکیب متن و تصاویر میتواند به مدلهای چندوجهی اجازه دهد جهان را بهتر درک کنند. ولف میگوید: «ممکن است بتواند با نقاط ضعف سنتی مدلهای زبانی، مانند استدلال فضایی، مقابله کند.
هنوز مشخص نیست که آیا این برای GPT-4 درست است یا خیر. به نظر میرسد مدل جدید OpenAI در برخی استدلالهای اساسی بهتر از ChatGPT است و معماهای سادهای مانند خلاصه کردن بلوکهای متن در کلماتی که با یک حرف شروع میشوند را حل میکند. در نسخه نمایشی من در طول تماس، GPT-4 به من نشان داده شد که با استفاده از کلماتی که با g شروع میشود، بیانیههای اعلانات را از وبسایت OpenAI خلاصه میکند: «GPT-4، رشد نسل پیشگامانه، نمرات بیشتری کسب میکند. حفاظ ها، راهنمایی ها و دستاوردها به دست آمد. غول پیکر، پیشگامانه و با استعداد جهانی.” در نسخه ی نمایشی دیگری، GPT-4 سندی را در مورد مالیات دریافت کرد و با ذکر دلایلی برای پاسخ به سؤالات مربوط به آن پاسخ داد.