ChatGPT اکنون می تواند ببیند، بشنود و صحبت کند

ما شروع به ارائه قابلیت های صوتی و تصویری جدید در ChatGPT کرده ایم. به صورتی که به شما امکان می دهیم مکالمه صوتی داشته باشید یا آنچه را که در مورد آن صحبت می کنید به ChatGPT نشان دهید.

صدا و تصویر راه های بیشتری برای استفاده از ChatGPT در زندگی خود به شما می دهد. هنگام سفر از یک مکان دیدنی عکس بگیرید و در مورد چیزهای جالب آن گفتگوی زنده داشته باشید. وقتی در خانه هستید، از یخچال و انباری خود عکس بگیرید تا بفهمید چه چیزی برای شام است (و سؤالات بعدی را برای دستور پخت مرحله به مرحله بپرسید). بعد از شام، با گرفتن عکس، دور مجموعه مسائل و به اشتراک گذاشتن نکات، به فرزندتان کمک کنید تا مشکل ریاضی را حل کند.

ما در دو هفته آینده صدا و تصاویر را در ChatGPT برای کاربران Plus و Enterprise عرضه می کنیم. Voice در iOS و Android ارائه می شود (در تنظیمات خود انتخاب کنید) و تصاویر در همه سیستم عامل ها در دسترس خواهند بود.

با ChatGPT صحبت کنید و از آن بخواهید پاسخ دهد

اکنون می توانید از صدا برای درگیر شدن در یک مکالمه رفت و برگشت با دستیار خود استفاده کنید. در حال حرکت با آن صحبت کنید، یک داستان قبل از خواب برای خانواده خود درخواست کنید، یا یک بحث میز شام را حل کنید.

برای شروع کار با صدا، به تنظیمات ← ویژگی‌های جدید در برنامه تلفن همراه بروید و مکالمات صوتی را انتخاب کنید. سپس، روی دکمه هدفون واقع در گوشه سمت راست بالای صفحه اصلی ضربه بزنید و صدای دلخواه خود را از بین پنج صدای مختلف انتخاب کنید.

قابلیت صوتی جدید توسط یک مدل جدید تبدیل متن به گفتار ارائه می‌شود که قادر به تولید صدای انسان‌مانند فقط از متن و چند ثانیه نمونه گفتار است. ما با صداپیشگان حرفه ای برای ایجاد هر یک از صداها همکاری کردیم. ما همچنین از Whisper، سیستم تشخیص گفتار منبع باز خود، برای رونویسی کلمات گفتاری شما به متن استفاده می‌کنیم.

گپ در مورد تصاویر

اکنون می توانید به ChatGPT یک یا چند تصویر را نشان دهید. عیب‌یابی کنید که چرا گریل شما آماده نمی‌شود، محتویات یخچال خود را برای برنامه‌ریزی یک وعده غذایی کاوش کنید، یا نمودار پیچیده‌ای را برای داده‌های مربوط به کار تجزیه و تحلیل کنید. برای تمرکز روی قسمت خاصی از تصویر، می توانید از ابزار طراحی در اپلیکیشن موبایل ما استفاده کنید.

برای شروع، روی دکمه عکس ضربه بزنید تا عکسی بگیرید یا انتخاب کنید. اگر از iOS یا Android استفاده می کنید، ابتدا روی دکمه پلاس ضربه بزنید. همچنین می توانید در مورد چندین تصویر بحث کنید یا از ابزار طراحی ما برای راهنمایی دستیار خود استفاده کنید.

درک تصویر توسط GPT-3.5 و GPT-4 چند وجهی ارائه می شود. این مدل‌ها مهارت‌های استدلال زبانی خود را در طیف وسیعی از تصاویر، مانند عکس‌ها، اسکرین‌شات‌ها و اسنادی که هم متن و هم تصاویر دارند، اعمال می‌کنند.

 

ما به تدریج قابلیت های تصویر و صدا را گسترش می دهیم

هدف OpenAI ساخت AGI ایمن و مفید است. ما معتقدیم که ابزارهای خود را به تدریج در دسترس قرار می دهیم، که به ما امکان می دهد در طول زمان بهبودها و کاهش خطرات را اصلاح کنیم و در عین حال همه را برای سیستم های قدرتمندتر در آینده آماده کنیم. این استراتژی با مدل های پیشرفته شامل صدا و بینایی اهمیت بیشتری پیدا می کند.

  • صدا

فناوری صوتی جدید – که قادر به ساخت صداهای مصنوعی واقعی از تنها چند ثانیه گفتار واقعی است – درها را به روی بسیاری از برنامه های کاربردی خلاقانه و مبتنی بر دسترسی باز می کند. با این حال، این قابلیت‌ها خطرات جدیدی را نیز به همراه دارند، مانند پتانسیل بازیگران بدخواه برای جعل هویت شخصیت‌های عمومی یا ارتکاب کلاهبرداری.

به همین دلیل است که ما از این فناوری برای تقویت یک مورد خاص استفاده می کنیم – چت صوتی. چت صوتی با صداپیشگانی که مستقیماً با آنها کار کرده ایم ایجاد شد. ما همچنین به روشی مشابه با دیگران همکاری می کنیم. به عنوان مثال، Spotify از قدرت این فناوری برای آزمایش قابلیت ترجمه صوتی خود استفاده می‌کند، که به پادکست‌ها کمک می‌کند تا با ترجمه پادکست‌ها به زبان‌های دیگر در صدای خود پادکست، دامنه داستان‌سرایی خود را گسترش دهند.

  • ورودی تصویر

مدل‌های مبتنی بر بینایی نیز چالش‌های جدیدی را ارائه می‌کنند، از توهم در مورد افراد تا تکیه بر تفسیر مدل از تصاویر در حوزه‌های پرمخاطره. قبل از استقرار گسترده‌تر، ما این مدل را با تیم‌های قرمز برای خطر در حوزه‌هایی مانند افراط‌ گرایی و مهارت علمی و مجموعه‌ای متنوع از آزمایش‌کنندگان آلفا آزمایش کردیم. تحقیقات ما این امکان را داد که چند جزئیات کلیدی را برای استفاده مسئولانه هماهنگ کنیم.

  • ایجاد بینایی هم مفید و هم ایمن

مانند سایر ویژگی‌های ChatGPT، ویژن به شما کمک می‌کند در زندگی روزمره‌تان از آن کمک بگیرید. زمانی این کار را به بهترین نحو انجام می دهد که بتواند آنچه را که می بینید ببیند.

این رویکرد مستقیماً با کار ما با  Be My Eyes، یک برنامه تلفن همراه رایگان برای افراد نابینا و کم بینا، برای درک کاربردها و محدودیت ها، مشخص شده است. کاربران به ما گفته‌اند که انجام مکالمات کلی درباره تصاویری که اتفاقاً افرادی را در پس‌زمینه دارند، ارزشمند می‌دانند، مثلاً زمانی که می‌خواهید تنظیمات کنترل از راه دور خود را مشخص کنید، شخصی در تلویزیون ظاهر می‌شود.

ما همچنین اقدامات فنی را برای محدود کردن قابل توجه توانایی ChatGPT برای تجزیه و تحلیل و اظهارنظر مستقیم در مورد افراد انجام داده‌ایم زیرا ChatGPT همیشه دقیق نیست و این سیستم‌ها باید به حریم خصوصی افراد احترام بگذارند.

استفاده از دنیای واقعی و بازخورد به ما کمک می‌کند تا این حفاظت‌ها را حتی مفیدتر نگه داریم.

  • شفافیت در مورد محدودیت های مدل

کاربران ممکن است برای موضوعات تخصصی به ChatGPT وابسته باشند، به عنوان مثال در زمینه هایی مانند تحقیق. ما در مورد محدودیت‌های مدل شفاف هستیم و از موارد استفاده با ریسک بالاتر بدون تأیید صحیح جلوگیری می‌کنیم. علاوه بر این، این مدل در رونویسی متن انگلیسی مهارت دارد، اما با برخی از زبان‌های دیگر، به ویژه آنهایی که خط غیر رومی دارند، عملکرد ضعیفی دارد. ما به کاربران غیر انگلیسی خود توصیه می کنیم از ChatGPT برای این منظور استفاده نکنند.

می‌توانید در مورد رویکرد ما به ایمنی و کار ما با چشمان من در کارت سیستم برای ورودی تصویر بیشتر بخوانید.

  • ما دسترسی را گسترش خواهیم داد

کاربران Plus و Enterprise در دو هفته آینده صدا و تصویر را تجربه خواهند کرد. ما هیجان زده هستیم که این قابلیت ها را به زودی برای سایر گروه های کاربران، از جمله توسعه دهندگان، عرضه کنیم.

 

منبع: https://openai.com/

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا