ما شروع به ارائه قابلیت های صوتی و تصویری جدید در ChatGPT کرده ایم. به صورتی که به شما امکان می دهیم مکالمه صوتی داشته باشید یا آنچه را که در مورد آن صحبت می کنید به ChatGPT نشان دهید.
صدا و تصویر راه های بیشتری برای استفاده از ChatGPT در زندگی خود به شما می دهد. هنگام سفر از یک مکان دیدنی عکس بگیرید و در مورد چیزهای جالب آن گفتگوی زنده داشته باشید. وقتی در خانه هستید، از یخچال و انباری خود عکس بگیرید تا بفهمید چه چیزی برای شام است (و سؤالات بعدی را برای دستور پخت مرحله به مرحله بپرسید). بعد از شام، با گرفتن عکس، دور مجموعه مسائل و به اشتراک گذاشتن نکات، به فرزندتان کمک کنید تا مشکل ریاضی را حل کند.
ما در دو هفته آینده صدا و تصاویر را در ChatGPT برای کاربران Plus و Enterprise عرضه می کنیم. Voice در iOS و Android ارائه می شود (در تنظیمات خود انتخاب کنید) و تصاویر در همه سیستم عامل ها در دسترس خواهند بود.
با ChatGPT صحبت کنید و از آن بخواهید پاسخ دهد
اکنون می توانید از صدا برای درگیر شدن در یک مکالمه رفت و برگشت با دستیار خود استفاده کنید. در حال حرکت با آن صحبت کنید، یک داستان قبل از خواب برای خانواده خود درخواست کنید، یا یک بحث میز شام را حل کنید.
برای شروع کار با صدا، به تنظیمات ← ویژگیهای جدید در برنامه تلفن همراه بروید و مکالمات صوتی را انتخاب کنید. سپس، روی دکمه هدفون واقع در گوشه سمت راست بالای صفحه اصلی ضربه بزنید و صدای دلخواه خود را از بین پنج صدای مختلف انتخاب کنید.
قابلیت صوتی جدید توسط یک مدل جدید تبدیل متن به گفتار ارائه میشود که قادر به تولید صدای انسانمانند فقط از متن و چند ثانیه نمونه گفتار است. ما با صداپیشگان حرفه ای برای ایجاد هر یک از صداها همکاری کردیم. ما همچنین از Whisper، سیستم تشخیص گفتار منبع باز خود، برای رونویسی کلمات گفتاری شما به متن استفاده میکنیم.
گپ در مورد تصاویر
اکنون می توانید به ChatGPT یک یا چند تصویر را نشان دهید. عیبیابی کنید که چرا گریل شما آماده نمیشود، محتویات یخچال خود را برای برنامهریزی یک وعده غذایی کاوش کنید، یا نمودار پیچیدهای را برای دادههای مربوط به کار تجزیه و تحلیل کنید. برای تمرکز روی قسمت خاصی از تصویر، می توانید از ابزار طراحی در اپلیکیشن موبایل ما استفاده کنید.
برای شروع، روی دکمه عکس ضربه بزنید تا عکسی بگیرید یا انتخاب کنید. اگر از iOS یا Android استفاده می کنید، ابتدا روی دکمه پلاس ضربه بزنید. همچنین می توانید در مورد چندین تصویر بحث کنید یا از ابزار طراحی ما برای راهنمایی دستیار خود استفاده کنید.
درک تصویر توسط GPT-3.5 و GPT-4 چند وجهی ارائه می شود. این مدلها مهارتهای استدلال زبانی خود را در طیف وسیعی از تصاویر، مانند عکسها، اسکرینشاتها و اسنادی که هم متن و هم تصاویر دارند، اعمال میکنند.
ما به تدریج قابلیت های تصویر و صدا را گسترش می دهیم
هدف OpenAI ساخت AGI ایمن و مفید است. ما معتقدیم که ابزارهای خود را به تدریج در دسترس قرار می دهیم، که به ما امکان می دهد در طول زمان بهبودها و کاهش خطرات را اصلاح کنیم و در عین حال همه را برای سیستم های قدرتمندتر در آینده آماده کنیم. این استراتژی با مدل های پیشرفته شامل صدا و بینایی اهمیت بیشتری پیدا می کند.
- صدا
فناوری صوتی جدید – که قادر به ساخت صداهای مصنوعی واقعی از تنها چند ثانیه گفتار واقعی است – درها را به روی بسیاری از برنامه های کاربردی خلاقانه و مبتنی بر دسترسی باز می کند. با این حال، این قابلیتها خطرات جدیدی را نیز به همراه دارند، مانند پتانسیل بازیگران بدخواه برای جعل هویت شخصیتهای عمومی یا ارتکاب کلاهبرداری.
به همین دلیل است که ما از این فناوری برای تقویت یک مورد خاص استفاده می کنیم – چت صوتی. چت صوتی با صداپیشگانی که مستقیماً با آنها کار کرده ایم ایجاد شد. ما همچنین به روشی مشابه با دیگران همکاری می کنیم. به عنوان مثال، Spotify از قدرت این فناوری برای آزمایش قابلیت ترجمه صوتی خود استفاده میکند، که به پادکستها کمک میکند تا با ترجمه پادکستها به زبانهای دیگر در صدای خود پادکست، دامنه داستانسرایی خود را گسترش دهند.
- ورودی تصویر
مدلهای مبتنی بر بینایی نیز چالشهای جدیدی را ارائه میکنند، از توهم در مورد افراد تا تکیه بر تفسیر مدل از تصاویر در حوزههای پرمخاطره. قبل از استقرار گستردهتر، ما این مدل را با تیمهای قرمز برای خطر در حوزههایی مانند افراط گرایی و مهارت علمی و مجموعهای متنوع از آزمایشکنندگان آلفا آزمایش کردیم. تحقیقات ما این امکان را داد که چند جزئیات کلیدی را برای استفاده مسئولانه هماهنگ کنیم.
- ایجاد بینایی هم مفید و هم ایمن
مانند سایر ویژگیهای ChatGPT، ویژن به شما کمک میکند در زندگی روزمرهتان از آن کمک بگیرید. زمانی این کار را به بهترین نحو انجام می دهد که بتواند آنچه را که می بینید ببیند.
این رویکرد مستقیماً با کار ما با Be My Eyes، یک برنامه تلفن همراه رایگان برای افراد نابینا و کم بینا، برای درک کاربردها و محدودیت ها، مشخص شده است. کاربران به ما گفتهاند که انجام مکالمات کلی درباره تصاویری که اتفاقاً افرادی را در پسزمینه دارند، ارزشمند میدانند، مثلاً زمانی که میخواهید تنظیمات کنترل از راه دور خود را مشخص کنید، شخصی در تلویزیون ظاهر میشود.
ما همچنین اقدامات فنی را برای محدود کردن قابل توجه توانایی ChatGPT برای تجزیه و تحلیل و اظهارنظر مستقیم در مورد افراد انجام دادهایم زیرا ChatGPT همیشه دقیق نیست و این سیستمها باید به حریم خصوصی افراد احترام بگذارند.
استفاده از دنیای واقعی و بازخورد به ما کمک میکند تا این حفاظتها را حتی مفیدتر نگه داریم.
- شفافیت در مورد محدودیت های مدل
کاربران ممکن است برای موضوعات تخصصی به ChatGPT وابسته باشند، به عنوان مثال در زمینه هایی مانند تحقیق. ما در مورد محدودیتهای مدل شفاف هستیم و از موارد استفاده با ریسک بالاتر بدون تأیید صحیح جلوگیری میکنیم. علاوه بر این، این مدل در رونویسی متن انگلیسی مهارت دارد، اما با برخی از زبانهای دیگر، به ویژه آنهایی که خط غیر رومی دارند، عملکرد ضعیفی دارد. ما به کاربران غیر انگلیسی خود توصیه می کنیم از ChatGPT برای این منظور استفاده نکنند.
میتوانید در مورد رویکرد ما به ایمنی و کار ما با چشمان من در کارت سیستم برای ورودی تصویر بیشتر بخوانید.
- ما دسترسی را گسترش خواهیم داد
کاربران Plus و Enterprise در دو هفته آینده صدا و تصویر را تجربه خواهند کرد. ما هیجان زده هستیم که این قابلیت ها را به زودی برای سایر گروه های کاربران، از جمله توسعه دهندگان، عرضه کنیم.
منبع: https://openai.com/