نویسندگان ما امسال به چهار روند حیاتی نگاه میکنند که باید به آنها توجه ویژهای داشت. پارسال در همین زمان، یک گام جسورانه به سمت پیشبینی آینده در یک صنعت پویا برداشتیم. در یک عرصه که هیچ چیزی ثابت نمیماند، ما به دنبال پیشبینی تحولات آینده بودیم.
چگونه به اینجا رسیدیم؟ چهار اصل بزرگ ما برای سال 2023 عبارت بودند از اینکه باید نقش مهمی در تحول رباتهای گفتگو چندوجهی ایفا کنیم (مشاهده کنید: بررسی قویترین مدلهای زبانی موجود، GPT-4 از OpenAI و Gemini از Google DeepMind که قادر به کار با متن، تصاویر و صدا هستند). پیش بینی آنکه سیاستگذاران باید به تنظیم مقررات جدید و سختگیرانه در این زمینه بپردازند (رسمیت بخشیدن به فرمان اجرایی بایدن در ماه اکتبر و تصویب قانون هوش مصنوعی اتحادیه اروپا در دسامبر).
شرکتهای فناوری بزرگ تحت فشار بوده و احساس میکنند که با رونق استارتاپهای منبعباز باید مواجه شوند (نه کامل: رشد منابع باز ادامه دارد، اما شرکتهای هوش مصنوعی همچنان توانستهاند توجه را به خود جلب کنند، به ویژه OpenAI و Google DeepMind). و نهایتاً، اینکه هوش مصنوعی به شکل قابل توجهی علم داروسازی را تحت تأثیر قرار میدهد (هنوز زود است که اظهارنظر کنیم: انقلاب هوش مصنوعی در زمینه کشف دارو هنوز در مراحل ابتدایی است، اما اولین داروهایی که با استفاده از هوش مصنوعی توسعه یافتهاند، هنوز چند سال از ورود به بازار دور هستند).
حالا ما دوباره این کار را انجام می دهیم.
تصمیم گرفتیم چیزهای بدیهی را نادیده بگیریم. ما می دانیم که مدل های زبان بزرگ همچنان به تسلط خود ادامه خواهند داد و تنظیم کننده ها جسورتر خواهند شد. مشکلات هوش مصنوعی از تعصب گرفته تا حق چاپ و نابودی نه تنها در سال 2024 بلکه برای سالهای آینده، دستور کار محققان، قانونگذاران و مردم را شکل خواهد داد. در عوض، ما چند روند خاص تر را انتخاب کرده و در اینجا چیزی که باید در سال 2024 مراقب آن باشید، مطرح شده است. (سال آینده برگردید و بررسی کنید که چگونه انجام شدهاند.)
چت ربات های سفارشی شده
در سال 2024، شرکتهای فناوری که سرمایهگذاری زیادی در حوزه هوش مصنوعی مولد داشتهاند، میخواهند نشان دهند که میتوانند از محصولات خود درآمد کسب کرده و از زیر فشار خارج شوند. در این راستا، غولهای هوش مصنوعی مانند گوگل و OpenAI در حال توسعه پلتفرمهای کاربرپسند هستند. این پلتفرمها به افراد امکان میدهند تا مدلهای زبان قدرتمند را سفارشی کرده و چتباتهای خود را بر اساس نیازهای خاص خود بسازند، بدون نیاز به مهارت کدنویسی. این ابزارها بر پایه وب عرضه شده و به هر کسی این امکان را میدهند که توسعهدهنده برنامههای هوش مصنوعی باشد.
در سال 2024، امکان دارد هوش مصنوعی مولد به واقعیت بپیوندد و برای افراد عادی و غیر فناوری مفید باشد. ما ممکن است شاهد این باشیم که افراد با یک میلیون مدل هوش مصنوعی کوچک کار میکنند. مدلهای پیشرفته هوش مصنوعی، مانند GPT-4 و Gemini، قابلیت پردازش متن، تصاویر، و حتی فیلم را دارند، که این امکان را ایجاد کرده که برنامههای جدید و متنوعی توسط توسعهدهندگان ایجاد شوند. برای مثال، یک مشاور املاک میتواند با آپلود متن از فهرستهای قبلی، یک مدل قدرتمند را به سادگی برای تولید متن مشابه تنظیم کند و با آپلود فیلمها و تصاویر فهرستهای جدید، توسط هوش مصنوعی سفارشیشده، توضیحات را ایجاد کند.
هرچند که این توسعهها میتوانند به کاربران بسیار کمک کنند، اما مسئله اعتمادپذیری این مدلها یک چالش مهم است. مدلهای زبانی غالباً باعث ایجاد محتوای تعصبآمیز شده و به راحتی ممکن است هک شوند، به ویژه اگر به آنها اجازه دسترسی به وب داده شود. شرکتهای فناوری باید به مشتریان خود راهکارهایی را ارائه دهند تا با این چالشها به طور موفق مواجه شوند، چرا که موفقیت کلی طرح به اندازه حل این مسائل بستگی دارد.
موج دوم هوش مصنوعی مولد ویدئو خواهد بود
شگفتآور است که با چه سرعت بالایی با چیزهای خارقالعاده آشنا میشویم. مدلهای تولیدی اولیه برای تولید تصاویر فوتورئالیستی در سال 2022 در جریان اصلی وارد و به سرعت محبوب شدند. ابزارهایی همچون DALL-E از OpenAI، Stable Diffusion از Stability AI، و Firefly از Adobe، اینترنت را با تصاویر شگفتانگیز از هر زمینهای، از مد روز تا آثار هنری برنده جوایز، پر کردند.
مرز جدیدی که امروز با آن مواجهیم تبدیل متن به ویدئو است. بنابراین باید انتظار داشته باشید هر چیزی که در مورد متن به تصویر خوب، بد یا زشت وجود دارد، گرفته و بزرگ خواهد شد.
یک سال پیش، نخستین نگاهی که به این مسئله داشتیم، دریافتیم که مدلهای مولد زمانی که آموزش میبینند، تصاویر ثابت را در چندین کلیپ چندثانیهای به هم چسبانده و امکانات متعددی را در اختیار کاربر قرار میدهند. نتایج اولیه دریافتی در آن زمان تحریف شده و متزلزل بودند، اما فناوری به سرعت پیشرفت کرده است.
Runway، استارتآپی که مدلهای ویدئویی تولیدی میسازد (و Stable Diffusion از آن ایجاد شده است)، هر چند ماه یکبار نسخههای جدیدی از ابزارهای خود را عرضه میکند. آخرین مدل آن به نام Gen-2، همچنان ویدئوهای چند ثانیهای تولید میکند، اما کیفیت آن به شدت بهبود یافته است. بهترین کلیپها با آنچه که Pixar ممکن است ارائه دهد، فاصله چندانی ندارند.
Runway یک جشنواره سالانه فیلم هوش مصنوعی برگزار کرده که فیلمهای تجربی ایجاد شده با ابزارهای هوش مصنوعی را به نمایش میگذارد. این جشنواره امسال دارای جایزه 60,000 دلاری است و 10 فیلم برتر در نیویورک و لسآنجلس به نمایش گذاشته خواهند شد.
اعتبار برترین استودیوهابه این موضوع توجه همگان را به خود جلب کرده است. شرکتهای بزرگ سینمایی از جمله پارامونت و دیزنی، در حال بررسی استفاده از هوش مصنوعی مولد در تمام مراحل تولید خود هستند. آنها قصد دارند از این فناوری برای هماهنگسازی عملکرد بازیگران با چندین بار دوبله به زبانهای مختلف استفاده کرده و برخی حتی قصد استفاده از آن برای بازتولید جلوههای ویژه دارند. در سال 2023، هریسون فورد شخصیت اصلی ایندیانا جونز، با استفاده از فناوری دیپفیک، نقش خود را ایفا کرد که سرآغازی بود بر این موضوع.
خارج از دنیای صفحه نمایش بزرگ، فناوری دیپفیک برای اهداف بازاریابی یا آموزشی نیز در حال گسترش است. برای مثال، شرکت Synthesia مستقر در بریتانیا ابزارهایی تولید میکند که با استفاده از یکبار اجرا کردن بازیگر، او را به صورت بیپایان به آواتارهای دیپفیک تبدیل کرده و با فشار دادن یک دکمه، هر اسکریپت را به آنها میگوید. این شرکت اعلام کرده است که حدود 44 درصد از شرکتهای Fortune 100 از این فناوری استفاده میکنند.
توانایی انجام وظایف زیاد با کیفیت کم، سوالات مهمی را برای بازیگران به وجود میآورد. نگرانیها در مورد استفاده استودیوها و سوءاستفاده از هوش مصنوعی در حوزه هنرهای تجسمی در سالهای گذشته وجود داشته اما تأثیر واقعی این فناوری به تازگی به چشم آمده است. سوکی مهدی، فیلمساز مستقل و بنیانگذار Bell & Whistle، یک شرکت مشاوره متخصص در فناوریهای خلاق، اظهار میکند: “صنعت فیلمسازی اساساً در حال تغییر است.”
اطلاعات نادرست انتخاباتی تولید شده توسط هوش مصنوعی در همه جا وجود خواهد داشت
نگرانی که در مورد انتخابات سال 2024 در سراسر جهان وجود دارد این است که اطلاعات نادرست انتخاباتی و دیپفیکهای تولید شده توسط هوش مصنوعی مشکلات بزرگی را برای کاندیداها ایجاد خواهد کرد. چرا که آنچه در سال گذشته مشاهده شد این بود که سیاستمداران از این ابزارها در عرصه رقابتی استفاده می کنند، در آرژانتین، دو کاندیدای ریاستجمهوری، تصاویر و ویدئوهای تولید شده توسط هوش مصنوعی از مخالفان خود را برای حمله به آنها ایجاد کردند. در اسلواکی، دیپفیکهای یک رهبر حزب لیبرال طرفدار اروپا که تهدید به افزایش قیمت آبجو و جوکسازی درباره پورنوگرافی کودکان میکند، در طول انتخابات این کشور به سرعت پخش شد. و در ایالات متحده، دونالد ترامپ گروهی را تشویق کرده است که از هوش مصنوعی برای تولید الگوهای رفتاری نژادپرستانه و جنسیتی استفاده کنند.
در حالی که به سختی می توان گفت که این نمونه ها چقدر بر نتایج انتخابات تأثیر گذاشته اند، اما گسترش آنها روند نگران کننده ای را در پی داشته است. تشخیص اینکه چه چیز آنلاینی واقعی است، دشوارتر از همیشه خواهد شد. قطعا در یک فضای سیاسی از قبل ملتهب و قطبی شده، این می تواند عواقب شدیدی داشته باشد.
درست چند سال پیش ایجاد دیپ فیک به مهارت های فنی پیشرفته ای نیاز داشت، اما هوش مصنوعی مولد آن را به طرز احمقانه ای آسان و در دسترس کرده و خروجی ها به طور فزاینده ای واقعی به نظر می رسند. حتی منابع معتبر ممکن است فریب محتوای تولید شده توسط هوش مصنوعی را بخورند. به عنوان مثال، در حال حاضر تصاویر بسیاری توسط کاربران با استفاده از هوش مصنوعی ایجاد شده و مدعی هستند که بحران اسرائیل و غزه را به تصویر میکشند.
در حال حاضر تکنیکهای ردیابی و کاهش محتوای فیک هنوز در روزهای اولیه توسعه هستند. واترمارکها، مانند Google DeepMind’s SynthID، اکثراً داوطلبانه بوده و کاملاً بیخطر نیستند و پلتفرم های رسانه های اجتماعی در از بین بردن اطلاعات نادرست بسیار کند هستند. پیش بینی میشود امسال برای کسانی که با گسترش چنین محتواهایی مبارزه می کنند بسیار مهم خواهد بود.. بنابراین باید برای یک آزمایش عظیم در زمان واقعی در از بین بردن اخبار جعلی تولید شده توسط هوش مصنوعی آماده شوید.
ربات هایی که چند کار را انجام می دهند
با الهام از برخی از تکنیک های اصلی پر رونق هوش مصنوعی، صنایع فعال در حوزه روباتیک شروع به ساخت روبات های عمومی تر کرده که می توانند طیف گسترده تری از کارها را انجام دهند.
در چند سال گذشته، مدلهای هوش مصنوعی به دور از استفاده از چندین مدل کوچک، هرکدام برای انجام کارهای مختلف آموزش دیدهاند؛ از شناسایی تصاویر گرفته تا ترسیم و عنوانگذاری آنها. محققان با ارائه مثالهای اضافی به GPT-3 از OpenAI، قادرند این مدل را برای حل مشکلات برنامهنویسی، نوشتن اسکریپتهای فیلم، گذراندن امتحانات زیستشناسی دبیرستان، و سایر کارها آموزش دهند. مدلهای چندوظیفهای همچون GPT-4 و Gemini از Google DeepMind، میتوانند وظایف بصری و زبانی را به خوبی انجام دهند.
این رویکرد میتواند برای روباتها هم کارآمد باشد، به نحوی که نیازی به آموزش جداگانه برای هر کار مختلف نداشته باشند. به عبارت دیگر، یک مدل با اندازه مناسب میتواند به روباتها توانایی انجام چندین وظیفه را بیاموزد. چندین پروژه در این زمینه در سال 2023 معرفی شدند.
در ماه ژوئن، DeepMind Robocat (که در سال گذشته بهروزرسانی به نام GATO داشت) را منتشر کرد که از آزمایش و خطا برای یادگیری نحوه کنترل بازوهای مختلف روبات (به جای یک بازوی خاص) استفاده میکند.
در ماه اکتبر، این شرکت با همکاری 33 آزمایشگاه دانشگاه، یک مدل هدف کلی دیگر به نام RT-X و مجموعه دادههای آموزشی جدید با هدف عمومی جدید ارائه داد. تیمهای تحقیقاتی دیگر نیز، همچون راهآهن (هوش مصنوعی رباتیک و یادگیری) در دانشگاه کالیفرنیا، برکلی، به دنبال فناوریهای مشابه هستند.
مشکل اصلی در این عرصه کمبود داده ها است. هوش مصنوعی مولد از مجموعه داده در اندازه اینترنت برای متن و تصاویر استفاده میکند. در مقابل، روباتها دسترسی محدودی به دادههای آموزشی ندارند که به آنها در یادگیری کارهای صنعتی یا خانگی کمک کند.
لرل پینتو در دانشگاه نیویورک در حال توسعه تکنیکهایی است که به روباتها امکان داده که با آزمون و خطا یاد بگیرند و در حین حرکت، دادههای آموزشی خود را ارائه دهند. در یک پروژه جالبتر، پینتو با بهرهگیری از برخی داوطلبان توانسته از طریق دوربین آیفون نصبشده روی زبالهگیرها دادههای ویدئویی از اطراف خانهها جمعآوری کند. شرکتهای بزرگ همچون Ego4D Meta، نیز در چند سال گذشته مجموعه دادههای بزرگی را برای آموزش روباتها منتشر کردهاند.
این رویکرد در حال حاضر در حوزه خودروهای بدون راننده امیدوارکننده به نظر میرسد. استارتآپهایی مانند Wayve، Waabo و Ghost در حال پیشبرد موج جدیدی از هوش مصنوعی خودران هستند که از یک مدل بزرگ برای کنترل یک وسیله نقلیه به جای چندین مدل کوچکتر برای کنترل وظایف خاص رانندگی استفاده میکند. این به شرکتهای کوچک این امکان را داده که با غولهایی همچون کروز و وایمو رقابت کنند. در حال حاضر Wayve در حال آزمایش خودروهای بدون رانندهاش در خیابانهای پرترافیک لندن است. به نظر میرسد که روباتها در زمینههای مختلف نیز به موفقیتهای مشابهی دست یابند.