پیش بینی آینده هوش مصنوعی در سال 2024 امر بسیار سختی است. پارسال همین موقع اقدامی بی پروا انجام دادیم و در صنعتی که هیچ چیز ثابت نمی ماند، ما دست به پیش بینی آینده زدیم. پیش بینی ما برای سال 2023 این بود که جهش بزرگ بعدی در رباتهای گفتگو چندوجهی باشد.
امسال تصمیم گرفتیم چیزهای بدیهی را نادیده بگیریم. چرا که می دانیم مدل های زبان بزرگ همچنان به تسلط خود ادامه خواهند داد، تنظیم کننده ها جسورتر خواهند شد و حل مشکلات ناشی از هوش مصنوعی نه تنها در سال 2024 بلکه برای سالهای آینده، دستور کار محققان، قانونگذاران و مردم خواهد بود.
در ادامه مهم ترین بخش هایی که باید در سال 2024 به آن ها توجه کنید، آورده شده است:
1- چت ربات های سفارشی شده
شما یک چت بات دریافت می کنید! در سال 2024، شرکت های فناوری که سرمایه گذاری زیادی روی هوش مصنوعی مولد کرده اند، تحت فشار قرار خواهند گرفت تا ثابت کنند که می توانند از محصولات خود درآمد کسب کنند.
برای انجام این کار، غولهای هوش مصنوعی گوگل و OpenAI روی کوچک شدن شرطبندی میکنند: هر دو در حال توسعه پلتفرمهای کاربرپسند هستند که به افراد اجازه میدهد مدلهای زبان قدرتمند را سفارشی کرده و چتباتهای کوچک خود را بدون نیاز به مهارت کدنویسی بسازند که نیازهای خاص آنها را برآورده کند. در این مسیر هر دو ابزارهای مبتنی بر وب را راهاندازی کرده که به هر کسی اجازه میدهد توسعهدهنده برنامههای هوش مصنوعی باشد.
در سال 2024، هوش مصنوعی مولد به سمت مفید بدون برای افراد عادی و بی ارتباط با فناوری حرکت می کند. بنابراین شاهد خواهیم بود که افراد بیشتری با یک میلیون مدل هوش مصنوعی کوچک کار می کنند.
مدل های پیشرفته هوش مصنوعی، مانند GPT-4 و Geminiچندوجهی هستند، به این معنی که می توانند نه تنها متن، بلکه تصاویر و حتی فیلم ها را پردازش کنند. این قابلیت جدید می تواند یک دسته کامل از برنامه های جدید را باز کند. برای مثال، یک مشاور املاک میتواند متنی را از فهرستهای قبلی آپلود کند، یک مدل قدرتمند را برای تولید متن مشابه تنها با یک کلیک تنظیم کند، فیلمها و عکسهای فهرستهای جدید را آپلود کرده، و به سادگی از هوش مصنوعی سفارشیشده بخواهد توضیحاتی را درباره ملک ایجاد کند.
اما مطمئناً موفقیت این طرح به این بستگی دارد که آیا این مدل ها به طور قابل اعتماد کار می کنند یا خیر. مدلهای زبانی اغلب چیزهایی را میسازند که در برخی موارد پر از تعصب هستند. همچنین به راحتی هک می شوند، به خصوص اگر به آنها اجازه داده شود که وب گردی کنند. شرکت های فناوری هیچ یک از این مشکلات را حل نکرده اند و نیاز دارند تا به مشتریان خود راه هایی برای مقابله با این مشکلات ارائه دهند.
2- ویدئو آینده هوش مصنوعی مولد
اولین مدلهای تولیدی برای تولید تصاویر فوتورئالیستی در سال 2022 در جریان اصلی قرار گرفتند و به سرعت رایج شدند. ابزارهایی مانند OpenAI’s DALL-E، Stability AI’s Stable Diffusion، و Adobe’s Firefly، اینترنت را پر از تصاویر شگفت انگیز از همه چیز، از پاپ در Balenciaga گرفته تا آثار هنری برنده جایزه کردند.
مرز جدید در این مسیر تبدیل متن به ویدئو است. انتظار داشته باشید که هر چیزی را که در مورد متن به تصویر خوب، بد یا زشت بود، بگیرد و آن را برجسته کند.
یک سال پیش، در نگاه نخست، مدلهای مولد زمانی که آموزش میدیدند تا چندین تصویر ثابت را در کلیپهای چند ثانیهای به هم بچسبانند، به خوبی عمل نمی کردند. نتایج آن ها تحریف شده و متزلزل بود، اما در ادامه دیدیم که فناوری به چه سرعتی پیشرفت کرد.
Runway به عنوان شرکتی که Stable Diffusion را ایجاد کرده و مدلهای ویدئویی تولیدی میسازد، هر چند ماه یکبار نسخههای جدیدی از ابزارهای خود را حذف میکند. آخرین مدل آن که Gen-2 نام دارد، همچنان ویدئوی چند ثانیه ای تولید می کند، اما کیفیت آن قابل توجه است. بهترین کلیپها چندان دور از چیزی نیستند که پیکسار ممکن است منتشر کند.
در این مسیر Runway یک جشنواره سالانه فیلم هوش مصنوعی راه اندازی کرده که فیلم های تجربی ساخته شده با طیف وسیعی از ابزارهای هوش مصنوعی را به نمایش می گذارد. جشنواره امسال دارای جایزه 60000 دلاری بوده و 10 فیلم برتر آن در نیویورک و لس آنجلس به نمایش در خواهند آمد.
جای تعجب نیست که استودیوهای برتر توجه خود را به این موضوع معطوف کرده اند. غول های سینمایی، از جمله پارامونت و دیزنی، اکنون در حال بررسی استفاده از هوش مصنوعی مولد در سراسر خط تولید خود هستند. از این فناوری برای همگام سازی اجرای بازیگران با چندین بار دوبله به زبان خارجی استفاده شده و آن چیزی که با جلوه های ویژه امکان پذیر است را دوباره اختراع می کند. در سال 2023، در فیلم ایندیانا جونز و شماره گیری سرنوشت، هریسون فورد با نسخه جعلی بازی کرد که آغازی شد برای این راه.
به دور از صفحه نمایش بزرگ، فناوری دیپ فیک برای اهداف بازاریابی یا آموزشی نیز در حال گسترش است. برای مثال، Synthesia مستقر در بریتانیا ابزارهایی میسازد که میتوانند اجرای یکباره یک بازیگر را به جریان بیپایانی از آواتارهای دیپفیک تبدیل کنند و هر اسکریپت را با فشار دادن یک دکمه به آنها بخوانند. به گفته این شرکت، فناوری آن اکنون توسط 44 درصد از شرکت های Fortune 100 استفاده می شود.
نگرانی ها در مورد استفاده استودیوها و سوء استفاده از هوش مصنوعی در قلب حملات SAG-AFTRA در سال گذشته بود. اما تأثیر واقعی این فناوری به تازگی آشکار می شود. سوکی مهدی، فیلمساز مستقل و بنیانگذار Bell & Whistle، یک شرکت مشاوره متخصص در فناوریهای خلاق، میگوید: «صنعت فیلمسازی اساساً در حال تغییر است.»
3- خطر اطلاعات نادرست تولید شده توسط هوش مصنوعی
اگر انتخابات اخیر اتفاق بیفتد، اطلاعات نادرست انتخاباتی و دیپفیکهای تولید شده توسط هوش مصنوعی مشکل بزرگی خواهد بود زیرا تعداد بیسابقهای از مردم به پای صندوقهای رای در سال 2024 خواهند رفت.
ما در حال حاضر میبینیم که سیاستمداران از این ابزارها استفاده میکنند. در آرژانتین، دو کاندیدای ریاستجمهوری، تصاویر و ویدئوهای تولید شده توسط هوش مصنوعی از مخالفان خود را برای حمله به آنها ایجاد کردند. در اسلواکی، دیپفیکهای یک رهبر حزب لیبرال طرفدار اروپا که تهدید به افزایش قیمت آبجو و جوکسازی درباره پورنوگرافی کودکان میکند، در طول انتخابات این کشور به سرعت پخش شد. و در ایالات متحده، دونالد ترامپ گروهی را تشویق کرده است که از هوش مصنوعی برای تولید الگوهای رفتاری نژادپرستانه و جنسیتی استفاده کنند.
در حالی که به سختی می توان گفت که این نمونه ها چقدر بر نتایج انتخابات تأثیر گذاشته اند، اما گسترش آنها روند نگران کننده ای را در پی دارد. تشخیص اینکه چه چیزی واقعی است، دشوارتر از همیشه خواهد شد. در یک فضای سیاسی از قبل ملتهب و قطبی شده، این می تواند عواقب شدیدی داشته باشد.
همین چند سال پیش ایجاد دیپ فیک به مهارت های فنی پیشرفته ای نیاز داشت، اما هوش مصنوعی مولد آن را به طرز احمقانه ای آسان و در دسترس کرده و خروجی ها به طور فزاینده ای واقعی به نظر می رسند. حتی منابع معتبر ممکن است فریب محتوای تولید شده توسط هوش مصنوعی را بخورند. به عنوان مثال در بحران اسرائیل و غزه تصاویر متعددی وجود داشت که توسط کاربران بوسیله هوش مصنوعی ایجاد و در فضای مجازی پخش شده بود.
سال آینده برای کسانی که با گسترش چنین محتوایی مبارزه می کنند، بسیار مهم خواهد بود. تکنیکهای ردیابی و کاهش محتوای آن هنوز در روزهای اولیه توسعه هستند. واترمارکها، مانند Google DeepMind’s SynthID، هنوز اکثراً داوطلبانه بوده و کاملاً بیخطر نیستند. و پلتفرم های رسانه های اجتماعی در از بین بردن اطلاعات نادرست بسیار کند هستند. برای یک آزمایش عظیم در زمان واقعی در از بین بردن اخبار جعلی تولید شده توسط هوش مصنوعی آماده شوید.
4- ربات های همه کاره
با الهام از برخی از تکنیک های اصلی هوش مصنوعی مولد، فعالان حوزه روباتیک شروع به ساخت ربات های همه منظوره بیشتری کرده اند که می توانند طیف وسیع تری از وظایف را انجام دهند.
در چند سال گذشته در هوش مصنوعی، استفاده از مدلهای کوچک متعدد، که هر کدام برای انجام کارهای مختلف آموزش دیدهاند، از قبیل شناسایی تصاویر، ترسیم و شرح آنها به سمت مدلهای منفرد و یکپارچه که برای انجام همه این کارها و موارد دیگر آموزش دیدهاند، تغییر کرده است.
با نشان دادن چند نمونه اضافی محققان می توانند مدل های زبانی را برای حل مشکلات کدنویسی، نوشتن فیلمنامه، قبولی در امتحانات زیست شناسی دبیرستان و غیره آموزش دهند. مدلهای چندوجهی، مانند GPT-4 و Google DeepMind’s Gemini، میتوانند وظایف بصری و همچنین زبانی را حل کنند.
همین رویکرد میتواند برای رباتها نیز کارساز باشد، بنابراین نیازی به آموزش یکی برای برگرداندن پنکیک و دیگری برای باز کردن درها نیست: یک مدل همه جانبه میتواند به روباتها توانایی انجام چند کار را بدهد. چندین نمونه از کار در این زمینه در سال 2023 ظاهر شد.
در ماه ژوئن، DeepMind Robocat به روز رسانی در Gato را منتشر کرد که داده های خود را از آزمون و خطا تولید می کند تا یاد بگیرد چگونه بسیاری از بازوهای ربات مختلف را کنترل کند.
در ماه اکتبر، این شرکت یک مدل همهمنظوره دیگر برای روباتها به نام RT-X و مجموعه دادههای آموزشی همهمنظوره جدیدی را با همکاری 33 آزمایشگاه دانشگاهی ارائه کرد.
در این مسیر مشکل کمبود داده بوده چرا که هوش مصنوعی مولد از یک مجموعه داده برای تولید متن و تصاویر استفاده می کند. در مقام مقایسه، رباتها به منابع بسیار کمتری از دادههای نیاز دارند تا یاد بگیرند که چگونه بسیاری از کارهای صنعتی یا خانگی را که ما میخواهیم انجام دهند.
لرل پینتو در دانشگاه نیویورک رهبری تیمی را بر عهده دارد که به این موضوع پرداخته است. او و همکارانش در حال توسعه تکنیکهایی هستند که به رباتها اجازه میدهد با آزمون و خطا یاد بگیرند و در حین حرکت، دادههای آموزشی خود را ارائه دهند. در یک پروژه حتی کماهمیتتر، پینتو داوطلبانی را برای جمعآوری دادههای ویدئویی از اطراف خانههایشان با استفاده از دوربین آیفون نصب شده روی زبالهگیر استخدام کرده است.
این رویکرد در حال حاضر در خودروهای بدون راننده امیدوار کننده است. استارتآپهایی مانند Wayve، Waabi و Ghost در حال پیشروی موج جدیدی از هوش مصنوعی خودران هستند که از یک مدل بزرگ برای کنترل یک وسیله نقلیه به جای چندین مدل کوچکتر برای کنترل وظایف خاص رانندگی استفاده میکند. این امر به شرکتهای کوچک اجازه داده تا به غولهایی مانند کروز و وایمو برسند. Wayve اکنون در حال آزمایش خودروهای بدون راننده خود در خیابان های باریک و شلوغ لندن است.
کلام پایانی
در این مقاله به مواردی که از دید ما می تواند شکل دهنده آینده هوش مصنوعی در سال 2024 باشد اشاره داشتیم. این موارد قطعا تمام حوزه ها و پیشرفت های ممکن در ارتباط با هوش مصنوعی را پوشش نخواهد داد. با گسترش کاربردهای AI در حوزههای مختلف اقتصادی، اجتماعی، و فناوری، انتظار میرود که این فناوری به صورت گستردهتری در زندگی روزمره ما حضور داشته باشد.
همانطور که در بخش هایی از مقاله به آن اشاره داشتیم، در سال 2024، افزایش توجه به اخلاقیات هوش مصنوعی یکی از مسائل مهم در این حوزه خواهد بود. بحثهایی درباره تاثیرات اجتماعی و اخلاقی این فناوری، و همچنین نیاز به استانداردهای جامع برای مدیریت و کنترل هوش مصنوعی به یکی از موضوعات اصلی بحثهای عمومی تبدیل شده است. از طرف دیگر، پیشرفتهای موجود در زمینه هوش مصنوعی و یادگیری عمیق، باعث ایجاد فرصتهای جدید برای حل مسائل پیچیده و رفع چالشهای موجود در جوامع و صنایع مختلف شده است. در نتیجه، با توجه به پیشرفتهای چشمگیر در این زمینه، انتظار میرود که هوش مصنوعی در سال 2024 نقش مهمی در شکلدهی به آینده جوامع و فناوری ایفا کند.