نویسندگان ما امسال به چهار روند حیاتی نگاه می‌کنند که باید به آنها توجه ویژه‌ای داشت. پارسال در همین زمان، یک گام جسورانه به سمت پیش‌بینی آینده در یک صنعت پویا برداشتیم. در یک عرصه که هیچ چیزی ثابت نمی‌ماند، ما به دنبال پیش‌بینی تحولات آینده بودیم.

چگونه به اینجا رسیدیم؟ چهار اصل بزرگ ما برای سال 2023 عبارت بودند از اینکه باید نقش مهمی در تحول ربات‌های گفتگو چندوجهی ایفا کنیم (مشاهده کنید: بررسی قویترین مدل‌های زبانی موجود، GPT-4 از OpenAI و Gemini از Google DeepMind که قادر به کار با متن، تصاویر و صدا هستند). پیش بینی آنکه سیاست‌گذاران باید به تنظیم مقررات جدید و سختگیرانه در این زمینه بپردازند (رسمیت بخشیدن به فرمان اجرایی بایدن در ماه اکتبر و تصویب قانون هوش مصنوعی اتحادیه اروپا در دسامبر).

شرکت‌های فناوری بزرگ تحت فشار بوده و احساس می‌کنند که با رونق استارتاپ‌های منبع‌باز باید مواجه شوند (نه کامل: رشد منابع باز ادامه دارد، اما شرکت‌های هوش مصنوعی همچنان توانسته‌اند توجه را به خود جلب کنند، به ویژه OpenAI و Google DeepMind). و نهایتاً، اینکه هوش مصنوعی به شکل قابل توجهی علم داروسازی را تحت تأثیر قرار می‌دهد (هنوز زود است که اظهارنظر کنیم: انقلاب هوش مصنوعی در زمینه کشف دارو هنوز در مراحل ابتدایی است، اما اولین داروهایی که با استفاده از هوش مصنوعی توسعه یافته‌اند، هنوز چند سال از ورود به بازار دور هستند).

حالا ما دوباره این کار را انجام می دهیم.

تصمیم گرفتیم چیزهای بدیهی را نادیده بگیریم. ما می دانیم که مدل های زبان بزرگ همچنان به تسلط خود ادامه خواهند داد و تنظیم کننده ها جسورتر خواهند شد. مشکلات هوش مصنوعی از تعصب گرفته تا حق چاپ و نابودی نه تنها در سال 2024 بلکه برای سال‌های آینده، دستور کار محققان، قانون‌گذاران و مردم را شکل خواهد داد. در عوض، ما چند روند خاص تر را انتخاب کرده و در اینجا چیزی که باید در سال 2024 مراقب آن باشید، مطرح شده است. (سال آینده برگردید و بررسی کنید که چگونه انجام شده‌اند.)

جدول محتوا

چت ربات های سفارشی شده
موج دوم هوش مصنوعی مولد ویدئو خواهد بود
اطلاعات نادرست انتخاباتی تولید شده توسط هوش مصنوعی در همه جا وجود خواهد داشت
ربات هایی که چند کار را انجام می دهند

چت ربات های سفارشی شده

در سال 2024، شرکت‌های فناوری که سرمایه‌گذاری زیادی در حوزه هوش مصنوعی مولد داشته‌اند، می‌خواهند نشان دهند که می‌توانند از محصولات خود درآمد کسب کرده و از زیر فشار خارج شوند. در این راستا، غول‌های هوش مصنوعی مانند گوگل و OpenAI در حال توسعه پلتفرم‌های کاربرپسند هستند. این پلتفرم‌ها به افراد امکان می‌دهند تا مدل‌های زبان قدرتمند را سفارشی کرده و چت‌بات‌های خود را بر اساس نیازهای خاص خود بسازند، بدون نیاز به مهارت کدنویسی. این ابزارها بر پایه وب عرضه شده و به هر کسی این امکان را می‌دهند که توسعه‌دهنده برنامه‌های هوش مصنوعی باشد.

در سال 2024، امکان دارد هوش مصنوعی مولد به واقعیت بپیوندد و برای افراد عادی و غیر فناوری مفید باشد. ما ممکن است شاهد این باشیم که افراد با یک میلیون مدل هوش مصنوعی کوچک کار می‌کنند. مدل‌های پیشرفته هوش مصنوعی، مانند GPT-4 و Gemini، قابلیت پردازش متن، تصاویر، و حتی فیلم را دارند، که این امکان را ایجاد کرده که برنامه‌های جدید و متنوعی توسط توسعه‌دهندگان ایجاد شوند. برای مثال، یک مشاور املاک می‌تواند با آپلود متن از فهرست‌های قبلی، یک مدل قدرتمند را به سادگی برای تولید متن مشابه تنظیم کند و با آپلود فیلم‌ها و تصاویر فهرست‌های جدید، توسط هوش مصنوعی سفارشی‌شده، توضیحات را ایجاد کند.

هرچند که این توسعه‌ها می‌توانند به کاربران بسیار کمک کنند، اما مسئله اعتمادپذیری این مدل‌ها یک چالش مهم است. مدل‌های زبانی غالباً باعث ایجاد محتوای تعصب‌آمیز شده و به راحتی ممکن است هک شوند، به ویژه اگر به آنها اجازه دسترسی به وب داده شود. شرکت‌های فناوری باید به مشتریان خود راهکارهایی را ارائه دهند تا با این چالش‌ها به طور موفق مواجه شوند، چرا که موفقیت کلی طرح به اندازه حل این مسائل بستگی دارد.

موج دوم هوش مصنوعی مولد ویدئو خواهد بود

شگفت‌آور است که با چه سرعت بالایی با چیزهای خارق‌العاده آشنا می‌شویم. مدل‌های تولیدی اولیه برای تولید تصاویر فوتورئالیستی در سال 2022 در جریان اصلی وارد و به سرعت محبوب شدند. ابزارهایی همچون DALL-E از OpenAI، Stable Diffusion از Stability AI، و Firefly از Adobe، اینترنت را با تصاویر شگفت‌انگیز از هر زمینه‌ای، از مد روز تا آثار هنری برنده جوایز، پر کردند.

مرز جدیدی که امروز با آن مواجهیم تبدیل متن به ویدئو است. بنابراین باید انتظار داشته باشید هر چیزی که در مورد متن به تصویر خوب، بد یا زشت وجود دارد، گرفته و بزرگ خواهد شد.

یک سال پیش، نخستین نگاهی که به این مسئله داشتیم، دریافتیم که مدل‌های مولد زمانی که آموزش می‌بینند، تصاویر ثابت را در چندین کلیپ چندثانیه‌ای به هم ‌چسبانده و امکانات متعددی را در اختیار کاربر قرار می‌دهند. نتایج اولیه دریافتی در آن زمان تحریف شده و متزلزل بودند، اما فناوری به سرعت پیشرفت کرده است.

Runway، استارت‌آپی که مدل‌های ویدئویی تولیدی می‌سازد (و Stable Diffusion از آن ایجاد شده است)، هر چند ماه یک‌بار نسخه‌های جدیدی از ابزارهای خود را عرضه می‌کند. آخرین مدل آن به نام Gen-2، همچنان ویدئوهای چند ثانیه‌ای تولید می‌کند، اما کیفیت آن به شدت بهبود یافته است. بهترین کلیپ‌ها با آنچه که Pixar ممکن است ارائه دهد، فاصله چندانی ندارند.

Runway یک جشنواره سالانه فیلم هوش مصنوعی برگزار کرده که فیلم‌های تجربی ایجاد شده با ابزارهای هوش مصنوعی را به نمایش می‌گذارد. این جشنواره امسال دارای جایزه 60,000 دلاری است و 10 فیلم برتر در نیویورک و لس‌آنجلس به نمایش گذاشته خواهند شد.

اعتبار برترین استودیوهابه این موضوع توجه همگان را به خود جلب کرده است. شرکت‌های بزرگ سینمایی از جمله پارامونت و دیزنی، در حال بررسی استفاده از هوش مصنوعی مولد در تمام مراحل تولید خود هستند. آن‌ها قصد دارند از این فناوری برای هماهنگ‌سازی عمل‌کرد بازیگران با چندین بار دوبله به زبان‌های مختلف استفاده کرده و برخی حتی قصد استفاده از آن برای بازتولید جلوه‌های ویژه دارند. در سال 2023، هریسون فورد شخصیت اصلی ایندیانا جونز، با استفاده از فناوری دیپ‌فیک، نقش خود را ایفا کرد که سرآغازی بود بر این موضوع.

خارج از دنیای صفحه نمایش بزرگ، فناوری دیپ‌فیک برای اهداف بازاریابی یا آموزشی نیز در حال گسترش است. برای مثال، شرکت Synthesia مستقر در بریتانیا ابزارهایی تولید می‌کند که با استفاده از یک‌بار اجرا کردن بازیگر، او را به صورت بی‌پایان به آواتارهای دیپ‌فیک تبدیل کرده و با فشار دادن یک دکمه، هر اسکریپت را به آن‌ها می‌گوید. این شرکت اعلام کرده است که حدود 44 درصد از شرکت‌های Fortune 100 از این فناوری استفاده می‌کنند.

توانایی انجام وظایف زیاد با کیفیت کم، سوالات مهمی را برای بازیگران به وجود می‌آورد. نگرانی‌ها در مورد استفاده استودیوها و سوءاستفاده از هوش مصنوعی در حوزه هنرهای تجسمی در سال‌های گذشته وجود داشته اما تأثیر واقعی این فناوری به تازگی به چشم آمده است. سوکی مهدی، فیلمساز مستقل و بنیان‌گذار Bell & Whistle، یک شرکت مشاوره متخصص در فناوری‌های خلاق، اظهار می‌کند: “صنعت فیلمسازی اساساً در حال تغییر است.”

اطلاعات نادرست انتخاباتی تولید شده توسط هوش مصنوعی در همه جا وجود خواهد داشت

نگرانی که در مورد انتخابات سال 2024 در سراسر جهان وجود دارد این است که اطلاعات نادرست انتخاباتی و دیپ‌فیک‌های تولید شده توسط هوش مصنوعی مشکلات بزرگی را برای کاندیداها ایجاد خواهد کرد. چرا که آنچه در سال گذشته مشاهده شد این بود که سیاستمداران از این ابزارها در عرصه رقابتی استفاده می کنند، در آرژانتین، دو کاندیدای ریاست‌جمهوری، تصاویر و ویدئوهای تولید شده توسط هوش مصنوعی از مخالفان خود را برای حمله به آنها ایجاد کردند. در اسلواکی، دیپ‌فیک‌های یک رهبر حزب لیبرال طرفدار اروپا که تهدید به افزایش قیمت آبجو و جوک‌سازی درباره پورنوگرافی کودکان می‌کند، در طول انتخابات این کشور به سرعت پخش شد. و در ایالات متحده، دونالد ترامپ گروهی را تشویق کرده است که از هوش مصنوعی برای تولید الگوهای رفتاری نژادپرستانه و جنسیتی استفاده ‌کنند.

در حالی که به سختی می توان گفت که این نمونه ها چقدر بر نتایج انتخابات تأثیر گذاشته اند، اما گسترش آنها روند نگران کننده ای را در پی داشته است. تشخیص اینکه چه چیز آنلاینی واقعی است، دشوارتر از همیشه خواهد شد. قطعا در یک فضای سیاسی از قبل ملتهب و قطبی شده، این می تواند عواقب شدیدی داشته باشد.

درست چند سال پیش ایجاد دیپ فیک به مهارت های فنی پیشرفته ای نیاز داشت، اما هوش مصنوعی مولد آن را به طرز احمقانه ای آسان و در دسترس کرده و خروجی ها به طور فزاینده ای واقعی به نظر می رسند. حتی منابع معتبر ممکن است فریب محتوای تولید شده توسط هوش مصنوعی را بخورند. به عنوان مثال، در حال حاضر تصاویر بسیاری توسط کاربران با استفاده از هوش مصنوعی ایجاد شده و مدعی هستند که بحران اسرائیل و غزه را به تصویر می‌کشند.

در حال حاضر تکنیک‌های ردیابی و کاهش محتوای فیک هنوز در روزهای اولیه توسعه هستند. واترمارک‌ها، مانند Google DeepMind’s SynthID، اکثراً داوطلبانه بوده و کاملاً بی‌خطر نیستند و پلتفرم های رسانه های اجتماعی در از بین بردن اطلاعات نادرست بسیار کند هستند. پیش بینی میشود امسال برای کسانی که با گسترش چنین محتواهایی مبارزه می کنند بسیار مهم خواهد بود.. بنابراین باید برای یک آزمایش عظیم در زمان واقعی در از بین بردن اخبار جعلی تولید شده توسط هوش مصنوعی آماده شوید.

ربات هایی که چند کار را انجام می دهند

با الهام از برخی از تکنیک های اصلی پر رونق هوش مصنوعی، صنایع فعال در حوزه روباتیک شروع به ساخت روبات های عمومی تر کرده که می توانند طیف گسترده تری از کارها را انجام دهند.

در چند سال گذشته، مدل‌های هوش مصنوعی به دور از استفاده از چندین مدل کوچک، هرکدام برای انجام کارهای مختلف آموزش دیده‌اند؛ از شناسایی تصاویر گرفته تا ترسیم و عنوان‌گذاری آن‌ها. محققان با ارائه مثال‌های اضافی به GPT-3 از OpenAI، قادرند این مدل را برای حل مشکلات برنامه‌نویسی، نوشتن اسکریپت‌های فیلم، گذراندن امتحانات زیست‌شناسی دبیرستان، و سایر کارها آموزش دهند. مدل‌های چندوظیفه‌ای همچون GPT-4 و Gemini از Google DeepMind، می‌توانند وظایف بصری و زبانی را به خوبی انجام دهند.

این رویکرد می‌تواند برای روبات‌ها هم کارآمد باشد، به نحوی که نیازی به آموزش جداگانه برای هر کار مختلف نداشته باشند. به عبارت دیگر، یک مدل با اندازه مناسب می‌تواند به روبات‌ها توانایی انجام چندین وظیفه را بیاموزد. چندین پروژه در این زمینه در سال 2023 معرفی شدند.

در ماه ژوئن، DeepMind Robocat (که در سال گذشته به‌روزرسانی به نام GATO داشت) را منتشر کرد که از آزمایش و خطا برای یادگیری نحوه کنترل بازوهای مختلف روبات (به جای یک بازوی خاص) استفاده می‌کند.

در ماه اکتبر، این شرکت با همکاری 33 آزمایشگاه دانشگاه، یک مدل هدف کلی دیگر به نام RT-X و مجموعه داده‌های آموزشی جدید با هدف عمومی جدید ارائه داد. تیم‌های تحقیقاتی دیگر نیز، همچون راه‌آهن (هوش مصنوعی رباتیک و یادگیری) در دانشگاه کالیفرنیا، برکلی، به دنبال فناوری‌های مشابه هستند.

مشکل اصلی در این عرصه کمبود داده ها است. هوش مصنوعی مولد از مجموعه داده در اندازه اینترنت برای متن و تصاویر استفاده می‌کند. در مقابل، روبات‌ها دسترسی محدودی به داده‌های آموزشی ندارند که به آن‌ها در یادگیری کارهای صنعتی یا خانگی کمک کند.

لرل پینتو در دانشگاه نیویورک در حال توسعه تکنیک‌هایی است که به روبات‌ها امکان داده که با آزمون و خطا یاد بگیرند و در حین حرکت، داده‌های آموزشی خود را ارائه دهند. در یک پروژه جالب‌تر، پینتو با بهره‌گیری از برخی داوطلبان توانسته از طریق دوربین آیفون نصب‌شده روی زباله‌گیرها داده‌های ویدئویی از اطراف خانه‌ها جمع‌آوری کند. شرکت‌های بزرگ همچون Ego4D Meta، نیز در چند سال گذشته مجموعه داده‌های بزرگی را برای آموزش روبات‌ها منتشر کرده‌اند.

این رویکرد در حال حاضر در حوزه خودروهای بدون راننده امیدوارکننده به نظر می‌رسد. استارت‌آپ‌هایی مانند Wayve، Waabo و Ghost در حال پیشبرد موج جدیدی از هوش مصنوعی خودران هستند که از یک مدل بزرگ برای کنترل یک وسیله نقلیه به جای چندین مدل کوچکتر برای کنترل وظایف خاص رانندگی استفاده می‌کند. این به شرکت‌های کوچک این امکان را داده که با غول‌هایی همچون کروز و وایمو رقابت کنند. در حال حاضر Wayve در حال آزمایش خودروهای بدون راننده‌اش در خیابان‌های پرترافیک لندن است. به نظر می‌رسد که روبات‌ها در زمینه‌های مختلف نیز به موفقیت‌های مشابهی دست یابند.

آینده هوش مصنوعی در سال 2024 چیست

چت ربات های سفارشی شده

موج دوم هوش مصنوعی مولد ویدئو خواهد بود

اطلاعات نادرست انتخاباتی تولید شده توسط هوش مصنوعی در همه جا وجود خواهد داشت

ربات هایی که چند کار را انجام می دهند

دیدگاه‌ خود را بنویسید لغو پاسخ