道德議題

為什麼白宮希望駭客欺騙人工智能？

在本週的世界最大的年度駭客大會——Def Con 31將在拉斯維加斯舉行，焦點集中在大型語言模型上，像是OpenAI的ChatGPT和Google的Bard等聊天機器人。白宮對於這個活動特別有興趣，他們希望了解為什麼有如此多的駭客聚集在一起，試圖欺騙和尋找人工智能模型中的缺陷。

大型科技公司，如Meta、Google、OpenAI、Anthropic、Cohere、Microsoft、Nvidia和Stability等，首次開放了他們強大的系統進行測試。這些公司希望透過這項競賽來確定他們人工智能系統中的問題，並創建獨立評估機制。活動的組織者之一、哈佛大學的人工智能研究員拉曼·楚德里博士表示，這將是一個安全的空間，供公司討論問題並解決它們。

如何運作?

競賽中的參賽者將在兩天半的時間內，使用158台筆記型電腦，每人有50分鐘的時間來嘗試在八個大型語言人工智能模型中尋找缺陷。參賽者將不知道他們正在使用哪家公司的模型，成功完成挑戰會獲得積分，獲得最高總分的人將獲勝。

挑戰中的一個重要部分是要駭客讓模型產生關於政治人物或重要人物的虛構事實，這將有助於測試模型的一致性和可能存在的偏見。Cohere的AI安全主管塞拉菲娜·戈爾德法布-塔朗特博士表示，雖然人們知道模型可以編造事實，但不清楚它發生的頻率。

她說：“我們知道模型會有幻覺信息，但提高人們對其發生頻率的認識將是有用的，而目前我們還不清楚這個頻率。"

戈爾德法布-塔朗特博士表示模型的一致性也將受到測試，人們對人工智能在不同語言中的工作方式有所擔憂。她說：“安全防護在不同語言中並不起作用，而人們則認為它們會起作用。” 例如，如果您在英語中問各種大型語言模型如何加入恐怖組織，它們不會給您答案，因為有一個安全機制。然而，若使用不同的語言問模型，它則會給出要遵循的步驟清單。

戈爾德法布-塔朗特博士一直在為Cohere的模型做準備，並表示儘管這些模型很強大，但“這並不意味著它們沒有漏洞，只是我們還沒有找到它們”。