人工智慧無疑是西元2023年科技與產業發展的亮點,其中最受矚目的當屬「生成式人工智慧」(Generated Artificial Intelligence,以下簡稱GAI),許多大型科技公司利用大型語言模型(Large Language Model, LLM)進行訓練,並推出相關服務,如OpenAI的ChatGPT、Google的Bard或Gemini,中國百度的文心一言等。
所謂「生成式人工智慧」,係指透過深度學習模型,此種模型可以獲得原始內容資料,例如維基百科的所有內容或其他經選取編排的特定內容作品集,並根據提示「學習」生成統計上可能的輸出結果。生成模型對其訓練資料進行簡化編碼,並從中汲取營養,創造出與原始資料相似但不完全相同的新作品。
有鑑於GAI及大型語言模型之蓬勃發展,其亦已引發是否侵害新聞內容著作權之爭議,依據第十屆立法院第八會期教育及文化委員會,以及國家科學及技術委員會在「面對新聞內容被數位平臺免費引用,更被無償拿來訓練AI的浪潮」之因應方案書面報告中提及:「AI廣泛運用後將衍生新聞資料探勘與應用等授權問題,行政院已於民國112年4月成立『數位政策法制協調專案會議』,未來包含新聞內容被數位平臺引用、用於訓練AI等議題,將透過該會議持續檢討、研議」。
與GAI有關的著作物利用而產生之著作權爭議,可能發生在兩種情況下,第一種是在開發GAI時,在使其針對內容資料進行深度學習時,必須建立用於訓練的資料集,並將資料集輸入訓練程式,此一過程中,很可能會出現著作物重製的行為;第二種情況是使用GAI的過程與生成產出內容時,可能會發生著作物的重製、改作、或公開傳輸行為,而上述之相關行為均屬於著作權人之專屬權,如未經著作權人授權,除非符合合理使用之條件,否則即屬對著作權之侵害。
為了開發GAI,開發人員通常會將大量資料輸入模型中進行訓練,在這些「訓練資料」中,往往包含受著作權保護的內容。隨著人工智慧生成工具的商業化和豐厚的利潤,已有許多創作者對這種做法提出異議,認為AI開發者將其作品用於改進人工智慧生成工具的過程,已侵犯其著作權人的權利。本文以下將先對歐盟在著作權法及人工智慧法的法制趨勢進行介紹,其次將藉由美國新聞媒體聯盟的白皮書,說明GAI訓練與著作權合理使用的界線,最後提出本文之觀察與建議。
基於歐盟經濟區數位化單一市場政策,歐盟執委會於2019年通過「數位單一市場著作權指令1」(Directive on Copyright in the Digital Single Market,以下簡稱CDSM)。在媒體議價的政策討論上,最被廣泛討論的是CDSM第15條所賦予的連結補償權利;然而,在與人工智慧深度學習有關的規範中,則莫過於是CDSM第3條與第4條所規定有關「文字與資料探勘」(Text and Data Mining, TDM)之例外規範。
TDM係透過大量的數位資訊池進行分析,以提取新的資訊價值,與GAI開發的模式相符。而TDM在處理資訊時,如相關資料屬於不受著作權保護之單純事實或資料(mere facts or data),則毋需取得相關授權,即可進行處理或重製之行為。然而,如果TDM所處理之資料屬於受著作權保護之著作物或資料庫特別權(sui generis),則涉及內容重製之行為,在未具有例外或其他限制之情況下,應取得權利人之授權。
基於資料科學發展所需,歐盟將TDM納入著作權指令修正,以釐清受著作權保護的著作物可做為TDM運用之條件,並將TDM之運用歸屬於著作權的例外,而不會產生著作權之侵害。
CDSM第3條是以科學研究目的(scientific research purposes)為主之TDM例外規範,即當研究機構(research organization)與文化遺產機構(cultural heritage institutions)2基於單純科學研究目的,可以對其合法獲取的著作或其他內容進行TDM之重製與擷取,而不需另取得權利人之同意或支付費用;但對於所合法近用之著作權作品或素材,應該以合宜之安全方式儲存,以保留作科學研究之用,包括驗證研究結果。
CDSM第4條規定對於具合法近用的著作物或其他素材進行TDM之重製或擷取,並可基於未來TDM目的之必要而留存相關著作物,但該著作物之權利人可以合宜之方式選擇退出(opt-out),並主張排除例外條款之適用,則除非符合第3條規定或取得權利人之授權,其他實體將不得基於TDM之目的使用該著作物。
2024年3月,歐盟議會通過「人工智慧法案」(AI Act),此為世界上第一個全面的人工智慧橫向法律框架,其規範歐盟範圍與人工智慧發展相關的資料品質、透明度、人工監督和問責規則,並具有域外管轄的效力。其規定通用目的人工智慧(General Purpose AI,GPAI)應滿足相關規範,其中一項是確保AI開發者揭露是否使用了受著作權保護的內容來訓練AI。
在AI Act中具體針對CDSM之相關規定進行呼應,在序言(recital)第105段中提及,能夠產生文字、圖像和其他內容的大型生成模型,將為內容的創作、利用與消費方式帶來獨特的創新機遇與挑戰。開發和訓練此類模型需要獲取大量文字、圖像、影片和其他資料,而利用TDM技術可廣泛檢索和分析相關內容,而這些內容可能受到著作權和其他相關權利的保護。對於受著作權保護內容的任何使用,都必須獲得相關權利人的授權,除非適用相關著作權規範的例外和限制。依據CDSM之規定,允許在某些條件下基於TDM的目的重製和擷取著作物或其他素材。根據這些規則,權利人可以選擇保留對其著作物的權利,以防止透過TDM方式的利用,除非是基於科學研究的目的。
在以適當方式明確保留選擇退出權的情況下,GPAI提供者如果想對這些著作物以TDM之方式進行利用,需要獲得權利人的授權。在序言第106段中亦提到,歐盟認為將GPAI投放到歐盟市場的提供者,應確保遵守本法相關義務,基於此,GPAI提供者應制定政策,尊重歐盟關於著作權和其他相關權利的法律,特別是識別和尊重權利人根據CDSM第4條所表達之權利保留,不論GPAI提供者進行AI訓練之著作權運用行為發生在任何司法管轄範圍,以確保任何GPAI提供者都不能透過低於歐盟規定之著作權保護標準,在歐盟市場上取得競爭優勢。
除此之外,在序言第107段中針對GPAI開發者訓練資料的透明度,其提及開發者應就GPAI訓練中使用的內容,制定足夠詳細的摘要,不論其文本或資料是否受著作權法保護,並將該摘要向公眾公開,以方便具有合法權益的各方(包括著作權人)行使和執行其在歐盟法律下的權利。在序言第108段中則要求歐盟人工智慧辦公室應就此進行監督開發者是否已履行相關義務,但該監督並不包括對訓練資料的著作權合規性,進行檢視或逐項評估。
因此,「人工智慧法案」第53條有關GPAI之義務規範中,其第一項即是針對前述相關序言之內容,制定有關要求GPAI開發者之義務。
新聞媒體聯盟(News/Media Alliance)是匯集全球及美國超過2,200家報紙與雜誌出版商的產業非營利組織,其前身為美國報業協會(Newspaper Association of America),並在近期與美國雜誌協會(The Association of Magazine Media)合併。
該組織於2023年10月發布一份名為「普遍的重製表現性作品,以訓練和推動生成式人工智慧系統的行為,是如何侵犯著作權而非合理使用」的白皮書3,其內容旨在透過對大型語言模型的訓練資料集進行技術分析,以說明現時存在GAI開發者未經授權使用出版商內容的問題。簡言之,GAI開發者完整地重製大量基礎著作物,不僅侵害著作權人對其著作物的專有重製權利,也擴及以公平的經濟條件授權重製的權利,此一情況總是發生在訓練資料集的蒐集階段,經常發生在資料集成形後的保留階段,有時也發生在GAI模型的輸出階段。
白皮書指出,GAI開發者或其他第三方(如Common Crawl4)在未經授權的情況下從媒體公司網站,甚至是盜版網站,或其他未獲授權的第三方網站擷取整篇文章。其中,新聞出版商內容是用來建構LLM資料集中所包含表達性資訊的一個主要類別。例如白皮書的技術報告中,其分析在Google的C4資料集中,新聞和媒體報告在所有來源類別中排名第三,在排名前十的網站中,有一半是新聞機構5,除了Google專利與維基百科之外,C4包含了來自紐約時報的1億個字元標記(token),其他如洛杉磯時報(www.latimes.com)、衛報(www.theguardian.com)、富比士(www.forbes.com)等媒體網站也有7,000萬個以上的字元標記。
整體而言,與如Common Crawl等第三方所擷取的一般性內容相比,新聞出版商內容有更好的語言表現能力,內容信任度更高,GAI開發者更傾向於使用出版商之內容,訓練人工智慧模型6,並給與新聞出版商之內容更高的訓練權重,使AI系統在學習過程或輸出成果時,更仰賴新聞內容,這也使得GAI會產生與受著作權保護之素材足夠相似的生成內容7。
白皮書中同時對於GAI使用新聞內容是否合乎著作權法上合理使用的例外進行說明,其認為在判斷是否為合理使用有四項標準,包括使用的目的和性質、著作物的性質、相對於整個著作物所使用的部分數量和實質,以及使用對著作物潛在市場或價值的影響。
從使用的目的與性質而論,基於AI的開發而重製相關著作物,並不具有變革性,況且開發者之主要目的在於進行商業替代(commercial substitution),美國最高法院在Warhol基金會的判決中認為:「對著作物的使用是否具有進一步的目的或不同的性質,是一個程度問題,不同的程度必須與使用的商業性質相平衡,如果原創作品和二次使用具有相同或高度相似的目的,且二次使用具有商業性質,那麼在沒有其他重製理由的情況下,很難認為屬於合理使用8」。
從使用對著作物潛在市場或價值的影響而論,在過往案例中,如Meltwater在不同網站上擷取美聯社報導的片段,用於通知其用戶,因其行為與美聯社產生直接競爭,故重製行為將會對美聯社應得的收入產生剝奪效果,而非合理使用9。而GAI未經授權使用受著作權保護的資料,從兩個方面將對市場造成損害,在輸入方面,GAI開發者未經授權使用出版商的內容來構建自己的LLM,剝奪了出版商原有的授權許可市場,況且如OpenAI與美聯社,或Google與Reddit之間都有相關授權協議,可見取得授權之困難不應成為GAI開發者未經授權重製著作物之理由。
在輸出方面,GAI的生成內容確實對既有著作物產生替代效果,根據相關研究指出,不到65%的搜尋結果,會再透過點擊連結進入其內容來源網站10。事實上,已有相關研究認為,生成式搜尋回覆的點擊率,甚至會低於已節節下降的自然搜尋結果點擊率,因為輸出的內容可能已經能為用戶提供他們正在尋找的大部分內容11。由此可知,GAI重製在輸出階段的影響,更是不言而喻的,當輸出重製或近似轉述原著作物,從而侵犯和替代原著作物,使用戶不再需要與原著作物聯繫,或從原始來源獲得該著作物時,將對出版商作品的市場產生損害。
該白皮書最後提出強化透明度與公平談判授權之建議,首先,GAI系統應該對出版商透明,即出版商有權知悉其內容被哪些開發商進行重製,及其使用相關內容的目的。因此,政府應制定強而有力的法規和政策,在出版商維權所需的範圍內規定透明度要求,使出版商有能力決定其著作物是否可被GAI系統使用;即使是基於非營利、研究或教育的第三方開發資料集,都必須明確揭露,不得規避透明度義務或著作權責任。
其次,GAI在未經授權的情況下使用出版商的著作物應被認定為侵權行為,政策制定者和行業參與者必須認識到,未經授權使用的出版商內容,被用於訓練大型語言模型以產生文本輸出,或生成複製出版商原創著作物或與之基本相似的輸出內容,都是對出版商受保護著作物專有權的侵害,並且侵占出版商的市場而與之進行不公平競爭。因此,必須促進GAI開發者和部署者與出版商之間進行有意義的授權談判,以有效率、廣泛地將出版商內容授權給GAI開發者,將有助於確保穩定供應高品質的人工創作內容,並協助開發高品質、準確、可信賴的GAI產品和服務。
最後,聯盟認為應糾正市場力量失衡現象,使出版商能夠進行公平談判,為GAI開發使用其內容進行授權許可。如果積極參與GAI開發和部署的網路主導者可以利用其市場力量,向出版商索取剝削性和反競爭的條款,或者以出版商在其他業務領域的讓步,做為GAI開發取得授權許可的條件,現有的著作權法將無助於公平談判的進行。故有必要透過其他機制的建立,使出版商有能力對抗大型數位平臺的市場支配地位,即平臺不應濫用其在搜尋服務或社群平臺功能方面的市場支配力,強迫出版商允許其內容被擷取而用於GAI用途,而是應該讓出版商有能力依據不同的使用情境,建立具有差異性的授權條件。
過往在新聞產業與大型數位平臺議價的政策討論上,「著作鄰接權」及「強制議價權」做為新聞事業與大型數位平臺議價協商法制之請求權基礎,這兩種制度有截然不同的理論基礎。就「著作鄰接權」而言,其關心新聞出版品在網際網路上的保護,藉此制度重新平衡新聞出版者與數位平臺的經濟利益,確保新聞出版者之永續發展;就「強制議價權」而論,則立基於數位平臺與新聞媒體間議價能力不平等,導致新聞媒體難以透過其內容獲利,而必須透過強制性議價規則促進雙方商業協商,使新聞媒體獲得適當的報酬,促進公平競爭。
人工智慧產業的發展,需要大量高品質的資料做為其AI系統成長的養分,因此在推動AI產業發展的同時,也必須兼顧其成長來源的永續發展。過去主張未主動使用新聞內容的數位平臺,在其平臺推出人工智慧數位助理及導入大型語言模型後,也必須正視其GAI在輸入與輸出所涉及的新聞內容使用授權問題。目前實務的發展,除有如美聯社與OpenAI之合作外,更多的是技術抵制與訴訟,如紐約時報、CNN等新聞媒體封鎖ChatGPT以網路爬蟲取得其內容,或如紐約時報向OpenAI、微軟提起擅取資料訓練AI之著作權侵權訴訟。
本文認為在討論新聞產業與生成式人工智慧的競爭與合作,既有的「著作鄰接權」與「強制議價權」,兩者並非完全相悖的制度設計,都是希望透過商業協商機制,推動新聞媒體產業與大型數位平臺共榮發展。「著作鄰接權」的優點在於具有明確的財產權利範圍,授權協商具有正當權利之基礎;而私權協商如陷入僵局或訴訟爭議,必須耗費大量時間與金錢成本。而此一缺點正是「強制議價權」的優勢所在,在協商之外透過調解與強制仲裁,使曠日廢時的訴訟能以更具效益的仲裁解決紛爭。誠如美國新聞媒體聯盟之建議,著作權之授權談判與協商應做為GAI使用相關新聞內容之基礎,而能否達成授權協議則有賴其他爭端解決機制,以促進雙方的合作與競爭。