aa级亚洲电影,国产999视频在线播放,国产乱子伦60女人的皮视频

阿里達(dá)摩院，一個正兒八經(jīng)搞AI的地方。

但偏偏“掃地僧”們干起了文縐縐的工作：

研究古籍。

他們將流散海外的珍貴古籍善本以數(shù)字化的形式請回故土。

第一批達(dá)20萬頁。

△宋百家詩存

當(dāng)理科生干起了專業(yè)文科生的工作，會擦出怎樣的火花？

古籍為何“出海”，又如何“回來”？

關(guān)于這個故事，很精彩，也很有意義。

古籍為何外流？

1860年（清咸豐10年），五千年文明古國此刻風(fēng)雨飄搖。

北有英法聯(lián)軍搗毀圓明園，逼迫中國簽下《天津條約》、《北京條約》。

南有太平軍進(jìn)入杭州，

藏有《四庫全書》的“南三閣”之一杭州文瀾閣，次年毀于戰(zhàn)亂。

閣圮而書散，無數(shù)經(jīng)典，從此淹沒在歷史中。

文瀾閣遭遇“滅頂之災(zāi)”后，杭州藏書家丁申、丁丙兄弟在逃難途中無意間發(fā)現(xiàn)文瀾閣《四庫全書》殘編。

相傳，丁式兄弟買包子時，偶爾發(fā)現(xiàn)包食物的紙，“皆四庫書也”，大驚。

于是他們開始緊急救書，上下打點(diǎn)，四處尋訪。

經(jīng)歷這輪戰(zhàn)亂，文瀾閣本《四庫全書》的四分之一被丁氏兄弟搶救，四分之三消散飄零，不知所蹤。

直到將近100年后的1950年代，清代曹庭棟輯纂的《宋百家詩存》（卷七），出現(xiàn)在美國加州大學(xué)伯克利分校東亞圖書館。

而這本《宋百家詩存》，正是丟失的文瀾閣本《四庫全書》之一。

目前有線索可查的，只能明確伯克利東亞圖書館從日本三井文庫購得這批古書。

△伯克利東亞圖書館

這類古書文物到底經(jīng)歷了怎樣的顛簸流離，如今已不可考。

據(jù)不完全估計(jì)，近代散居海外的中國古籍超過40萬部、400萬冊，包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數(shù)民族文獻(xiàn)等等。

如今山河無恙，但流散海外的古書典籍，卻成了中國文學(xué)、歷史研究，以及傳統(tǒng)文化傳承難以彌補(bǔ)的遺憾。

“再現(xiàn)”20萬頁古籍

大約兩年前，阿里巴巴聯(lián)合四川大學(xué)、美國加州大學(xué)伯克利分校，共同發(fā)起一項(xiàng)公益項(xiàng)目漢典重光，尋覓那些流散在海外的中國古籍，借助達(dá)摩院的AI技術(shù)，用數(shù)字化的方式讓它們回歸故土。

而鮮有接觸古籍的達(dá)摩院“掃地僧”們，一開始還不知道AI錄入古書是多么有挑戰(zhàn)的任務(wù)。

OCR（光學(xué)字符識別），其實(shí)是一種常用的計(jì)算機(jī)視覺技術(shù)，經(jīng)常被用來識別文字，比如證件、票據(jù)、電商平臺的商品圖片等。

但是，我們生活中常見的OCR，絕大部分是針對現(xiàn)代漢字，而且還是印刷字體，把這樣的系統(tǒng)直接拿來用在古書上，根本行不通。

首先，古籍文字的類別極其龐大。現(xiàn)代漢語常用字不過6000多個，常見印刷體，算法能夠覆蓋到的文字基本上在2萬字以內(nèi)。

但是據(jù)估計(jì)，古籍文字多達(dá)幾十萬。

為什么古籍上面有如此多的字？

古籍上面每個字都有不同的寫法。比如一個“郷”有各種寫法。

此外，還有字體的變化。在雕版印刷古籍中，即使是同一拓片在不同季節(jié)、氣候、地點(diǎn)印出的書也完全不同，而那些人工抄錄的古書，更是千人千面。

每一個字形，即使表意可能相同，對于AI來說，也是一個需要重新學(xué)習(xí)記憶的新知識。

第三，古書版式復(fù)雜。除了不同于如今的從右到左，從上到下的排版，在每行字中間還常常夾有批注，這就使得常規(guī)使用的行識別方法失效。

△古籍版式復(fù)雜

最后，由于年代久遠(yuǎn)，古書保存狀況也各有不同，在AI看來，紙張破損、污漬等等相當(dāng)于大量的人為噪聲。

而達(dá)摩院，專門為古籍識別開發(fā)出了新的系統(tǒng)的。

主要分為兩大步，一是聚類數(shù)據(jù)生產(chǎn)識別，二是主動學(xué)習(xí)數(shù)據(jù)生產(chǎn)識別。用到了單字檢測、無監(jiān)督圖像聚類、少樣本分類、主動學(xué)習(xí)等一系列機(jī)器學(xué)習(xí)方法。

首先是全書檢測，把古籍正文中的每個字都摳出來，作為單獨(dú)的一張圖。

其次是聚類。

一本古籍總字?jǐn)?shù)可能有10萬字,但其中有很多字是重復(fù)的，比如“之、乎、者、也”,聚類所做的事就是讓機(jī)器自動把字形筆畫一致的字歸為一類,接著再由人工進(jìn)行標(biāo)注。也就是說，原來要人工標(biāo)注全部10萬字的書，經(jīng)過聚類，只需要對全部二三千字類進(jìn)行標(biāo)注，一類字只標(biāo)注一次。

聚類和人工標(biāo)注，不僅完成了每一類文字的認(rèn)字過程，還收獲更多新的訓(xùn)練樣本，可以繼續(xù)喂給機(jī)器學(xué)習(xí)。

一般來說，數(shù)據(jù)越多，越有利于模型的訓(xùn)練。但古籍里有很多異體字、生僻字，出現(xiàn)概率極低，根本無法尋覓這么多的樣本。

所以團(tuán)隊(duì)想到了讓機(jī)器自動生成樣本。使用字體遷移方法來使合成數(shù)據(jù)，機(jī)器自動為每個字合成幾個新的樣本，確保單字樣本量達(dá)到10個。這樣，就有足夠數(shù)據(jù)訓(xùn)練少樣本識別模型。

得到少樣本識別模型之后，就能投入使用，把第一步全書檢測獲得的所有圖片進(jìn)行重新標(biāo)注。不同于上一輪聚類+人工打標(biāo)，這次是識別模型的自動標(biāo)注，如果識別打標(biāo)的數(shù)據(jù)與前一輪聚類的結(jié)果一致，就可以認(rèn)為這張圖片當(dāng)前標(biāo)簽是對的。如果不一致，那就讓這個字回到聚類步驟，繼續(xù)迭代。

從聚類打標(biāo)到少樣本模型打標(biāo)走完一輪，全書70%左右的文字可以被打上正確的標(biāo)簽，余下的30%，從頭開始再來一遍，第二輪迭代，又能解決余下文字中的70%。

經(jīng)過兩輪迭代，一本書的91%的文字可以被打上正確的標(biāo)簽。

它們不僅沉淀為了機(jī)器的字典，也是更豐富的訓(xùn)練數(shù)據(jù)。通過前期一本書、一本書地學(xué)習(xí)，產(chǎn)生的訓(xùn)練數(shù)據(jù)越來越多，機(jī)器的認(rèn)字能力也越來越強(qiáng)。

最后，就是訓(xùn)練最終模型，能對100本以上的書進(jìn)行批量識別的單字分類模型。這個模型一出手，對批量數(shù)據(jù)的識別準(zhǔn)確率就高達(dá)96%。隨著模型的優(yōu)化和迭代，目前系統(tǒng)對20萬頁古籍的整體識別準(zhǔn)確率已經(jīng)達(dá)到97.5%。今后，AI學(xué)到的數(shù)據(jù)越多，模型的進(jìn)化程度也會越高。

回到模型“養(yǎng)成”環(huán)節(jié)，AI識別完絕大部分文字，剩下的需要人工專家補(bǔ)充標(biāo)注。

那么問題又來了AI怎么知道哪一部分是識別好的，哪一部分是需要交給人類專家的呢？

這個時候，主動學(xué)習(xí)算法出場了。通過它，機(jī)器自己就能找出那些它識別不了的文字，交給人類來做最后一步工作。

以往，人工標(biāo)注通常需要“兩錄一檢”以達(dá)到99.97%的出版要求。

以一本100萬字的古籍為例，如果全靠專家錄入，每人1000字/天，需要1000天。

達(dá)摩院的古籍識別算法，用AI替代人工，在兩個環(huán)節(jié)大幅壓縮了專家標(biāo)注工作量。

在機(jī)器為主進(jìn)行識別的97.5%的內(nèi)容中，約有1%（1萬字左右）需要專家錄入；機(jī)器不能識別的余下2.5%（2.5萬字）的文字，全部交給專家做后期標(biāo)注。

兩部分相加，人工的工作量占全書的3.5%（3.5萬字），還是按照一人1000字/天算，需要35天。因此，相比人工專家錄入，百萬字書籍的數(shù)字化工作量從1000天降低到了35天，效率比人工專家錄入方案提升近30倍。

阿里達(dá)摩院的AI古籍識別算法，為中華古籍的回歸提供了另一種可行可期的思路。

不簡單的工作

2年，20萬頁，平均下來每天280頁。

再細(xì)算一下，每個小時就是11頁，還得是在不吃不喝的那種情況。

這對于用傳統(tǒng)方式“復(fù)現(xiàn)”古籍來說，簡直是mission impossible。

為什么這么說？

舉個“人工錄入”的例子，便一目了然。

在乾隆皇帝執(zhí)政期間，便組織過一次對《四庫全書》的編撰。

《四庫全書》共包含3500種書、7.9 萬卷、3.6萬冊，總字?jǐn)?shù)多達(dá)8億。

而當(dāng)年參與次項(xiàng)目的人數(shù)則多達(dá)3800人，包括紀(jì)昀等360多位高官、學(xué)者。

但即便如此人力之下，也是耗時15年才完成。

然而量大，并不是這個工作的唯一難點(diǎn)。

非常直接的一個問題，便是“理科生”和“文科生”之間的碰撞。

阿里達(dá)摩院、四川大學(xué)歷史文化學(xué)院，雙方在各自的領(lǐng)域都堪稱是專家級別。

但之于對方的領(lǐng)域呢？說是小白也不足為過了。

而且AI技術(shù)、古籍文化，還都屬于上手門檻很高的那種。

為此，雙方可謂是惡補(bǔ)知識短板。

歷史學(xué)家、文獻(xiàn)學(xué)家，要去學(xué)習(xí)計(jì)算機(jī)、AI相關(guān)的基礎(chǔ)知識，要了解用AI技術(shù)識別古籍到底是怎樣一個過程。

而阿里達(dá)摩院的工程師們，也花費(fèi)了相當(dāng)多的精力，去學(xué)習(xí)歷史相關(guān)知識。

例如古籍的版本、雕版、印刷、裝幀、內(nèi)容，還包括古文字、古代文化知識等等。

用四川大學(xué)歷史文化學(xué)院副院長王果教授的話說，就是：

在技術(shù)研發(fā)過程中，比之前預(yù)想到的難度還要大。

為此，雙方在杭州、成都，開了不下10次的技術(shù)研討會。

整體而言，漢典重光走過的這兩年時間，道阻且長、困難重重。

但阿里達(dá)摩院和四川大學(xué)歷史文化學(xué)院，卻對此從未放棄過。

之于原因，實(shí)則這項(xiàng)工作背后所蘊(yùn)含的意義，不僅僅是“復(fù)現(xiàn)”這么簡單。

“復(fù)現(xiàn)”古籍，意義非凡

讓在海外“顛沛流離”的古籍回家，讓“沉眠”數(shù)百甚至上千年的古籍入世，真的有那么重要嗎？

是的，而且非常重要。

具體而言，可以從三個方面來看。

首先是國家層面。

古籍是中華文明的“魂器”，國家圖書館副館長張志清說。

縱觀歷史上世界四大文明，能夠延續(xù)至今的，也只有中華文明。

很重要原因是，我國擁有一個連綿不絕、經(jīng)典的文獻(xiàn)世界。

我國從古便有盛世修史和盛世整理古籍的傳統(tǒng)。

修史、整理文獻(xiàn)，表面上是修復(fù)殘破、逸散的古籍，本質(zhì)上實(shí)則是補(bǔ)全中國文化最重要的載體，是修復(fù)中華文明生生不息的生命力，綿延中國文化不息的源泉。

“十四五”規(guī)劃和國家中長期發(fā)展規(guī)劃中，古籍的保護(hù)、整理、研究、利用，得到高度重視。

△宋百家詩存卷首

其次，是研究者、學(xué)者層面。

以這次從伯克利回歸的20萬頁古籍來講，就有很多國內(nèi)少見或者是沒有的珍稀善本。

因此，當(dāng)這些回歸的古籍被AI識別并數(shù)字化以后，研究人員、學(xué)者足不出戶，便可以研究在海外的、無法獲取的古籍，未來有望產(chǎn)生一大批重要的研究成果。

最后，是民眾層面。

或許很多人會認(rèn)為古籍離普通老百姓甚是遙遠(yuǎn)，但實(shí)則不然。

中國古籍的內(nèi)容浩如煙海，擁有非常龐大且復(fù)雜的知識體系，所涉及的范圍也是極其廣泛。

從應(yīng)對自然災(zāi)害、流行疫病、經(jīng)濟(jì)波動、政治斗爭、外交危機(jī)、氣候變遷等等內(nèi)容的經(jīng)驗(yàn)。

有戰(zhàn)爭、瘟疫、地震、洪澇災(zāi)害、病蟲害等等方面的經(jīng)驗(yàn)總結(jié)，更貼近生活的，還包括醫(yī)療、中藥、養(yǎng)生、家具、服飾、飲食文化等等。

而這些都是“老祖宗”們幾千年來的經(jīng)驗(yàn)總結(jié)和積累，是民族智慧的繼承。

漢典重光項(xiàng)目沒有停留在“回歸”海外古籍這個層面，以數(shù)字化的形式來展現(xiàn)，大大降低了人們學(xué)習(xí)、閱讀古籍的門檻，拉近了人們與中國文化的距離。

在發(fā)布會現(xiàn)場，許多研究古籍的知名教授也親臨現(xiàn)場，他們的眼中充滿了對古籍研究的熱情與使命感。

中央文史館館員、四川大學(xué)教授陳力說，他最大的心愿是，利用現(xiàn)代技術(shù)，讓古籍活起來，讓老百姓在古籍面前和祖宗對話，和傳統(tǒng)文化親密接觸。

再細(xì)數(shù)參與此次工作的人員，除了川大的老一輩教授、專家們，像博士生、碩士生，甚至本科生也參與到了其中。

某種程度上，這也是保護(hù)文化的一種傳承。

也正如阿里達(dá)摩院院長張建鋒表示：

守護(hù)中華傳世典籍，是科技工作者和文化工作者共同的使命。

而此次“數(shù)字化回歸”的這20萬頁古籍，只是漢典重光邁出的第一步。

阿里和川大還將繼續(xù)聯(lián)手，讓“離家百年、去國萬里”的更多中國璀璨古籍，以數(shù)字化方式回歸故里。

最后，奉上此次“漢典重光”首批數(shù)字化古籍重要書目，若想體驗(yàn)完整數(shù)字版，可戳文末鏈接~

漢典重光 · 古籍?dāng)?shù)字化平臺：

https://wenyuan.aliyun.com/home

阿里的“掃地僧”，2年“抄”了20萬頁古籍

△宋百家詩存

古籍為何外流？

△伯克利東亞圖書館

“再現(xiàn)”20萬頁古籍

△古籍版式復(fù)雜

不簡單的工作

“復(fù)現(xiàn)”古籍，意義非凡

△宋百家詩存卷首

相關(guān)推薦

阿里的“掃地僧”，2年“抄”了20萬頁古籍

△宋百家詩存

古籍為何外流？

△伯克利東亞圖書館

“再現(xiàn)”20萬頁古籍

△古籍版式復(fù)雜

不簡單的工作

“復(fù)現(xiàn)”古籍，意義非凡

△宋百家詩存卷首

相關(guān)推薦

阿里的“掃地僧”，2年“抄”了20萬頁古籍

古籍為何外流？