各种AI平台,AI工具层出不穷,感觉AI无所不能,像我这种老古董的IT技能要被完全淘汰了。

这两天一件小事治好了我的AI焦虑。

我有一批古诗的数据要处理,大约有25万多首古诗吧,以json格式存在300多个文件里,平均每个文件800多首,格式是这样的:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
  {
    "author": "李白",
    "paragraphs": [
      "君不見黃河之水天上來,奔流到海不復迴。",
      "君不見高堂明鏡悲白髮,朝如青絲暮成雪。",
      "人生得意須盡歡,莫使金樽空對月。",
      "天生我材必有用,千金散盡還復來。",
      "烹羊宰牛且爲樂,會須一飲三百盃。",
      "岑夫子,丹丘生,將進酒,君莫停。",
      "與君歌一曲,請君爲我側耳聽。",
      "鐘鼓饌玉不足貴,但願長醉不願醒。",
      "古來聖賢皆寂寞,惟有飲者留其名。",
      "陳王昔時宴平樂,斗酒十千恣讙謔。",
      "主人何爲言少錢,徑須沽取對君酌。",
      "五花馬,千金裘,呼兒將出換美酒,與爾同銷萬古愁。"
    ],
    "tags": [
      "黄河",
      "咏物",
      "抒情",
      "鼓吹曲辞",
      "唐诗三百首",
      "乐府",
      "宴饮",
      "哲理",
      "水",
      "咏物诗"
    ],
    "title": "將進酒",
    "id": "e5e5f969-ddac-4491-9cfe-d77742e1416d"
  },

其中的"paragraphs"字段就是诗的内容,问题来了,有一部分诗的"paragraphs"字段是类似于这样的:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

    {
        "author": "李諒",
        "paragraphs": [
            "[湘江](江水)永州路,水碧山崒兀。",
            "古木暗[漁](魚)潭,陰雲起龍窟。",
            "峻屏夾澄[徹](澈),怪石生[溪渤](□勒)。",
            "[巨]艦時邅迴,輕舠已超忽。",
            "疾如奔羽翼,清可[鑑](鑒)毛髪。",
            "寂寞[幾](榜)漁舟,逶迤逗[啇](商)[筏]。",
            "[我]行十月杪,猿嘯中夜發。",
            "楓葉寒始丹,菊花冬未歇。",
            "凝流綠可[染],積[翠](學)浮堪擷。",
            "[峭]蒨每驚新,幽奇信誇絕。",
            "稠[峰](峯)疊玉嶂,淺[浪](泿)翻殘雪。",
            "石[燕](鷰)雨中飛,[塞](霜)鴻雲外別。(迴鴈峯)",
            "泝洄已勞苦,覽[玩](翫)還愉悅。",
            "鶴嶺訪胎仙([祁]陽縣白鶴[嶺]道士屈志静得仙處),𢈪(音吾)亭仰文[喆](哲)(祁陽𢈪亭,元中丞次山所居。)。",
            "川間[有]漁釣,山上多薇蕨。",
            "無[以](公)佐雍熙,何如養疵拙。",
            "安人苟有[積](績),撫己行將[耋]。",
            "此路好[乘桴],吾其謝羈紲。",
            "(見《金石萃編》卷一百八。",
            "第三句「暗魚」二字原缺,據《輿地紀勝》卷五十六補。",
            ")(《金石萃編》錄此詩缺誤甚多,而清瞿中溶《古泉山館金石文編殘稿》卷三補錄此詩無缺,今據以校補。",
            "瞿中溶跋云:李諒《湘中紀行》詩二十行,行三十字,正書左行。",
            "述葊侍郎《金石萃編》所載闕十五字,又『溪渤』之『渤』誤作『勒』,『積翠』之『翠』誤作『學』,蓋搨本未精之故。",
            "予遊浯溪,親督搨工椎打,所謂闕泐者一一皆可辨識,乃爲補之。",
            "中云『痦亭仰文哲』,『亭』字並不作『廎』,此唐人手筆,可見次山當本用『亭』字也。",
            ")(〖1〗石刻詩後至題「大和四年十月廿五日,[桂]管都防禦觀察處置等使桂州刺史兼御史大夫李諒,過此偶題,並領男穎同登覽。",
            "」〖2〗《金石萃編》王昶按:「李諒,兩《唐書》無傳,《全唐詩》有其人,小傳稱諒字復言,三宰劇邑,再爲郡牧,終京兆尹,而不詳所牧何郡。",
            "所載詩,便有《蘇州元日郡齊感懷寄越州元相公杭州白舍人》詩一首,題下注云:『時長慶四年也。",
            "』而不載此詩。",
            "詩中缺泐,無從校補。",
            "此詩題曰《湘中紀行》,是官桂州刺史道經永州題此詩於𢈪亭者。",
            "合而觀之,是諒先於長慶四年守蘇州,至此時相距七年而移守桂州,所謂再爲郡牧者是已。",
            "《蘇州元日》詩句云『新知四十九年非』,是長慶四年年五十也,至此則五十六矣。",
            "有一子,名穎。",
            "諒之可見者祇此。",
            "」)。"
        ],
        "title": "湘中紀行",
        "id": "9724a6df-eafd-4fd8-8ef4-f2c348e690fb"
    }

我需要把里面非诗句的部分去掉,诗句部分也要把[]()这些符号和多余的字去掉,最后仍然以原来的格式存储。

问题是,我不知道哪首诗有这种情况,也不知道在哪个json文件里,人工核对的话,二十五万首诗哪怕是飞速的看过来,也要看到猴年马月去了。

于是想到用AI帮我解决,结果。。。

越折腾越来气,不提也罢。

白白浪费我的时间。

后来我Emeditor编辑器,在整个文件夹下用正则表达式搜索、替换,很快搞定!

心里释然,AI嘛,也不过如此。