中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

python通過docx模塊解決doc及docx后綴文件內(nèi)容的處理-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)建站是一家專注于成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營銷網(wǎng)站建設(shè)與策劃設(shè)計,鞍山網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)建站做網(wǎng)站,專注于網(wǎng)站建設(shè)10多年,網(wǎng)設(shè)計領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:鞍山等地區(qū)。鞍山做網(wǎng)站價格咨詢:028-86922220>import os,shutil,docx,re,time from win32com import client as wc #從所有級聯(lián)目錄讀取文件到指定目錄內(nèi) def count_files(file_dir): count=0 for p,d,f in os.walk(file_dir): for c in f: if c.split('.')[-1]=="doc": count +=1 src_dir = os.path.join(p, c) print(src_dir) dst_dir = file_dir + "back" if not os.path.exists(dst_dir): os.makedirs(dst_dir) shutil.copy(src_dir, dst_dir) return count #提取每個docx簡歷文檔里面的郵箱地址,我們這里使用python-docx模塊來解決pip install python-docx def count_mail(file_dir,dst_file): mail_list = [] for parent,dirctiory,files in os.walk(file_dir): for f in files: doc = docx.Document(os.path.join(parent,f)) pattern = re.compile(r'''([a-zA-Z0-9._%+-]+@[a-zA-Z0-9\t\s.-]+(\.[a-zA-Z0-9\t\s]{2,4}))''', re.VERBOSE) for para in doc.paragraphs: for groups in pattern.findall(para.text): mail_list.append(groups[0].replace(" ","")+";") with open(dst_file,'w')as f: f.writelines(mail_list) print("=====================郵件信息寫入成功===================") #由于python-docx模塊只能處理docx后綴,我們需要處理doc后綴的文件,必須通過win32com模塊來把doc后綴轉(zhuǎn)換成docx def docxTodoc(old_doc,new_doc): word = wc.Dispatch('Word.Application') for parent,directory,files in os.walk(old_doc): for f in files: doc = word.Documents.Open(os.path.join(parent,f)) # 目標(biāo)路徑下的文件 new_filepath=os.path.join(new_doc,f.split(".")[0]+".docx") print(new_filepath) doc.SaveAs(new_filepath, 12, False, "", True, "", False, False, False,False) # 轉(zhuǎn)化后路徑下的文件 doc.Close() print(time.time()) word.Quit() if __name__ == '__main__': print(count_files(r"C:\Users\icestick\Desktop\51job_導(dǎo)出簡歷_20180917")) count_mail(r"C:\Users\icestick\Desktop\new_doc",r"C:\Users\icestick\Desktop\test.txt" ) old_doc = r"C:\Users\icestick\Desktop\51job_導(dǎo)出簡歷_20180917" #需要把doc目錄轉(zhuǎn)成docx格式的原目錄 new_doc = r"C:\Users\icestick\Desktop\new_doc" #需要把doc目錄轉(zhuǎn)成docx格式的目標(biāo)目錄 mail_extract = r"C:\Users\icestick\Desktop\test.txt" #郵箱提取好的文件 if not os.path.exists(new_doc): os.mkdir(new_doc) print("=====================目錄創(chuàng)建成功======================") docxTodoc(old_doc, new_doc) print("=====================docx格式轉(zhuǎn)換成功===================") count_mail(new_doc, mail_extract) else: docxTodoc(old_doc, new_doc) print("=====================docx格式轉(zhuǎn)換成功===================") count_mail(new_doc, mail_extract)

本文名稱:python通過docx模塊解決doc及docx后綴文件內(nèi)容的處理-創(chuàng)新互聯(lián)
轉(zhuǎn)載來于:http://www.rwnh.cn/article6/dhhoig.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、網(wǎng)站設(shè)計公司網(wǎng)站設(shè)計、動態(tài)網(wǎng)站小程序開發(fā)、響應(yīng)式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名
同仁县| 元氏县| 怀化市| 定南县| 丽江市| 灵寿县| 乌拉特前旗| 汉阴县| 册亨县| 江门市| 江西省| 台湾省| 克拉玛依市| 信丰县| 镶黄旗| 鄂州市| 富裕县| 华蓥市| 公主岭市| 巴塘县| 安阳市| 诸城市| 襄樊市| 普兰县| 都安| 肃北| 长宁县| 长武县| 永登县| 那坡县| 东乡| 萍乡市| 名山县| 永昌县| 河池市| 铁岭市| 镶黄旗| 沂源县| 申扎县| 天津市| 安庆市|