在excel處理大量數(shù)據(jù)匹配過(guò)程中,雖然可以使用vlookup,但是數(shù)據(jù)量超過(guò)10萬(wàn)進(jìn)行批量匹配的時(shí)候,效率非常差,因此使用python。經(jīng)查,發(fā)現(xiàn)python通過(guò)pandas庫(kù)的merge可以實(shí)現(xiàn)類似于SQL中join的功能
創(chuàng)新互聯(lián)建站長(zhǎng)期為上1000家客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對(duì)不同對(duì)象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺(tái),與合作伙伴共同營(yíng)造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為大柴旦企業(yè)提供專業(yè)的成都做網(wǎng)站、成都網(wǎng)站建設(shè),大柴旦網(wǎng)站改版等技術(shù)服務(wù)。擁有十年豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開發(fā)。
import pandas as pd
import numpy as np
# %%
with pd.ExcelFile('xx.xlsx') as xls:
df1 = pd.read_excel(xls,'Sheet1')
df2 = pd.read_excel(xls,'Sheet2')
outer=pd.merge(df1,df2,on='key')
outer.to_excel('outer_function.xlsx',index=False,encoding='utf-8')
最終實(shí)現(xiàn)Sheet1和Sheet2基于相同key字段的匹配,拼接。
工作需要寫了一個(gè)python小函數(shù)。
用fuzzywuzzy模糊匹配技巧解決人工數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)的匹配問(wèn)題.基本原理是先精確匹配,如果沒(méi)有,采用模糊匹配遍歷目標(biāo)空間,選取打分最大。
生物信息處理一些經(jīng)過(guò)人工輸入的數(shù)據(jù),往往有少量的錯(cuò)誤但是這些元數(shù)據(jù)往往要與結(jié)果數(shù)據(jù)統(tǒng)一分析,且非常之重要數(shù)據(jù)量小,那就一個(gè)一個(gè)改吧,工作需要寫了一個(gè)python小函數(shù),用fuzzywuzzy模糊匹配技巧解決人工數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)的匹配問(wèn)題基本原理是先精確匹配,如果沒(méi)有,采用模糊匹配遍歷目標(biāo)空間,選取打分最大的提交用戶檢查,最后輸出結(jié)果。
Python語(yǔ)句list(range(1,10,3))執(zhí)行結(jié)果為[1,4,7]。
語(yǔ)法是:range(start,stop[,step])
參數(shù)說(shuō)明:
(1)start:計(jì)數(shù)從start開始,默認(rèn)是從0開始。例如range(5)等價(jià)于range(0,5);
(2)stop:計(jì)數(shù)到stop結(jié)束,但不包括stop。例如:range(0,5)是[0,1,2,3,4]沒(méi)有5;
(3)step:步長(zhǎng),默認(rèn)為1。例如:range(0,5)等價(jià)于range(0,5,1)。
因此,range(1,10,3)的意思是1到10之間的tuple,間隔為3,所以結(jié)果是(1,4,7)。
列表(List)是最常用的Python數(shù)據(jù)類型,它可以作為一個(gè)方括號(hào)內(nèi)的逗號(hào)分隔值出現(xiàn)。
所以,list(range(1,10,3))執(zhí)行結(jié)果為[1,4,7]。
擴(kuò)展資料
Python列表函數(shù)方法
Python包含以下函數(shù):
1、cmp(list1, list2):比較兩個(gè)列表的元素;
2、len(list):列表元素個(gè)數(shù);
3、max(list):返回列表元素最大值;
4、min(list):返回列表元素最小值;
5、list(seq):將元組轉(zhuǎn)換為列表。
Python包含以下方法:
1、list.append(obj):在列表末尾添加新的對(duì)象;
2、list.count(obj):統(tǒng)計(jì)某個(gè)元素在列表中出現(xiàn)的次數(shù);
3、list.extend(seq):在列表末尾一次性追加另一個(gè)序列中的多個(gè)值(用新列表擴(kuò)展原來(lái)的列表);
4、list.index(obj):從列表中找出某個(gè)值第一個(gè)匹配項(xiàng)的索引位置;
5、list.insert(index, obj):將對(duì)象插入列表;
6、list.pop([index=-1]):移除列表中的一個(gè)元素(默認(rèn)最后一個(gè)元素),并且返回該元素的值;
7、list.remove(obj):移除列表中某個(gè)值的第一個(gè)匹配項(xiàng);
8、list.reverse():反向列表中元素;
9、list.sort(cmp=None, key=None, reverse=False):對(duì)原列表進(jìn)行排序。
文章題目:python數(shù)據(jù)匹配函數(shù) python 完全匹配
網(wǎng)頁(yè)鏈接:http://www.rwnh.cn/article12/dodocdc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制開發(fā)、自適應(yīng)網(wǎng)站、ChatGPT、外貿(mào)網(wǎng)站建設(shè)、定制網(wǎng)站、服務(wù)器托管
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)