中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

python中怎么處理文本數(shù)據(jù)-創(chuàng)新互聯(lián)

這篇文章給大家介紹python中怎么處理文本數(shù)據(jù),內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。

為金臺(tái)等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及金臺(tái)網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為成都網(wǎng)站制作、成都做網(wǎng)站、金臺(tái)網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!

1) 問(wèn)題描述

數(shù)據(jù):某個(gè)區(qū)域181天內(nèi)的訪客數(shù)據(jù),格式如下,第一列代表訪客的名稱,第二列代表這位訪客在181天內(nèi)到達(dá)這片區(qū)域的時(shí)刻:

python中怎么處理文本數(shù)據(jù)

目的:將訪客數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并時(shí)間離散化,按照天 /周/小時(shí)處理為72624的三維矩陣。
也就是說(shuō),矩陣中的每一個(gè)值,代表該區(qū)域 周X、第幾周、幾點(diǎn) 的到訪人數(shù),如
[1,5,19]=100,代表第5周的周一晚上7點(diǎn)的人數(shù)為100。

2)難點(diǎn)

當(dāng)然是對(duì)我的難點(diǎn)。

2.1)怎么按行統(tǒng)計(jì)

2.2)怎么進(jìn)行時(shí)間離散化(存為天、周、時(shí)刻的矩陣)

3)代碼

import time
import numpy as np
import sys
import datetime
import pandas as pd
import os
#用字典查詢代替類型轉(zhuǎn)換,可以減少一部分計(jì)算時(shí)間
date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
#print(datestr2dateint)
#
for i in range(24):
 str2int[str(i).zfill(2)] = i
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')

#print(table.shape)
#print(table.ix[1])
strings = table[1]
#print(strings)
init = np.zeros((7, 26, 24))
for string in strings:
 temp = []
 for item in string.split(','):
 temp.append([item[0:8], item[9:].split("|")])
 for date, visit_lst in temp:
 # x - 第幾周
 # y - 第幾天
 # z - 幾點(diǎn)鐘
 # value - 到訪的總?cè)藬?shù)
 # print(visit_lst)
 print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 統(tǒng)計(jì)到訪的總?cè)藬?shù)
  init[x][y][str2int[visit]] += 1
 #print(init[x][y][str2int[visit]])```

3.1)創(chuàng)建字典,時(shí)間離散化,節(jié)省時(shí)間

此處創(chuàng)建了三個(gè)字典,讓我們看一下代碼實(shí)現(xiàn)以及打印結(jié)果:

date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
for i in range(24):
 str2int[str(i).zfill(2)] = i

打印一下 date2position:

python中怎么處理文本數(shù)據(jù)

打印一下 datestr2dateint:

python中怎么處理文本數(shù)據(jù)

打印str2int:

python中怎么處理文本數(shù)據(jù)

可以看出,datestr2dateint是將str的日期,轉(zhuǎn)換為了int的日期。
而date2position 才是計(jì)算出的每一個(gè)具體的日期,代表了第幾周、第幾天。
str2int代表了一天中的24個(gè)時(shí)刻。

3.2)讀取文件,按行獲取字符串

注意到文本的分隔符為\t(區(qū)分用戶名與到訪信息的分割),于是采用

f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')

然后用strings讀取到訪信息,也就是table的第二列:

strings = table[1]

3.3)切分字符串

首先,strings為:

python中怎么處理文本數(shù)據(jù)

可以看到每一行string,為一個(gè)用戶的到訪記錄,循環(huán)讀取。其中,不同日期的到訪是用“,”隔開,故要使用:

for string in strings:
 temp = []
 for item in string.split(','):

item就可以分開每一個(gè)日期的到訪記錄了:

python中怎么處理文本數(shù)據(jù)

其后,使用temp列表,每一行存儲(chǔ)日期和時(shí)刻。
如第一個(gè)item為 20181221&09|10|11|12|13|14|15
日期為 item[0:8],
時(shí)刻之間使用分隔符“|”隔開,故可以通過(guò)item[9:].split("|")得到。

temp.append([item[0:8], item[9:].split("|")])

打印一下temp為:

python中怎么處理文本數(shù)據(jù)

所以需要用兩個(gè)數(shù)據(jù)分別存儲(chǔ)日期,以及時(shí)刻。
首先用來(lái)轉(zhuǎn)換成 周、天、時(shí)刻的72624矩陣(根據(jù)前面的轉(zhuǎn)換函數(shù))
其后根據(jù)這個(gè)矩陣,統(tǒng)計(jì)每一個(gè)位置的訪客數(shù)量

for date, visit_lst in temp:
 # x - 第幾周
 # y - 第幾天
 # z - 幾點(diǎn)鐘
 # value - 到訪的總?cè)藬?shù)
 # print(visit_lst)
 #print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 統(tǒng)計(jì)到訪的總?cè)藬?shù)
  init[x][y][str2int[visit]] += 1

關(guān)于python中怎么處理文本數(shù)據(jù)就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

網(wǎng)站題目:python中怎么處理文本數(shù)據(jù)-創(chuàng)新互聯(lián)
文章鏈接:http://www.rwnh.cn/article48/pipep.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃營(yíng)銷型網(wǎng)站建設(shè)、動(dòng)態(tài)網(wǎng)站、關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站、品牌網(wǎng)站設(shè)計(jì)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

手機(jī)網(wǎng)站建設(shè)
德化县| 兴义市| 洛浦县| 宁南县| 西林县| 杨浦区| 铜梁县| 贡嘎县| 汝南县| 阿坝县| 景泰县| 筠连县| 木里| 金阳县| 东源县| 玉田县| 新巴尔虎左旗| 乳源| 莱芜市| 鹿邑县| 宁夏| 中卫市| 南通市| 库车县| 清徐县| 五家渠市| 高清| 三门峡市| 聊城市| 额济纳旗| 抚顺市| 平谷区| 涟水县| 手游| 贵定县| 台南县| 久治县| 瓦房店市| 田林县| 正宁县| 随州市|