新用戶登錄后自動(dòng)創(chuàng)建賬號
登錄對于計(jì)劃出租房屋的房主,你應(yīng)該將房屋的租金設(shè)定為多少呢?或者對于租房的顧客而言,應(yīng)該給自己的租房支付多少呢?不管是對于一次有計(jì)劃的遠(yuǎn)足,還是一次說走就走的旅行,為租房付出多少才真正合適呢?
回答這些問題并不容易。事實(shí)上,可以通過將潛在的租房列在我們網(wǎng)站—Airbnb上來實(shí)現(xiàn),Airbnb是一家聯(lián)系旅游人士和家有空房出租的房主的服務(wù)型網(wǎng)站,它可以為用戶提供各式各樣的住宿信息。
在焦點(diǎn)小組,我們觀察到人們在我們的網(wǎng)站上填寫房屋信息的過程中,往往在價(jià)格選項(xiàng)上會(huì)顯得為難。很多人會(huì)查看他們的鄰居們所設(shè)置的價(jià)碼,然后選擇一個(gè)可比較的價(jià)格;這個(gè)過程會(huì)讓用戶在瀏覽器中打開很多標(biāo)簽,然后找出那些與他們接近的房源。有些人在填寫信息之前,腦子里已經(jīng)有了一個(gè)目標(biāo),可能是為了賺取一些額外的資金,來幫助支付抵押貸款或度假費(fèi)用。于是,他們開出的價(jià)格主要是為幫助他們實(shí)現(xiàn)這一目標(biāo),反而沒有考慮房子真實(shí)的市場價(jià)值。而對于這其中的有些人,不幸的是,通常他們的房子都沒能被租出去。
顯然,Airbnb需要為人們提供一種更好的方式—自動(dòng)化定價(jià),以幫助顧客做出正確的決定。這就是我們?yōu)槭裁丛?012年就開始構(gòu)建定價(jià)工具,并至今一直在努力地改進(jìn)它們的原因。今年6月,我們發(fā)布了我們最新的版本。我們開始實(shí)行動(dòng)態(tài)定價(jià),也就是說,根據(jù)不斷變化的市場條件每天提供新的價(jià)格提示。我們調(diào)整了我們的通用定價(jià)算法以考慮市場上一些偶然的、甚至是令人驚訝的特征。此外,我們還增加了一種獨(dú)特的機(jī)器學(xué)習(xí)方法,讓我們的系統(tǒng)不僅能從自己的經(jīng)驗(yàn)中學(xué)習(xí),而且必要時(shí)還能利用人的一些直覺。
在線網(wǎng)絡(luò)中,許多公司使用算法來設(shè)置或建議價(jià)格。以易趣為例,它會(huì)告訴用戶哪些類似的產(chǎn)品已經(jīng)售出,以致用戶可以基于這些信息對自己的產(chǎn)品設(shè)置價(jià)格。易趣的定價(jià)問題是相對容易解決的,因?yàn)樗挥藐P(guān)心賣家和買家在哪里,也不需要是關(guān)心產(chǎn)品在什么時(shí)候出售。雖然在搭乘共享公司Uber和Lyft中,地域和時(shí)間都是需要考慮的因素,但是這兩家公司僅僅通過法令來確定價(jià)格,在定價(jià)方面并沒有用戶選項(xiàng),也不需要考慮定價(jià)的透明性。
在Airbnb上,我們面臨著一個(gè)異常復(fù)雜的問題。我們網(wǎng)站上的數(shù)百萬房源都是獨(dú)一無二的,它們有自己的地址、大小和裝飾。顧客在接待、飲食或旅游引導(dǎo)方面的要求也不盡相同。一些規(guī)律的(如季節(jié)性天氣變化)和不規(guī)律的(如本地的大型活動(dòng))因素都會(huì)讓問題變得更加復(fù)雜。
三年前,通過利用房源信息中最重要的一些特征,如房間和床鋪的數(shù)量、周圍的環(huán)境、以及某些特殊的設(shè)施(如停車位、游泳池等),我們開始構(gòu)建一個(gè)為潛在用戶提供價(jià)格提示的工具。我們在2013年正式將它推出,它在大多數(shù)情況下工作得很好。但它也存在局限性:
第一,其定價(jià)算法的工作方式是不變的。
舉個(gè)例子,假如我們考慮俄勒岡州波特蘭市珍珠區(qū)的情況,如果設(shè)定河邊的房子的價(jià)格比遠(yuǎn)離河邊的房子的價(jià)格要高,除非我們手動(dòng)地對這些指標(biāo)進(jìn)行變更,否則該算法將永遠(yuǎn)這樣執(zhí)行。
第二,我們的定價(jià)工具并不是動(dòng)態(tài)的,并不會(huì)根據(jù)你預(yù)定房間的時(shí)間或有多少人在同一時(shí)間預(yù)定而對價(jià)格提示做出調(diào)整。
自去年年中以來,我們一直在試圖改變這種狀況。我們想構(gòu)建一個(gè)工具,其能夠通過與用戶進(jìn)行交互而從錯(cuò)誤中獲得提高。我們也希望使用該工具來調(diào)節(jié)需求,在必要的時(shí)候,可以在房間空余時(shí)給出價(jià)格下降的提示,或根據(jù)需求增加給出價(jià)格增長的提示。我們現(xiàn)在已經(jīng)解決了這些問題,并且在今年6月份的時(shí)候用戶已經(jīng)開始使用這一新工具。接下來,我們將告訴你這些工具是如何不斷改進(jìn)的,并且它們現(xiàn)在是如何工作的。我們還會(huì)告訴你,為什么我們最新的工具—Aerosolve,除了對租賃的房屋進(jìn)行定價(jià),最終還可以做的更多。這也是為什么我們將其發(fā)布到開源社區(qū)的原因。
三個(gè)簡單的例子
為了得到解決這個(gè)問題的思路,我們首先舉三種簡單的情況。
比如,去年足球世界杯期間你居住在巴西。你的家鄉(xiāng)會(huì)涌入大量來自于世界各地的游客,聚集在一起享受這個(gè)星球上最偉大的足球比賽。如果此時(shí)你的房子里正好有空余的房間,你也想滿足其他足球愛好者的需求,順便賺取一些額外的現(xiàn)金,就可以將它們租出去。
為了幫助你設(shè)置合理的價(jià)格,我們的工具需要考慮幾個(gè)因素:
首先,在這個(gè)國家,這是一代人才可能經(jīng)歷一次的事情,所以我們在Airbnb上絕對沒有歷史數(shù)據(jù)可供參考。
其次,所有酒店都被預(yù)定一空,供需之間巨大的不平衡此時(shí)尤為明顯。
第三,人們來旅游的時(shí)候,他們已經(jīng)在機(jī)票和國際旅行上花了很多錢,因此他們也已經(jīng)準(zhǔn)備為住房花上一筆。
因此,除了房間大小、房間數(shù)量和位置等因素,這些因素也都應(yīng)該被考慮進(jìn)去。
或者,想象你在蘇格蘭高地繼承了一座城堡,為了支付清理護(hù)城河、經(jīng)營酒廠、以及飼養(yǎng)獵鷹的成本,你決定將炮塔改造成一個(gè)提供早餐和住宿的旅館。不同于世界杯的情況,此時(shí)你有一些可比較的數(shù)據(jù),那就是附近的城堡。一些數(shù)據(jù)可能跨越了很多年,提供了有關(guān)旅行的一些季節(jié)性信息。而且你知道,因?yàn)樵摰貐^(qū)還有其他的住宿選擇,此時(shí),對于旅游租房的供應(yīng)和需求相當(dāng)平衡。然而,這種特殊的城堡在蘇格蘭是獨(dú)一無二的,其擁有獨(dú)特的雙護(hù)城河。系統(tǒng)應(yīng)該如何評價(jià)這些特有的功能的價(jià)值呢?
再看最后一個(gè)例子:假設(shè)你在巴黎擁有一個(gè)典型的兩居室公寓。當(dāng)你決定在8月份休假數(shù)周,并向南去往蒙彼利埃,此時(shí)想把房子租出去。此時(shí)存在很多可比較的房源,所以它是相對容易定價(jià)的。但是,當(dāng)有很多人對你的房子產(chǎn)生興趣的時(shí)候,你決定開始逐步提高價(jià)格,以最大限度地賺取更多的現(xiàn)金。但這是一個(gè)棘手的問題,如果你定價(jià)太高,或預(yù)定日期太緊迫,將面臨賺不到任何錢的可能,這時(shí)該怎么辦?或者相反的情況,你一開始設(shè)置了較低的價(jià)格,雖然在接下來的幾個(gè)月里就會(huì)承擔(dān)較小的風(fēng)險(xiǎn),可是卻賺了更少的錢。我們應(yīng)該如何幫助房主獲得更好的信息,以避免這種不確定性和遺憾呢?
這些都是我們所面臨的各種各樣的問題。我們想構(gòu)建一個(gè)易于使用的工具,當(dāng)用戶決定出租自己的房子的時(shí)候,為他們提供有用的信息,同時(shí)為定價(jià)提示給出明確的理由。
工具的整體架構(gòu)
對于我們的工具,其整體架構(gòu)出奇簡單:當(dāng)一個(gè)新房主開始在我們的網(wǎng)站上添加一個(gè)房源的時(shí)候,我們的系統(tǒng)提取房源的關(guān)鍵屬性,查看在這區(qū)域中有相同或相似屬性的、且被成功預(yù)定的房源,同時(shí)考慮到需求要素和季節(jié)性特征,提供一個(gè)居中的價(jià)格提示。
當(dāng)我們試圖將這個(gè)問題描述清楚的時(shí)候,最棘手的問題出現(xiàn)了,即房源的哪些屬性是關(guān)鍵屬性。沒有兩個(gè)房源在設(shè)計(jì)和布局上是相同的,房源也分布在城市的每一個(gè)角落,而且很多都不是公寓或別墅,而是城堡和小屋。我們的工具選擇了三大類型的數(shù)據(jù)來設(shè)置價(jià)格:相似性、新舊程度和位置。
對于相似性數(shù)據(jù),一開始查看所有已知的可量化的房源屬性,然后看哪些房源與顧客計(jì)劃支付的價(jià)格最接近。之后看房間里可以住多少人,是一個(gè)大的集體宿舍還是小的私人房間,以及住房的類型(公寓、城堡、蒙古包等)和評論數(shù)量。
這里最令人驚訝的屬性也許是評論數(shù)量。事實(shí)證明,人們愿意為有很多評論的房源進(jìn)行支付。而針對買什么以及向誰買等問題,亞馬遜、eBay和許多網(wǎng)站都靠評論幫助用戶進(jìn)行選擇,但評語數(shù)量是否會(huì)導(dǎo)致價(jià)格有很大的區(qū)別目前并不清楚。對我們來說,與沒有任何評論相比,即使只有一條評論也會(huì)導(dǎo)致房源有一個(gè)巨大的價(jià)格差異。
我們也考慮了新舊程度,因?yàn)槭袌鲎兓l繁,特別是旅游業(yè)。最重要的是,旅游是一種季節(jié)性很強(qiáng)的活動(dòng),所以在進(jìn)行分析的時(shí)候,重要的是基于現(xiàn)在的數(shù)據(jù),或者去年這個(gè)時(shí)候的數(shù)據(jù),而上個(gè)月的數(shù)據(jù)可能關(guān)聯(lián)性很小。下圖給出了一個(gè)例子,說明季節(jié)性需求和當(dāng)?shù)氐幕顒?dòng)會(huì)導(dǎo)致房屋出租價(jià)格起伏,在得克薩斯州奧斯汀市,在South by Southwest(SXSW)和Austin City Limits festivals音樂節(jié)期間,房屋出租價(jià)格會(huì)上漲。
對于像倫敦和巴黎這樣高度發(fā)達(dá)的市場,獲得市場數(shù)據(jù)是很容易的,在我們的網(wǎng)站上有成千上萬被預(yù)定的房源可供比較。對于新興市場,我們按照大小、旅游業(yè)的發(fā)展水平以及在Airbnb上所處的增長階段,將它們進(jìn)行分類。這樣,我們不僅僅能夠?qū)⑵渑c所在城市的房源進(jìn)行比較,而且可以與其他具有相似特征的市場相比較。因此,如果來自于日本的一個(gè)房主第一次在Airbnb進(jìn)行注冊,計(jì)劃出租一套位于京都的公寓,我們不妨查看來自于東京或?qū)降姆吭矗绻鸄irbnb上沒有這些城市的數(shù)據(jù),我們還可以與來自于阿姆斯特丹的房源進(jìn)行比較,因?yàn)閷τ贏irbnb來說,阿姆斯特丹是一個(gè)比較成熟的市場,而且它與京都具有接近的城市規(guī)模和旅游業(yè)水平。
最后,我們需要考慮位置,對我們來說,這是一個(gè)與酒店相當(dāng)不同的問題。酒店通常成片地分布在幾個(gè)主要的地點(diǎn),而我們的房源幾乎分布在城市的每一個(gè)角落。
在我們的定價(jià)算法的早期版本中,算法以房源為中心繪制一個(gè)不斷擴(kuò)大的圓圈,考慮在房源位置附件不同半徑上與其特征相似的房源。這種方法有的時(shí)候工作的很好,但我們最終發(fā)現(xiàn)一個(gè)重要的缺陷。想象我們在巴黎有一套公寓。如果公寓是位于市中心,那么我們將圓圈不斷擴(kuò)大時(shí),它會(huì)迅速開始覆蓋塞納河兩側(cè)非常不同的街區(qū)。在巴黎,雖然在塞納河兩邊的房子都不錯(cuò),但僅僅相隔百米距離的公寓都會(huì)有非常大的價(jià)格差異。在其他的一些城市,有時(shí)這個(gè)問題會(huì)顯得更加明顯。在倫敦,舉例來說,僅僅相隔一條泰晤士河,格林尼治地區(qū)的價(jià)格可以超過倫敦碼頭附近的兩倍。
因此,我們讓一個(gè)制圖員在世界各地主要的一些大城市中為每一個(gè)街區(qū)繪制邊界。這些信息的創(chuàng)建是非常準(zhǔn)確的,通過使用相關(guān)的地理空間數(shù)據(jù),如周圍的河流、公路和運(yùn)輸線,我們能夠?qū)Ψ吭催M(jìn)行準(zhǔn)確分類。
現(xiàn)在,這些問題得到了解決。例如,在十月份的第一個(gè)周末,如果想在倫敦租住一個(gè)二人標(biāo)間,泰晤士河邊上格林尼治地區(qū)的價(jià)格提示是130美元一晚,而河對岸具有類似條件的房間的價(jià)格提示僅僅是60美元一晚。以前的算法讓系統(tǒng)為很多新的房源給出一個(gè)99美元的價(jià)格提示,沒有考慮它們的具體特征。雖然這不是長時(shí)間發(fā)生,也不是在每一個(gè)地區(qū)都這樣,但我們認(rèn)識(shí)到,當(dāng)這種情況發(fā)生的時(shí)候,可能會(huì)導(dǎo)致人們質(zhì)疑我們的定價(jià)工具是否有效。
動(dòng)態(tài)定價(jià)與算法自動(dòng)學(xué)習(xí)
隨著時(shí)間的推進(jìn),我們不斷改進(jìn)我們的算法,直到他們能夠考慮數(shù)千種不同的因素,并在非常精細(xì)的水平上理解地理位置。但該工具仍然存在兩個(gè)不足。
其一,它給出的這些價(jià)格提示是靜態(tài)的。事實(shí)上,在了解了當(dāng)?shù)氐囊恍┗顒?dòng)和旅游的季節(jié)性變化之后,它應(yīng)該在一年之中不同的季節(jié)為相同屬性的房源建議不同的價(jià)格。但它并沒有這樣做,然而,航空公司卻會(huì)當(dāng)日期臨近的時(shí)候改變機(jī)票價(jià)格,訂單減少時(shí)將價(jià)格下調(diào),在市場升溫時(shí)將價(jià)格提高。
另外一個(gè)不足是,工具本身是靜態(tài)的。事實(shí)上,當(dāng)工具能夠挖掘到前所未有的歷史數(shù)據(jù)的時(shí)候,它的價(jià)格提示有所改善,但算法本身并沒有變得更好。
去年夏天,我們開始了一個(gè)項(xiàng)目,以解決這兩個(gè)問題。
在動(dòng)態(tài)定價(jià)方面,我們的目標(biāo)是為每個(gè)房主,針對他們的房子計(jì)劃出租的日期,每天給出一個(gè)新的定價(jià)提示。動(dòng)態(tài)定價(jià)其實(shí)并不新鮮。航空公司開始動(dòng)態(tài)調(diào)整機(jī)票價(jià)格已經(jīng)幾十年了,而且常常是實(shí)時(shí)的,以試圖確保最大的滿座率,以及每個(gè)座位賣出最高的價(jià)格。酒店業(yè)也是這樣,隨著連鎖的規(guī)模變得越來越大,酒店的業(yè)務(wù)數(shù)據(jù)量不斷增長,酒店?duì)I銷也被搬到網(wǎng)上,使得連鎖每天可以多次變動(dòng)價(jià)格。
因此,我們需要對動(dòng)態(tài)定價(jià)進(jìn)行投資,一旦我們有好幾年的歷史數(shù)據(jù),我們就可以挖掘它們,盡管這需要大量的計(jì)算資源,但對我們來說具有非常大的意義。
讓算法自身不斷改進(jìn)要更加困難,尤其是因?yàn)槲覀兿M到y(tǒng)給出的價(jià)格提示具有高的可解釋性。在某些情況下,我們希望算法能夠有自己“思維過程”,能夠從數(shù)據(jù)中學(xué)習(xí)而獲得提高。機(jī)器學(xué)習(xí)系統(tǒng)通常具有一定的規(guī)模和復(fù)雜度,常常以一種神秘的方式工作。
例如,谷歌大腦學(xué)習(xí)了在網(wǎng)絡(luò)視頻中找出貓臉的能力,通過一個(gè)多層模型對數(shù)據(jù)進(jìn)行分類,然后得出一個(gè)視頻是否包含貓臉的結(jié)果,而這個(gè)工作對于人類來說幾乎是不可能復(fù)制的。
我們選擇了一個(gè)分類機(jī)器學(xué)習(xí)模型。它使用房源的所有屬性以及當(dāng)前市場的需求,然后預(yù)測其是否將被預(yù)定。系統(tǒng)計(jì)算價(jià)格提示是基于數(shù)百個(gè)屬性,如是否包含早餐、房間是否有一個(gè)私人浴室等。我們通過將價(jià)格提示與結(jié)果進(jìn)行比較,對系統(tǒng)進(jìn)行訓(xùn)練??紤]房源是否以一個(gè)特定的價(jià)格被預(yù)訂,將幫助系統(tǒng)調(diào)整其價(jià)格提示以及評估一個(gè)價(jià)格被接受的概率。當(dāng)然,房主可以選擇比價(jià)格提示更高或者更低的價(jià)格,然后我們的系統(tǒng)也會(huì)對估計(jì)概率做相應(yīng)地調(diào)整。系統(tǒng)之后會(huì)檢查房源在市場上命運(yùn),并使用這些信息來調(diào)整未來的提示。
下面就是機(jī)器學(xué)習(xí)發(fā)揮作用的時(shí)候了。通過分析哪些價(jià)格提示獲得了成功,我們的系統(tǒng)開始調(diào)整不同房源屬性的權(quán)重。我們一開始也會(huì)做一些假設(shè),例如地理位置非常重要,而是否有熱水浴缸沒有那么重要。我們保留了以前的定價(jià)系統(tǒng)中所考慮的某些房源屬性,同時(shí)又添加了一些新的屬性,如“預(yù)定日期之前的剩余天數(shù)”,這些信息對我們的動(dòng)態(tài)定價(jià)產(chǎn)生影響。所有新的信息被考慮到模型中,都是通過我們對歷史數(shù)據(jù)的分析,表明它們與我們的動(dòng)態(tài)定價(jià)能力是相關(guān)的。
例如,某些照片更可能吸引預(yù)訂??偟内厔菘赡軙?huì)讓你大吃一驚,時(shí)尚、明亮的客廳的照片,雖然易于得到專業(yè)攝影師的偏愛,但相比于用暖色調(diào)裝飾的、舒適的臥室的照片,它們并沒能吸引更多的潛在客人。
隨著時(shí)間的推移,我們期待各種信息的權(quán)重能不斷自動(dòng)改進(jìn),以提高我們的價(jià)格提示。如果我們相信我們所了解到的一些東西,模型并沒有刻畫清楚,我們也可以通過其他方式參與和影響權(quán)重的設(shè)置。我們的系統(tǒng)能夠?yàn)槊總€(gè)定價(jià)提示產(chǎn)生一個(gè)各種因素及相應(yīng)權(quán)重的列表,提高工具的可解釋性,這也是大家所希望看到的。如果我們覺得有些信息在模型中沒有被很好地描述,我們會(huì)手動(dòng)地將它們添加到模型中。
我們的系統(tǒng)也在不斷地調(diào)整我們的地圖以反映街區(qū)邊界的變化。因此,系統(tǒng)并不是依賴于當(dāng)?shù)氐牡貓D,比方說,一個(gè)當(dāng)?shù)氐牡貓D可能告訴我們波特蘭開拓者隊(duì)的恩光街區(qū)在哪個(gè)地方結(jié)束,里士滿街區(qū)從哪個(gè)地方開始,但這并不是我們所關(guān)心的,我們依靠一個(gè)城市中房源的預(yù)訂和價(jià)格的分布數(shù)據(jù)來描繪各種曲線。這種做法也讓我們發(fā)現(xiàn)了我們以前所沒有意識(shí)到“微街區(qū)”。這些地區(qū)可能有大量的流行的房源,但它們并不一定與標(biāo)準(zhǔn)的街區(qū)邊界相匹配,或者可能存在一些局部特征,依據(jù)它們將一個(gè)較大的傳統(tǒng)街區(qū)分為一個(gè)個(gè)小的部分可能更加理想。下圖給出的例子,是我們的工具所劃分的倫敦的“微街區(qū)”分布。
今天,這些工具為來自于全球的Airbnb房源提供價(jià)格提示。但是,我們認(rèn)為這些工具除了幫助潛在的房主為在線出租服務(wù)更好地設(shè)置合理的價(jià)格之外,事實(shí)上它還可以做得更多。這就是為什么我們將這些工具所基于的機(jī)器學(xué)習(xí)平臺(tái)(Aerosolve)作為一個(gè)開源工具發(fā)布的原因。它將給那些還沒有接觸過機(jī)器學(xué)習(xí)的從業(yè)人員一個(gè)簡單的切入點(diǎn)。通過弄清楚系統(tǒng)的功能,它會(huì)讓更多人使用這些工具,這也是作者寫作本文的目的。到目前為止,我們已經(jīng)用它來構(gòu)建了一個(gè)系統(tǒng),能夠以一種點(diǎn)彩畫的風(fēng)格進(jìn)行繪畫。我們渴望看到我們行業(yè)以外的有創(chuàng)造性的工程師開始使用這些工具,并期待他們最終的成果。
關(guān)于作者
Dan Hill,Airbnb的產(chǎn)品主管。Hill寫出了Airbnb的定價(jià)算法,他還與人合伙創(chuàng)辦了家庭共享公司Crashpadder,其在2012年被Airbnb收購。Hill一開始做Web開發(fā)是為了支持他的小提琴手事業(yè)。他在最近的一次采訪中說到,“有一天當(dāng)我醒來的時(shí)候,突然意識(shí)到我真的沒有被小提琴所眷顧”。對于他的下一步想法,Hill表示,“我真的想用我的一生致力于技術(shù)和產(chǎn)品”。
找回密碼
注冊賬號