您好, 歡迎來到化工儀器網(wǎng)! 登錄| 免費注冊| 產(chǎn)品展廳| 收藏商鋪|
一、前言:
過去20年來,拉曼光譜法在制藥應(yīng)用中取得了長足的發(fā)展。晶型分析是拉曼在分析實驗室的藥物分析中提供的一項功能,以及用于顆粒、基質(zhì)和表面分析的拉曼光譜共聚焦顯微鏡功能。
從2010年代末開始,手持式拉曼系統(tǒng)在制藥領(lǐng)域的應(yīng)用激增。這些儀器配置了專用操作系統(tǒng),用于GMP環(huán)境中的輔料和API定性分析、固體劑型確認和防偽分析,現(xiàn)在已成為事實上的高效GMP原材料來料檢測標準。
生物過程監(jiān)測是光譜平臺非常適用的領(lǐng)域。早在20世紀90年代末,近紅外和中紅外光譜系統(tǒng)就已被研究用于生物過程代謝物監(jiān)測應(yīng)用,但水對紅外光譜的吸收嚴重限制了可用于吸收測量的光程,從而導致檢測背景噪音過大。拉曼光譜受益于相對較弱的水散射截面,因此從本世紀初開始研究拉曼光譜的這種應(yīng)用也就不足為奇了。拉曼技術(shù)在光學采樣表面也提供了相當大的靈活性,無論使用塑料、玻璃和其他礦物質(zhì)作為采樣接觸表面的干擾都非常小。
早期拉曼生物過程工作的重點領(lǐng)域是各種生物系統(tǒng)中的細胞代謝物,并且隨著人們的興趣迅速擴大,這種應(yīng)用仍在繼續(xù)。許多研究者還發(fā)表了關(guān)于評估關(guān)鍵產(chǎn)品質(zhì)量屬性的可能性文獻,如蛋白質(zhì)翻譯后修飾和聚合等的相關(guān)研究。
根據(jù)Google Scholar的 數(shù)據(jù),過去10年,與“Raman+ BioProcess"相關(guān)的引用呈指數(shù)級增長(圖1),到2023年,引用次數(shù)將超過4000次。
二、傳統(tǒng)經(jīng)驗?zāi)P?/span>的挑戰(zhàn):
復(fù)雜生物系統(tǒng)中拉曼數(shù)據(jù)的分析需要計算輔助。正如Ryder所評論的那樣,在這項工作中可以采用多種化學計量學和多變量工具。關(guān)于關(guān)鍵工藝參數(shù)和關(guān)鍵質(zhì)量屬性(CPP 和 CQA)的建模,絕大多數(shù)文獻中采用偏最小二乘 (PLS) 回歸。PLS 是一大類潛變量/正則化經(jīng)驗線性校準方法之一。它在化學應(yīng)用中占據(jù)明顯主導地位的原因很大程度上是歷史和商業(yè)原因,但它相比于其他方法并沒有更好的表現(xiàn)。不過所有經(jīng)驗方法確實都有一個優(yōu)點,即幾乎不需要詳細了解底層細胞培養(yǎng)環(huán)境、分析儀器的物理化學原理。
但是,使用這些經(jīng)驗校準方法對生物過程數(shù)據(jù)進行建模存在一些重大挑戰(zhàn),如下所示:
1, 非平穩(wěn)性(Nonstationarity)和方差齊性(Homoscedastivity):在數(shù)學和統(tǒng)計學中,“平穩(wěn)性"是一個術(shù)語,意味著每個數(shù)據(jù)(在本研究中為光譜數(shù)據(jù))都是從具有固定分布特性的隨機分布中得出的。大多數(shù)商業(yè)軟件中的 P LS 等經(jīng)驗方法僅在理論上是準確的,并且是使用“平穩(wěn)"數(shù)據(jù)進行優(yōu)化的。這意味著每個生物反應(yīng)過程必須以相同的方式運行,并且化學物質(zhì)之間具有一致的相關(guān)性。它還意味著儀器中的測量方差在時間和通道上始終相同(方差齊性)。對于拉曼光譜(或近紅外或中紅外光譜吸收)來說,情況并非如此,特別是在生物過程中,當大量生物量(Biomass)可能導致生物反應(yīng)過程運行中或不同批次之間的熒光差異非常大時,從而導致數(shù)據(jù)噪音波動顯現(xiàn)數(shù)量級的差異。
2, 協(xié)變量:根據(jù)定義,在生物反應(yīng)過程中許多物質(zhì)之間存在時間相關(guān)性。廣泛使用的經(jīng)驗方法旨在利用這些經(jīng)驗時間相關(guān)性;但這些關(guān)聯(lián)方法非常容易產(chǎn)生非特異性關(guān)聯(lián),從而降低預(yù)測準確性和通用性。
3, 可交換性和交叉驗證:與上述兩點相關(guān),交叉驗證通常作為數(shù)據(jù)建模工作中經(jīng)驗?zāi)P偷臏黍炞C評估來完成。為了使交叉驗證結(jié)果有效且具有代表性,數(shù)據(jù)必須是“可交換的";但由于協(xié)變量的原因,生物過程數(shù)據(jù)通常嚴重違反了這一原則。
4, 試錯法:這些經(jīng)驗方法中的大多數(shù)都包括變量選擇、預(yù)處理、歸一化和校正方法的一系列選項。推薦的方法是“嘗試一下,看看什么似乎有效",因為通常沒有什么理論依據(jù)來指導選擇這種方法而不是另一種方法。
5, 質(zhì)量因數(shù):與上述內(nèi)容相關(guān),大多數(shù)商業(yè)軟件中報告的主要指標是“RMSEC/RMSECV/RMSEP":[校準/交叉驗證/預(yù)測]的均方根誤差]。藥典分析標準通常期望對選擇性、線性、精密度、檢測限和靈敏度進行估計;但不幸的是,經(jīng)驗建模方法不能直接估計這些質(zhì)量因數(shù)。用戶可以進行實驗工作來評估這些值,但這是相當具有挑戰(zhàn)性的,通常需要定制化的編程/分析。
6, 光譜儀變化:當開發(fā)經(jīng)驗?zāi)P蜁r,單個光譜儀的個體特性和非理想效應(yīng)也會成為開發(fā)者的協(xié)變量。當更換光譜儀或更換激光器/探測器時,經(jīng)常需要校正多變量模型以確保與新光譜儀的個體相關(guān)性。經(jīng)常需要使用多種數(shù)學方法來執(zhí)行這種“校準遷移"。
7, 監(jiān)管挑戰(zhàn):經(jīng)驗建模方法的?箱性質(zhì)需要廣泛的經(jīng)驗驗證工作來證明其靈敏度、選擇性、線性和穩(wěn)定性。監(jiān)管指導文件(如ICH Q 14 10.3)中提供了一些通用指南,但它們并不是特別明確,也不是以這些方法的數(shù)學基礎(chǔ)為理論依據(jù)。
考慮到這些挑戰(zhàn),毫無疑問,穩(wěn)健的拉曼方法開發(fā)和部署一直是生物反應(yīng)過程應(yīng)用中特別棘手的挑戰(zhàn)。人們已經(jīng)做出了許多努力來克服其中的一些障礙。設(shè)計故意擾動實驗可用于試圖“打破"本質(zhì)上存在的協(xié)變量并擴大可用于建模的經(jīng)驗數(shù)據(jù)的范圍。
不同文獻報告了使用 PLS 和 各種預(yù)處理方法成功構(gòu)建“通用"模型,并報告在特定平臺方法的合理成功;但這些工作通常涉及 25?30 次以上的生物反應(yīng)實驗,需要花費大量的時間和人力物力;并且還不包括隨后的實驗部署和維護成本。這些文獻結(jié)果與行業(yè)研討會報告的內(nèi)容思路基本一致。
三、Maverick的全新模型:
我們的目標是改善將拉曼光譜方法引入生物反應(yīng)過程監(jiān)測的技術(shù)挑戰(zhàn)。我們從哺乳動物 C HO 和 HEK293 細胞系開始,這些細胞系廣泛用于蛋白質(zhì)(單抗)和病毒載體的生產(chǎn),并且可用于放大生產(chǎn)。
僅憑借純粹的經(jīng)驗建模/校準很難規(guī)避上述挑戰(zhàn)?;旌夏P驮谏飳W和生物反應(yīng)過程領(lǐng)域越來越受到關(guān)注。迄今為止,這些方法在很大程度上結(jié)合了基本生物機制的知識、化學工程知識、計算流體動力學和其他知識領(lǐng)域,以及使用一些經(jīng)驗測量或觀察的數(shù)據(jù),以提高對生物反應(yīng)過程的理解。模型中更多的固定元素限制了經(jīng)驗優(yōu)化,以降低過度擬合/局部最小值的風險,并引導整體模型達到可解釋且產(chǎn)生持續(xù)穩(wěn)定的近似值。使用第一性原理或構(gòu)建砌塊信息來預(yù)測復(fù)雜的結(jié)果有時被稱為全新的方法,例如全新的蛋白質(zhì)結(jié)構(gòu)建模,這是我們用來描述Maverick算法原理的術(shù)語。
MAVERICK的全新模型源自1970年代開始研究的關(guān)于多變量校準 ( MVC) 的概率框架,例如Morgan等人的早期研究。它與圖2中常見的經(jīng)驗多變量校準模型形成對比。
在存在一些參考誤差(e)的情況下,經(jīng)驗MVC方法根據(jù)觀測到的光譜數(shù)據(jù) X (X~)和配對參考數(shù)據(jù)(y) 的近似值來估計預(yù)測變量b;b本身的計算是基本的。上述挑戰(zhàn)1-7主要表現(xiàn)在每個領(lǐng)域中‘X’的近似值上,應(yīng)該做什么實驗、在什么硬件上、設(shè)置哪些參數(shù)、在計算b之前應(yīng)該如何修正/處理原始數(shù)據(jù),以及最終的模型在真正預(yù)期的條件下如何執(zhí)行。
X的近似值對于控制經(jīng)驗方法過度擬合的風險至關(guān)重要,并且在實踐中有許多、許多、許多不同的X (X~)的可能“近似值"。 PLS(偏最小二乘法)是許多模型方法之一,在許多商用軟件中廣泛使用。在創(chuàng)建X(X~)的過程中,也通常會消除波長范圍或應(yīng)用其他線性或非線性變換。過多可用于建模的‘近似’步驟選項是過度擬合的重要次級來源,因此有時會需要評估數(shù)百或數(shù)千個選項,浪費了大量的廣義自由度。
相比之下,MAVERICK 的全新模型不使用任何憑經(jīng)驗觀察到的X或y數(shù)據(jù)。相反,它使用圖2中術(shù)語(一些靜態(tài)和一些動態(tài))在時間t為主動測量下的系統(tǒng)創(chuàng)建“最佳線性預(yù)測器" 。雖然這個模型的核心是概率性的,但它的幾個關(guān)鍵參數(shù)可以直接從基于光學、電子學和多元統(tǒng)計學的第一性原理中推導出來。由于這些效應(yīng)在拉曼系統(tǒng)中是動態(tài)的,所以觀察生物反應(yīng)過程,幾個模型選項也是動態(tài)的(這不足為奇)。
公式中參數(shù)K,Ψ代表可觀察拉曼光譜可能的化學/生物化學貢獻者的“主要參數(shù)"以及相關(guān)的預(yù)測概率密度函數(shù),從中產(chǎn)生濃度估計值。人們可能想知道,如何才能涵蓋公式中的所有可能性。雖然生物反應(yīng)過程中化學/生化物質(zhì)的數(shù)量很可能有數(shù)千種。但拉曼光譜的靈敏度意味著人們實際上只需要考慮0.01 g/L 以 上的主要成分。在哺乳動物培養(yǎng)基中,超過0.01g/L的,我們發(fā)現(xiàn)數(shù)百種常用物質(zhì)以及添加劑(例如表面活性劑、消泡劑)的數(shù)據(jù)。用那么多參數(shù)數(shù)據(jù)對觀測到的拉曼光譜進行去卷積通常是一個不合適的問題;但使用全新模型,是一個充分自我調(diào)節(jié)的解決方案,以產(chǎn)生低方差的濃度估值。
其余條件既取決于設(shè)備,也取決于時間。F是從每個MAVERICK系統(tǒng)的多維出廠特征導出的濾波器函數(shù),并且實時適應(yīng)于變化的樣本和系統(tǒng)條件。拉曼系統(tǒng)中許多重大誤差來自于光學系統(tǒng)設(shè)計和電子原件。MAVERICK的內(nèi)部系統(tǒng)模型使其能夠?qū)崟r估計∑t 的測量誤差協(xié)方差。相應(yīng)的,系統(tǒng)模型還允許Et自適應(yīng),例如變化的室內(nèi)照明、溫度和濁度條件。最后,由于在生物反應(yīng)過程中,時間t的系統(tǒng)狀態(tài)與時間t-1的狀態(tài)有關(guān),因此惰性模型中包括環(huán)境和自回歸分量(Λ)。
質(zhì)量因數(shù)
這個估計模型的幾個重要性質(zhì)先前已經(jīng)討論過,例如預(yù)測均方誤差(MSEP)的解析解。
如上所述,經(jīng)驗?zāi)P烷_發(fā)中的一個一致性挑戰(zhàn)是模型屬性的不透明性。很少有證明生物過程拉曼應(yīng)用文獻引用所得模型的標準分析優(yōu)值,例如靈敏度、選擇性、LOD,因為多變量模型的文獻定義很復(fù)雜。符合IUPAC定義的靈敏度和選擇性因子可以根據(jù)文獻中所述的過程全新模型直接估計。最后,還可以推斷出其他模型診斷,如平面內(nèi)和平面外一致性,類似于Hoteling或杠桿統(tǒng)計和F參數(shù):
四、 模型快速校準:
MAVERICK系統(tǒng)的MAVERICK方法減輕了用戶的巨大建模負擔,但并不能使其擺脫所有形式的“校準"。由于MAVERICK系統(tǒng)被設(shè)計為在測量模塊、光路模塊和探頭之間即插即用,因此在開始生物反應(yīng)過程分析之前,需要進行一個準備步驟來確認定量系統(tǒng)的適用性。這是一個3步過程,由MAVERICK的軟件在HUB屏幕上引導:
1. 將拉曼探頭浸入“LOW"標準液中,按下 ‘GO’并等待大約4分鐘;
2. 將拉曼探頭浸入“HIGH"標準液中,按下 ‘GO’并等待大約4分鐘;
3. 將拉曼探頭插入反應(yīng)器中與反應(yīng)器一起滅菌;
步驟1+2檢查MAVERICK+探頭的一些參數(shù)是否符合全新模型,并對MAVERICK測量模型、光路模塊和探頭的特定組合的全新模型輸出進行快速的標品定標。該參數(shù)還允許對使用帶序列號和芯片的探頭進行自動的審計追蹤。MAVERICK還支持單點“實時"校準,這有助于消除離線分析儀器和MAVERICK之間的數(shù)據(jù)偏差。
五、 實測案例:
圖3顯示了與一些常見的離線生化分析儀(酶膜法)相比,使用MAVERICK在CHO和HEK293工藝上的分析數(shù)據(jù)。
圖4展示了全新模型提供的一些后臺診斷信息。這些信息是從CHO培養(yǎng)過程中提取的,該過程在一個有大窗戶的實驗室中運行。在上圖中,在估計的RMSE(g/L)中可觀察到的小波動與預(yù)期一致——全新模型正在跟蹤整個晝夜周期的基本背景噪音變化,影響∑t。同樣的影響正在傳播到下圖中對葡萄糖的選擇性,該圖繪制了葡萄糖對前20種其他細胞培養(yǎng)基成分的選擇性:隨著環(huán)境光照的增加,盡管環(huán)境光照發(fā)生了變化,但全新模型仍進行了調(diào)整和自適應(yīng),以保持選擇性。谷胱甘肽以綠色曲線顯示,雖然它恰好是該生物過程中葡萄糖選擇性“較低"的物種,但正如y軸所示,葡萄糖選擇性仍然很好(>0.99)。
在生物過程的后期階段,細胞/蛋白質(zhì)濃度的增加可以誘導中重度的自發(fā)熒光,這會給經(jīng)驗校準模型帶來很大的困難。全新模型的優(yōu)值反映了這種影響,可以觀察到RMSE的緩慢上升趨勢,但由于全新模型持續(xù)跟蹤和補償背景噪音的增加,從測量誤差模型中的熒光來看,這種影響處理得相當良好。
六、 Maverick全新模型的限制與機會
全新模型的關(guān)鍵優(yōu)勢—即透明度和避免經(jīng)驗推導模型的陷阱—也可以被認為是其關(guān)鍵局限性。如上所述,如果生物過程的光學活性成分沒有提前確認,則全新模型報告的結(jié)果容易有偏差。數(shù)據(jù)偏差的程度在很大程度上取決于‘未知’物質(zhì)的光學活性:低微克/升水平的痕量金屬元素不會產(chǎn)生影響,因為a)它們是光學無活性的,b)濃度太低,無法在溶液中用拉曼觀察到。通常,只有0.01g/L及以上范圍內(nèi)的共價鍵合有機物質(zhì)才被認為是相關(guān)的。
全新模型也無法支持所謂的“間接傳感器"—即沒有直接的光譜效應(yīng)(如pH),也可以從經(jīng)驗觀測數(shù)據(jù)中推斷出虛擬參數(shù)。如果沒有公式包含的光譜效應(yīng),就無法使用全新模型。對于那些對間接傳感器建?;驍U展預(yù)測模型感興趣的人,可以選擇將MAVERICK的全光譜導出,該導出可以通過OPCUA實時訪問,也可以在測量會話結(jié)束時作為合并數(shù)據(jù)文件訪問。
還有更多的機會利用Ψ和K的混合建模方法。目前,單個Ψ似乎足以用于哺乳動物的生物過程,但我們正在探索更多樣的自適應(yīng)Ψ培養(yǎng)基系統(tǒng)(例如非CHO或HEK293哺乳動物細胞、鳥類細胞、昆蟲細胞等)?;蛘撸绻麖臄?shù)據(jù)中發(fā)現(xiàn)明顯不存在的特定配方組分,則對K的動態(tài)進行約束。例如,通過L1型正則化方法。我們注意到,動態(tài)系統(tǒng)模型(如所謂的數(shù)字孿生)也可能直接與全新模型連接,進行連續(xù)的時間數(shù)據(jù)更新。
七、 后語:
隨著我們在其他分析物和其他細胞/培養(yǎng)基過程中驗證性能,我們有機會繼續(xù)擴展MAVERICK的參數(shù)。此外,隨著流程從早期工藝開發(fā)過渡到中試和生產(chǎn)規(guī)模,全新模型的靈活性可以幫助提高跨規(guī)模/幾何結(jié)構(gòu)的工藝穩(wěn)定性。
請輸入賬號
請輸入密碼
請輸驗證碼
以上信息由企業(yè)自行提供,信息內(nèi)容的真實性、準確性和合法性由相關(guān)企業(yè)負責,化工儀器網(wǎng)對此不承擔任何保證責任。
溫馨提示:為規(guī)避購買風險,建議您在購買產(chǎn)品前務(wù)必確認供應(yīng)商資質(zhì)及產(chǎn)品質(zhì)量。