選用了目前主流的分類器(比如 SVM,KNN)以及篩選特征值的方法(貪婪算法)篩選并建立穩(wěn)定的模型,幫助客戶篩選到靈敏度與特異性高的 maker。
分子建模預(yù)測
采用模式識別與數(shù)據(jù)挖掘技術(shù)有效進行模型的構(gòu)建,將部分數(shù)據(jù)拿來做訓練集預(yù)測模型,然后部分數(shù)據(jù)作為測試數(shù)據(jù)集(獨立樣本)來驗證模型的準確性。目的在于利用實驗數(shù)據(jù)來篩選出一批靶標基因,并以此構(gòu)建模型。小樣本數(shù)據(jù)的建模在于篩選并評判 maker 的穩(wěn)定性,便于后期實驗驗證;大樣本數(shù)據(jù)的建模用于進行早期診斷、疾病預(yù)測。采用方法分為:線性分類器以及非線性分類器,并利用了 Leave-one-out cross-validation(LOOCV)以及 cross-validated misclassification error rate 的篩選策略找到優(yōu)選 MARKER。
1、小樣本建模:樣本數(shù)在 20 以上;
2、大樣本建模:樣本數(shù)在 100 以上;
3、數(shù)據(jù)類型:表達,甲基化,CNV,SNP 均可。
1、圖片格式:ROC 曲線圖,TIFF 格式;
2、文本文件:樣本的分類情況,靈敏度與特異性,maker 的權(quán)重(線性分類器結(jié)果)。
-END-