科研

1.png

AI

今年对深度学习有了一些理解,从之前的数据层面的增删、清洗等到模型搭建,今年已经可以完成有代码模型的轻易复现以及根据自己数据做调整,主要是理解到了data_loader的作用。对于pytorch和tf都有所涉猎,至少已经都用到了,具体精细化修改还是要继续研究。

模型层面,今年学了两种主要的模型,yolo系列和vae系列的模型,初步学会了搭建与复现、修改的方法。有时间我会更新yolo系列算法的改进。比如更换backbone、neck、head等,添加n2n的注意力机制等。但是对于模型的调优方面感觉还是要继续深入的学习。

对于loss的理解更深一层,首先基于一个事实就是我们的模型主要关注最终指标,这个指标可以是简单的ACC、Recall、AUC等,也可以是专业领域的index,但是我们要做的事把loss和index之间的联系找到。跟一个协和的网友聊天、探讨问题,非cs的同学主要可能没有理解最终index的重要,感觉这是一个理解的点,另一个就是在一个例子群项目中,loss其实比较玄学,有的时候只是有那个趋势的关系就会work,所以要多多尝试。具体比如vae中的JS loss可以进行多多的尝试。

Informer,时间序列的模型,这个还在研究。

Bio

今年对于Bio的研究也有新的理解,今年有两个文章见刊,但都不是一作,要继续努力呀。回顾下今年的一些研究历程吧,总结下可取的地方和不可取的地方,过年期间在做一个多肽的二级结构问题的下游比较,暴露出来的问题其实还是对于模型的指标不清晰,如计算复杂度。后来做的事自己已经研究了很久的TCR-peptide问题,但是做的也不是很好,基于这个项目做的总结可能就是还是要以工程能力做先导,理论可以先不学,先复现搞明白input和output再了解内部,了解内部是为了更好地做研究。然后就是宏基因组、微生物组,其实这个方向没研究明白,主要的问题其实还是方向太宽泛,没有找到一个问题可做,所以不能以点带面,进行研究。后来到了五六月份就来南开开始做hic了,当然hic现在做的不是太顺利,主要问题是在hic上,研究这个问题其实给了我很多启发,一个是数据一定要处理且最好不要把它做与其他人不一样的处理,因为毕竟不了解真正的研究这个问题的人的需求,所以这个照抄就行了,看代码,看supplementray,看结果,看趋向,看已有文章对问题的求解,可以避免踩坑。总体而言hic的这个研究确实起到了以点带面的效果,比如延伸到单细胞的schic-embedding问题和延伸到cv问题的细胞分割(陈),并且下半年承蒙师兄厚爱,有一篇文章正在投稿,但是我还是想有自己的一作。kaggle

工程

linux、docker

作为一个程序员就不得不学会使用linux,这个学期学会了从linux的安装、科学上网软件的安装使用基础原理等。linux上的必备软件比如todesk(x11),zotero,vscode等等。以及在linux服务器上部署跑各种各样其他人已经封装好的docker,不得不说是真的方便。学会了git并熟练使用,其实也灭有很多只是学会了两个命令和.gitignore的作用,其他的vscode的插件其实已经实现好了。

数据库

今年做的工程项目主要是一个金融有关的项目,从这个项目中得到的经验,有尽量使用少的语言,语言多了就会有麻烦,尽量少写多用流,虽然这会加剧这个麻烦,数据库复习了下关系型数据库和非关系型数据库的区别,以及用他们构建的应用的确确实实的不同,从而启发了写的东西要从能用到好用的转变。

chatgpt、copilot

今年最火的莫过于chat了,划时代的工具,我们要学会从编码到编prompt的转变,今年也有在积累好用的prompt,因为只要有两个对象(你和chat)的地方就有偏差、效率差异、博弈,所以好用的prompt至关重要。

今年偶然使用到了copilot,确实好用,虽然基于的是3.5但是一个是进行了微调,另一个是vscode做了插件,基本上可以当肚子里的蛔虫(注释都可以蒙对)