« 1,4-ジオキサン | トップページ | 前生物的アミノ酸の発生 »

CAS

 Chemical Abstract Servicesは、ACSのディビジョンの一つであり、分子構造や特性、反応手順や条件を含む化学情報のデータベースも保持している。これらは、医薬品のような標的分子を導く合成段階を予測する過程である逆合成解析を実行できる機械学習を発展させるのに、コンピューター化学者にとって貴重なデータである。ただしCASの標準条項は、これらのデータを機械学習アルゴリズムトレーニングに使うことを禁止していた。その中今回CASはMITが拠点となるColeyグループにこれらのデータを使用することを許可した[1]。これによって数百万の反応のデータを収集することができる。研究チームはその成果とコンピューターコードは公表する予定である一方、基本的なトレーニングのデータは非公開である。なおMITはこのデータにアクセスするための経費は支払わない。ColeyグループではこれまでReaxysデータベースを使い、機械学習逆合成アルゴリズムの訓練を行なってきた。課題の一つは、例えば触媒反応を学習する際に、エントリーの1/5で触媒が特定されていないことがある。これによって間違ったことを学習し、反応は触媒なしで進行すると判定してしまう。もしCASのデータに一貫した注記があれば、このような問題は避けることができる。CASのデータ、貸し出しの方針が出た。

[1] Chemical & Engineering News, 2020 November 16, p. 6.

20.12.1

|

« 1,4-ジオキサン | トップページ | 前生物的アミノ酸の発生 »

コメント

この記事へのコメントは終了しました。