Transcript: NLM Board of Regents February 13, 2018 - Dr. Lorsch Presentation

>> MOVING ALONG NOW, THE NEXT THING ON OUR AGENDA IS REPORT FROM THE SCIENTIFIC DATA COUNCIL BY DR. JON LORSCH.

DR. LORSCH BECAME THE DIRECTOR OF THE NATIONAL INSTITUTE OF GENERAL MEDICAL SCIENCES IN AUGUST 2013.

THE INSTITUTE'S $2.6 BILLION BUDGET, WHICH SUPPORTS BASIC RESEARCH THAT INCREASES UNDERSTANDING OF BIOLOGICAL -- AND LAYS THE FOUNDATION FOR ADVANCES IN DISEASE DIAGNOSIS, TREATMENT AND PREVENTION.

SINCE JOINING NIH, HE HAS TAKEN ON SEVERAL LEADERSHIP ROLES, INCLUDING SERVING ON THE NIH SCIENTIFIC DATA COUNCIL, ADMINISTRATIVE DATA COUNCIL AND EXTRAMURAL ACTIVITIES WORKING GROUP, WHICH HE CO-CHAIRS.

HE IS HERE TODAY TO GIVE A REPORT FROM THE NIH SCIENTIFIC DATA COUNCIL.

WELCOME, DR. LORSCH.

>> THANK YOU VERY MUCH.

THANK YOU FOR THE INVITATION TO SPEAK HERE.

I COME TO YOU AS WAS JUST MENTIONED ON BEHALF OF THE SCIENTIFIC DATA COUNCIL, WHICH I CO-CHAIR WITH STEVE KATZ, THE SCIENTIFIC DATA COUNCIL IS RESPONSIBLE FOR MAKING RECOMMENDATIONS AND HELPING TO GUIDE IMPLEMENTATION OF ACTIVITIES RELATED TO DATA SCIENCE AT NIH, PATTY WAS ANOTHER MEMBER OF THE COUNCIL.

SO WHAT I WANT TO TALK TO YOU TODAY ABOUT IS THE DEVELOPING STRATEGIC PLAN FRAME FRAMEWORKFOR NIH FOR DATA SCIENCE, AND THIS IS SOMETHING THAT WAS REQUESTED BY CONGRESS IN APPROPRIATIONS LANGUAGE LAST YEAR BUT IN ADDITION TO THAT, I THINK IT'S BEEN AN EXCELLENT EXERCISE AND REALLY HONING OUR FOCUS ON WHAT'S IMPORTANT AND HOW WE WILL ACHIEVE THE IMPORTANT GOALS.

SO OVERALL, THE PLAN IS GOING TO FOCUS ON A FEW KEY AREAS.

FIRST OF ALL MODERNIZING THE DATA RESOURCE ECOSYSTEM TO INCREASE ITS UTILITY FOR RESEARCHERS AND OTHER STAKEHOLDERS AND OPTIMIZE ITS EFFICIENCY OF OPERATIONS.

TO ENHANCE DATA SHARING ACCESS INTEROPERABILITY, IMPROVING THE ABILITY TO USE ELECTRONIC HET RECORDS OR ELECTRONIC MEDICAL RECORDS, CLINICAL AND OBSERVATIONAL DATA FOR RESEARCH WHILE AT THE SAME TIME ENSURING PATIENT AND PARTICIPANT CONFIDENTIALITY, AND FINALLY SORT OF UNDERLYING ALL OF THIS, MODERNIZING THE INFRASTRUCTURE AND INCREASING THE CAPACITY TO DO DATA SCIENCE RESEARCH.

I THINK ALL OF THOSE THINGS WILL RESONATE BASED ON THE PLAN THAT PATTY JUST OUTLINED FOR YOU FOR THE NLM SPECIFICALLY.

A COUPLE OF DEFINITIONS TO START WITH.

THE FIRST IS THE NIH'S WORKING DEFINITION OF DATA SCIENCE OVERALL, WHICH IS AN INTERDISCIPLINARY FIELD OF INQUIRY IN WHICH QUANTITATIVE ANALYTICAL APPROACHES PROCESSES AND SYSTEMS ARE DEVELOPED AND USED TO EXTRACT KNOWLEDGE AND INSIGHTS FROM INCREASINGINCREASINGLY LARGE AND/OR COMPLEX SETS OF DATA.

SO THAT'S OUR WORKING DEFINITION OF DATA SCIENCE.

THEN THE ACRONYM FAIR IS GOING TO COME UP FREQUENTLY, PROBABLY MANY OF YOU ARE FAMILIAR WITH IT, BUT WHAT IT MEANS IS FINDABLE ACCESSIBLE INTEROPERABLE AND RE-USEABLE.

THAT IS ALL THE DATA THAT NIH SUPPORTS IN STORAGE AND IN USE, WE WANT TO COMPLY WITH THESE PRINCIPLES.

THAT IS, PEOPLE CAN FIND IT, THEY CAN ACCESS IT ONCE THEY FIND IT, THE DATA CAN BE USED ACROSS DIFFERENT DATASETS SO THEY'RE NOT SILOED, AND PEOPLE CAN USE IT MULTIPLE TIMES IN DIFFERENT WAYS.

SO THAT'S THE FAIR PRINCIPLE AND THE GOAL THAT WE'RE ASPIRING TOWARDS.

AS A STARTING POINT FOR THE PLAN, WE DEFINED FIVE DIFFERENT DOMAINS OF DATA SCIENCE WHICH ARE SHOWN HERE.

THEY ARE DATA INFRASTRUCTURE, SO THAT'S REALLY THE PIPES AND THE WIRES, THE SYSTEMS, THE ARCHITECTURE, THE PLATFORMS THAT ARE NECESSARY TO STORE, TO GIVE ACCESS TO, AND TO COMPUTE ON DATA.

DATA RESOURCES, SO THIS IS HOW ARE THE DATA ORGANIZEED, KNOWLEDGE BASES, ET CETERA, THAT WE'LL TALK ABOUT IN MORE DETAIL IN A MINUTE.

ADVANCED MANAGEMENT ANALYTICS AND VISUALIZATION TOOLS, SO THESE ARE THE ALGORITHMS OF SOFTWARE, MODELS, ET CETERA, THAT ALLOW YOU TO EXTRACT KNOWLEDGE AND UNDERSTANDING FROM DATA.

WORKFORCE DEVELOPMENT, PATTY CERTAINLY TOUCHED ON THIS IN THE NLM STRATEGIC PLAN.

THESE ARE HOW WE'RE GOING TO IMPROVE AND INCREASE THE OTHERS IN ORDER TO ADVANCE UNDERSTANDING THROUGH DATA SCIENCE, AND THEN FINALLY, POLICY, STEWARTSHIP AND SUSTAINABILITY.

SO HOW DO WE DEVELOP THE POLICIES AND PRACTICES, THE GOVERNANCES, ET CETERA, THAT ARE NECESSARY TO ALLOW US TO MAKE USE OF THE DATA IN AN ETHICAL, SAFE AND SECURE AND EFFECTIVE AND EFFICIENT WAY.

EACH OF THESE DOMAINS IS GOING TO BE A CORNERSTONE OF THE STRATEGIC PLAN AS YOU'LL SEE.

SO THE ORGANIZATION OF THE PLAN IS AS FOLLOWS.

AT THE TOP LEVEL ARE OVERARCHING GOALS, SO THESE ARE THE MAJOR THINGS THAT NIH WANTS TO ACHIEVE IN THE NEXT FIVE OR SO YEARS.

UNDERLYING EACH OF THOSE OVERARCHING GOALS WILL BE ONE OR MORE STRATEGIC OBJECTIVES.

THESE ARE GENERALLY WHAT ARE WE GOING TO DO TO TRY A ACHIEVE THOSE OVERARCHING GOALS.

THEN UNDERLYING THOSE STRATEGIC OBJECTIVES ARE IMPLEMENTATION TACTICS.

MORE SPECIFICALLY, WHAT ARE WE GOING TO DO TO ACHIEVE EACH OF THOSE OBJECTIVES.

UNDER THOSE WILL BE MILESTONES AND PERFORMANCE MEASURES THAT ARE GOING TO ALLOW US TO SEE IF WE ARE MEETING THESE OBJECTIVES IN OVERALL GOALS, AND ALLOW US TO DO COURSE CORRECTIONS ALONG THE WAY, BECAUSE WE DO RECOGNIZE THAT THIS IS A VERY RAPIDLY EVOLVING FIELD, BOTH THE SCIENCE EVOLVES, SOCIETY EVOLVES AND, VERY IMPORTANTLY, THE TECHNOLOGY CHANGES RAPIDLY.

SO WE HAVE TO BE VERY NIMBLE IN THIS PLAN SO THAT AS DEVELOPMENTS OCCUR, WE'RE ABLE TO CHANGE COURSES.

IN THE PRESENTATION, I'LL SHOW YOU THE GOALS IN RED, I'LL SHOW YOU ALL OF THOSE.

I WILL SHOW YOU THE STRATEGIC OBJECTIVES IN BLUE AND I'LL SHOW YOU SOME OF THE IMPLEMENTATION TACTICS, OTHERS I'LL JUST GIVE YOU A GENERAL FLAVOR FOR.

I'M NOT GOING TO SHOW YOU THE MILESTONES AND METRICS ALTHOUGH WE'RE WORKING ON THOSE ACTIVELY RIGHT NOW.

SO THE FIRST OVERARCHING GOAL IS TO SUPPORT HIGHLY EFFICIENT AND EFFECTIVE DATA INFRASTRUCTURE FOR BIOMEDICAL RESEARCH.

THAT HAS TWO STRATEGIC OBJECTIVES UNDERLYING IT.

THE FIRST IS TO OBJECT MIEZ DATA STORAGE, ACCESS AND SECURITY, AND A REALLY IMPORTANT POINT HERE AND REALLY THROUGHOUT THE PLAN IS THAT WE DON'T WANT TO REINVENT THE WHEEL, WE DON'T WANT NIH TO BE IN A POSITION OF TRYING TO DO THINGS THAT WE REALLY AREN'T THE BEST SUITED TO DO, AND, THEREFORE, WE NEED TO RELY ON THE PRIVATE SECTOR WHEREVER POSSIBLE IN THE REGARD ESPECIALLY FOR INFRASTRUCTURE DEVELOPMENT.

THINK OF SOMETHING LIKE CLOUD STONCH.

WE DON'T REALLY WANT TO CREATE OUR OWN, WE WANT TO ACCESS IT THROUGH COMMERCIAL RESOURCES THAT ARE REALLY ADEPT AND HIGHLY SPECIALIZED TO DO THAT.

THE SECOND STRATEGIC OBJECTIVE IS TO CONNECT NIH DATA SYSTEMS, EXISTING DATA SYSTEMS THROUGHOUT NIH, WE WANT TO BE ABLE TO CONNECT THEM TOGETHER SO THAT THEY CAN BE MAXIMALLY USEFUL AND NOT SILOS.

SO KIND OF A STARTING POINT FOR THIS IS TO TAKE THE NIH DATA COMMONS AND USE IT, ALONG WITH NCBI, AS HUBS IN THIS CONNECTION PROCESS.

I THINK YOU PROBABLY ARE FAMILIAR WITH THE NIH DATA COMMONS, BUT JUST IN CASE, THIS HASN'T BEEN FULLY LAID OUT TO YOU.

THE IDEA IS THE NIH DATA COMMONS, WHICH IS BEING PILOTED RIGHT NOW, WILL BE A CLOUD BASED ENVIRONMENT IN WHICH HIGH VALUE DATASETS BY NIH OR SUPPORTED BY NIH CAN BE PLACED A N.

IN AFAIR, COMPLIANT MANNER.

THEY CAN BE CONNECTED TOGETHER, THEY CAN BE FOUND, THEY CAN BE ACCESSED, ET CETERA.

AND THE USERS FROM THE OUTSIDE, IF THEY HAVE THE APPROPRIATE CREDENTIALS AND AUTHORIZATION, MAY HAVE ACCESS TO THESE DATA AND COMPUTE ON THESE DATA.

AND VERY IMPORTANTLY, OF COURSE, AGAIN, THESE DATASETS WILL BE CONNECTED TOGETHER TO MEET THIS GOAL.

IF YOU WANT TO LEARN MORE ABOUT THAT, THERE'S A PRETTY GOOD DESCRIPTION OF IT ON THE COMMON FUND WEBSITE, WHICH IS WHERE THE PILOTS ARE BEING CONDUCTED.

THE SECOND OVERARCHING GOAL IS TO PROMOTE THE MODERNIZATION OF THE DATA RESOURCE ECOSYSTEM, AGAIN, WHERE THE DATA ARE STORED AND HOW THEY'RE ACCESSED AND SOMETIMES COMPUTED UPON BY THE RESEARCH COMMUNITY.

THE FIRST STRATEGIC OBJECTIVE THERE IS TO MODERNIZE THE DATA REPOSITORY ECOSYSTEM.

I'LL SPEND A LITTLE TIME ON THIS AND IT WILL CONNECT TO THE THIRD OVERARCHING GOAL IN JUST A SECOND, BUT THE FIRST IMPLEMENTATION TACTIC UNDER THAT OBJECTIVE IS TO SEPARATE NIH'S SUPPORT OF DATABASES FROM A KNOWLEDGE BASES.

SO A DATABASE IN OUR DEFINITION IS A DATA REMOSS REPOSITORY THAT STORES, VALIDATES, MAKES ACCESSIBLE CORE DATA, CORE DATA RELATED TO A PARTICULAR SYSTEM OR SYSTEMS.

SO IF YOU THINK ABOUT THE MODEL ORGANISM DATABASES, THE FLY GENOME DATABASE, THE WORM GENOME DATABASE, THE CORD DATA THE COREDATA WOULD BE THE GENOME, THE TRANSCRIPTOME, AND THE PROTEIN SEQUENCES, AS WELL AS THE FUNCTIONAL ANNOTATIONS OF THOSE GENE PRODUCTS FOR THAT ORGANISM, OR THE FLY FOR THE WORM, ET CETERA.

SO THAT WOULD BE A DATABASE.

A KNOWLEDGE BASE IN CONTRAST ACCUMULATES, ORGANIZES AND LINKS GROWING AND OFTEN DYNAMIC BODIES RELATED TO THE CORE DATASET.

SO IF YOU TAKE THAT MODEL ORGANISM EXAMPLE I JUST USED, INFORMATION ABOUT EXPRESSION PATTERNS, DISPLACING VARIANTS, PROTEIN LOCALIZATIONS OR INTERACTIONS OR PATHWAYS FOR ONE OR MORE ORGANISMS WOULD BE THE KNOWLEDGE BASE THAT LIES ON TOP AND SORT OF GROWING LAYERS, THE CORE DATABASE FUNCTION THAT WOULD BE IN THE DATABASE.

IN ADDITION, PUBLICATION INFORMATION FREQUENTLY IS INCLUDED IN KNOWLEDGE BASES, SO KEY PAPERS ABOUT A GENE, FOR EXAMPLE, WOULD BE KNOWLEDGE BASE INFORMATION IN OUR CONCEPTION OF THIS.

I'LL GET BACK IN A FEW MINUTES TO WHY WE THINK IT'S SO IMPORTANT TO SEPARATE THESE TWO THINGS, BUT HOPEFULLY YOU CAN SEE THAT THEY ARE DIFFERENT FUNCTIONS, AND THEREFORE MAYBE NEED TO BE ASSESSED AND SUPPORTED IN DIFFERENT WAYS.

SO IN ADDITION TO THAT AS I JUST SAID, BECAUSE THESE ARE DIFFERENT FUNCTIONS, WE WANT TO USE THE APPROPRIATE MECHANISM, FUNDING MECHANISM, REVIEW AND MANAGEMENT PROCEDURES FOR EACH OF THESE TWO TYPES OF REPOSITORIES, AND THOSE ARE NOT NECESSARILY THE SAME, ALTHOUGH THERE MAY BE SOME OVERLAPS.

AND THEN IN ADDITION, WE HAVE A NUMBER OF OTHER IMPLEMENTATION TACTICS UNDER THIS OBJECTIVE, WHICH I WON'T GO THROUGH IN DETAIL BUT -- SUCH AS ENSURING PRIVACY AND SECURITY OF CONFIDENTIAL DATA.

THE SECOND STRATEGIC OBJECTIVE IN GOAL TWO IS TO SUPPORT THE STORAGE AND SHARING OF INDIVIDUAL DATASETS.

SO WHEN I WAS TALKING ABOUT THE CLOUD, THE INITIAL PILOT PART OF THE CLOUD WILL BE TAKING LARGE HIGH VALUE DATASETS THAT WERE CREATED BY CONSORTIA, SO FOR INSTANCE, THE GTEX CONSORTIA FUNDED BY THE COMMON FUND OR THE TOP MED CONSORTIA FUNDED BY NHLBI, AND PUT THOSE IN THIS COMMONS ENVIRONMENT AND MAKE THEM ACCESSIBLE TO THE COMMUNITY.

BUT MOST DATA THAT ARE GENERATED BY BIOMEDICAL RESEARCHERS ARE ACTUALLY GENERATED BY INDIVIDUAL LABS, NOT BY LARGE CON SORECONSORTIA.

SO WHAT DO WE DO WITH ALL THOSE DATA, ASSUMING IT'S IMPORTANT ENOUGH TO KEEP.

SO THAT'S THE KEY OF THIS OBJECTIVE.

THIS REALLY COMES IN TWO LAYERS.

THE FIRST LAYER, WHICH IN SOME WAYS IS THE LOW HANGING FRUIT, IS TO LINK DATASETS TO PUBLICATIONS VIA PUBMED CENTRAL AND NCBI AND NLM.

THAT'S ALREADY HAPPENING.

JIM'S GROUP AND OTHERS ARE WORKING ON THAT.

THE FIRST ITERATION OF THIS IS JUST TO ALLOW RESEARCHERS TO LINK A DATASET, OR ONE OR MORE DATASETS, TO PUBMED CENTRAL.

THAT ALREADY, I BELIEVE, CAN HAPPEN.

WHAT WILL BE THE NEXT ITERATION OF THAT WILL BE TO ACTUALLY HAVE SOME RULES AND PROCEDURES FOR HOW THE DATA NEED TO BE ORGANIZED, THE METADATA THAT NEED TO GO WITH THEM, ET CETERA, TO MAKE THEM MORE TOWARDS THE FAIR COMPLIANT GOAL THAT WE'RE TRYING TO ACHIEVE.

THE LONGER TERM TACTIC HERE IS TO EXPAND THE NIH DATA COMMONS PILOT TO EVENTUALLY ALLOW SUBMISSION OF INDIVIDUAL DATASETS, ASSUMING THEY MEET SOME KIND OF CRITERIA FOR IMPACT, FOR EXAMPLE, IN SUCH A WAY THAT THEY ARE FAIR COMPLIANT.

SO THIS WOULD ALLOW RESEARCHERS TO FIND THOSE DATASETS, THEY WOULD BE CONNECTIBLE TOGETHER BECAUSE THEY WOULD BE INTEROPERABLE, ET CETERA.

THAT'S A LONGER TERM GOAL ONCE THIS COMMONS PILOT IS SET UP AND THE BUGS ARE WORKED OUT.

THE THIRD STRATEGIC OBJECTIVE UNDER GOAL TWO IS TO LEVERAGE ONGOING INITIATIVES AT NIH TO BETTER INTEGRATE CLINICAL AND OBSERVATIONAL DATA INTO BIOMEDICAL DATA SCIENCE.

SO WHAT WE MEAN BY ONGOING INITIATIVES THAT HAVE THESE KINDS OF DATA ARE THINGS LIKE THE ALL OF US RESEARCH PROGRAM, PRECISION MEDICINE, THE CANCER MOONSHOT, TOP MED FROM NHLBI, THE HE COPROGRAM WHICH IS A VERY LARGE OBSERVATIONAL SYNTHETIC COHORT AND THE EMERGE NETWORK AT NHGRI, WHICH IS TRYING TO LINK MEDICAL RECORDS TO YEE KNOW MIBG INFORMATION.

THESE THINGS ARE ALL HAPPENING IN VARIOUS STATES AT NIH BUT A VERY IMPORTANT THING IS WE DON'T WANT THEM TO BECOME SILOS.

WE WANT TO BE ABLE TO LINK THEM TOGETHER SO THE DATA ARE MAXIMALLY USEFUL, NOT STUCK OFF ON THEIR OWN IN THEIR INDIVIDUAL PROGRAMS.

SO HOW ARE WE GOING TO DO THAT? WELL, WE WANT TO CREATE EFFICIENT LINKAGES AMONG THESE DATA RESOURCES, AND THAT WILL BE THE FIRST ORDER OF BUSINESS.

WE WANT TO FACILITATE THE CREATION AND WIDESPREAD ADOPTION OF CONSENSUS COMMON DATA ELEMENTS FOR CLINICAL STUDY, AND THAT'S SOMETHING THAT NLM IS REALLY THE LEADER IN RIGHT NOW AND WE HOPE TO INCREASE THE USE IN THE COMMUNITY OF THOSE COMMON DATA ELEMENTS SO THAT CLINICAL STUDIES AND OBSERVATIONAL STUDYS ARE USING THE SAME LANGUAGE ESSENTIALLY.

FINAL WE WANT TO DEVELOP AND IMPLEMENT USER AUTHENTICATION SYSTEMS THAT WILL WORK ACROSS ALL THESE PLATFORMS.

SO SINCE THESE PLATFORMS CONTAIN PATIENT AND PARTICIPANT INFORMATION, CONFIDENTIALITY IS A MAJOR ISSUE, SO WHO HAS ACCESS TO WHAT DATA IS A VERY IMPORTANT QUESTION.

BUT YOU CAN IMAGINE IF EACH OF THESE SYSTEMS USED A DIFFERENT WAY OF DETERMINING THAT, DETERMINING WHO THE USER WAS AND WHETHER HE OR SHE HAD ACCESS TO THE INFORMATION, IT WOULD BE VERY DIFFICULT FOR A RESEARCHER TO MOVE ACROSS THESE PLATFORMS EFFICIENTLY.

SO WHAT I'M WORKING ON RIGHT NOW AS A KEY PART OF THIS OBJECTIVE IS TO ACTUALLY HAVE A COMMON SYSTEM FOR THESE NIH DATA SYSTEMS THAT ALLOWS A SINGLE POINT OF ENTRY AND THEN AUTHENTICATION AND ACCESS.

MOVING ON TO THE GOAL THREE, WHICH IS TO SUPPORT THE DEVELOPMENT AND DISSEMINATION OF ADVANCED DATA MANAGEMENT ANALYTICS AND VISUALIZATION TOOLS.

THE FIRST STRATEGIC OBJECTIVE UNDER THAT IS TO SUPPORT USEFUL GENERALIZABLE AND ACCESSIBLE TOOLS AND WORK FLOWS.

IT HAS A NUMBER OF IMPLEMENTATION TACTICS AGAIN, AND FIRST TWO WILL LOOK VERY FAMILIAR.

THEY ARE TO SEPARATE SUPPORT FOR TOOLS, FOR TOOL DEVELOPMENT DISSEMINATION, FROM SUPPORT OF THE DATABASES AND KNOWLEDGE BASES AND TO USE THE APPROPRIATE MECHANISMS, REVIEW AND MANAGEMENT OPERATIONS FOR TOOL DEVELOPMENT.

WE ALSO VERY IMPORTANTLY WANT TO LEVERAGE COMMERCIAL TOOLS, SOFTWARE AND WORK FLOWS AND EXPERTISE WHERE POSSIBLE.

AGAIN, NOT REINVENTING THE WHEEL, NOT DOING WHAT NIH IS NOT BEST AT, INSTEAD LEVERAGING WHAT THE PRIVATE SECTOR CAN DO BETTER, AND TO PROMOTE THE DEVELOPMENT OF OPEN SOURCE, OPENLY SHARED AND REUSABLE TOOLS, SOFTWARE, AND WORK FLOWS WHEREVER POSSIBLE.

BECAUSE BLACK BOXES ARE MUCH LESS USEFUL THAN THINGS THAT ARE OPEN AND VISIBLE AND CAN BE MODIFIED AND IMPROVED.

I'M GOING TO GET BACK TO THESE FIRST TWO POINTS IN A SECOND, BUT LET ME JUST TELL YOU ABOUT THE STRATEGIC OBJECTIVE -- THE SECOND STRATEGIC OBJECTIVE UNDER THIS GOAL, WHICH IS TO BROADEN THE USE OF SPECIALIZED TOOLS.

SORE AS AN EXAMPLE OF WHAT WE MEAN BY THIS, THERE ARE ALGORITHMS THAT WERE DEVELOPED IN ASTRON ME ACTUALLY TO MEASURE THE DEPTH OF LAKES ON OTHER PLANETS.

R.THAT HAVE BEEN ADAPTED FOR USE IN CELLULAR AND OTHER IMAGING IN BIOMEDICAL RESEARCH NOW.

SO WHAT WE WANT TO DO IS TO ENABLE THE BIOMEDICAL RESEARCH COMMUNITY TO FIND THESE KINDS OF TOOLS WHETHER THEY BE IN PHYSICS OR ASTRONOMY OR THE FINANCE SECTOR OR SOMEWHERE ELSE AND BRING THEM IN TO BIOMEDICAL RESEARCH IN ORDER TO IMPROVE WHAT WE'RE ABLE TO DO IN THAT SPHERE.

WE ALSO WANT TO SUPPORT RESEARCH FOR IMPROVING METHODS FOR USING ELECTRONIC HEALTH RECORDS, ELECTRONIC MEDICAL RECORDS, AND OTHER CLINICAL DATA IN BIOMEDICAL RESEARCH.

THE SIGNIFICANT PROBLEM THERE BEING THAT AS PATTY SAID, THIS DATA IS CONTROLLED BY LITERALLY THOUSANDS OF HEALTHCARE PROVIDERS AROUND THE COUNTRY AND IS SUPPORTED BY DOZENS OF COMMERCIAL PLATFORMS THAT DON'T SPEAK THE SAME LANGUAGE.

SO HOW DO WE SIMPLY MAKE THOSE DATA WHICH ARE A GOLD MINE POTENTIALLY FOR BIOMEDICAL RESEARCH AVAILABLE TO RESEARCHERS.

AGAIN, ENSURING CONFIDENTIALITY.

IT'S A VERY BIG PROBLEM AND AT THIS POINT, I THINK IT'S STILL A RESEARCH QUESTION AS MUCH AS ANYTHING.

AND THEN THIRD, IMPROVED DISCOVERY AND CATALOGING RESOURCES, THIS HOPEFULLY WILL RESONATE STRONGLY WITH THIS AUDIENCE, BUT OVERALL WHAT WE WANT TO DO THERE IS TO PROMOTE THE DEVELOPMENT AND ADOPTION OF COMMUNITY STANDARDS FOR DATA INDEXING CITATION AND PROVE DANCE KNOWING WHERE THE DATA CAME FROM AND HOW IT'S BEEN CHANGED OVER TIME.

THAT'S GOING TO BE KEY TO ACHIEVING THIS OBJECTIVE.

CERTAINLY NLM, I THINK, WILL BE A MAJOR DRIVER IN ALLOWING NIH TO MEET IT.

SO I WANT TO GO BACK TO THIS -- TO SIMILAR OBJECTIVES AND TACTICS THAT I MENTIONED BEFORE, WHICH WERE ACCEPT RAIGHT THE SUPPORT OF DATABASES AND KNOWLEDGE BASES, USING THE APPROPRIATE MECHANISM UNDER REVIEW AND THE SAME FOR TOOL DEVELOPMENT.

SO WHY DO WE THINK THIS IS SO IMPORTANT AND WHY IS IT A KEY PART OF THE STRATEGIC PLAN? SO SOME OF THIS IS HISTORICAL.

SO HISTORICALLY NIH HAS FUNDED -- PATTY ACTUALLY MENTIONED THIS WHEN TALKING ABOUT NLM SYSTEMS AS WELL, INTERESTING THE PARALLEL BETWEEN INTERNAL NLM AND THE EXTRAMURAL WORLD THAT NIH HAS BEEN SUPPORTING AS WELL, BUT HISTORICALLY NIH HAS FUNDED DATA RESOURCES USING RESEARCH GRANTS MECHANISMS.

THAT REALLY HAS CREATED A NUMBER OF DIFFERENT PROBLEMS FOR US, BECAUSE IT CREATES A MISALIGNMENT, FIRST OF ALL, BETWEEN THE GOALS OF THESE RESOURCES, WHICH ARE SERVICE, AND THE EXPECTATIONS OF THE REVIEW PROCESS, WHICH IF YOU'RE USING A RESEARCH GRANT, HAVE TO DO WITH THINGS LIKE INNOVATION, HYPOTHESIS GENERATION AND TESTING, ET CETERA.

WHERE WHAT WE REALLY WANT THE REVIEW PROCESSES AND FUND DEG DECISIONS SHOULD BE BASED ON SHOULD BE FOR THINGS LIKE SERVICE, UTILITY, EFFICIENCY OF OPERATION AND HOW MUCH IT'S BEING USED.

BECAUSE WE'VE HAD THIS MISALIGNMENT OF THE ACTUAL GOALS AND THE REVIEW PROCESSES AND HOW WE'RE MAKING THE FUNDING DECISIONS, WE HAVE INCENTIVIZED THINGS THAT WE REALLY PROBABLY WOULD HAVE BEEN BETTER OFF NOT INCENTIVIZING AND DISINCENTIVIZE THE THINGS WE REALLY WANTED TO HAPPEN.

SO ONE OF THOSE THINGS, PROBLEMS CREATED BY THIS MISALIGNMENT OF EXPECTATIONINGS HAS BEEN THE ENTANGLEMENT OF TOOL DEVELOPMENT AND RESOURCE MANAGEMENT.

FLEUR SO IF YOU'RE A P.I., YOU WANT TO GET YOUR RESOURCE FUNDED BUT WE'RE FUNDING YOU AND REVIEWING OF BASED ON YOUR BEING A RESEARCH PROJECT AND YOU NEED TO MEET THOSE INNOVATION CRITERIA AND HYPOTHESIS GENERATION TESTING KINDS OF CRITERIA THE WAY MOST PEOPLE DID IT WAS TO SAY WE'RE GOING TO DEVELOP ALL THESE NEW TOOLS.

THAT'S GOING TO BE THE INNOVATION PART OF THIS.

THAT COULD BE GREAT, THEY COULD BE EXACTLY THE RIGHT PEOPLE TO BE DEVELOPING THOSE TOOLS BUT IT'S NOT NECESSARILY TRUE, RIGHT? IT COULD BE THAT WHAT THEY'RE REALLY GOOD AT IS SUPPORTING THIS DATABASE OR THIS KNOWLEDGE BASE.

BUT WE'VE ENTANGLED THOSE THINGS TOGETHER IN THE REVIEW PROCESS.

SO THIS HAS LED TO THE PROBLEM OF THE TOOLS NOT BEING ASSESSED BASED ON THEIR OWN MERITS NECESSARILY, BUT INSTEAD, IN SOME WAYS HAVING THE DATABASE PART, FOR INSTANCE, BEING HELD HOSTAGE TO THE TOOL DEVELOPMENT, SO WE HEAR FROM REVIEWERS ALL THE TIME THAT THEY'RE VERY UNCOMFORTABLE BECAUSE THE DATABASE PART, SAY, OR THE KNOWLEDGE BASE IS ESSENTIAL TO THE COMMUNITY, AND THEY JUST ABSOLUTELY DON'T WANT TO SEE THAT LOST, BUT ALL THIS WORK THAT THE GROUP IS DOING ON DEVELOPING NEW TOOLS REALLY WASN'T THAT PORP, BUT THEY DIDN'T WANT TO SAY IT IN THE REVIEW BECAUSE THEY WERE AFRAID THAT WE WOULDN'T FUND THE DATABASE ANYMORE.

SO YOU SEE WHAT I MEAN, WE'RE HOLDING THIS DATABASE HOSTAGE TO THE TOOL DEVELOPMENT.

THEREFORE, DISENTANGLING THESE TWO THINGS ALLOWS US TO EVALUATE EACH ON ITS OWN MERITS, GIVE THE COMMUNITY THE BEST, MOST USEFUL, MOST EFFICIENT TOOLS ON THE ONE HAND, AND GIVE THEM THE BEST, MOST EFFECTIVE, MOST EFFICIENT DATA RESOURCE ON THE OTHER HAND.

SO WE THINK THAT'S A REALLY CRITICAL CHANGE THE NIH NEEDS TO MAKE IN ORDER TO GET THE MOST FOR THE TAXPAYERS' MONEY AND ALSO PROVIDE THE BEST FOR THE RESEARCH COMMUNITY.

AS I SAID BEFORE, DATABASE AND KNOWLEDGE BASE FUNCTIONS AROUND THE SAME, THEIR NEEDS AND THEIR USES ARE NOT THE SAME.

AND THAT'S CREATED ANOTHER SERIES OF PROBLEMS BECAUSE THOSE HAVE ALSO BEEN ENTANGLED HISTORICALLY.

YOU THINK OF SOMETHING LIKE THE MODEL ORGANISM DATABASES RIGHT NOW, THEY HAVE ALL THE CORE DATA I TALKED ABOUT WITHIN THEM WHICH IS ABSOLUTELY ESSENTIAL FOR THE COMMUNITY.

WE CAN'T LOSE THE GENOME JEANS SCWEENS DATA, THE PROTEIN SEQUENCE DATA, BUT THEY HAVE LAYER UPON LAYER UPON LAYER OF OTHER THINGS ON TOP OF THEM.

SOME OF THAT MAY BE ABSOLUTELY ESSENTIAL, BUT IT'S VERY DIFFICULT, AGAIN, FOR THE REVIEWERS TO SAY THIS PART IS NOT IMPORTANT BECAUSE THEY DON'T WANT TO LOSE THE CORE STUFF.

VERY SIMILAR TO THAT TOOL ARGUMENT.

SO THE CORE DATA MAY BE ESSENTIAL TO THE COMMUNITY BUT MAYBE NO, MA'AM ALL OF THE -- WENEED TO ASSESS THOSE THINGS SEPARATELY.

IN ORDER TO DO THAT, WE NEED TO SEPARATE THE TWO FUNCTIONS SO THAT WE CAN MAKE SURE WE'RE FUNDING WHAT IS CRITICAL FOR THE COMMUNITY.

ANOTHER ISSUE THAT REALLY FOCUSES ON THE KNOWLEDGE BASE SIDE IS THAT THE COST OF HUMAN CURATION IS VERY HIGH.

KNOWLEDGE BASES ARE VERY INTENSIVE IN TERMS OF HUMAN CURATION.

THERE ARE PEOPLE SITTING AND READING PAPERS AND ENTERING THAT INFORMATION INTO THE RECORDS FOR VARIOUS PROTEINS, FOR EXAMPLE.

IN FACT, WE ESTIMATE THAT FOR MOST OF THESE DATA RESOURCES, WELL OVER HALF OF THE COST, IN SOME CASES 90% OF THE COSTS ARE HUMAN CURATORS DOING THIS KIND OF WORK.

THAT CAN BE VERY IMPORTANT.

IT CAN STILL BE THE ONLY WAY DO IT, ALTHOUGH MAYBE NOT, BUT WE REALLY NEED TO ASSESS CAREFULLY WHEN THAT'S CRITICAL, WHEN THE COSTS ARE ESSENTIAL AND WHEN THEY'RE NOT.

WE CAN'T ENTANGLE THE KNOWLEDGE -- WITH THE DATABASE THAT THE CORE INFORMATION THE COMMUNITY CAN'T DO WITHOUT WHICH HAS MUCH LOWER HUMAN CURATION COSTS WITH THE TOOL DEVELOPMENT WHICH IS A WHOLE DIFFERENT SET OF HUMAN COSTS.

SO AGAIN, WE REALLY FEEL THAT WE NEED TO SEPARATE THESE THINGS SO THAT WE CAN REVIEW THEM, EVALUATE THEM, AND MAKE DECISIONS ON THEIR FUNDING INDEPENDENTLY.

AND IN ORDER TO DO THAT, WE NEED METRICS, WE NEED GOOD METRICS THAT TELL US ABOUT USAGE, FOR EXAMPLE, UTILITY, IMPACT, AND EFFICIENCY OF OPERATION, BUT THESE ARE GOING TO BE DIFFERENT DEPENDING ON WHAT WE'RE TALKING ABOUT.

IF WE TANGLE THEM, IT'S GOING TO BE IMPOSSIBLE TO FIGURE OUT AND THEREFORE AGAIN, THAT'S ANOTHER ARGUMENT FOR SPLITTING THEM.

IN ADDITION TO THE ENTANGLEMENT, A SECOND PROBLEM WE'RE WRESTLING WITH AND HOPING TO FIX WITH THE STRATEGIC PLAN HAS TO DO WITH THE SILOING OF DATA IN THE DATA ECOSYSTEM.

SO I MADE THIS FIGURE AND PULLED IT TOGETHER, I'VE TRIED IT A FEW TIMES, IT SEEMS TO BE WORKING BUT I'LL TRY IT ON YOU AS WELL, SO THIS IS MY CONCEPTION OF PART OF THE CURRENT DATA RESOURCE ECOSYSTEM.

THESE CYLINDERS REPRESENT THE KNOWLEDGE BASE FUNCTION OF SOME DATA RESOURCE, THE HEXAGONS OR THE DATABASE, THE CORE INFORMATION, AND THEN THE CANDY STRIPE CIRCLES ARE THE TOOLS.

YOU CAN SEE IN THIS CONCEPTION, FIRST OF ALL AS I SAID, THESE THINGS ARE ALL ENTANGLED TOGETHER TO VARIOUS DEGREES.

BUT THE OTHER THING IS THAT THEY'RE VERY SILOED.

EACH OF THESE DIFFERENT SYSTEMS, MAYBE IT'S MODEL ORGANISM DATABASE, FOR EXAMPLE, IS AN INDEPENDENT ENTITY NOT CONNECTED TO THESE OTHERS.

SO TODAY, IF YOU WANT TO GO AND GET THE SEQUENCE THAT YOU NEED IN DROSOPHILA AND COMPARE IT TO THE SEQUENCE YOU NEED IN MOUSE, YOU STILL HAVE TO GENERALLY GO TO THOSE TWO DIFFERENT DATABASES AND COLLECT THEM INDEPENDENTLY AND BRING THEM TOGETHER YOURSELF.

HOW DOES THAT MAKE SENSE IN THIS MODERN COMPUTERIZED WORLD WE LIVE IN.

SO ONE OF THE THINGS WE'RE HOPING TO DO IS TO MOVE FROM THIS VERY SILOED ECOSYSTEM INTO SOMETHING THAT MAYBE LOOKS MORE LIKE THIS.

THIS ISN'T THE WHOLE ECOSYSTEM, IT'S JUST A PART OF IT, BUT HERE IN THIS CON SEMTION, WHAT WE'VE DONE IS TO BRING THE CORE DATABASE FUNCTIONS INTO THE CENTER AND ACTUALLY PUT THEM TOGETHER, SO THESE MAY BE DIFFERENT ORGANISMS, GENOME AND PROTEIN SEQUENCES, ALL CONNECTED TOGETHER.

THAT'S THE CENTER OF THE WHOLE THING, INDEPENDENT DATABASE.

AROUND THE OUTSIDE OF THAT IS ARRANGED SOME COLLECTION OF VI WELL CONNECTED AND EFFICIENT KNOWLEDGE BASES, SO THESE MAY BE A KNOWLEDGE BASE FOR EACH DIFFERENT KIND OF ORGANISM BUT THEY'RE CONNECTED TOGETHER AND WE'RE JUST FOCUSING ON THE MOST IMPORTANT PARTS OF THEM.

THEN AROUND THE OUTER RING IS WHERE THESE TOOLS RESIDE, A TOOL DEPOT, KIND OF ANALYSIS TO AN APP STORE, WHERE TOOL DEVELOPERS WHO ARE FUNDED BY US OR MAYBE IN THE PRIVATE SECTOR CAN PUT THEIR HOPEFULLY OPEN ACCESS, OPEN SOURCE TOOLS AND USERS CAN EVEN DOWNLOAD THEM OR, MAYBE BETTER, ACTUALLY USE THEM TO COMPUTE DIRECTLY ON THE DATA IN THESE DATA RESOURCES.

SO ALL THESE THINGS WOULD BE CONNECTED TOGETHER IN VARIOUS WAYS AND THIS TOOL DEPOT WOULD ALLOW A COMPETITIVE MARKETPLACE IN WHICH THE BEST MOST EFFICIENT TOOLS RISE TO THE TOP AND THE ONES LESS IMPORTANT WOULDN'T BE USED AND WE COULD JUST GET RID OF THEM.

NOW JIM UNFORTUNATELY ISN'T HERE, HEARD ME PRESENT THIS A COUPLE WEEKS AGO AND SAW THIS, AND WAS INTERESTED IN IT AND HE'S BEEN THINKING ABOUT IT FOR A WHILE.

ONE THING HE REALIZED WAS THAT THIS CONCEPTION OF THE MORE IDEALIZED DATA RESOURCE ECOSYSTEM IS ACTUALLY HOW A LOT OF NCBI IS ALREADY ARRANGED, WHICH I THINK IS A GOOD SIGN.

GIVEN HOW PRODUCTIVE AND EFFICIENT NCBI IS.

SO WHAT HE SAID WAS, HERE ARE THE DATABASE PARTS OF NCBI, YOU'RE FAMILIAR WITH THOSE, HERE ARE WHAT YOU MIGHT CONSIDER THE KNOWLEDGE BASES, BUT LINK IN TO THE DATABASES IN NCBI, SO THINGS LIKE FARM GKB, WHICH NIGMS HAS FUNDED, OH MODEL ORGANISM DATABASES LIKE THESE ONES, AND THEN THEY HAVE TOOLS THAT ALSO LINK IN TO THESE IN VARIOUS WAYS THAT ARE ARRANGED THROUGHOUT THE OUTSIDE.

SO THIS IS JUST TO SAY THAT MAYBE THIS CONCEPTION WASN'T COMPLETELY OFF THE WALL AND MAYBE IT'S ALREADY BEING PRACTICED TO SOME EXTENT RIGHT HERE, AND SOMETHING THAT WE CAN BUILD OFF, WHICH IS ACTUALLY A KEY PART OF THIS PLAN, IS TO BUILD OFF OF WHAT'S ALREADY AVAILABLE, NOT JUST EXTERNALLY BUT INTERNALLY.

QUICKLY JUST TO GO THROUGH THE LAST TWO GOALS, THE FOURTH GOAL IS ENHANCED WORKFORCE DEVELOPMENT FOR BIOMEDICAL DATA SCIENCE, SHOULD RESONATE WITH WHAT PATTY WAS SAYING BEFORE.

FIRST WE NEED TO DO THAT AT NIH BECAUSE IF WE'RE GOING TO MANAGE THIS MAJOR TRANSFORMATION, WE NEED EXPERTISE HERE, SO WE WANT TO ENHANCE THE NIH WORKFORCE IN TERMS OF THEIR DATA SCIENCE, KNOWLEDGE AND UNDERSTANDING, SO ONE WAY TO DO THAT IS TO REDUCE TRAINING FOR NIH STAFF AND NCBI WILL BE A CORE FOR THAT BECAUSE THEY ALREADY HAVE SOME OF THESE PROGRAMS WE CAN BUILD ON.

SECONDLY TO EXPAND THE NATIONAL WORKFORCE RESEARCH, VARIOUS COMPONENTS OF THAT, BUT REALLY THE KEY IS GOING TO BE TO ENHANCE QUANTITATIVE AND COMPUTATIONTIVE TRAINING FOR GRADUATE STUDENTS AND POSTDOCS.

NIGMS, OUR INSTITUTE, HAS THE LARGEST PREDOCTORAL T32 PORTFOLIO AT NIH, IN FACT, ALMOST HALF OF THE PREDOCTORAL SLOTS THAT NIH GIVES ARE FROM NIGMS.

WE JUST ISSUED OUR OWN T32 FUNDING OPPORTUNITY ANNOUNCEMENT IN WHICH THIS IS A MAJOR FOCUS.

SO WE'RE REALLY PUSHING THE PROGRAMS THAT WE FUND TO DRAMATICALLY INCREASE THEIR TEACHING OF THE QUANTITATIVE AND COMPUTATIONAL SKILLS, WHICH IS NICELY ALIGNED, I THINK, IN THE PLAN.

AND FINALLY YOU WANT TO ENGAGE THE BROADER COMMUNITY, SO FOR ALLOWING CITIZENS TO HAVE ACCESS, SECURE AND PRIVACY CONTROLLED WAY TO DATASETS IN ALLOWING THEM MAIN MAYBE TO BE INVOLVED IN COMPUTATIONAL ACTIVITIES INVOLVING THOSE DATASETS.

CONTRIBUTED ACROSS GAMING PLATFORMS OR SOMETHNG ELSE.

THEN FINALLY GOAL FIVE, IF WE'RE GOING TO HAVE SUCH AN AMBITIOUS PLAN, WE OBVIOUSLY NEED THE POLICIES IN ORDER TO PROMOTE THE KINDS OF STEWARDSHIP AND SUSTAINABILITY THAT ARE GOING TO BE REQUIRED TO EXECUTE THESE GOALS OF THIS PLAN, AND THERE ARE TWO OBJECTIVES UNDER THIS WHICH IS THE OVERALL GOALS, ENACT APPROPRIATE POLICIES TO PROMOTE STEWARDSHIP AND SUSTAINABILITY.

THE FIRST ON THETIVE IS TO DEVELOP THE POLICIES FOR A FAIR DATA ECOSYSTEM.

AND A KEY POINT HERE THAT I THICK THINK WE REALLY NEED TO BEAR IN MIND IS THAT THE POLICIES NEED TO BE NOT JUST ASPIRATIONAL BUT ACHIEVABLE.

IT'S EASY TO SAY THINGS THAT ARE REALLY -- SOUND GREAT, BUT IF THEY'RE NOT ACHIEVABLE, WE'RE REALLY NOT DOING ANYONE ANY SERVICES.

ALSO WE NEED TO BEAR IN MIND THAT AS WE ENACT THESE POLICIES, WE REALLY NEED TO BE FOCUSING ON MINIMIZING BURDEN, ADMINISTRATIVE BURDEN, FOUR GRANTEE INSTITUTIONS.

SO THOSE ARE, I THIP, TWO THINGS WE NEED TO KEEP IN MIND AS WE DEVELOP THESE POLICIES TO PRO PROMOTE THIS ECOSYSTEM.

FINALLY, ENHANCE STEWARDSHIP, HOW DO WE GET THE MOST FOR THE TAXPAYERS' MONEY.

THERE ARE TWO TACTICS UNDER THAT, FIRST DEVELOP STANDARD USE AND UTILITY METRICS AND REVIEW EXPECTATIONS FOR DATA RESOURCES AND TOOLS.

THAT GOES ALONG WITH THE THINGS I WAS SAYING ABOUT HOW DO WE REVIEW THINGS IN THE CORRECT WAY TO TRY TO GET THE CORRECT END PRODUCT, AND SECOND TO ESTABLISH SUSTAINABILITY FOR DATA RESOURCES.

DATA RESOURCES MAY HAVE A LIFE CYCLE, THEY MAY BE VERY IMPORTANT FOR NIH TO SUPPORT FOR A PERIOD OF TIME, BUT OVER TIME, THEY MAY BECOME LESS IMPORTANT FORCE US TO SUPPORT AND THEY'D BE ONLY APPLICABLE TO A MUCH SMALLER COMMUNITY, HOW DO WE HELP THEM TRANSFORM THEMSELVES INTO A MORE SUSTAINABLE EXTERNAL FUNDING MODEL, NOT NIH SUPPORTED.

SO NEXT STEPS RIGHT NOW WE'RE IN THE PROCESS OF STAKEHOLDER FEEDBACK, THIS VENUE IS ONE OF THOSE EVENTS.

WE'RE GOING TO BE ISSUING AN RFI IN THE COMING COUPLE OF WEEKS THAT WILL ACTUALLY BE ATTACHED TO THE DRAFT STRATEGIC PLAN ITSELF, SO YOU CAN READ THE WHOLE THING AND GIVE FEEFEEDBACK.

WE'RE ALSO WORKING ON SHET SETHING SHORT, MEDIUM AND LONG TERM PRIORITIES, AND AS I MENTIONED, WE'RE DEVELOPING PERFORMANCE MEASURES AND MILESTONES SO THAT WE CAN SEE IF WE'RE ACHIEVING THOSE GOALS AND OBJECTIVES AND MAKE COURSE CORRECTIONS ALONG THE WAY, AND THE PLAN IS DUE TO CONGRESS IN MAY.

SO THANK YOU VERY MUCH AND I AM HAPPY TO TAKE QUESTIONS.

>> FIRST OF ALL, WHAT A JOY IT IS TO HEAR DIRECTOR OF NIGMS TALK LIKE A DATA SCIENTIST.

IT DOES SPEAK TO THIS GOAL THAT IN THIS PART OF LITERACY AND DATA SCIENCE AWARENESS OF ESSENTIALLY EVERY RANK AND FILE BIOMEDICAL INVESTIGATOR SORT OF CLASHES WITH THIS CULTURE OF WAIT A MINUTE, I'M A MOLECULAR BIOLOGIST, WHY ARE YOU TRYING TO TEACH ME THIS STUFF ABOUT DATA SCIENCE? I DON'T WANT TO DO IT, I HAVE NO INTEREST IN IT.

A PART OF THE -- I MEAN, THE CTSA HAS ENCOUNTERED THIS WITH TRYING TO GIVE BASIC DATA MANAGEMENT SKILLS TO CLINICAL INVESTIGATORS SO IT LOOKS LIKE THERE'S A PATHWAY TO DO IT, BUT ARE YOU VERY MUCH ALONG THE PATHWAY OF ENVISIONING HOW AT SCALE ALL NIH FUNDED INVESTIGATORS COULD HAVE THE CAPACITY TO UNDERSTAND FAIR AND ACTUALLY KNOW WHAT IT MEANT FOR THE DATA THEY WERE JUST ABOUT TO PRODUCE?

>> THAT'S AN EXCELLENT POINT.

THE WAY I LIKE TO PHRASE THIS, RIGHT NOW A GRADUATE STUDENT CAN GO OUT AND GET HUNDREDS AND MILLIONS OF SEQUENCING READ OF DNA IN A FEW DAYS, SO HOW IS IT WE CANNOT HAVE THEM TRAINED SO THEY HAVE THE QUANTITATIVE AND COMPUTATIONAL SKILLS TO USE IT? THE DANGER, OF COURSE, IS THE BLACK BOX, THAT THEY CAN GO TO THE WEB AND PLUG IT IN, THEY HAVE NO IDEA WHAT JUST HAPPENED BUT THEY GET OUT A NUMBER.

AND IT STARTS WITH EDUCATION AND TRAINING, AND I THINK THE THINGS THAT YOU HEARD PATTY SAY ARE EXACTLY RIGHT, AND THAT'S WHY AT NIGMS, WE ARE REALLY FOCUSING OUR TRAINING PROGRAMS ON THAT QUESTION.

SO WHETHER SOMEONE IS GOING TO BECOME AN ACTUAL DATA SCIENTIST OR NOT, WE NEED TO UP THEIR SKILLS BY AT LEAST AN ORDER OF MAGNITUDE.

SO IT'S NOT A BLACK BOX, THEY KNOW THE PITFALLS AND THEY AT LEAST KNOW WHAT QUESTIONS TO ASK AND WHOSE HELP TO GET.

THAT'S A STARTING POINT.

WE'RE NOT THERE YET.

THAT'S A GOOD QUESTION.

>> THANK YOU.

THIS WAS REAL EXCITING, TO ME SORT OF REFRESHING TO SEE A PLAN THAT COULD POTENTIALLY IMPACT NOT ONLY NIH COMMUNITY BUT COMMUNITY WELL BEYOND THAT.

SPECIFICALLY WHAT ATTRACTED ME TO THAT WAS THE CONCEPT OF THE KNOWLEDGE BASE ASSOCIATED WITH THE DATASET.

JUST A FEW DAYS AGO, MAYBE SOME OF YOU CAUGHT IT, ELSA VEER OUT OF ALL PLACES ANNOUNCED AN A.I.

INITIATIVE IN WHICH THEY'RE USING A.I.

TECHNOLOGY SPECIFICALLY TO DRIVE SCIENTIFIC HYPOTHESIS FROM THE EXISTING KNOWLEDGE BASE.

SO AT LEAST THE WAY I'M FEELING, YOU'RE OPENING THE DOOR TO THE FUTURE WELL BEYOND OUR CURRENT COMPREHENSION OF WHAT CAN BE DONE WITH GATHERING DATASETS.

THE OTHER ELEMENT I WANTED TO SHARE WITH YOU AND OTHERS IS THE SUBJECT OF CURATION.

I THINK -- HIGH VALUE WILL BE GOING -- WA PATTY WAS SAYING EARLIER, THEN YOU ALLUDED THAT INDIVIDUAL -- WILL AT SOME TIME PERHAPS BE GIVEN OPPORTUNITY TO PARK THE DATA WITHIN THE COMMON COMMUNITY.

WHAT I WANTED TO CORRELATE THIS SH PERHAPS THERE'S NO ANSWERS, BUT EARLY ON WE HEARD FROM THE MEDLINE ASPECT WHERE THE INDICATION WAS MADE THAT AROUND 14% OF SCIENTIFIC LITERATURE IS ACCEPTED INTO MEDLINE.

WHAT I'M ASKING YOU IS, WHAT CRITERIA WILL BE USED TO ACCEPT THE DATA, BECAUSE PERHAPS IF THE DATA IS -- ARTICLES, THERE HAS TO BE SOME SORT OF A VETTING PROCESS.

>> THAT IS AN ABSOLUTELY ESSENTIAL QUESTION, EXCELLENT IT OUT.N, AND WE NEED TO FIGURE- WE DON'T KNOW THE ANSWER YES, BUT WHAT WE DO KNOW FOR SURE IS WE CANNOT STORE EVERYTHING THAT'S GENERATED.

WE'VE ALREADY LEARNED THAT WITH DB GAP AND TALKING ABOUT THE RAW SEQUENCE FILES.

THERE'S SIMPLY TOO MUCH OF IT, IT'S TOO EXPENSIVE, AND IT WILL CAPSIZE THE SHIP IF WE TRY DO IT.

SO AS YOU QUITE CORRECT KRECTLY ASKED, WHAT ARE THE CRITERIA WE'RE GOING TO PUT IN PLACE TO DECIDE WHICH DATA DO GET STORED FOR HOW LONG, AND HOW DO WE REVISIT THAT PERIODICALLY, BECAUSE IT COULD BE A DATASET IS IMPORTANT FOR SOME PERIOD OF TIME AND THEN ITS USE DIMINISHES, AND WE NEED TO BE ABLE TO FIND THAT AND PUT IT IN COLD STORAGE, THEN MAYBE EVENTUALLY JUST GET RID OF IT.

THE OTHER PART OF THIS THAT IS A RAPIDLY EVOLVING ISSUE TOO IS THAT THERE ARE INCREASINGLY CASES WHERE IT'S GOING TO BE KEECHER TO REGENERATE THE DATA THAN TO STORE THE DATA.

HOW DO WE WRESTLE WITH THAT? CERTAINLY GETTING THE INPUT OF THIS GROUP, NOT NECESSARILY RIGHT NOW BUT IN THE COMING WEEKS, AND HOW WE CAN THINK ABOUT THOSE ISSUES IS GOING TO BE VERY IMPORTANT.

I WISH I HAD THE ANSWER FOR YOU.

BUT I DON'T.

>> I WANT TO BUILD ON FAIR AND CURATION, BECAUSE I THINK THIS IS A HARD PROBLEM.

TO WHAT EXTENT ARE YOU TRYING TO BUILD A COMMON AUTOLOGY, CONCEPTUAL -- DATA AND ALSO COMMON DATA ELEMENTS THAT SPAN ACROSS THE RESOURCES?

>> SO THAT'S ANOTHER EXCELLENT QUESTION.

SO TO DO THAT, AS YOU SAY WE HAVE TO HAVE THESE KINDS OF COMMON DATA ELEMENTS, COMMON LANGUAGE, ET CETERA, BUT HOW DO GENERATE THEM FIRST OF ALL IS QUESTION NUMBER ONE, HOW TO GET EVERYONE TO USE THEM IS QUESTION NUMBER TWO, BECAUSE YOU CAN MAKE SOPs, ET CETERA, BUT IF PEOPLE DON'T USE THEM, THEY'RE NOT WORTH ANYTHING.

CERTAINLY NLM AS YOU KNOW IS LEET LEEDING THE WAY WITH TRYING TO DEVELOP COMMON DATA ELEMENTS FOR CLINICAL OBVIOUSALOBSERVATIONAL STUDY STUDIES.

ANOTHER QUESTION, WHERE IS NIH'S ROLE AS OPPOSED TO THE COMMUNITY ROLE.

WE COULD SAY ALL CLINICAL STUDIES SUPPORTED BY NIH SHOULD REPORT SEX, AGE,ETH ETHNICITY,ET CETERA, ET CETERA.

THOSE ARE KIND OF STANDARD THINGS.

WHEN YOU GET TO MORE COMPLICATED, MORE SPECIALIZED AREAS, WHAT SHOULD BE REPORTED IN AN OSTEOPOROSIS STUDY, WHERE DOES NIH'S ROLE AND THE COMMUNITY OF RESEARCHERS REALLY NEED TO BE PUT INTO IT AND MAKE A CONSENSUS AS TO WHAT THE STANDARD SHOULD BE.

SO AGAIN, THAT'S A QUESTION I THINK WE NEED THE COMMUNITY'S HELP WRESTLES WITH.

IF THE COMMUNITY DOESN'T LIKE IT, THAT'S NOT GOING TO WORK, IF TOO MANY GROUPS IN THE COMMUNITY TRY TO COME UP WITH DIFFERENT STANDARDS, WE KNOW THAT DOESN'T WORK BECAUSE THAT'S HAPPENED BEFORE.

>> YOU'RE ASKING THE RIGHT QUESTIONS, AND YOUR GUIDANCE WOULD BE VERY VALUABLE IN THAT REGARD AS WELL.

>> ERIC?

>> I REALLY LIKED YOUR TALK.

THE -- SEQUENCE, THE TOPICS, THE HIGHLIGHT OF YOUR TALK.

AS WELL AS THE PART OF THE TALK THAT FRAMES -- ABOUT THE MAPPING BETWEEN OUR DREAM SEQUENCES AND REALITY.

I WOULD SUGGEST THERE'S LOTS OF INTERESTING QUESTIONS TO ASK TO MAKE TRANSITION FROM TODAY'S WORLD TO SOMETHING LIKE THE RIGHT-HAND SIDE OF YOUR CHART.

AND WHAT THIS WILL REALLY TAKE IN TERMS OF MAINTAINING, COEXISTING, GENTLY DOING THIS KIND OF -- THIS YOU'RE SPEAKING OF -- I'M PRESUMING IT'S GOING TO BE MORE THE FORMER THAN THE LATTER, BUT LET'S TALK MORE ABOUT THAT OFFLINE.

ONE QUESTION THAT COMES TO MIND, WE HAVE RESEARCHERS DOING -- SEARCH, IN TERMS OF THE PRODUCTS AND TOOLS THEY BUILD, THEN -- LIKE PEDAL TO THE METAL -- [INAUDIBLE] REUSABLE, BULLETPROOF, A GREAT DIFFERENT MENTALITIES AND ABILITIES AND GETTING THE SENSE THAT WE'RE STILL TALKING ABOUT FUNDING THE RESEARCH COMMUNITY DATABASE DEVELOPMENT, KNOWLEDGE BASE VERSUS THINKING ABOUT THE GAP TOO -- TO ACTUALLY GET SOME TOOLS THAT ACTUALLY HAVE ROBUSTNESS FOR ACTUAL PROFESSIONAL USE.

>> THAT'S ANOTHER EXCELLENT QUESTION.

SO WHEN YOU SEE THE PLAN, YOUR CONCEPTION, WE HAVE TRIED TO HARD WIRE INTO THE PLAN BASED ON A LOT OF FEEDBACK.

SO --

>> WHAT CONCEPTION? OKAY.

THIRD ONE DOWN.

>> SO EXPERTISE.

SO THAT WAS A CODE WORD FOR WHAT WE'RE TALKING ABOUT.

BUT WE'RE CALLING THEM SYSTEMS INTEGRATORS.

I THINK THERE'S BEEN NOW BROAD RECOGNITION THAT NIH AND NIH FUNDED RESEARCH ARE GOOD AT CERTAIN THINGS AND INDUSTRY IS GOOD AT CERTAIN OTHER THINGS AND THERE'S CERTAINLY AN OVERLAP BETWEEN THE TWO.

THAT AREA YOU WERE TALKING ABOUT BUILDING THE EFFICIENT HIGHLY USEFUL BULLETPROOF TOOL OUT OF THE ALGORITHM THAT CAME OUT OF ACADEMIA IS NOT ACADEMIA'S FORTE, IT'S INDUSTRY'S FORTE.

SO I WOULD LOVE TO HEAR YOUR THOUGHTS ON HOW WE SET UP A SYSTEM WHERE NIH CAN PARTNER OR CAN PAY FOR SOME KIND OF ARRANGEMENT WHERE WE'RE SYSTEMS INTEGRATORS WITHOUT EXPERTISE COULD TAKE THE NASCENT TOOLS AND ALGORITHMS OUT OF ACADEMIA AND TURN THEM INTO THE MOST USEFUL POSSIBLE TOOLS FOR THE COMMUNITY.

BUT WHAT YOU'RE SAYING IS EXACTLY, I THINK, RIGHT.

>> JAMES, DID YOU HAVE A QUESTION?

>> TWO THINGS, THERE'S ANOTHER EXAMPLE OF THAT -- IT LOOKS A LOT LIKE IT, SO I REALLY LIKED EVERYTHING YOU SAID, BUT I THINK YOU'RE OVERLY PESSIMISTIC -- CONTENT BEING USABLE, IF YOU HAD CONSENT, YOU COULD USE MEDICARE DATA AND -- ALSO THERE WAS NO MENTION AT ALL ABOUT STANDARDIZATION THAT WOULD MAKE IT EASIER TO GET CLINICAL DATA INTO -- I DON'T KNOW IF YOU'RE INVOLVED IN THAT OR WORRIED ABOUT IT BUT I HOPE YOU WILL BE.

>> WE DEFINITELY ARE, SO THAT WILL BE GOOD TO HEAR MORE ABOUT.

>> JAMES, THEN AFTER THAT, WE'LL TAKE A BREAK.

>> THANKS, GREAT TALK.

>> WE HAVE SORT OF A SMALL MARKET -- SO I THINK FEELING THAT GAP, I THINK BY DISENTAN BELLING THE REVIEW CRITERIA FOR THESE TWO ACTIVITIES, YOU MIGHT BE ABLE TO GET A LOT FURTHER THAN YOU EVEN IMAGINE, BECAUSE THERE ARE PEOPLE OUT THERE, COMPUTER SCIENCE DEPARTMENT, ENGINEERING DEPARTMENTS, ACADEMICS THAT CAN WRITE PROPOSALS LIKE THAT, BUT TRAINING A PANEL TO -- THAT'S NOT INNOVATION BUT LOOK AT ALL -- IT'S A HUGE CULTURAL SHIFT AND WE'RE ACTUALLY REWRITING OUR CALLS FOR PROPOSAL IN THIS SPACE BASED ON THE LIFE CYCLE OF TOOLS, WHICH IS INNOVATION AND THEN SORT OF -- WE CALL IT CAPACITY BUILDING, BECAUSE -- SO IT'S REALLY HEARTENING TO SEE THAT YOU GUYS ARE SORT OF MOVING IN A SIMILAR QUALITATIVE DIRECTION AND TRY TO GET THOSE REVIEW CRITERIA TO MATCH THE OBJECTIVES.

>> THE EXACT SAME THING FOR TECHNOLOGY DEVELOPMENT WHERE WE RECOGNIZED THAT SAME NEED AND CREATED A WHOLE PIPELINE STARTING WITH PIE IN THE SKY INNOVATION UP THROUGH SBIR GRANTS, BUT I THINK THE THING I WOULD ADD TO THAT, WHICH IS THE GREAT POINT, IS WHAT HE SAID ABOUT WE NEED TO THEN FIND THE CONNECTION TO INDUSTRY BECAUSE WE'RE STILL MISSING -- EXCEPT FOR MAYBE SBIR, BUT WE'RE STILL MISSING THE PART THAT INDUSTRY CAN DO MUCH BETTER THAN ACADEMIA ACADEMIA.

>> THANK YOU.

[APPLAUSE]

Last Reviewed: March 1, 2018