sql >> Database teknologi >  >> RDS >> Mysql

Effektiv måde at indsætte dataramme fra R til SQL

TL;DR: LOAD DATA INFILE er en størrelsesorden hurtigere end flere INSERT udsagn, som i sig selv er en størrelsesorden hurtigere end enkelt INSERT udsagn.

Jeg benchmarker nedenfor de tre hovedstrategier til at importere data fra R til Mysql:

  1. enkelt insert udsagn , som i spørgsmålet:

    INSERT INTO test (col1,col2,col3) VALUES (1,2,3)

  2. flere insert udsagn , formateret sådan:

    INSERT INTO test (col1,col2,col3) VALUES (1,2,3),(4,5,6),(7,8,9)

  3. load data infile erklæring , dvs. indlæse en tidligere skrevet CSV-fil i mysql :

    LOAD DATA INFILE 'the_dump.csv' INTO TABLE test

Jeg bruger RMySQL her, men enhver anden mysql-driver burde føre til lignende resultater. SQL-tabellen blev instansieret med:

CREATE TABLE `test` (
  `col1` double, `col2` double, `col3` double, `col4` double, `col5` double
) ENGINE=MyISAM;

Forbindelsen og testdata blev oprettet i R med:

library(RMySQL)
con = dbConnect(MySQL(),
                user = 'the_user',
                password = 'the_password',
                host = '127.0.0.1',
                dbname='test')

n_rows = 1000000 # number of tuples
n_cols = 5 # number of fields
dump = matrix(runif(n_rows*n_cols), ncol=n_cols, nrow=n_rows)
colnames(dump) = paste0('col',1:n_cols)

Benchmarking enkelt insert udsagn:

before = Sys.time()
for (i in 1:nrow(dump)) {
  query = paste0('INSERT INTO test (',paste0(colnames(dump),collapse = ','),') VALUES (',paste0(dump[i,],collapse = ','),');')
  dbExecute(con, query)
}
time_naive = Sys.time() - before 

=> dette tager omkring 4 minutter på min computer

Benchmarking af flere insert udsagn:

before = Sys.time()
chunksize = 10000 # arbitrary chunk size
for (i in 1:ceiling(nrow(dump)/chunksize)) {
  query = paste0('INSERT INTO test (',paste0(colnames(dump),collapse = ','),') VALUES ')
  vals = NULL
  for (j in 1:chunksize) {
    k = (i-1)*chunksize+j
    if (k <= nrow(dump)) {
      vals[j] = paste0('(', paste0(dump[k,],collapse = ','), ')')
    }
  }
  query = paste0(query, paste0(vals,collapse=','))
  dbExecute(con, query)
}
time_chunked = Sys.time() - before 

=> dette tager omkring 40 sekunder på min computer

Benchmarking load data infile erklæring :

before = Sys.time()
write.table(dump, 'the_dump.csv',
          row.names = F, col.names=F, sep='\t')
query = "LOAD DATA INFILE 'the_dump.csv' INTO TABLE test"
dbSendStatement(con, query)
time_infile = Sys.time() - before 

=> dette tager ca. 4 sekunder på min computer

At lave din SQL-forespørgsel til at håndtere mange insert-værdier er den enkleste måde at forbedre ydeevnen på. Overgår til LOAD DATA INFILE vil føre til optimale resultater. Gode ​​præstationstips kan findes på denne side med mysql-dokumentation .




  1. mysql søg efter segment af tabelnavn

  2. SQLite Bestil efter dato1530019888000

  3. Den nemmeste måde at migrere et Django-projekt fra MySQL til PostgreSQL

  4. SQL Server 2016:Opret en tabel fra et SQL-script